27
3.6. Análise descritiva com dados agrupados Em algumas situações, os dados podem ser apresentados diretamente nas tabelas de frequências. Netas situações devemos utilizar estratégias específicas para obter as medidas descritivas de posição e de dispersão. 3.6.1. Dados agrupados com variáveis discretas Para variáveis discretas os resultados com dados agrupados são os mesmos quando se tem a amostra, pois esta pode ser recomposta com as frequências da tabela. Exemplo 6: Dados coletados em entrevistas com 500 pessoas sendo coletadas informações sobre o tempo de casamento até o primeiro divórcio e o número de divórcios de cada. Variável discreta: X = número de divórcios por indivíduo Tabela 13: Número de divórcios por indivíduo. Divórcios = x i n i f i F ac x i f i n i x i 2 1 240 0,480 0,480 0,480 240 2 125 0,250 0,730 0,500 500 3 81 0,162 0,892 0,486 729 4 48 0,096 0,988 0,384 768 5 6 0,012 1,000 0,060 150 Total 500 1,000 1,910 2387

3.6. Análise descritiva com dados agrupados - Universidade … · A moda é igual a 4 parasitas, cuja frequência é igual a 9, isto é, mo(x) 4 parasitas . 3.6.2. Dados agrupados

  • Upload
    vonhi

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

3.6. Análise descritiva com dados agrupados

Em algumas situações, os dados podem ser apresentados

diretamente nas tabelas de frequências. Netas situações devemos

utilizar estratégias específicas para obter as medidas descritivas de

posição e de dispersão.

3.6.1. Dados agrupados com variáveis discretas

Para variáveis discretas os resultados com dados agrupados

são os mesmos quando se tem a amostra, pois esta pode ser

recomposta com as frequências da tabela.

Exemplo 6: Dados coletados em entrevistas com 500 pessoas

sendo coletadas informações sobre o tempo de casamento até o

primeiro divórcio e o número de divórcios de cada.

Variável discreta: X = número de divórcios por indivíduo

Tabela 13: Número de divórcios por indivíduo.

Divórcios = xi ni fi Fac xi fi ni xi2

1 240 0,480 0,480 0,480 240

2 125 0,250 0,730 0,500 500

3 81 0,162 0,892 0,486 729

4 48 0,096 0,988 0,384 768

5 6 0,012 1,000 0,060 150

Total 500 1,000 − 1,910 2387

i) Média amostral: k é o número de classes na tabela de

frequências, então, a média amostral pode ser calculada

fazendo

k

i

ii

k

i

ii

n

jj

n

nx

n

nx

n

x

x11

1,

ou seja,

k

iii fxx

1

.

Portanto, no exemplo temos:

k

iii fxx

1

= 1,91 divórcios (≈ 2 divórcios)

ii) Variância e desvio padrão amostrais: da mesma forma como

no caso anterior, podemos obter a variância amostral fazendo:

k

iii

n

jj xnx

1

2

1

2.

Desta forma, no exemplo

variância amostral:

13,1499

95,562

)1500(

)91,1(5002387

)1(

2222

n

xnxs i

desvio padrão amostral:

06,1s divórcios (≈ 1 divórcio)

iii) Mediana: a mediana pode ser obtida da mesma forma como

no caso anterior, com a determinação da posição central.

Logo, a mediana é dada pela observação que ocupa a posição

(n + 1)/2.

No exemplo, como n = 500, temos que a mediana é dada pela

observação que ocupa a posição:

5,2502

1500

2

1

n.

Logo, a mediana é dada pela média entre a 250ª e 251ª

observações ordenadas:

22

22

2)(

)251()250(

xxxmed divórcios

iv) Quartis: para os quartis, também procedemos da mesma

forma, ou seja

Como a mediana divide os dados em dois grupos de 250

observações, 1Q é dado pela observação que ocupa a posição

central da primeira metade e 3Q a observação central da segunda

metade.

12

11

2

)126()125(

1

xx

Q divórcio

32

33

2

)376()375(

3

xx

Q divórcios

Nota: Uma variação para o caso de dados agrupados pode ser

obtida representando-se os desvios )( xxi diretamente na tabela:

Tabela 14: Número de divórcios por indivíduo (representação alternativa).

Divórcios = xi ni fi Fac xi fi (xi – x ) ni (xi – x )2

1 240 0,480 0,480 0,480 -0,910 198,744

2 125 0,250 0,730 0,500 0,090 1,013

3 81 0,162 0,892 0,486 1,090 96,236

4 48 0,096 0,988 0,384 2,090 209,669

5 6 0,012 1,000 0,060 3,090 57,2886

Total 500 1,000 – 1,910 – 562,950

Média amostral: ii fxx = 1,91 divórcios

Variância amostral:

13,1499

95,562

)1(

22

n

xxs i

Exemplo 7: Considere a tabela abaixo representando a distribuição

de frequências do número de parasitas encontrados por muda de

certa espécie de planta. X = número de parasitas por muda.

Tabela 15: Número de parasitas por planta.

xi ni n acum. fi Fac xi fi ni xi2

2 3 3 0,083 0,083 0,167 12

3 6 9 0,167 0,250 0,500 54

4 9 18 0,250 0,500 1,000 144

5 5 23 0,139 0,639 0,694 125

6 6 29 0,167 0,806 1,000 216

7 4 33 0,111 0,917 0,778 196

8 3 36 0,083 1,000 0,667 192

Total 36 – 1,000 – 4,806 939

Então:

média amostral:

k

iii fxx

1

= 4,806 ( 5 parasitas)

variância amostral: )136(

)806,4(36939

)1(

2222

n

xnxs i

071,335

485,1072 s

desvio padrão amostral: 752,1071,3 s parasitas

A mediana é a observação na posição (36 + 1)/2 = 18.5

5,42

54

2)(

)19()18(

xxxmed parasitas

Para a obtenção dos quartis, o procedimento é semelhante.

Como n é par, os quartis são as observações centrais das metades

inferior e superior à mediana.

Desta forma, Q1 está entre 9ª e 10ª observações ordenadas:

5,32

43

2

)10()9(

1

xx

Q parasitas.

Q3 está entre 27ª e 28ª observações ordenadas, porém,

podemos ver que Q3 pertence à quinta classe uma vez que esta

acumula 29 observações,

0.62

)28()27(

3

xx

Q parasitas.

A moda é igual a 4 parasitas, cuja frequência é igual a 9, isto é,

4)( xmo parasitas

3.6.2. Dados agrupados com variáveis contínuas

No caso de variáveis contínuas os resultados com dados

agrupados não são os mesmos daquelas da amostra.

Neste caso, faz-se uma aproximação a partir da suposição de

que os dados são distribuídos de maneira uniforme dentro da classe.

A partir desta suposição, como as classes têm amplitude

constante h, tomamos os seus pontos médios como referência e,

a partir daí, para o cálculo de x e s2, procedemos da mesma

maneira como no caso anterior.

Para as medidas de posição ordenadas, no entanto, devemos

identificar o ponto exato para o qual a frequência acumulada é

igual àquela desejada.

Exemplo 8: Dados coletados em entrevistas com 500 pessoas

sendo coletadas informações sobre o tempo de casamento até o

primeiro divórcio. X = tempo (anos) até o primeiro divórcio.

Tabela 16: Tempo até o primeiro divórcio.

Anos até 1º.

divórcio

Pto. médio

xi ni fi Fac xi fi ni xi

2

0 |---- 6 3 280 0.56 0.56 1.68 2520

6 |---- 12 9 140 0.28 0.84 2.52 11340

12 |---- 18 15 60 0.12 0.96 1.80 13500

18 |---- 24 21 15 0.03 0.99 0.63 6615

24 |---- 30 27 5 0.01 1.00 0.27 3645

Total

500 1.00 – 6.90 37620

i) Média amostral:

ii fxx = 6,90 anos

ii) Variância e desvio padrão amostrais:

685,27499

13815

)1500(

)90,6(50037620

)1(

2222

n

xnxs i

26,5s anos

iii) Mediana:

Inicialmente devemos identificar a classe que contém a

mediana, ou seja, a classe que acumula uma frequência igual ou

maior do que 0.50 (50%).

med(x) pertence à 1ª classe, pois a Fac é maior do que 0.50.

Uma vez identificada a classe da mediana devemos encontrar

o ponto exato que acumula a sua frequência, ou seja, devemos

encontrar o ponto exato com Fac = 0.50.

Devido à suposição de uniformidade dentro das classes, este

ponto é facilmente obtido através de uma simples regra de três:

50.0

56.0

0)(

)06(

xmed,

de onde se obtêm:

50.0656.0)( xmed

56.0

50.06)(

xmed

36.5)( xmed anos

iv) Quartis:

Os quartis são obtidos de maneira semelhante à mediana, com

a diferença que as suas frequências acumuladas são 0.25 (25%) e

0.75 (75%), respectivamente.

Q1 pertence à 1ª classe, pois a Fac é maior do que 0.25.

Regra de três

25.0

56.0

0

)06(

1

Q,

25.0656.01 Q

68.21 Q anos

Q3 pertence à 2ª classe, pois a Fac é maior do que 0.75.

A frequência cumulada até a classe anterior é 0.56, portanto,

faltam 19.056.075.0 de frequência.

Regra de três

19.0

28.0

6

)612(

3

Q,

19.0628.063 Q

07.103 Q anos

v) Moda:

Para dados agrupados, ao invés da moda, pode-se considerar a

classe modal, que neste caso é a 1ª classe, com frequência igual a

280, ou seja, a classe modal seria: )6;0[ anos.

Porém, uma opção mais apropriada seria a moda de Czuber,

calculada a seguir:

Em que:

Li é o limite inferior da classe modal;

h é a amplitude de classe da distribuição de frequências;

da é a diferença da frequência da classe modal (relativa ou

absoluta) com a classe imediatamente anterior;

dp é a diferença da frequência da classe modal (relativa ou

absoluta) com a classe imediatamente posterior.

Figura 19: Cálculo da moda de Czuber.

Com os dados do tempo de casamento até o primeiro divórcio,

temos:

LI = 0, h = 6, da = 280 e dp = 140, portanto:

420

2806

)140280(

28060)(

xmocz

4)( xmocz anos.

Exemplo 3: Notas no teste GMAT na seleção de alunos de

graduação numa universidade americana.

Tabela 17: Notas no teste GMAT

Notas

Pto. médio:

xi ni fi xi fi Fac ni xi2

300 |-- 350 325 3 0.035 11.5 0.035 316875

350 |-- 400 375 7 0.082 30.9 0.117 984375

400 |-- 450 425 18 0.212 90.0 0.329 3251250

450 |-- 500 475 24 0.282 134.1 0.611 5415000

500 |-- 550 525 15 0.176 92.6 0.787 4134375

550 |-- 600 575 10 0.118 67.6 0.905 3306250

600 |-- 650 625 4 0.047 29.4 0.952 1562500

650 |-- 700 675 4 0.047 31.8 0.999 1822500

Totais 85 1.000 488.0 - 20793125

i) Média amostral: ii fxx = 488.0 pts

ii) Variância e desvio padrão amostrais:

2.655884

2024224020793125

)1(

22

2

n

xnxns

ipts2

98.802.6558 s pts

vi) Mediana:

med(x) pertence à 4ª classe, pois a Fac = 0.611 é maior do que

0.50.

Regra de três:

171.0

282.0

450)(

450500

xmed,

de onde se obtêm:

171.050282.0450)( xmed

282.0

171.050450)(

xmed

3.480)( xmed pts

vii) Quartis:

Q1 pertence à 3ª classe, pois a Fac = 0.329 é maior do que

0.25.

Regra de três:

133.0

212.0

400

400450

1

Q,

212.0

133.0504001

Q

4.4311 Q pts

Q3 pertence à 5ª classe, pois a Fac = 0.787 é maior do que

0.75.

Regra de três:

139.0

176.0

500

500550

1

Q,

176.0

139.0505001

Q

5.5391 Q pts

Figura 20: Histograma das notas do teste GMAT

iii) Moda: pelo método de Czuber, temos:

LI = 450, h = 50, da = 6 e dp = 9, portanto:

15

300450

)96(

650450)(

xmocz

470)( xmocz pts

3.6.3. Percentis amostrais pelo gráfico da distribuição

acumulada

Tabela 18: Notas no teste GMAT

Escores Pto. médio: xi ni fi Fac

300 |-- 350 325 3 0.035 0.035

350 |-- 400 375 7 0.082 0.117

400 |-- 450 425 18 0.212 0.329

450 |-- 500 475 24 0.282 0.611

500 |-- 550 525 15 0.176 0.787

550 |-- 600 575 10 0.118 0.905

600 |-- 650 625 4 0.047 0.952

650 |-- 700 675 4 0.048 1.000

Totais 85 1.000

Figura 21: Gráfico de frequências acumuladas (Fac)

das notas no teste GMAT.

A mediana pode ser obtida facilmente por semelhança de

triângulos unindo-se os pontos abaixo dos “degraus” do

gráfico, conforme mostra a Figura 22.

Figura 22: Representação da mediana no gráfico de frequências

acumuladas das notas GMAT

Regra de três: Isolando no gráfico apenas o degrau referente à classe da

mediana, temos:

329.050.0

329.0611.0

450)(

450500

xmed,

171.050282.0450)( xmed

3.480)( xmed pts

O mesmo procedimento pode ser realizado para a

obtenção dos quartis.

Regra de três: Isolando no gráfico os degraus referente às classes dos quartis

Q1 e Q3, temos:

Obtenção de Q1:

117.025.0

117.0329.0

400

400450

1

Q,

133.050212.04001 Q

4.4311 Q pts

Obtenção de Q3:

611.075.0

611.0787.0

500

500550

3

Q,

139.050176.05003 Q

5.5393 Q pts

Exemplo 4: Dados coletados em entrevistas com 48 mulheres de

uma comunidade rural sobre o número de vezes que ficaram

grávidas (dados fictícios).

X = variável número de gravidezes por mulher

Tabela 19: Número de gravidezes por mulher (var. discreta)

ix in if acF ii fx 2)( xxn ii

1 7 0.146 0.146 0.146 30.343

2 13 0.271 0.417 0.542 15.219

3 11 0.229 0.646 0.687 0.074

4 7 0.146 0.792 0.584 5.899

5 6 0.125 0.917 0.625 22.072

6 4 0.083 1.000 0.498 34.059

Total 48 1.000 - 3.082 107.666

Calcular a média, variância, mediana, moda, quartis:

i) Cálculo da média:

)229.03()271.02()146.01(1

k

ii fxx

)083.06()125.05()146.04(

498.0625.0584.0687.0542.0146.01

k

ii fxx

3082.31

k

ii fxx gravidezes

ii) Cálculo da variância e desvio padrão:

29.247

666.107

11

22

k

i

ii

n

xxns

514.129,2 s gravidezes

iii) Cálculo da mediana:

3)( xmed gravidezes pois Fac (3) > 0.50.

Ainda: 32

)()25()24(

xxxmed

iv) Cálculo dos quartis:

21 Q gravidezes pois Fac (2) > 0.25.

Ainda: 22

)13()12(

1

xx

Q .

43 Q gravidezes pois Fac (4) > 0.75.

Ainda: 42

)37()36(

1

xx

Q .

v) Cálculo da moda:

2)( xmo gravidezes observação com maior

frequência.

Figura 23: Histograma do número de gravidezes/mulher

(dados fictícios).

Exemplo 6: Salário de 36 funcionários da Companhia MB em

número de salários mínimos (dados do livro Estatística Básica de

Bussab & Morettin).

X = salário (sm)

Tabela 20: Salário dos funcionários da Cia MB, em s.m. (var. contínua)

classes

Pto. Médio

ix in if acF ii fx 2

ii xn

04 |-- 08 6 10 0,278 0,278 1,67 360

08 |-- 12 10 12 0,333 0,611 3,33 1200

12 |-- 16 14 8 0,222 0,833 3,11 1568

16 |-- 20 18 5 0,139 0,972 2,50 1620

20 |-- 24 22 1 0,028 1,000 0,61 484

Total 36 1,000 - 11,22 5232

Figura 24: Salário dos funcionários da Cia MB, em s.m.

Calcular a média, variância, mediana, moda, quartis: (no caso, xi, i = 1, 2, …, k são os pontos médios das classes)

i) Cálculo da média:

22,111

k

ii fxx sm

ii) Cálculo da variância e desvio padrão:

00,2035

)22,11(365232

1

2222

n

xnxs i

47,400,20 s sm

iii) Cálculo da moda:

Para esses dados a classe modal é a 2ª classe, com frequência

igual a 12, ou seja, a classe modal é a classe )12;8[ .

A moda de Czuber, por sua vez, é dada por:

6

88

)42(

248)(

xmo

cz

33.9)( xmocz

sm

iv) Mediana: )(xmed pertence à 2ª classe, pois a 2ª classe

acumula mais de 50% dos dados ( 50,0acF ).

Como até a classe anterior temos 0,28 de distribuição

acumulada, os 0,22 restantes para totalizar 0,50 devem ser obtidos

da 2ª classe. Assim, por meio da proporcionalidade entre os

retângulos na figura (regra de três), obtém-se a mediana.

22,0

33,0

8)(

)812(

xmed,

33,0

22,048)(

xmed

67,10)( xmed sm

v) Quartis: Para os quartis o procedimento é semelhante ao da

mediana.

Para o quartil 1Q devemos encontrar a classe que acumula

uma frequência igual ou maior do que 0,25.

Desta forma, 1Q pertence à 1ª classe, que acumula uma

frequência igual a 0,28. Num procedimento semelhante ao

anterior, temos:

25,0

28,0

4

)48(

1

Q

28,0

25,0441

Q

57,71 Q sm

3

Q pertence à 3ª classe, que acumula uma frequência igual a

0,83 (> 0,75).

Desta forma, temos:

14,0

22,0

12

)1216(

3

Q

22,0

14,04123

Q

55,143 Q sm

3.6.4. Fórmula para o cálculo da mediana e quartis

Os cálculos acima podem resumidos na fórmula dos percentis

amostrais. No caso a mediana é o percentil 0,50 (50%) e sua

fórmula é dada por:

i

ca

inff

FhLxmed

)1(50,0)(

Em que:

h = amplitude da classe;

Linf = limite inferior da classe da mediana;

fi = frequência relativa da classe que contém a mediana;

)1(caF = frequência acumulada até a classe imediatamente

anterior à classe da mediana.

Para os quartis 1

Q e 3

Q a fórmula é a mesma, substituindo

apenas a frequência 0,50 por 0,25 e 0,75, respectivamente.

Para Q1 Para Q3

i

ca

inff

FhLQ

)1(

1

25,0

i

ca

inff

FhLQ

)1(

3

75,0