Aula 3 medidas resumo - parte 1

Preview:

Citation preview

Medidas Resumo

Profa. Dra. Juliana Garcia Cespedes

Dep. de Matemática e Computação

UNIFEI - Itajubá

Aula 3

Medidas de posição

Vimos como resumir os dados por meio de tabelas de

frequências e gráficos. Desta forma obtemos

informações sobre o comportamento de uma variável.

Mas, muitas vezes, queremos resumir ainda mais estes

dados, apresentando um ou alguns valores que sejam

representativos da série toda.

Quando usamos um só valor, reduzimos drasticamente os

dados.

Geralmente, emprega-se as medidas de posição

(localização) central: média, mediana ou moda

Média

• Conceito familiar: É a soma das observações

dividia pelo número total delas.

• Conceito formal: Se x1, ..., xn são os n valores

da variável X, a média aritmética de X pode ser

escrita:

n

x

X

n

i

i 1

Média• Se os dados estiverem resumidos em uma tabela de

frequências, então a média de X pode ser escrita:

• Ou, usando a frequência relativa:

n

xf

X

k

i

ii 1

k

i

ii xfrX1

N. Filhos Freq. Abs. Freq. rela. Freq. Acum. %

0 4 0.2 0.2 20%

1 5 0.25 0.45 25%

2 7 0.35 0.8 35%

3 3 0.15 0.95 15%

4 0 0 0.95 0%

5 1 0.05 1 5%

Total 20 1 100%

65,120

5*1...2*71*50*4

X

65,15*05,0...2*35,01*25,00*2,0 X

Classe de

salários

Freq Freq relativa Freq acum Porcentagem

[4,00; 8,00) 10 10/36 =0,278 0,278 27,78%

[8,00; 12,00) 12 12/36 =0,333 0,611 33,33%

[12,00; 16,00) 8 8/36 =0,222 0,833 22,22%

[16,00; 20,00) 5 5/36 =0,139 0,972 13,89%

[20,00; 24,00) 1 1/36 =0,029 1,000 2,78%

Total 36 1 100%

22,1136

00,22*1...00,14*800,10*1200,6*10

X

22,110,22*03,0...0,14*22,00,10*33,00,6*27,0 X

Mediana• A Mediana é a realização que ocupa a posição central da

série de observações, quando estão ordenadas em ordem

crescente.

• Se o número de observações for ímpar o mediana é a

posição central da série:

3, 4, 7, 8, 8

• Se o número de observações for par, usa-se como

mediana a média aritmética das duas observações

centrais:

3, 4, 7, 8 (4+7)/2 = 5,5

Mediana

• Conceito formal:

Considere as estatísticas de ordem x(1) x(2) ... x(n)

• A mediana da variável X pode ser definida como:

par.nse,

ímpar;nse,

2

)(1

22

2

1

nn

n

xx

x

Xmd

0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 5

2

2

22

22)(

11101

2

20

2

20

xx

xx

Xmd

N. Filhos Freq. Abs. Freq. rela. Freq. Acum. %

0 4 0.2 0.2 20%

1 5 0.25 0.45 25%

2 7 0.35 0.8 35%

3 3 0.15 0.95 15%

4 0 0 0.95 0%

5 1 0.05 1 5%

Total 20 1 100%

Classe de

salários

Freq Freq relativa Freq acum Porcentagem

[4,00; 8,00) 10 10/36 =0,278 0,278 27,78%

[8,00; 12,00) 12 12/36 =0,333 0,611 33,33%

[12,00; 16,00) 8 8/36 =0,222 0,833 22,22%

[16,00; 20,00) 5 5/36 =0,139 0,972 13,89%

[20,00; 24,00) 1 1/36 =0,029 1,000 2,78%

Total 36 1 100%

00,10

2

00,1000,10

2)(

1918

PmPmXmd

Moda

• A moda é definida como a realização mais

frequente do conjunto de valores observados.

• Pode haver mais de uma moda, ou seja, a

distribuições dos valores pode ser bimodal,

trimodal, ..., multimodal.

0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 5

2)( Xmo

N. Filhos Freq. Abs. Freq. rela. Freq. Acum. %

0 4 0.2 0.2 20%

1 5 0.25 0.45 25%

2 7 0.35 0.8 35%

3 3 0.15 0.95 15%

4 0 0 0.95 0%

5 1 0.05 1 5%

Total 20 1 100%

Classe de

salários

Freq Freq relativa Freq acum Porcentagem

[4,00; 8,00) 10 10/36 =0,278 0,278 27,78%

[8,00; 12,00) 12 12/36 =0,333 0,611 33,33%

[12,00; 16,00) 8 8/36 =0,222 0,833 22,22%

[16,00; 20,00) 5 5/36 =0,139 0,972 13,89%

[20,00; 24,00) 1 1/36 =0,029 1,000 2,78%

Total 36 1 100%

00,10)( Xmo

Medidas resumo

• Para calcular a moda precisamos apenas da

tabela de frequências.

(Variáveis qualitativas e quantitativas)

• Para calcular a mediana, precisamos ordenar as

realizações da variável.

(Variáveis qualitativas ordinal e quantitativas)

• Para a média precisamos que as variáveis sejam

mensuráveis.

(Variáveis quantitativas)

Medidas de dispersão

• O resumo de um conjunto de dados por uma única

medida de posição central esconde toda a

informação sobre a variabilidade do conjunto de

observações.

• Considere a nota de cinco grupos de alunos:

Grupo A (Variável X): 3,4,5,6,7

Grupo B (Variável Y): 1,3,5,7,9

Grupo C (Variável Z): 5,5,5,5,5

Grupo D (Variável W): 3,5,5,7

Grupo E (Variável V): 3,5,5,6,6

5

VW

ZYX

Medidas de dispersão

• A média de cada grupo é igual, e com isso não

conseguimos informação sobre sua variabilidade.

• Para resumir a variabilidade de um conjunto de

dados utiliza-se a dispersão dos dados em torno da

média, e as medidas mais usadas são a variância

e o desvio padrão.

• Os desvios da média para o grupo A são -2, -1, 0,

1, 2. (Para qualquer conjunto de dados a soma

destes desvios é zero!!!)

Medidas de dispersão

• Opções:

• Considerar o total dos módulos dos desvios:

• Considerar o total dos quadrados dos desvios

n

i

i Xx1

||

n

i

i Xx1

2

Medidas de dispersão

• Mas como comparar essas medidas quando os

conjuntos de dados tem tamanhos diferentes?

• É melhor exprimir as medidas como médias:

n

Xx

Xdm

n

i

i

1

||

)(

n

Xx

X

n

i

i

1

2

)var(

Desvio médio Variância

Medidas de dispersão

As medidas de variabilidade indicam o quão

homogêneo é um conjunto de dados.

Para os grupos A e E tem-se:

0,25

41014)var(

2,15

21012)(

X

Xdm

2,15

11004)var(

8,05

11002)(

V

Vdm

Medidas de dispersão

A variância é uma medida de dispersão igual ao

quadrado da dimensão dos dados, pode causar

problemas de interpretação. Costuma-se usar,

então o desvio padrão, que é definido como a raiz

quadrada positiva da variância.

n

Xx

XXdp

n

i

i

1

2

)var()(

Medidas de dispersão

A medida de dispersão, desvio padrão, indica em

média qual será o “erro” (desvio) cometido ao

tentar substituir cada observação pela medida

resumo do conjunto de dados (Média).

Se os dados estiverem agrupados em tabelas de

frequências, as medidas de dispersão são dadas

por:

k

i

ii

k

i

ii

Xxfrn

Xxf

X1

21

2

)var(

Medidas de dispersão

Uma maneira equivalente de calcular a variância,

computacionalmente mais eficiente, é:

2

1

2

21

2

21

2

)var(

Xxfr

Xn

xf

Xn

x

X

k

i

ii

k

i

ii

n

i

i

Exercício

Quer se estudar o número de erros de impressão de um

livro. Para isso escolheu-se uma amostra de 50 páginas,

encontrando-se o número de erros por página.

• Qual o número médio de erros? E o número mediano?

• Qual é o desvio padrão?

• Se o livro tem 500 páginas, qual o número total de erros

esperado no livro?

Erros Freq

0 25

1 20

2 3

3 1

4 1

Solução

• Média = 0,66

• Mediana = 0,5

• Desvio padrão = 0,8393

• Valor esperado = 330

Recommended