35
Universidade Federal de Minas Gerais Instituto de Ciências Exatas Departamento de Estatística Introdução à Bioestatística – Turma Nutrição Aula 3 Análise Descritiva: Medidas de Tendência Central Medidas de Variabilidade

NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Embed Size (px)

Citation preview

Page 1: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Universidade Federal de Minas GeraisInstituto de Ciências ExatasDepartamento de Estatística

Introdução à Bioestatística – Turma Nutrição

Aula 3

Análise Descritiva: Medidas de Tendência Central

Medidas de Variabilidade

Page 2: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Como resumir os dados de uma variável quantitativa?

Medidas de Tendência Central

Identificam o elemento típico da variável.

Medidas de Variabilidade

Síntese Númerica

Quantificam a dispersão (variabilidade) dos valores.

Page 3: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Medidas de Tendência Central

Se todas as seis pessoas tivessem o mesmo peso, qual deveria ser este valor para não exceder a carga máxima exceder a carga máxima permitida ?

Média Aritmética

O peso médio deve ser de 70 Kg.

Page 4: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Medidas de Tendência Central

Qual é o valor de peso que separa a metade mais leve da metade mais pesada no elevador? 40

9860elevador?

Mediana

4098

70

60

7555

40 55 60 70 75 98

O peso mediano é 65 Kg

Page 5: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

9855

Medidas de Tendência Central

Qual é peso mais frequente dentre os ocupantes do elevador?

4098

5560

55

75

Moda

40

A moda de peso é 55 Kg

Page 6: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Média Aritmética Simples

Alguma Notação

n número de indivíduos no conjunto de dados

ix valor da i-ésima observação do conjunto de dados,i = 1, 2, 3,..., n

Soma de todas as observações da amostra

tamanho da amostra=

∑ ix soma de todas as observações da amostra (a letra grega Σ é o símbolo que indica soma).

Xé o símbolo usado para representar a média aritmética simples.

X =n

xi∑

Page 7: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Média Aritmética Simples

No conjunto de dados ( 3 ; 4.5 ; 5.5 ; 2.5 ; 1.3 ; 6 ), temos n = 6,

x1 = 3 x2 = 4.5 x3 = 5.5 x4 = 2.5 x5 = 1.3 x6 = 6

22.83.8

6X = =

x1 = 3 x2 = 4.5 x3 = 5.5 x4 = 2.5 x5 = 1.3 x6 = 6

∑ ix = 3 + 4.5 + 5.5 + 2.5 + 1.3 + 6 = 22.8 e

Identifica qual seria contribuição típica de cada elemento do conjunto de dados se todos contribuíssem igualmente.

Page 8: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Mediana

n é ímpar

Dados ( 2 ; 3.3 ; 2.5 ; 5.6 ; 5 ; 4.3 ; 3.2 ).Ordenando os valores (2 ; 2.5 ; 3.2 ; 3.3 ; 4.3 ; 5 ; 5.6).O valor do meio é o 3.3 . A mediana é o valor 3.3.

Existe um só “valor do

meio”

Valor que divide o conjunto de dados ordenados em duas partes com o mesmo número de observações.

n é par

Dados ( 3 ; 4.5 ; 5.5 ; 2.5 ; 1.3 ; 6 ).Ordenando os valores (1.3 ; 2.5 ; 3 ; 4.5 ; 5.5 ; 6)Os valores do meio são 3 e 4.5. A mediana é (3 + 4.5)/2 = 3.75.

Existem dois “valores do

meio”

Page 9: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Moda

Valor mais frequente do

Conjunto de dados unimodal

0,8

1,3

1,8

1 2 3 4 5

1,3

1,8

Valor mais frequente do conjunto de dados 0,8

1,3

1 2 3 4 5 6 7 8 9

Conjunto de dados bimodal

11,11,21,31,41,51,6

1 2 3 4 5 6 7 8 9

Conjunto de dados amodal

Page 10: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Média versus Mediana

A Média Aritmética é muito influenciada pela presença de valores extremos no conjunto de dados

A Mediana é mais robusta à presença destes valores discrepantes

Exemplo: conjunto de dados (2 , 2.25 , 3.5 , 3.75 , 4 , 9).

A média é 4.08 e a mediana é 3.63 .

Sem o valor 9, a média é 3.10 e a mediana é 3.5 .

Page 11: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Média versus Mediana

Representação gráfica do salário dos funcionários de uma empresa (em salários-mínimos) [Reis e Reis, 2001]

Situação I: dados completos:

Média = 24.6 SMMediana = 4 SM

Situação II: sem os quatro valores maisaltos:

Média = 9.8 SMMediana = 3 SM

Page 12: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Moda versus Mediana e Média

Exemplo: Considere uma pesquisa de opinião na qual foi perguntado a 26 pessoas de baixa renda:

“Incluindo crianças e adultos, que tamanho de família você acha ideal?”

Tamanho ideal da família 1 2 3 4 5 6 7 8 9 10

Freqüência da resposta 1 2 6 2 1 2 3 6 2 1

Média = Mediana = 6 pessoas

Modas = 3 e 8 pessoas[Reis e Reis, 2001]

10

Page 13: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Forma da distribuição de frequências e as posições relativas das medidas de tendência central.

Simétricamoda = mediana = média

Assimétrica com concentração à esquerda

Assimétrica com concentração à direita

moda < mediana < média

moda > mediana > média

Page 14: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Resumindo: Medidas de Tendência Central

Média Aritmética

Identifica qual seria contribuição típica de cada elemento do conjunto de dados se todos contribuíssem igualmente.

Moda

Mediana

contribuíssem igualmente.

Valor mais frequente do conjunto de dados

Valor que divide o conjunto de dados em duas partes com o mesmo número de observações.

Page 15: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Medidas de Variabilidade

Identificar o elemento típico de um conjunto de dados não é suficiente para caracterizá-lo.

Dois conjuntos de dados podem ter o mesmo elemento típico, mas serem diferentes um do outro.

É necessário quantificar a dispersão em torno do elemento típico , ou seja, quantificar a variabilidadede um conjunto de dados.

Page 16: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

O experimento das balanças:

duas balanças pesam repetidamente uma esfera de 1000 gramas

Balança A

Balança B

1000 11001050950900Peso (em gramas) [Reis e Reis, 2001]

Page 17: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Como quantificar as diferenças entre as medições das duas balanças?

Alternativa: diferença entre o valor máximo e o mínimo das medições.

Balança A: 1040g – 945g = 95g

Balança B: 1095g – 895g = 200g.

AT = Máximo – Mínimo

Amplitude Total

Page 18: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

A Amplitude Total é uma medida simples de variabilidade, porém é muito grosseira.

AT = 100 – 2 = 98

Só considera os extremos do conjunto de dados.

AT1 = 100 – 2 = 98

AT2 = 100 – 2 = 98

Precisamos de uma medida de dispersão que considere todos os elementos do conjunto de dados.

Page 19: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Idéia: Calcular a distância de cada valor do conjunto de dados até o elemento típico desse conjunto.

( )ix x− Medida de distância mais simples entre dois valores

1

( )n

ii

x x

n=

−∑ Distância “típica” de cada elemento até o valor médio

Page 20: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Coluna 1 Coluna 2 Coluna 3

Xi

1

1.5

2

3.5

Soma �

Média � 40/10 = 4

3.5

4

4

4.5

6

6.5

7

40

Page 21: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Problema: é sempre zero1

( )n

ii

x x=

−∑

Coluna 1 Coluna 2 Coluna 3

Xi

1 -3

1.5 -2.5

2 -2

3.5 -0.5

( )ix x−

Solução: eliminar o sinal dos desvios negativos

Soma �

Média � 40/10 = 4 0/10 = 0

3.5 -0.5

4 0

4 0

4.5 0.5

6 2

6.5 2.5

7 3

40 0

negativos

Como: elevando todos os desvios ao quadrado

Page 22: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Coluna 1 Coluna 2 Coluna 3

Xi

1 -3 9

1.5 -2.5 6.25

2 -2 4

3.5 -0.5 0.25

Nova medida de dispersão

( )ix x− 2( )ix x−

Soma �

Média � 40/10 = 4 0/10 = 0 39/9 = 4.3

3.5 -0.5 0.25

4 0 0

4 0 0

4.5 0.5 0.25

6 2 4

6.5 2.5 6.25

7 3 9

40 0 39

2

1

( )

1

n

ii

x x

n=

dispersão

variância

Page 23: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Problema :

é uma média de desvios ao quadrado

2

1

( ) ( 1)n

ii

x x n=

− −∑

� Unidade de medida foi alterada

cm � cm2

pessoas � pessoas2 (!!)

toneladas � toneladas2 (!!)

Solução: voltar às unidades originais usando a operação inversa � raiz quadrada

2

1

( )

1

n

ii

x x

n=

∑ � Desvio-Padrão

Page 24: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

O Desvio -Padrão representa o desvio típicodos elementos do conjunto de dados até seu centro (a média)

No exemplo anterior: (1.0 , 1.5 , 2.0 , 3.5 , 4.0 , 4.0 , 4.5 , 6.0 , 6.5 , 7.0)

Média = 4.0Desvio-Padrão:

394.3 2.1s = = =

O Desvio-Padrão (s) será usado como “padrão de desvio ”

Desvio-Padrão: 4.3 2.110 1

s = = =−

Page 25: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

s = 0 s = 0.2

s = 1.0 s = 1.5

s = 2.1 s = 2.7

Page 26: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

s = 1.5

s = 1.9

Page 27: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Voltando ao exemplo das balanças …

10 medições da balança A

999.6 983.0 1018.4 990.0 1004.4 1009.9 991.8 1001.9 999.9 1003.0

10 medições da balança B

985.0 961.0 989.8 1012.2 984.2 1029.3 1010.3 1020.0 979.9 1030.0

960 970 980 990 1000 1010 1020 1030

AB

Peso (em gramas)

Page 28: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

(999.6 + 983.0 + ... + 999.9 + 1003.0)X 1000.19 gramas

10A = =

(985.0 + 961.0 + ... + 979.9 + 1030.0)X 1000.17 gramas

10B = =

( )2 2(999.6-1000.19) + ... + (1003.0-1000.19) )10.14 gramas

9As = =

( )2 2(985.0-1000.17) + ... + (1030.0-1000.17) )23.37 gramas

9Bs = =

Page 29: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

O desvio-padrão serve para quantificar variabilidade de um conjunto de dados:

Quanto maior a variabilidade dos valores,

Para que serve o Desvio -Padrão?

Quanto maior a variabilidade dos valores, maior será o desvio-padrão.

Page 30: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Mas… um desvio-padrão igual a 10 é grande ou pequeno ?

s=10 significa muita dispersão se X=100

s=10 significa pouca dispersão se X=1000

100.1 (10%)

100= 10

0.01 (1%)1000

=

Para termos idéia da magnitude do valor do desvio-padrão, é necessário verificar o quanto ele ocupa da escala de medida, representada pela média...

Page 31: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Coeficiente de Variação (CV)

O Coeficiente de Variação não tem unidade de medida.

Podemos usar o CV para comparar a variabilidade (dispersão) de grupos diferentes e até de variáveis diferentes.

Page 32: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Comparando a homogeneidade de grupos e variáveis diferentes

Duhn, 2001

Page 33: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

O desvio-padrão serve para quantificar a distância entre um elemento e o valor típico (média) de seu grupo.

Para que serve o Desvio -Padrão ?

Exemplo: o valor 5.0 está longe ou perto do valor típico do Exemplo: o valor 5.0 está longe ou perto do valor típico do conjunto de dados?

5.0 4.0 1.00.48

2.1 2.1

− = =

O valor 5.0 está 0.48 desvios-padrão acima da média

Page 34: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Questão: Em um tempo fixo, um atleta correu 431m a mais do que a médiado grupo de atletas. O desempenho dele bom ou muito bom ?

Média do grupo = 1558 m

Desempenho dele = 1989 m

1989 m – 1558 m = 431 m

s =327 metros

4311.32

327=

4310.78

550=431

0.78550

=

Muito bom!

Bom

s =550 metros

Page 35: NUT-Aula03 [Modo de Compatibilidade]edna/bionutri/NUT-Aula03.pdf · relativas das medidas de tendência central. Simétrica ... Dois conjuntos de dados podem ter o mesmo ... diferença

Regra do Desvio-Padrão para Distribuição Simétrica

[Reis e Reis, 2001]