Princípios de Bioestatística - Universidade Federal de ...edna/pgbio/PGBio-Aula01.pdf · Papel na...

Preview:

Citation preview

Universidade Federal de Minas Gerais

Instituto de Ciências Exatas

Departamento de Estatística

Aula 1

Conceitos Básicos

Análise Descritiva

Princípios de Bioestatística

Edna Afonso Reis -EST/ICEx/UFMG 1

1.1. O Papel da Estatística na Pesquisa Científica

Técnicas de planejamento ou amostragem

Técnicas

de análise

de dados

“A Estatística é a gramática da Ciência” (Karl Pearson, 1862)

Quantificar os resultados obtidos num estudo.

Lidar com a variabilidade na tomada de decisões.

Estender as conclusões de uma pequena parcela (amostra)

para o grupo maior de onde ela veio (população).

Quantificar a incerteza na tomada de decisões, através da

Probabilidade.

... porque a Estatística permite:

Planejar a coleta de dados para um estudo.

População

Conjunto de todos os indivíduos

que se deseja estudar.

Ex: - Habitantes de uma cidade

- Animais de uma reserva

- Plantas de uma espécie

- Comprimidos de um lote

- Prescrições em farmácias

Amostra

Parte da população que é selecionada

para estudo, ou seja, os indíviduos nos

quais são medidas ou observadas as

características de interesse.

1.2. Conceitos Básicos Iniciais

Variável

Característica medida ou observada em cada indivíduo em estudo.

Parâmetro

Descrição numérica de uma

característica da população.

Será conhecido apenas se toda

a população for observada.

Ex: média, proporção,

correlação, risco relativo...

Estatística

Descrição numérica de uma

característica da amostra.

Ex: média amostral,

proporção amostal, etc...

Exemplo 1: em pesquisa* realizada com 1000 adolescentes brasileiros,

280 responderam que fumam.

População: todos os milhões de adolescentes brasileiros.

Amostra: consiste dos 1000 adolescentes entrevistados.

Variável: se fuma ou não fuma.

Proporção de adolescentes brasileiros que fumam parâmetro.

valor desconhecido (não há pesquisa com todos os adolescentes do Brasil.

Proporção de adolescentes na amostra que responderam “fumo”:

280/1000 = 0,28 (ou 28%) estatística.

Variável

É a característica de interesse que é medida ou observada

em cada indivíduo da amostra ou população.

Ex: Em um questionário, pergunta-se

• Qual é a sua idade?

• Quantas pessoas há na sua família?

• Qual é a renda total da sua família?

• Você tem emprego fixo?

• Qual é o seu estado civil?

Variável

Idade

Número de pessoas na família

Renda familiar

Emprego

Estado Civil

6

Forma de medição

ou observaçãoPapel na análise

ou na relação

QualitativasQuantitativas Resposta

ou

Dependente

Explicativa

ou

Independente

Grupo ou

Tratamento

Covariável

Variável de Controle

Duas classificações das variáveis são importantes na

escolha do método de análise estatística:

1.3. Tipos de Variáveis

Tipo de Variáveis - forma de medição/observação

Variável

Qualitativa ou Categórica

indica uma qualidade:

respostas são categorias

(observação)

Quantitativa

indica uma quantidade

(medição)

Exemplos:sexo (masculino, feminino)

cor de olhos (preto, azul, verde,castanho)

escolaridade (primário, médio, superior)

grau de obesidade (leve, moderado,

grave, mórbida)

Exemplos: número de filhos (0, 1, 2, 3, ...)

número de refeições diárias (1, 2, 3, 4,…)

peso (kg)

altura (m)

IMC (Kg/m2) 8

Qualitativa

Quantitativa

Nominal

as categorias da variável não possuem ordem.

Ex: sexo (masculino, feminino)

cor de olhos (preto, azul, verde, castanho)

Ordinal

as categorias da variável possuem uma ordem.

Ex: escolaridade (primário, médio, superior)

grau de obesidade (leve, moderado, grave, mórbida)

Discreta

a variável só assume valores inteiros.

Ex: número de filhos (0, 1, 2, 3, ...)

número de refeições diárias (1, 2, 3, 4,…)

Contínua

a variável pode assumir valores fracionados.

Ex: peso (kg), altura (m), IMC (Kg/m2).9

Variável Resposta (ou Dependente):

variável a ser explicada no estudo.

Ex: O que influencia na perda de peso?

Variável Explicativa (ou Independente):

variável que pode influenciar a resposta.

Ex: Tipo de dieta, quantidade exercícios físicos, sexo, idade, etc.

As variáveis em um estudo podem ser classificadas em:

Tipo de Variáveis – papel na análise

10

Coletando os Dados

Um estudo com 90 pessoas para verificar a influência de

- tipo de dieta (hipoprotéica, padrão, hiperprotéica)

- sexo (feminino, masculino)

- idade (anos completos)

- atividade física (baixa, moderada, alta)

em

- perda/ganho de peso (kg)

- perda/ganho de gordura corporal (%)

- mudança do IMC (Kg/m2)

Exemplo: tipos de dieta para perda de peso

Inspirado em: “A controlled trial of protein enrichment of meal replacements for weight

reduction with retention of lean body mass”, Leo Treyzon et al.

Nutrition Journal 2008, 7:23 (http://www.nutritionj.com/content/7/1/23)

Explicativas

Respostas

11

Uma ficha

para cada

participante

(90 fichas)

Edna Afonso Reis -

EST/ICEx/UFMG

12

Planilha de Dados

Uma coluna para variável Uma linha para cada

participante (ficha)

13

Respostas

Mudança

no

IMC

(Kg/m2)

Mudança no

Peso (kg)

Mudança na

% Gordura

Explicativas

Peso (Inicial – Final)

(kg)

Gordura (Inicial –

Final)

(%)

IMC (Inicial – Final)

(Kg/m2)

Valores

positivos (perdeu peso),

negativos (ganhou peso)

ou nulos (peso não

mudou)

Idem Idem

1.5. Programas Computacionais para Análise Estatística

Os dados armazenados nas planilhas eletrônicas são lidos

em programas de computador (softwares estatísticos)

que fazem e gráficos e os cálculos estatísticos:

R, Epi-Info, GP Prism, Minitab, SPSS, STATA, SAS…

Gratuitos Comerciais

tem todo tipo de

análise, mas

interface não é

tão amigável.

Interface é

amigável e tem

as análises

mais utilizadas

2.1. Fases da Análise Estatística

Verificação

Descrição

Inferência

Tabelas e gráficos preliminares podem ser feitos para

verificar se os dados estão consistentes.

(Ex: valores não usuais que podem ser erros de digitação)

Variável qualitativa: como os indivíduos da amostra se

distribuem nas categorias (tabelas, %, gráficos de barras).

Variável quantitativa: para ver como os valores estão

“distribuídos” nos indivíduos da amostra: valor típico

variação entre os valores

tabelas, gráficos (histograma, boxplot) e

estatísticas descritivas (média, mediana, amplitude, desvio-

padrão, coeficiente de variação, 1o quartil, 3o quartil)

Estender as conclusões da amostra para população,

levando em conta a variabilidade entre amostras:

margem de erro, testes estatísticos, modelos de regressão.

Estudando a Distribuição de Frequências da Variável

A forma de apresentação dos dados depende do tipo da

variável.

Tabelas e

Gráficos

Variável Qualitativa - Nominal ou Ordinal

Variável Quantitativa - Discreta ou Contínua

Cor dos cabelos e cor dos olhos de 592 estudantes universitários.

Estudante Cabelos Olhos

1 preto verde

2 preto verde

3 preto verde

4 preto verde

5 preto verde

6 preto cinza

7 preto cinza

8 preto cinza

9 preto cinza

10 preto cinza

583 loiro azul

584 loiro azul

585 loiro azul

586 loiro castanho

587 loiro castanho

588 loiro castanho

589 loiro castanho

590 loiro castanho

591 loiro castanho

592 loiro castanho

Tabela da distribuição de frequências da cor dos cabelos

Frequências Absolutas

Frequências Relativas

Tabela da distribuição de frequências da cor dos olhos

Cor de

cabelo

Cor de olhosTotal

Verde Cinza Azul Castanho

Preto 5 (5%) 15 (14%) 20 (19%) 68 (63%) 108 (100%)

Castanho 29 (10%) 54 (19%) 84 (29%) 119 (42%) 286 (100%)

Ruivo 14 (20%) 14 (20%) 17 (24%) 26 (37%) 71 (100%)

Loiro 16 (13%) 10 (8%) 94 (74%) 7 (6%) 127 (100%)

Total 64 (11%) 93 (16%) 215 (36%) 220 (37%) 592 (100%)

Distribuição da cor dos olhos segundo a cor dos cabelos

A distribuição (%) da cor dos olhos é diferente entre os grupos de cores de

cabelo, especialmente quando se compara o grupo de cabelos pretos com o

grupo de cabelos loiros; mas não tanto quando se compara os grupos cabelos

castanhos e ruivos.

4,63

10,14

19,72

12,60

13,89

18,88

19,72

7,87

18,52

29,37

23,94

74,02

62,96

41,61

36,62

5,51

0,00 10,00 20,00 30,00 40,00 50,00 60,00 70,00 80,00 90,00 100,00

Preto

Castanho

Ruivo

Loiro

Verde

Acinzentado

Azul

Castanho

Distribuição de frequências da cor de olhos

segundo cor dos cabelos

Tabela da distribuição de frequências aos 236 idosos atendidos

em um posto de sáude do seu estado nutricional.

Frequência acumulada

até a classe

Frequência somente

na classeOrdem natural

das categorias

Gráfico de Barras Verticais:

Estado Nutricional segundo Faixa Etária

Tamanhos diferentes:

usar frequência relativa

Estado Nutricional segundo Faixa Etária

Gráfico de Barras Verticais:

Usar os gráficos com frequências relativas!

Mas as escalas estão diferentes nos eixos vertical e horizontal !

Mesma escala nos eixos vertical e horizontal

Quando a variável discreta assume um

grande número de valores distintos

Variável: % de Gordura Inicial (90 valores ordenados)

%Gordura Inicial:

Mulheres

Homens

Peso Perdido (Kg):

Peso Perdido

segundo

Atividade Física

Análise da Distribuição de Frequências

de uma Variável Quantitativa

Tendência Central

Variabilidade

Forma

valor típico

espalhamento

(as)simetria

Tendência Central

1 a 2 Kg 2 a 3 Kg

Atividade física moderada leva a uma maior perda de peso.

2 a 3 filhos 0 a 1 filho

Famílias da localidade A têm mais filhos que da localidade B.

Variabilidade

Varia de 0 a 5

(amplitude = 5)

A variabilidade é maior entre as famílias da localidade A.

Varia de 0 a 3

(amplitude = 3)

Tendência central e

variabilidade da

%Gordura Inicial são

similares entre mulheres e homens

Forma

Assimétrica

c/ concentração

à esquerda

Simétrica

Assimétrica

c/ concentração

à direita

Assimétrica

c/ concentração

à esquerda

Assimétrica

c/ concentração

à direita

Simétrica

Sintese Numérica da Distribuição da Variável Quantitativa

Estatísticas

Descritivas

Tendência Central

(valor típico)

Variabilidade

(dispersão)

Posição Geral

Me: Média (total/n)

Md: Mediana (50% abaixo)

Mo: Moda (mais frequente)

AT: Amplitude Total (Max-Min)

DP: Desvio-padrão (“distância média”)

CV: Coeficiente de Variação (dp/media)

AQ: Amplitude Interquartílica (Q3-Q1)

Min: Mínimo

Max: Máximo

Q1: Primeiro Quartil (25% abaixo)

Q3: Terceiro Quartil (75% abaixo)

Pk: Percentil Ordem K (k% abaixo)

Medidas de Tendência Central

Se todas as seis pessoas

tivessem o mesmo peso,

qual deveria ser este valor

para não exceder a carga

máxima permitida ?

Média Aritmética

O peso médio deve ser de 70 Kg.

Medidas de Tendência Central

Qual é o valor de peso que

separa a metade mais leve

da metade mais pesada no

elevador?

Mediana

4098

70

60

7555

40 55 60 70 75 98

O peso mediano é 65 Kg

Média = 66

98

5560

55

75

Medidas de Tendência Central

Qual é peso mais frequente

dentre os ocupantes do

elevador?

Moda

40

A moda de peso é 55 Kg

Média = 68.8 e Mediana = 57.5

Soma de todas as observações da amostra

tamanho da amostra

Média Aritmética Simples

Alguma Notação

n número de indivíduos no conjunto de dados

ixvalor da i-ésima observação do conjunto de dados,

i = 1, 2, 3,..., n

ixsoma de todas as observações da amostra

(a letra grega é o símbolo que indica soma).

Xé o símbolo usado para representar a média aritmética

simples.

X n

xi

Média Aritmética Simples

22.83.8

6X

No conjunto de dados ( 3 ; 4.5 ; 5.5 ; 2.5 ; 1.3 ; 6 ),

temos n = 6,

x1 = 3 x2 = 4.5 x3 = 5.5 x4 = 2.5 x5 = 1.3 x6 = 6

ix = 3 + 4.5 + 5.5 + 2.5 + 1.3 + 6 = 22.8 e

Identifica qual seria contribuição típica de cada elemento

do conjunto de dados se todos contribuíssem igualmente.

Mediana

Valor que divide o conjunto de dados ordenados em duas

partes com o mesmo número de observações.

n é par

n é ímpar

Dados ( 3 ; 4.5 ; 5.5 ; 2.5 ; 1.3 ; 6 ).

Ordenando os valores

(1.3 ; 2.5 ; 3 ; 4.5 ; 5.5 ; 6)

Os valores do meio são 3 e 4.5.

A mediana é (3 + 4.5)/2 = 3.75.

Dados ( 2 ; 3.3 ; 2.5 ; 5.6 ; 5 ; 4.3 ; 3.2 ).

Ordenando os valores

(2 ; 2.5 ; 3.2 ; 3.3 ; 4.3 ; 5 ; 5.6).

O valor do meio é o 3.3 .

A mediana é o valor 3.3.

Existe um

só “valor do

meio”

Existem

dois

“valores do

meio”

Moda

Valor mais frequente do

conjunto de dados

Conjunto de dados unimodal

0,8

1,3

1,8

1 2 3 4 5

0,8

1,3

1,8

1 2 3 4 5 6 7 8 9

Conjunto de dados bimodal

11,11,21,31,41,51,61,71,81,9

1 2 3 4 5 6 7 8 9

Conjunto de dados amodal

Média versus Mediana

A Média Aritmética é muito influenciada pela

presença de valores extremos no conjunto de dados

A Mediana é mais robusta à presença destes valores

discrepantes

Exemplo: conjunto de dados (2 , 2.25 , 3.5 , 3.75 , 4 , 9).

A média é 4.08 e a mediana é 3.63 .

Sem o valor 9, a média é 3.10 e a mediana é 3.5 .

Média versus Mediana

Situação I: dados completos:

Média = 24.6 SM

Mediana = 4 SM

Representação gráfica do salário dos funcionários de uma

empresa (em salários-mínimos) [Reis e Reis, 2001]

Situação II: sem os quatro valores mais

altos:

Média = 9.8 SM

Mediana = 3 SM

Moda versus Mediana e Média

Exemplo: Considere uma pesquisa de opinião na qual foi perguntado a

26 pessoas de baixa renda:

“Incluindo crianças e adultos, que tamanho de família você acha ideal?”

Tamanho ideal da família 1 2 3 4 5 6 7 8 9 10

Freqüência da resposta 1 2 6 2 1 2 3 6 2 1

Média = Mediana = 6 pessoas

Modas = 3 e 8 pessoas[Reis e Reis, 2001]

10

Forma da distribuição de frequências e as posições relativas das medidas de tendência central.

Simétrica

Assimétrica com

concentração à

esquerda

Assimétrica com

concentração à

direita

moda = mediana = média

moda < mediana < média

moda > mediana > média

Medidas de Variabilidade

Identificar o elemento típico (tendência central) de um

conjunto de dados não é suficiente para caracterizá-lo.

Dois conjuntos de dados podem ter a mesma tendência

central, mas serem diferentes um do outro.

É necessário quantificar a dispersão em torno do

elemento típico, ou seja, quantificar a variabilidade de um

conjunto de dados.

O experimento das balanças:

duas balanças pesam repetidamente uma esfera de 1000 gramas

Balança A

Balança B

1000 11001050950900Peso (em gramas) [Reis e Reis, 2001]

Como quantificar as diferenças entre as medições das duas balanças?

Alternativa: diferença entre o valor máximo e o

mínimo das medições.

Balança A: 1040g – 945g = 95g

Balança B: 1095g – 895g = 200g.

AT = Máximo – Mínimo

Amplitude Total

A Amplitude Total é uma medida simples de variabilidade, porém é muito grosseira.

Só considera os extremos do conjunto de dados.

AT1 = 100 – 2 = 98

AT2 = 100 – 2 = 98

Precisamos de uma medida de dispersão que considere todos os elementos do conjunto de dados.

Idéia: Calcular a distância de cada valor do conjunto de

dados até o elemento típico desse conjunto.

( )ix x Medida de distância mais simples entre dois valores

1

( )n

i

i

x x

n

Distância “típica” de cada elemento até a média

Soma

Média 40/10 = 4

Coluna 1 Coluna 2 Coluna 3

Xi

1

1.5

2

3.5

4

4

4.5

6

6.5

7

40

Problema: é sempre zero

Soma

Média 40/10 = 4 0/10 = 0

1

( )n

i

i

x x

Coluna 1 Coluna 2 Coluna 3

Xi

1 -3

1.5 -2.5

2 -2

3.5 -0.5

4 0

4 0

4.5 0.5

6 2

6.5 2.5

7 3

40 0

( )ix xSolução: eliminar

o sinal dos

desvios

negativos

Como: elevando

todos os desvios

ao quadrado

Soma

Média 40/10 = 4 0/10 = 0 39/9 = 4.3

Coluna 1 Coluna 2 Coluna 3

Xi

1 -3 9

1.5 -2.5 6.25

2 -2 4

3.5 -0.5 0.25

4 0 0

4 0 0

4.5 0.5 0.25

6 2 4

6.5 2.5 6.25

7 3 9

40 0 39

2

1

( )

1

n

i

i

x x

n

Nova medida de dispersão

variância

( )ix x2( )ix x

Problema:

é uma média de desvios ao quadrado

Unidade de medida foi alterada

Solução: voltar às unidades originais usando a

operação inversa raiz quadrada

2

1

( )

1

n

i

i

x x

n

Desvio-Padrão

cm cm2

pessoas pessoas2 (!!)

toneladas toneladas2 (!!)

O Desvio-Padrão representa o desvio típico dos elementos do conjunto de dados até seu centro (a média)

O Desvio-Padrão (s) será usado como “padrão de desvio”

No exemplo anterior:

(1.0 , 1.5 , 2.0 , 3.5 , 4.0 , 4.0 , 4.5 , 6.0 , 6.5 , 7.0)

Média = 4.0

Desvio-Padrão:39

4.3 2.110 1

s

s = 0 s = 0.2

s = 1.0 s = 1.5

s = 2.1 s = 2.7

s = 1.5

s = 1.9

Mesmo valor da Amplitude Total, mas variabilidades

diferentes:

O desvio-padrão serve para quantificar variabilidade

de um conjunto de dados:

Quanto maior a variabilidade dos valores,

maior será o desvio-padrão.

Para que serve o Desvio-Padrão?

Mas… um desvio-padrão igual a 10

é grande ou pequeno ?

s=10 significa muita dispersão se X=100

s=10 significa pouca dispersão se X=1000

100.1 (10%)

100

100.01 (1%)

1000

Para termos idéia da magnitude do valor do desvio-

padrão, é necessário verificar o quanto ele ocupa da

escala de medida, representada pela média...

Coeficiente de Variação (CV)

O Coeficiente de Variação não tem unidade de medida.

Podemos usar o CV para comparar a variabilidade

(dispersão) de grupos diferentes e até de variáveis

diferentes.

Comparando a homogeneidade de

grupos e variáveis diferentes

Duhn, 2001

Nunca descreva a variável usando

apenas as medidas síntese.

Sempre faça o gráfico!

Grupo Média DP AT

A 10.3 3.5 14.3

B 10.3 3.7 14.3

Grupo Média DP AT Median

A 10.3 3.5 14.3 9.3

B 10.3 3.7 14.3 11.4

Grupo Mínimo Máximo

A 5.9 20.2

B 0.8 15.0

Grupo Média DP AT Median

A 10.3 3.5 14.3 9.3

B 10.3 3.7 14.3 11.4

- Então, qual foi sua posição final na corrida? - Fiquei em 3o lugar!

- Puxa... Quantos estavam correndo? - Três”.

Percentis

Escores

Padronizados

Medidas

de

Posição

Postos

Posiciona um valor dentro

do grupo indicando

“quantos %” são menores

ou iguais a ele.Entre os 10% menores tempos

Posiciona um valor em

relação à média do grupo,

levando em conta a

variação (DP) das medidas

no grupo.Tempo a 1 DP abaixo da média

Indica a posição de um

valor dentro do grupo pela

ordem dos valores

ordenados.9o lugar (de quantos?)

Exemplo: tempos de corrida (minutos) de 20 participantes

Percentis

O percentil de ordem K, denotado por Pk,

é o valor da variável tal que

K% dos valores são menores ou iguais a ele.

Exemplo: tempo de corrida:

P10 = 22 min. 10% dos corredores fizeram 22 min. ou menos

P90 = 56 min. 90% dos corredores fizeram 56 min. ou menos

Paula ficou em 9o lugar dentre os 20 corredores o tempo dela = P45

Rosa ficou em 18o lugar dentre os 20 corredores o tempo dela = P90

O tempo de Érica foi o P55 e o tempo de Carla foi o P70:

Érica se saiu melhor (fez menor tempo) que Carla

Os percentis de ordem 10, 20, 30, ... 90 são chamados decis

pois dividem o conjunto de dados em dez partes com

mesmo número de observações (10%).

1o decil (D1), 2o decil (D2), 3o decil (D3), …. , 9o decil (D9).

Os percentis de ordem 25, 50 e 75 são chamados de quartis

Pois dividem o conjunto de dados em quatro partes com o

mesmo número de observações (1/4):

Primeiro Quartil (Q1)

Segundo Quartil (Q2) = Mediana

Terceiro Quartil (Q3).

Determinação do Percentil de ordem K (Triola, 1996).

Ordene os dados,

do menor para o maior.

Calcule L=(k/100)n,

k: ordem do percentil

n: numero de valores

L é

inteiro?

Arredonde L para o maior

inteiro mais próximo.

O valor de Pk é o L-ésimo

valor a contar do menor.

O valor de Pk é a média

entre L-ésimo e o

(L+1)ésimo valores

a contar do menor.

Não Sim

Ordene os dados,

do menor para o maior.

Calcule L=(k/100)n,

k: ordem do percentil

n: numero de valores

L é

inteiro?

Arredonde L para o maior

inteiro mais próximo.

O valor de Pk é o L-ésimo

valor a contar do menor.

O valor de Pk é a média

entre L-ésimo e o

(L+1)ésimo valores

a contar do menor.

Não Sim

Ordene os dados,

do menor para o maior.

Calcule L=(k/100)n,

k: ordem do percentil

n: numero de valores

L é

inteiro?

Arredonde L para o maior

inteiro mais próximo.

O valor de Pk é o L-ésimo

valor a contar do menor.

O valor de Pk é a média

entre L-ésimo e o

(L+1)ésimo valores

a contar do menor.

Não Sim

Ordene os dados,

do menor para o maior.

Calcule L=(k/100)n,

k: ordem do percentil

n: numero de valores

L é

inteiro?

Arredonde L para o maior

inteiro mais próximo.

O valor de Pk é o L-ésimo

valor a contar do menor.

O valor de Pk é a média

entre L-ésimo e o

(L+1)ésimo valores

a contar do menor.

Não Sim

Ordene os dados,

do menor para o maior.

Calcule L=(k/100)n,

k: ordem do percentil

n: numero de valores

L é

inteiro?

Arredonde L para o maior

inteiro mais próximo.

O valor de Pk é o L-ésimo

valor a contar do menor.

O valor de Pk é a média

entre L-ésimo e o

(L+1)ésimo valores

a contar do menor.

Não Sim

n = 120

k = 75

L = (75/100) x 120 = 90

P75 é a média dos

Valores 90o e 91o

nos dados ordenados

P25 é o 14o valor

nos dados

ordenados

n = 55

k = 25

L = (25/100) x 55 = 13.75

Exemplo 1: Quantidade de sódio (mg/100g) de 16 marcas

de barra de chocolate. [Duhn, 2001]

P10: 10% de 16 = 1.6 (Arredonda para cima: 2o valor) P10 = 75 mg/100g.

10% das barras de chocolate contém até 75 mg de sódio por

100g

P25: 25% de 16= 4. P25 = média(4o e 5o valores)=(93+110)/2 = 101.5 mg/100g

25% das barras de chocolate contém até 101.5 mg de sódio por

100g

P92: 92% de 16 = 14.7 (Arredonda para cima: 15o valor) P92 = 220 mg/100g

Primeiro Quartil: P25.

Q1 = 101.5 mg/100g

Terceiro Quartil: 75% de 16 = 12.

Q3 = média(12o e 13o valores)=(160+190)/2 = 175 mg/100g

40 75 90 93 110 110 115 116

130 148 160 160 190 220 220 250

Uso dos Percentis: Faixas de Referência

Uma Faixa de Referência para uma característica é

um intervalo de valores dentro dos quais a

característica é considerada normal (ou dentro dos

padrões aceitáveis).

Exemplo: uma Faixa de Referência de 94% para o peso de

crianças de 9 anos e meio vai de 22 kg a 50 kg.

Ou seja, 94% das crianças “normais” pesam entre 22 e 50

kg.

Uma Faixa de Referência está sempre associada a um

percentual, que determina qual a percentagem da

população de valores considerados normais está dentro

da faixa.

Exemplos:

• uma Faixa de Referência de 80% engloba 80% dos

valores considerados normais (ou dentro dos padrões)

• uma Faixa de Referência de 94% engloba 94% dos

valores considerados normais (ou dentro dos padrões)

É formada por dois percentis simétricos.

Exemplos:

FR(80%) = [P10 ; P90]

FR(94%) = [P3 ; P97]

Uma criança é 2.0 cm mais alta e 1,5 Kg mais magra

do que a média das crianças da sua idade.

Esta criança está “mais afastada” das crianças de sua idade

na altura ou no peso?

Escores Padronizados

Tornando possíveis comparações entre variáveis diferentes

Problema Inicial: Os 20 alunos da oitava série de uma

escola foram submetidos a cinco testes de aptidão

física e a um teste de conhecimento desportivo:

1. Abdominal: número de abdominais realizados em 2 minutos;

2. Salto em extensão: comprimento do salto (centímetros);

3. Suspensão de braços flexionados: tempo em suspensão (segundos);

4. Corrida: distância (em metros) percorrida em 12 minutos ;

5. Natação: tempo (em segundos) para nadar 50 metros;

6. Conhecimento desportivo: prova escrita (0 a 100 pontos).

Questão no1: Em um dado teste, qual foi o aluno de

melhor desempenho ? E de pior desempenho?

[Reis e Reis, 2001]

Aluno Abdominal Salto Suspensão Corrida Natação Conhecimento

Pedro 34 108 64 1989 34 64

João 30 88 33 1461 32 82

Manuel 27 87 23 1333 27 66

Maria 25 94 12 1858 29 78

Vinícius 26 102 10 1986 30 68

Luiza 27 80 16 1267 32 84

Marina 28 90 20 1743 33 76

Camila 28 92 27 1833 31 71

Guido 29 71 30 1255 29 72

Bárbara 29 88 36 1503 35 75

Luiz 30 89 42 1600 28 77

Gabriela 30 90 39 1747 31 76

Antônio 30 98 45 1930 33 74

Daniele 31 84 48 1276 30 73

Marcelo 31 91 51 1716 25 81

Rodrigo 32 70 57 1054 27 69

Luciana 32 89 54 1535 28 74

Rafael 33 74 60 1084 30 86

Flávia 33 106 67 1968 26 79

Ana 35 69 67 1019 30 75

Questão no2: Para um dado aluno, em qual teste

onde ele se saiu melhor (ou pior) em relação à

turma ?

Teste Média da turma

Abdominais em 2 minutos 30 abdominais

Salto em extensão 88 centímetros

Suspensão de braços flexionados 40 segundos

Corrida em 12 minutos 1558 metros

Natação de 50 metros 30 segundos

Conhecimento desportivo 75 pontos

Para Pedro :

Mas, saltar 20 cm acima da média do

grupo é bom ou muito bom?

[Reis e Reis, 2001]

Pedro:

Levando em conta a variabilidade

das medidas do grupo

Teste Média Desvio-Padrão

Abdominais em 2 minutos 30 abdominais 3 Abdominais

Salto em extensão 88 centímetros 11 Centímetros

Suspensão de braços flexionados 40 segundos 18 Segundos

Corrida em 12 minutos 1558 metros 327 Metros

Natação de 50 metros 30 segundos 3 Segundos

Conhecimento desportivo 75 pontos 6 Pontos

O Escore Padronizado

ãoDesvioPadr

MédiainalEscoreOrigonizadoEscorePadr

O escore padronizado mede a distância do

escore original à média em número de desvios-

padrão.

Aluno Abdominal Salto Suspensão Corrida Natação Conhecimento

Pedro 1,33 1,82 1,33 1,32 1,33 -1,83

João 0,00 0,00 -0,39 -0,30 0,67 1,17

Manuel -1,00 -0,09 -0,94 -0,69 -1,00 -1,50

Maria -1,67 0,55 -1,56 0,92 -0,33 0,50

Vinícius -1,33 1,27 -1,67 1,31 0,00 -1,17

Luiza -1,00 -0,73 -1,33 -0,89 0,67 1,50

Marina -0,67 0,18 -1,11 0,57 1,00 0,17

Camila -0,67 0,36 -0,72 0,84 0,33 -0,67

Guido -0,33 -1,55 -0,56 -0,93 -0,33 -0,50

Bárbara -0,33 0,00 -0,22 -0,17 1,67 0,00

Luiz 0,00 0,09 0,11 0,13 -0,67 0,33

Gabriela 0,00 0,18 -0,06 0,58 0,33 0,17

Antônio 0,00 0,91 0,28 1,14 1,00 -0,17

Daniele 0,33 -0,36 0,44 -0,86 0,00 -0,33

Marcelo 0,33 0,27 0,61 0,48 -1,67 1,00

Rodrigo 0,67 -1,64 0,94 -1,54 -1,00 -1,00

Luciana 0,67 0,09 0,78 -0,07 -0,67 -0,17

Rafael 1,00 -1,27 1,11 -1,45 0,00 1,83

Flávia 1,00 1,64 1,50 1,25 -1,33 0,67

Ana 1,67 -1,73 1,50 -1,65 0,00 0,00

escala

de v

alo

res d

a v

ari

ável

DQ = Q3 – Q1

Comprimento máximo:

1.5(DQ)

Identificando outliers: o

BoxplotOutliers

Exemplo 1: Energia (Kj/100g) de 16 marcas de barras de chocolate.

Q1: 25% de 16 = 4. Q1= (1920 + 1930)/2 = 1925

Q2: 50% de 16 = 8. Q2= (1980 + 1980)/2 = 1980

Q3: 75% de 16 = 12. Q3= (2060 + 2180)/2 = 2120

DQ = Q3 – Q1 = 2120 – 1925 = 195 1.5DQ = 1.5 x 195 = 292.5

Linha inferior: Q1 – 1.5DQ = 1925 – 292.5 = 1632.5 (> Min = 1620) outliers

Linha superior: Q3 + 1.5DQ = 2120 + 292.5 = 2412.5 (> Max = 2250)

Min = 1620

Max = 2250

Exemplo 2: Sódio (mg/g) de 16 marcas de barras de chocolate

Q1: 25% de 16 = 4 Q1=(90+110)/2 = 100

Q2= 50% de 16 = 8 Q2=(120+130)/2 = 125

Q3= 75% de 16 = 12 Q3=(160+190)/2 = 175

DQ = Q3 – Q1 = 175 – 100 = 75

1.5 x DQ = 1.5 x 75 = 112.5

Q1 – 1.5DQ = 100 – 112.5 = -12.5 (Min = 40)

Q3 + 1.5DQ = 175 + 112.5 = 287.5 (Max = 250)

O boxplot e a forma da distribuição de frequências

Assimétrica (concentração à esquerda

Assimétrica (concentração à

direitaSimétrica

Série de Boxplots: comparando vários grupos no mesmo gráfico.

Exemplo: pesquisa de opinião com 26 pessoas de baixa renda:

“Incluindo crianças e adultos, que tamanho de família você acha

ideal?”

10

Boxplot: não é adequado para distribuições com mais de uma moda.

Recommended