Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
Universidade Federal de Minas Gerais
Instituto de Ciências Exatas
Departamento de Estatística
Aula 1
Conceitos Básicos
Análise Descritiva
Princípios de Bioestatística
Edna Afonso Reis -EST/ICEx/UFMG 1
1.1. O Papel da Estatística na Pesquisa Científica
Técnicas de planejamento ou amostragem
Técnicas
de análise
de dados
“A Estatística é a gramática da Ciência” (Karl Pearson, 1862)
Quantificar os resultados obtidos num estudo.
Lidar com a variabilidade na tomada de decisões.
Estender as conclusões de uma pequena parcela (amostra)
para o grupo maior de onde ela veio (população).
Quantificar a incerteza na tomada de decisões, através da
Probabilidade.
... porque a Estatística permite:
Planejar a coleta de dados para um estudo.
População
Conjunto de todos os indivíduos
que se deseja estudar.
Ex: - Habitantes de uma cidade
- Animais de uma reserva
- Plantas de uma espécie
- Comprimidos de um lote
- Prescrições em farmácias
Amostra
Parte da população que é selecionada
para estudo, ou seja, os indíviduos nos
quais são medidas ou observadas as
características de interesse.
1.2. Conceitos Básicos Iniciais
Variável
Característica medida ou observada em cada indivíduo em estudo.
Parâmetro
Descrição numérica de uma
característica da população.
Será conhecido apenas se toda
a população for observada.
Ex: média, proporção,
correlação, risco relativo...
Estatística
Descrição numérica de uma
característica da amostra.
Ex: média amostral,
proporção amostal, etc...
Exemplo 1: em pesquisa* realizada com 1000 adolescentes brasileiros,
280 responderam que fumam.
População: todos os milhões de adolescentes brasileiros.
Amostra: consiste dos 1000 adolescentes entrevistados.
Variável: se fuma ou não fuma.
Proporção de adolescentes brasileiros que fumam parâmetro.
valor desconhecido (não há pesquisa com todos os adolescentes do Brasil.
Proporção de adolescentes na amostra que responderam “fumo”:
280/1000 = 0,28 (ou 28%) estatística.
Variável
É a característica de interesse que é medida ou observada
em cada indivíduo da amostra ou população.
Ex: Em um questionário, pergunta-se
• Qual é a sua idade?
• Quantas pessoas há na sua família?
• Qual é a renda total da sua família?
• Você tem emprego fixo?
• Qual é o seu estado civil?
Variável
Idade
Número de pessoas na família
Renda familiar
Emprego
Estado Civil
6
Forma de medição
ou observaçãoPapel na análise
ou na relação
QualitativasQuantitativas Resposta
ou
Dependente
Explicativa
ou
Independente
Grupo ou
Tratamento
Covariável
Variável de Controle
Duas classificações das variáveis são importantes na
escolha do método de análise estatística:
1.3. Tipos de Variáveis
Tipo de Variáveis - forma de medição/observação
Variável
Qualitativa ou Categórica
indica uma qualidade:
respostas são categorias
(observação)
Quantitativa
indica uma quantidade
(medição)
Exemplos:sexo (masculino, feminino)
cor de olhos (preto, azul, verde,castanho)
escolaridade (primário, médio, superior)
grau de obesidade (leve, moderado,
grave, mórbida)
Exemplos: número de filhos (0, 1, 2, 3, ...)
número de refeições diárias (1, 2, 3, 4,…)
peso (kg)
altura (m)
IMC (Kg/m2) 8
Qualitativa
Quantitativa
Nominal
as categorias da variável não possuem ordem.
Ex: sexo (masculino, feminino)
cor de olhos (preto, azul, verde, castanho)
Ordinal
as categorias da variável possuem uma ordem.
Ex: escolaridade (primário, médio, superior)
grau de obesidade (leve, moderado, grave, mórbida)
Discreta
a variável só assume valores inteiros.
Ex: número de filhos (0, 1, 2, 3, ...)
número de refeições diárias (1, 2, 3, 4,…)
Contínua
a variável pode assumir valores fracionados.
Ex: peso (kg), altura (m), IMC (Kg/m2).9
Variável Resposta (ou Dependente):
variável a ser explicada no estudo.
Ex: O que influencia na perda de peso?
Variável Explicativa (ou Independente):
variável que pode influenciar a resposta.
Ex: Tipo de dieta, quantidade exercícios físicos, sexo, idade, etc.
As variáveis em um estudo podem ser classificadas em:
Tipo de Variáveis – papel na análise
10
Coletando os Dados
Um estudo com 90 pessoas para verificar a influência de
- tipo de dieta (hipoprotéica, padrão, hiperprotéica)
- sexo (feminino, masculino)
- idade (anos completos)
- atividade física (baixa, moderada, alta)
em
- perda/ganho de peso (kg)
- perda/ganho de gordura corporal (%)
- mudança do IMC (Kg/m2)
Exemplo: tipos de dieta para perda de peso
Inspirado em: “A controlled trial of protein enrichment of meal replacements for weight
reduction with retention of lean body mass”, Leo Treyzon et al.
Nutrition Journal 2008, 7:23 (http://www.nutritionj.com/content/7/1/23)
Explicativas
Respostas
11
Uma ficha
para cada
participante
(90 fichas)
Edna Afonso Reis -
EST/ICEx/UFMG
12
Planilha de Dados
Uma coluna para variável Uma linha para cada
participante (ficha)
13
Respostas
Mudança
no
IMC
(Kg/m2)
Mudança no
Peso (kg)
Mudança na
% Gordura
Explicativas
Peso (Inicial – Final)
(kg)
Gordura (Inicial –
Final)
(%)
IMC (Inicial – Final)
(Kg/m2)
Valores
positivos (perdeu peso),
negativos (ganhou peso)
ou nulos (peso não
mudou)
Idem Idem
1.5. Programas Computacionais para Análise Estatística
Os dados armazenados nas planilhas eletrônicas são lidos
em programas de computador (softwares estatísticos)
que fazem e gráficos e os cálculos estatísticos:
R, Epi-Info, GP Prism, Minitab, SPSS, STATA, SAS…
Gratuitos Comerciais
tem todo tipo de
análise, mas
interface não é
tão amigável.
Interface é
amigável e tem
as análises
mais utilizadas
2.1. Fases da Análise Estatística
Verificação
Descrição
Inferência
Tabelas e gráficos preliminares podem ser feitos para
verificar se os dados estão consistentes.
(Ex: valores não usuais que podem ser erros de digitação)
Variável qualitativa: como os indivíduos da amostra se
distribuem nas categorias (tabelas, %, gráficos de barras).
Variável quantitativa: para ver como os valores estão
“distribuídos” nos indivíduos da amostra: valor típico
variação entre os valores
tabelas, gráficos (histograma, boxplot) e
estatísticas descritivas (média, mediana, amplitude, desvio-
padrão, coeficiente de variação, 1o quartil, 3o quartil)
Estender as conclusões da amostra para população,
levando em conta a variabilidade entre amostras:
margem de erro, testes estatísticos, modelos de regressão.
Estudando a Distribuição de Frequências da Variável
A forma de apresentação dos dados depende do tipo da
variável.
Tabelas e
Gráficos
Variável Qualitativa - Nominal ou Ordinal
Variável Quantitativa - Discreta ou Contínua
Cor dos cabelos e cor dos olhos de 592 estudantes universitários.
Estudante Cabelos Olhos
1 preto verde
2 preto verde
3 preto verde
4 preto verde
5 preto verde
6 preto cinza
7 preto cinza
8 preto cinza
9 preto cinza
10 preto cinza
…
583 loiro azul
584 loiro azul
585 loiro azul
586 loiro castanho
587 loiro castanho
588 loiro castanho
589 loiro castanho
590 loiro castanho
591 loiro castanho
592 loiro castanho
Tabela da distribuição de frequências da cor dos cabelos
Frequências Absolutas
Frequências Relativas
Tabela da distribuição de frequências da cor dos olhos
Cor de
cabelo
Cor de olhosTotal
Verde Cinza Azul Castanho
Preto 5 (5%) 15 (14%) 20 (19%) 68 (63%) 108 (100%)
Castanho 29 (10%) 54 (19%) 84 (29%) 119 (42%) 286 (100%)
Ruivo 14 (20%) 14 (20%) 17 (24%) 26 (37%) 71 (100%)
Loiro 16 (13%) 10 (8%) 94 (74%) 7 (6%) 127 (100%)
Total 64 (11%) 93 (16%) 215 (36%) 220 (37%) 592 (100%)
Distribuição da cor dos olhos segundo a cor dos cabelos
A distribuição (%) da cor dos olhos é diferente entre os grupos de cores de
cabelo, especialmente quando se compara o grupo de cabelos pretos com o
grupo de cabelos loiros; mas não tanto quando se compara os grupos cabelos
castanhos e ruivos.
4,63
10,14
19,72
12,60
13,89
18,88
19,72
7,87
18,52
29,37
23,94
74,02
62,96
41,61
36,62
5,51
0,00 10,00 20,00 30,00 40,00 50,00 60,00 70,00 80,00 90,00 100,00
Preto
Castanho
Ruivo
Loiro
Verde
Acinzentado
Azul
Castanho
Distribuição de frequências da cor de olhos
segundo cor dos cabelos
Tabela da distribuição de frequências aos 236 idosos atendidos
em um posto de sáude do seu estado nutricional.
Frequência acumulada
até a classe
Frequência somente
na classeOrdem natural
das categorias
Gráfico de Barras Verticais:
Estado Nutricional segundo Faixa Etária
Tamanhos diferentes:
usar frequência relativa
Estado Nutricional segundo Faixa Etária
Gráfico de Barras Verticais:
Usar os gráficos com frequências relativas!
Mas as escalas estão diferentes nos eixos vertical e horizontal !
Mesma escala nos eixos vertical e horizontal
Quando a variável discreta assume um
grande número de valores distintos
Variável: % de Gordura Inicial (90 valores ordenados)
%Gordura Inicial:
Mulheres
Homens
Peso Perdido (Kg):
Peso Perdido
segundo
Atividade Física
Análise da Distribuição de Frequências
de uma Variável Quantitativa
Tendência Central
Variabilidade
Forma
valor típico
espalhamento
(as)simetria
Tendência Central
1 a 2 Kg 2 a 3 Kg
Atividade física moderada leva a uma maior perda de peso.
2 a 3 filhos 0 a 1 filho
Famílias da localidade A têm mais filhos que da localidade B.
Variabilidade
Varia de 0 a 5
(amplitude = 5)
A variabilidade é maior entre as famílias da localidade A.
Varia de 0 a 3
(amplitude = 3)
Tendência central e
variabilidade da
%Gordura Inicial são
similares entre mulheres e homens
Forma
Assimétrica
c/ concentração
à esquerda
Simétrica
Assimétrica
c/ concentração
à direita
Assimétrica
c/ concentração
à esquerda
Assimétrica
c/ concentração
à direita
Simétrica
Sintese Numérica da Distribuição da Variável Quantitativa
Estatísticas
Descritivas
Tendência Central
(valor típico)
Variabilidade
(dispersão)
Posição Geral
Me: Média (total/n)
Md: Mediana (50% abaixo)
Mo: Moda (mais frequente)
AT: Amplitude Total (Max-Min)
DP: Desvio-padrão (“distância média”)
CV: Coeficiente de Variação (dp/media)
AQ: Amplitude Interquartílica (Q3-Q1)
Min: Mínimo
Max: Máximo
Q1: Primeiro Quartil (25% abaixo)
Q3: Terceiro Quartil (75% abaixo)
Pk: Percentil Ordem K (k% abaixo)
Medidas de Tendência Central
Se todas as seis pessoas
tivessem o mesmo peso,
qual deveria ser este valor
para não exceder a carga
máxima permitida ?
Média Aritmética
O peso médio deve ser de 70 Kg.
Medidas de Tendência Central
Qual é o valor de peso que
separa a metade mais leve
da metade mais pesada no
elevador?
Mediana
4098
70
60
7555
40 55 60 70 75 98
O peso mediano é 65 Kg
Média = 66
98
5560
55
75
Medidas de Tendência Central
Qual é peso mais frequente
dentre os ocupantes do
elevador?
Moda
40
A moda de peso é 55 Kg
Média = 68.8 e Mediana = 57.5
Soma de todas as observações da amostra
tamanho da amostra
Média Aritmética Simples
Alguma Notação
n número de indivíduos no conjunto de dados
ixvalor da i-ésima observação do conjunto de dados,
i = 1, 2, 3,..., n
ixsoma de todas as observações da amostra
(a letra grega é o símbolo que indica soma).
Xé o símbolo usado para representar a média aritmética
simples.
X n
xi
Média Aritmética Simples
22.83.8
6X
No conjunto de dados ( 3 ; 4.5 ; 5.5 ; 2.5 ; 1.3 ; 6 ),
temos n = 6,
x1 = 3 x2 = 4.5 x3 = 5.5 x4 = 2.5 x5 = 1.3 x6 = 6
ix = 3 + 4.5 + 5.5 + 2.5 + 1.3 + 6 = 22.8 e
Identifica qual seria contribuição típica de cada elemento
do conjunto de dados se todos contribuíssem igualmente.
Mediana
Valor que divide o conjunto de dados ordenados em duas
partes com o mesmo número de observações.
n é par
n é ímpar
Dados ( 3 ; 4.5 ; 5.5 ; 2.5 ; 1.3 ; 6 ).
Ordenando os valores
(1.3 ; 2.5 ; 3 ; 4.5 ; 5.5 ; 6)
Os valores do meio são 3 e 4.5.
A mediana é (3 + 4.5)/2 = 3.75.
Dados ( 2 ; 3.3 ; 2.5 ; 5.6 ; 5 ; 4.3 ; 3.2 ).
Ordenando os valores
(2 ; 2.5 ; 3.2 ; 3.3 ; 4.3 ; 5 ; 5.6).
O valor do meio é o 3.3 .
A mediana é o valor 3.3.
Existe um
só “valor do
meio”
Existem
dois
“valores do
meio”
Moda
Valor mais frequente do
conjunto de dados
Conjunto de dados unimodal
0,8
1,3
1,8
1 2 3 4 5
0,8
1,3
1,8
1 2 3 4 5 6 7 8 9
Conjunto de dados bimodal
11,11,21,31,41,51,61,71,81,9
1 2 3 4 5 6 7 8 9
Conjunto de dados amodal
Média versus Mediana
A Média Aritmética é muito influenciada pela
presença de valores extremos no conjunto de dados
A Mediana é mais robusta à presença destes valores
discrepantes
Exemplo: conjunto de dados (2 , 2.25 , 3.5 , 3.75 , 4 , 9).
A média é 4.08 e a mediana é 3.63 .
Sem o valor 9, a média é 3.10 e a mediana é 3.5 .
Média versus Mediana
Situação I: dados completos:
Média = 24.6 SM
Mediana = 4 SM
Representação gráfica do salário dos funcionários de uma
empresa (em salários-mínimos) [Reis e Reis, 2001]
Situação II: sem os quatro valores mais
altos:
Média = 9.8 SM
Mediana = 3 SM
Moda versus Mediana e Média
Exemplo: Considere uma pesquisa de opinião na qual foi perguntado a
26 pessoas de baixa renda:
“Incluindo crianças e adultos, que tamanho de família você acha ideal?”
Tamanho ideal da família 1 2 3 4 5 6 7 8 9 10
Freqüência da resposta 1 2 6 2 1 2 3 6 2 1
Média = Mediana = 6 pessoas
Modas = 3 e 8 pessoas[Reis e Reis, 2001]
10
Forma da distribuição de frequências e as posições relativas das medidas de tendência central.
Simétrica
Assimétrica com
concentração à
esquerda
Assimétrica com
concentração à
direita
moda = mediana = média
moda < mediana < média
moda > mediana > média
Medidas de Variabilidade
Identificar o elemento típico (tendência central) de um
conjunto de dados não é suficiente para caracterizá-lo.
Dois conjuntos de dados podem ter a mesma tendência
central, mas serem diferentes um do outro.
É necessário quantificar a dispersão em torno do
elemento típico, ou seja, quantificar a variabilidade de um
conjunto de dados.
O experimento das balanças:
duas balanças pesam repetidamente uma esfera de 1000 gramas
Balança A
Balança B
1000 11001050950900Peso (em gramas) [Reis e Reis, 2001]
Como quantificar as diferenças entre as medições das duas balanças?
Alternativa: diferença entre o valor máximo e o
mínimo das medições.
Balança A: 1040g – 945g = 95g
Balança B: 1095g – 895g = 200g.
AT = Máximo – Mínimo
Amplitude Total
A Amplitude Total é uma medida simples de variabilidade, porém é muito grosseira.
Só considera os extremos do conjunto de dados.
AT1 = 100 – 2 = 98
AT2 = 100 – 2 = 98
Precisamos de uma medida de dispersão que considere todos os elementos do conjunto de dados.
Idéia: Calcular a distância de cada valor do conjunto de
dados até o elemento típico desse conjunto.
( )ix x Medida de distância mais simples entre dois valores
1
( )n
i
i
x x
n
Distância “típica” de cada elemento até a média
Soma
Média 40/10 = 4
Coluna 1 Coluna 2 Coluna 3
Xi
1
1.5
2
3.5
4
4
4.5
6
6.5
7
40
Problema: é sempre zero
Soma
Média 40/10 = 4 0/10 = 0
1
( )n
i
i
x x
Coluna 1 Coluna 2 Coluna 3
Xi
1 -3
1.5 -2.5
2 -2
3.5 -0.5
4 0
4 0
4.5 0.5
6 2
6.5 2.5
7 3
40 0
( )ix xSolução: eliminar
o sinal dos
desvios
negativos
Como: elevando
todos os desvios
ao quadrado
Soma
Média 40/10 = 4 0/10 = 0 39/9 = 4.3
Coluna 1 Coluna 2 Coluna 3
Xi
1 -3 9
1.5 -2.5 6.25
2 -2 4
3.5 -0.5 0.25
4 0 0
4 0 0
4.5 0.5 0.25
6 2 4
6.5 2.5 6.25
7 3 9
40 0 39
2
1
( )
1
n
i
i
x x
n
Nova medida de dispersão
variância
( )ix x2( )ix x
Problema:
é uma média de desvios ao quadrado
Unidade de medida foi alterada
Solução: voltar às unidades originais usando a
operação inversa raiz quadrada
2
1
( )
1
n
i
i
x x
n
Desvio-Padrão
cm cm2
pessoas pessoas2 (!!)
toneladas toneladas2 (!!)
O Desvio-Padrão representa o desvio típico dos elementos do conjunto de dados até seu centro (a média)
O Desvio-Padrão (s) será usado como “padrão de desvio”
No exemplo anterior:
(1.0 , 1.5 , 2.0 , 3.5 , 4.0 , 4.0 , 4.5 , 6.0 , 6.5 , 7.0)
Média = 4.0
Desvio-Padrão:39
4.3 2.110 1
s
s = 0 s = 0.2
s = 1.0 s = 1.5
s = 2.1 s = 2.7
s = 1.5
s = 1.9
Mesmo valor da Amplitude Total, mas variabilidades
diferentes:
O desvio-padrão serve para quantificar variabilidade
de um conjunto de dados:
Quanto maior a variabilidade dos valores,
maior será o desvio-padrão.
Para que serve o Desvio-Padrão?
Mas… um desvio-padrão igual a 10
é grande ou pequeno ?
s=10 significa muita dispersão se X=100
s=10 significa pouca dispersão se X=1000
100.1 (10%)
100
100.01 (1%)
1000
Para termos idéia da magnitude do valor do desvio-
padrão, é necessário verificar o quanto ele ocupa da
escala de medida, representada pela média...
Coeficiente de Variação (CV)
O Coeficiente de Variação não tem unidade de medida.
Podemos usar o CV para comparar a variabilidade
(dispersão) de grupos diferentes e até de variáveis
diferentes.
Comparando a homogeneidade de
grupos e variáveis diferentes
Duhn, 2001
Nunca descreva a variável usando
apenas as medidas síntese.
Sempre faça o gráfico!
Grupo Média DP AT
A 10.3 3.5 14.3
B 10.3 3.7 14.3
Grupo Média DP AT Median
A 10.3 3.5 14.3 9.3
B 10.3 3.7 14.3 11.4
Grupo Mínimo Máximo
A 5.9 20.2
B 0.8 15.0
Grupo Média DP AT Median
A 10.3 3.5 14.3 9.3
B 10.3 3.7 14.3 11.4
- Então, qual foi sua posição final na corrida? - Fiquei em 3o lugar!
- Puxa... Quantos estavam correndo? - Três”.
Percentis
Escores
Padronizados
Medidas
de
Posição
Postos
Posiciona um valor dentro
do grupo indicando
“quantos %” são menores
ou iguais a ele.Entre os 10% menores tempos
Posiciona um valor em
relação à média do grupo,
levando em conta a
variação (DP) das medidas
no grupo.Tempo a 1 DP abaixo da média
Indica a posição de um
valor dentro do grupo pela
ordem dos valores
ordenados.9o lugar (de quantos?)
Exemplo: tempos de corrida (minutos) de 20 participantes
Percentis
O percentil de ordem K, denotado por Pk,
é o valor da variável tal que
K% dos valores são menores ou iguais a ele.
Exemplo: tempo de corrida:
P10 = 22 min. 10% dos corredores fizeram 22 min. ou menos
P90 = 56 min. 90% dos corredores fizeram 56 min. ou menos
Paula ficou em 9o lugar dentre os 20 corredores o tempo dela = P45
Rosa ficou em 18o lugar dentre os 20 corredores o tempo dela = P90
O tempo de Érica foi o P55 e o tempo de Carla foi o P70:
Érica se saiu melhor (fez menor tempo) que Carla
Os percentis de ordem 10, 20, 30, ... 90 são chamados decis
pois dividem o conjunto de dados em dez partes com
mesmo número de observações (10%).
1o decil (D1), 2o decil (D2), 3o decil (D3), …. , 9o decil (D9).
Os percentis de ordem 25, 50 e 75 são chamados de quartis
Pois dividem o conjunto de dados em quatro partes com o
mesmo número de observações (1/4):
Primeiro Quartil (Q1)
Segundo Quartil (Q2) = Mediana
Terceiro Quartil (Q3).
Determinação do Percentil de ordem K (Triola, 1996).
Ordene os dados,
do menor para o maior.
Calcule L=(k/100)n,
k: ordem do percentil
n: numero de valores
L é
inteiro?
Arredonde L para o maior
inteiro mais próximo.
O valor de Pk é o L-ésimo
valor a contar do menor.
O valor de Pk é a média
entre L-ésimo e o
(L+1)ésimo valores
a contar do menor.
Não Sim
Ordene os dados,
do menor para o maior.
Calcule L=(k/100)n,
k: ordem do percentil
n: numero de valores
L é
inteiro?
Arredonde L para o maior
inteiro mais próximo.
O valor de Pk é o L-ésimo
valor a contar do menor.
O valor de Pk é a média
entre L-ésimo e o
(L+1)ésimo valores
a contar do menor.
Não Sim
Ordene os dados,
do menor para o maior.
Calcule L=(k/100)n,
k: ordem do percentil
n: numero de valores
L é
inteiro?
Arredonde L para o maior
inteiro mais próximo.
O valor de Pk é o L-ésimo
valor a contar do menor.
O valor de Pk é a média
entre L-ésimo e o
(L+1)ésimo valores
a contar do menor.
Não Sim
Ordene os dados,
do menor para o maior.
Calcule L=(k/100)n,
k: ordem do percentil
n: numero de valores
L é
inteiro?
Arredonde L para o maior
inteiro mais próximo.
O valor de Pk é o L-ésimo
valor a contar do menor.
O valor de Pk é a média
entre L-ésimo e o
(L+1)ésimo valores
a contar do menor.
Não Sim
Ordene os dados,
do menor para o maior.
Calcule L=(k/100)n,
k: ordem do percentil
n: numero de valores
L é
inteiro?
Arredonde L para o maior
inteiro mais próximo.
O valor de Pk é o L-ésimo
valor a contar do menor.
O valor de Pk é a média
entre L-ésimo e o
(L+1)ésimo valores
a contar do menor.
Não Sim
n = 120
k = 75
L = (75/100) x 120 = 90
P75 é a média dos
Valores 90o e 91o
nos dados ordenados
P25 é o 14o valor
nos dados
ordenados
n = 55
k = 25
L = (25/100) x 55 = 13.75
Exemplo 1: Quantidade de sódio (mg/100g) de 16 marcas
de barra de chocolate. [Duhn, 2001]
P10: 10% de 16 = 1.6 (Arredonda para cima: 2o valor) P10 = 75 mg/100g.
10% das barras de chocolate contém até 75 mg de sódio por
100g
P25: 25% de 16= 4. P25 = média(4o e 5o valores)=(93+110)/2 = 101.5 mg/100g
25% das barras de chocolate contém até 101.5 mg de sódio por
100g
P92: 92% de 16 = 14.7 (Arredonda para cima: 15o valor) P92 = 220 mg/100g
Primeiro Quartil: P25.
Q1 = 101.5 mg/100g
Terceiro Quartil: 75% de 16 = 12.
Q3 = média(12o e 13o valores)=(160+190)/2 = 175 mg/100g
40 75 90 93 110 110 115 116
130 148 160 160 190 220 220 250
Uso dos Percentis: Faixas de Referência
Uma Faixa de Referência para uma característica é
um intervalo de valores dentro dos quais a
característica é considerada normal (ou dentro dos
padrões aceitáveis).
Exemplo: uma Faixa de Referência de 94% para o peso de
crianças de 9 anos e meio vai de 22 kg a 50 kg.
Ou seja, 94% das crianças “normais” pesam entre 22 e 50
kg.
Uma Faixa de Referência está sempre associada a um
percentual, que determina qual a percentagem da
população de valores considerados normais está dentro
da faixa.
Exemplos:
• uma Faixa de Referência de 80% engloba 80% dos
valores considerados normais (ou dentro dos padrões)
• uma Faixa de Referência de 94% engloba 94% dos
valores considerados normais (ou dentro dos padrões)
É formada por dois percentis simétricos.
Exemplos:
FR(80%) = [P10 ; P90]
FR(94%) = [P3 ; P97]
Uma criança é 2.0 cm mais alta e 1,5 Kg mais magra
do que a média das crianças da sua idade.
Esta criança está “mais afastada” das crianças de sua idade
na altura ou no peso?
Escores Padronizados
Tornando possíveis comparações entre variáveis diferentes
Problema Inicial: Os 20 alunos da oitava série de uma
escola foram submetidos a cinco testes de aptidão
física e a um teste de conhecimento desportivo:
1. Abdominal: número de abdominais realizados em 2 minutos;
2. Salto em extensão: comprimento do salto (centímetros);
3. Suspensão de braços flexionados: tempo em suspensão (segundos);
4. Corrida: distância (em metros) percorrida em 12 minutos ;
5. Natação: tempo (em segundos) para nadar 50 metros;
6. Conhecimento desportivo: prova escrita (0 a 100 pontos).
Questão no1: Em um dado teste, qual foi o aluno de
melhor desempenho ? E de pior desempenho?
[Reis e Reis, 2001]
Aluno Abdominal Salto Suspensão Corrida Natação Conhecimento
Pedro 34 108 64 1989 34 64
João 30 88 33 1461 32 82
Manuel 27 87 23 1333 27 66
Maria 25 94 12 1858 29 78
Vinícius 26 102 10 1986 30 68
Luiza 27 80 16 1267 32 84
Marina 28 90 20 1743 33 76
Camila 28 92 27 1833 31 71
Guido 29 71 30 1255 29 72
Bárbara 29 88 36 1503 35 75
Luiz 30 89 42 1600 28 77
Gabriela 30 90 39 1747 31 76
Antônio 30 98 45 1930 33 74
Daniele 31 84 48 1276 30 73
Marcelo 31 91 51 1716 25 81
Rodrigo 32 70 57 1054 27 69
Luciana 32 89 54 1535 28 74
Rafael 33 74 60 1084 30 86
Flávia 33 106 67 1968 26 79
Ana 35 69 67 1019 30 75
Questão no2: Para um dado aluno, em qual teste
onde ele se saiu melhor (ou pior) em relação à
turma ?
Teste Média da turma
Abdominais em 2 minutos 30 abdominais
Salto em extensão 88 centímetros
Suspensão de braços flexionados 40 segundos
Corrida em 12 minutos 1558 metros
Natação de 50 metros 30 segundos
Conhecimento desportivo 75 pontos
Para Pedro :
Mas, saltar 20 cm acima da média do
grupo é bom ou muito bom?
[Reis e Reis, 2001]
Pedro:
Levando em conta a variabilidade
das medidas do grupo
Teste Média Desvio-Padrão
Abdominais em 2 minutos 30 abdominais 3 Abdominais
Salto em extensão 88 centímetros 11 Centímetros
Suspensão de braços flexionados 40 segundos 18 Segundos
Corrida em 12 minutos 1558 metros 327 Metros
Natação de 50 metros 30 segundos 3 Segundos
Conhecimento desportivo 75 pontos 6 Pontos
O Escore Padronizado
ãoDesvioPadr
MédiainalEscoreOrigonizadoEscorePadr
O escore padronizado mede a distância do
escore original à média em número de desvios-
padrão.
Aluno Abdominal Salto Suspensão Corrida Natação Conhecimento
Pedro 1,33 1,82 1,33 1,32 1,33 -1,83
João 0,00 0,00 -0,39 -0,30 0,67 1,17
Manuel -1,00 -0,09 -0,94 -0,69 -1,00 -1,50
Maria -1,67 0,55 -1,56 0,92 -0,33 0,50
Vinícius -1,33 1,27 -1,67 1,31 0,00 -1,17
Luiza -1,00 -0,73 -1,33 -0,89 0,67 1,50
Marina -0,67 0,18 -1,11 0,57 1,00 0,17
Camila -0,67 0,36 -0,72 0,84 0,33 -0,67
Guido -0,33 -1,55 -0,56 -0,93 -0,33 -0,50
Bárbara -0,33 0,00 -0,22 -0,17 1,67 0,00
Luiz 0,00 0,09 0,11 0,13 -0,67 0,33
Gabriela 0,00 0,18 -0,06 0,58 0,33 0,17
Antônio 0,00 0,91 0,28 1,14 1,00 -0,17
Daniele 0,33 -0,36 0,44 -0,86 0,00 -0,33
Marcelo 0,33 0,27 0,61 0,48 -1,67 1,00
Rodrigo 0,67 -1,64 0,94 -1,54 -1,00 -1,00
Luciana 0,67 0,09 0,78 -0,07 -0,67 -0,17
Rafael 1,00 -1,27 1,11 -1,45 0,00 1,83
Flávia 1,00 1,64 1,50 1,25 -1,33 0,67
Ana 1,67 -1,73 1,50 -1,65 0,00 0,00
escala
de v
alo
res d
a v
ari
ável
DQ = Q3 – Q1
Comprimento máximo:
1.5(DQ)
Identificando outliers: o
BoxplotOutliers
Exemplo 1: Energia (Kj/100g) de 16 marcas de barras de chocolate.
Q1: 25% de 16 = 4. Q1= (1920 + 1930)/2 = 1925
Q2: 50% de 16 = 8. Q2= (1980 + 1980)/2 = 1980
Q3: 75% de 16 = 12. Q3= (2060 + 2180)/2 = 2120
DQ = Q3 – Q1 = 2120 – 1925 = 195 1.5DQ = 1.5 x 195 = 292.5
Linha inferior: Q1 – 1.5DQ = 1925 – 292.5 = 1632.5 (> Min = 1620) outliers
Linha superior: Q3 + 1.5DQ = 2120 + 292.5 = 2412.5 (> Max = 2250)
Min = 1620
Max = 2250
Exemplo 2: Sódio (mg/g) de 16 marcas de barras de chocolate
Q1: 25% de 16 = 4 Q1=(90+110)/2 = 100
Q2= 50% de 16 = 8 Q2=(120+130)/2 = 125
Q3= 75% de 16 = 12 Q3=(160+190)/2 = 175
DQ = Q3 – Q1 = 175 – 100 = 75
1.5 x DQ = 1.5 x 75 = 112.5
Q1 – 1.5DQ = 100 – 112.5 = -12.5 (Min = 40)
Q3 + 1.5DQ = 175 + 112.5 = 287.5 (Max = 250)
O boxplot e a forma da distribuição de frequências
Assimétrica (concentração à esquerda
Assimétrica (concentração à
direitaSimétrica
Série de Boxplots: comparando vários grupos no mesmo gráfico.
Exemplo: pesquisa de opinião com 26 pessoas de baixa renda:
“Incluindo crianças e adultos, que tamanho de família você acha
ideal?”
10
Boxplot: não é adequado para distribuições com mais de uma moda.