View
212
Download
0
Embed Size (px)
3. ANLISE DESCRITIVA DE DADOS
3.1. Conceitos:
Parmetro Populacional: normalmente denotado por , uma
caracterstica populacional de interesse, que pode ser expressa
atravs de uma quantidade numrica. Normalmente desconhecido
e fixo.
Estatstica: uma medida numrica, que descreve uma
caracterstica da amostra.
A Estatstica uma funo da amostra: S = f(X1, X2, . . . , Xn)
X1, X2, . . . , Xn representam as n observaes da amostra
Exemplos de estatsticas mdia amostral:
n
XX
n
ii
1
varincia amostral:
1
1
2
2
n
XX
s
n
ii
min = valor mnimo da amostra
denotado por X(1)
max = valor mximo da amostra
denotado por X(n)
PARMETROS E ESTATSTICAS
Nome ESTATSTICA
(Amostra)
PARMETRO
(Populao)
Mdia X Varincia s
2
2
Correlao rX,Y X,Y Proporo p p
Varivel: caracterstica desconhecida, que pode variar de um indivduo para outro da populao e que, ao ser observada ou
mensurada, gera uma nica resposta.
Tipos de variveis:
a) Variveis qualitativas: variveis cujos possveis resultados so atributos ou qualidades. So NO NUMRICAS.
Podem ser classificadas em:
i) ORDINAIS, quando obedecem a uma ordem natural ou ii) NOMINAIS, quando no obedecem nenhuma ordem.
b) Variveis quantitativas: variveis cujos possveis resultados so valores numricos resultantes de mensurao ou contagem.
Podem ser classificadas em:
i) DISCRETAS, quando assumem valores inteiros, ou ii) CONTNUAS, quando assumem valores reais.
3.2. Representao de variveis quantitativas em tabelas e
grficos
O grfico de pontos a primeira representao da amostra,
fornecendo um aspecto visual da concentrao e distribuio dos
pontos na nossa escala de medidas.
No exemplo abaixo, percebemos o conjunto de dados
concentrado na primeira metade da escala, com uma grande
concentrao entre os valores 2,5 e 7,5, e uma disperso mais
acentuada no lado superior (direito) da distribuio, com valores
chegando a 17,5. Esta disperso indica uma forte assimetria na
cauda superior da distribuio (assimetria direita).
Figura 1: Grfico de pontos.
Uma forma prtica de representao grfica para dados
quantitativos (em especial dados contnuos) dada pelo
histograma, no qual, representamos as frequncias de uma tabela por barras adjacentes em intervalos de classes.
Tabela 1: Tabela de frequncias com k = 7 classes:
Classe (Xi) ni fi
0,0 |--- 2,5 34 0,136
2.5 |--- 5,0 74 0,296
5,0 |--- 7,5 86 0,344
7,5 |--- 10,0 30 0,120
10,0 |--- 12,5 16 0,064
12,5 |--- 15,0 5 0,020
15,0 |--- 17,5 5 0,020
Total 250 1,000
Figura 2: Histograma sobre o grfico de pontos.
O Polgono de Frequncias
Marcando o ponto mdio de cada retngulo do histograma na sua
na parte superior e ligando esses pontos, teremos uma figura que
chamaremos de Polgono de Frequncias (Figura 3).
Figura 3: Polgono de frequncias.
As linhas retas que compem o polgono de frequncias so
uma aproximao rudimentar para uma curva que representa uma
Distribuio de Frequncias. Essa distribuio descrita por uma
funo f(x), contnua e diferencivel, definida num intervalo dos
reais, a qual ser denotada por funo distribuio de
probabilidades ou fdp (Figura 4).
Figura 4: Funo de distribuio de probabilidades sobre o histograma.
3.2.1. Tabelas de frequncias de variveis quantitativas
Para a representao de dados quantitativos em tabelas utiliza-se a
mesma notao usada para dados qualitativos, porm, nesse caso os
dados so agrupados em intervalos de classes:
n = tamanho da amostra ou frequncia absoluta total;
k = nmero de classes;
ni = frequncia absoluta da i-sima classe, i = 1, 2, ..., k;
nnk
ii
1
fi = frequncia relativa da i-sima classe, i = 1, 2, ..., k;
n
nf ii , tal que: 1
11
k
i
ik
ii
n
nf
Representao das frequncias das categorias da varivel
qualitativa numa tabela com as frequncias absolutas e relativas.
Classes Freq. absolutas Freq. relativas
Classe 1 n1 f1 = n1 / n
Classe i ni fi = ni / n
Classe k nk fk = nk / n
Totais n 1
Um fato importante agora a determinao do nmero de classes
k, que deve ser feita levando-se em conta a quantidade total de informao ou frequncia absoluta n.
i) Regras para o nmero de classes k
Diversos autores indicam regras diferentes para a determinao
do nmero de classes para uma distribuio de frequncias e,
consequentemente, o histograma. Na tabela abaixo, so
apresentados as principais regras encontradas na literatura que
levem em conta apenas o tamanho da amostra n.
Tabela 2: Regras para o nmero de classes de uma distribuio
de frequncias.
Regra Propriedades
Raiz quadrada de n
nk
Apropriado como valor inicial, fornece
valores baixos para n pequeno (n < 50).
Pode ser indicado para valores de n entre
80 e 120.
Raiz quadrada de 2n
nk 2
Apropriado para valores baixos de n,
cresce muito rpido para valores
moderados (n > 50).
No indicado para n > 80.
Regra do Logaritmo natural
nk ln3
Muito parecido com o mtodo de Sturges,
fornece valores ligeiramente maiores para
n pequeno, porm a situao se inverte
para n >120.
Indicado para valores elevados de n.
Sturges
nk 10log32.31
O mtodo mais consagrado fornece valores
baixos para n pequeno, e cresce muito
devagar.
Indicado para valores elevados de n.
De maneira geral, indicado bom senso na determinao do
nmero de classes de um histograma.
O nmero de classes deve ser moderado.
Como h um agrupamento de valores nas classes, h perda de informao.
Se o nmero de classes for muito grande ocorre uma perda menor de informao, mas a eficincia do resumo fica
prejudicada;
Um nmero muito pequeno de classes resume demais e ocorre perda excessiva de informao.
Tabela 3: Nmero indicado de classes num histograma.
n classes
at 50 5 a 10
50 a 100 8 a 16
100 a 200 10 a 20
200 a 300 12 a 24
300 a 500 15 a 30
500 ou mais 20 a 40 Fonte: Sistema Galileu, ESALQ/USP
3.2.2. Histograma para dados Contnuos
Exemplo 1: Altura (em metros) dos alunos da turma B de
Bioestatstica no primeiro semestre de 2015.
X = altura dos alunos (em metros).
1,62 1,60 1,60 1,65 1,60 1,73 1,78 1,72 1,62 1,58 1,65
1,81 1,62 1,63 1,67 1,65 1,80 1,75 1,80 1,70 1,65 1,80
1,76 1,60 1,57 1,65 1,70 1,73 1,75 1,65 1,70 1,66 1,74
1,51 1,63 1,55 1,58 1,56 1,80 1,75 1,67 1,58 1,77
Dados ordenados 1,51 1,55 1,56 1,57 1,58 1,58 1,58 1,60 1,60 1,60 1,60
1,62 1,62 1,62 1,63 1,63 1,65 1,65 1,65 1,65 1,65 1,65
1,66 1,67 1,67 1,70 1,70 1,70 1,72 1,73 1,73 1,74 1,75
1,75 1,75 1,76 1,77 1,78 1,80 1,80 1,80 1,80 1,81
Construindo a tabela de frequncias:
a) Nmero de classes (frmula de Sturges):
k = 1 + 3,32log10(n)
k = 1 + 3,32log10(43) = 6,43 = 7 classes (6 ou 7)
b) Amplitude da classe:
A = 1,51 1,81 = 0,30 0428,07
30,0h
Podemos arredondar h para 0,043 ou para um valor mais
apropriado, no caso 0,05.
c) Tabela de frequncias:
Classe (m) ni fi Fac 1,50 [--- 1,55 1 0,0233 1
1,55 [--- 1,60 6 0,1395 7
1,60 [--- 1,65 9 0,2093 16
1,65 [--- 1,70 9 0,2093 25
1,70 [--- 1,75 7 0,1628 32
1,75 [--- 1,80 6 0,1395 38
1,80 [--- 1,85 5 0,1163 43
Total 43 1,0000 -
Figura 5: Histograma feito no Excel
Histograma feito no R.
Comandos do R para histograma:
# inserindo os dados
altura
# definindo os intervalos para o histograma
# 1. Caso:
h1
Exemplo 2: Medidas do pH em precipitao pluviomtrica durante
o perodo de 20/12/1973 a 23/05/1974 no nordeste dos Estados
Unidos.
X = medida do pH em amostras de chuva.
Dados ordenados 4,12 4,12 4,26 4,26 4,29 4,30 4,31 4,39 4,39 4,40
4,41 4,45 4,52 4,56 4,57 4,60 4,63 4,64 4,73 4,82
5,08 5,29 5,51 5,62 5,67 5,78
a) Nmero de classes (frmula de Sturges):
k = 1 + 3,322log10(26) = 5,70 = 6 classes (5 ou 6)
b) Amplitude da classe:
A = 5,78 4,12 = 1,66 28,06
66,1h
c) Tabela de frequncias:
Classe - pH ni fi Fac
4,12 [--- 4,40 9 0,346 0,346
4,40 [--- 4,68 9 0,346 0,692
4,68 [--- 4,96 2 0,077 0,769
4,96 [--- 5,24 1 0,038 0,807
5,24 [--- 5,52 2 0,077 0,884
5,52 [--- 5,80 3 0,115 0,999
Total 26 0,999 * -
* o valor 0.999 ocorreu devido ao arredondamento na preciso considerada (3 casas).
5.805.525.244.964.684.404.12
9
8
7
6
5
4
3
2
1
0
pH
Fre
qu
en
cia
Histograma do pH da chuva
Comandos do R para histograma:
# i