BC-0005Bases Computacionais da
Ciência
2009
Aula 08Noções de Estatística
Média, desvio padrão, erro padrãoExercicíos – utilização da base de dados da turma
Roteiro da Aula PARTE I – Noções de Estatística
O que é Estatística Descritiva e Estatística Inferencial Medidas de Tendência Central Medidas de Dispersão
PARTE II –Exercícios Determinação da altura média, peso médio Gráficos
idade X altura; idade x peso Histograma de times
Idade Altura Peso Taxa Pulsação
Pressão Sistólica
Pressão diastólica
Colesterol IMC
(anos) (m) (Kg) bat/min mmHg mmHg mg
58 1,8 76,1 68 125 78 522 23,522 1,68 64,9 64 107 54 127 2332 1,82 80,7 88 126 81 740 24,331 1,74 79,1 72 110 68 49 2628 1,72 68,7 64 110 66 230 23,346 1,76 75,1 72 107 83 316 24,341 1,69 60,8 60 113 71 590 21,356 1,71 90,7 88 126 72 466 31,120 1,73 78,8 76 137 85 121 26,254 1,67 62,6 60 110 71 578 22,517 1,6 70,3 96 109 65 78 27,573 1,73 84 72 153 87 265 27,952 1,86 86 56 112 77 250 24,925 1,72 68,1 64 119 81 265 23,129 1,73 94,2 60 113 82 273 31,617 1,8 106,7 64 125 76 272 32,841 1,56 79,5 84 131 80 972 32,852 1,94 99,3 76 121 75 75 26,532 1,68 74,7 84 132 81 138 26,420 1,77 61,8 88 112 44 139 19,720 1,66 73,9 72 121 65 638 26,829 1,78 73,1 56 116 64 613 23,1
Estatística Quais são a altura, peso
e IMC médios desta amostra?
Qual a altura média da turma?
Qual a taxa de aprovação no vestibular de uma determinada escola?
Qual a maior torcida presente nesta sala?
A Estastística é capaz de responder com maior exatidão essas questões
Estatística Descritiva apresentação, organização e resumo dos dados Pode incluir a construção de gráficos, tabelas e computação de várias medidas, tais como, medidas de
tendência central (média, mediana, moda), medidas de dispersão (amplitude, desvio médio, variância, desvio padrão), percentagem e outras
O propósito desta estatística é fazer com que os dados coletados sejam compreendidos mais facilmente
Estatística Inferencial generalização de uma amostra de dados para um grande número de sujeitos
métodos estatísticos são usados para tirar conclusões, fazer estimativas, predições e generalizações sobre todo um conjunto de dados, estudando apenas parte dele, ou seja, a estatística inferencial nos permite usar informações de pequenos grupos para fazer inferências sobre grandes grupos dos quais os dados foram retirados
Medidas de Tendência Central Valor médio ou típico de um conjunto
de dados Média Aritmética ou Média: utilizada
para dados quantitativos Mediana: utilizada para dados ordinais Moda: utilizada também para dados
nominais (variáveis qualitativas)
Média Aritmética É o centro de gravidade dos dados
Soma de um conjunto de valores dividida pelo número de dados do conjunto :
N
XX
N
ii∑
== 1
N
iX é o número total de valores do conjunto
é um valor do conjunto
Alunos Notas
1 3,0
2 5,0
3 6,0
4 4,0
5 5,0
6 8,0
7 9,0
8 6,0
9 2,0
10 5,0
Total 53
Média 5,3
Função no Excel ou BrOffice: MÉDIA
2 3 4
5
6
8 90 1
Mediana: valor central do conjunto que divide a
distribuição em duas partes iguais (mesmo número de dados abaixo e acima do valor)
Os dados devem estar ordenados Notação: Mediana = Posição da mediana =>
No caso de um número par de sujeitos a mediana será a média entre os dois valores centrais.
Dadas as alturas: 62 54 82 49 75 64 Ordene: 49 54 62 64 75 82 Med = 62+64 = 63
2
Notas Freqüência Simples
Freqüência Acumulada
2 1 1
3 1 2
4 1 3
5 3 6
6 2 8
7 1 9
8 1 10
9 1 11
iX
21+= Ni
Função no Excel ou BrOffice: MED
i= 11 + 1 = 6 Posição 6 Nota 5
2
Moda é a categoria que ocorre com
maior frequência A moda pode não existir OU pode
não ser única Exemplos:
1,1,3,3,5,7,7,7,11,13 moda 7 3,5,8,11,13,18 não tem moda 3,5,5,5,6,6,7,7,7,11,12 tem duas modas: 5,7 (bimodal)
Notas Freq.
2 1
3 1
4 1
5 3
6 2
7 1
8 1
9 1
Notas Freq.
2 1
3 3
4 1
5 1
7 3
8 1
9 1
01234
2 3 4 5 6 7 8 9
Frequência
Nota
Distribuição Unimodal
01234
2 3 4 5 7 8 9
Frequência
Nota
Distribuição Bimodal
Função no Excel ou BrOffice: MODO
Características das medidas de tendência central
Abaixo de 100100
300500
700900
10003000
5000acima de 5000
0
20000
40000
60000
80000
100000
120000
140000
160000
Renda Média Mensal (R$)
Freq
uênc
ia
MédiaMediana
Moda
Média influência de cada amostra depende de seu valor (os valores extremos influenciam fortemente)
Mediana influência de cada amostra depende de sua posição (valor central)
Moda influência de cada amostra depende de sua frequência (valor com mais ocorrência)
Mediana e Moda são menos influenciadas por valores extremos
Fonte: Censo Demográfico IBGE 2000
Distribuição de Renda na Califórnia e nos EUA
Medidas de Dispersão ou Variabilidade: quanto os dados numéricos dispersam-se em torno de um valor
médio Variância: Soma dos quadrados dos desvios, onde desvio é a
diferença entre cada dado e a média do conjunto.
Dados )(X
Desvios )( XX −
Quadrados dos Desvios 2)( XX −
0 -5 25 4 -1 1 6 1 1 8 3 9 7 2 4
5=X ∑ =− 0)( XX ∑ =− 40)( 2XX
Função no Excel ou BrOffice: VAR2
2 ( )40 / 4 10
1x X
sN
−= = =
−∑
Medidas de Dispersão ou Variabilidade: Desvio Padrão reflete o quanto os dados se
dispersam da média È a raiz quadrada da variância
Função no Excel ou BrOffice: DESVPAD
2( )10 3,16
1x X
sN
−= = =
−∑
Erro Padrão da Média - EPMAlunos Notas
1 3,0
2 5,0
3 6,0
4 4,0
5 5,0
6 8,0
7 9,0
8 6,0
9 2,0
10 5,0
Total 53
Média 5,3
DVP 2,11
EPM 0,7
Quando se obtém uma amostra aleatória de tamanho n, estima-se a média populacional. É bastante intuitivo supor que se uma nova amostra aleatória for realizada a estimativa obtida será diferente daquela primeira. Desta forma, reconhece-se que as médias amostrais estão sujeitas à variação e formam populações de médias amostrais, quando todas as possíveis amostras são retiradas de uma população.
O erro padrão analisa a variabilidade de uma média
Quanto maior o número de dados, menor o erro padrão da média
1−=
Ns
Xσ
Erro Padrão da Média - EPM
1−=
Ns
Xσ
Não existe uma Função direta no Excel ou BrOffice para cálculo do EPM
Portanto, calcula-se a partir do desvio padrão
EPM = s/ RAIZ (CONT.NÚM-1)Alunos Turma A Turma B
1 5 8
2 5 9
3 5 7
4 5 7
5 5 2
6 6 5
7 4 2
8 6 0
9 5 2
10 5 10
Total 53 53
Média 5,1 5,2DVP 0,57 3,49EPM 0,18 1,1Turma A Turma B
0
1
2
3
4
5
6
7
8
9
10
Distribuição Normal A distribuição normal (também chamada distribuição gaussiana, em homenagem
a Carl Friedrich Gauss) é um importante modelo de distribuição estatística, observado frequentemente em experimentos relacionados ao estudo de fenômenos de ciências tão distintas quanto biologia, física e economia.
ExemploUm instituto de pesquisas realiza uma amostragem com 5000 pessoas para obter uma estimativa da altura média do brasileiro adulto. Estas pessoas são sorteadas para a pesquisa através de uma estratificação adequada, que reflita os dados de toda a população do país. Observe os resultados, categorizados por faixas de altura:
www.financasnet.com.br
Cálculo da frequência relativa (porcentagem) =
freq. Absoluta/ freq. total * 100
Distribuição Normal
Média: 1,653
Desvio Padrão: 0,173
www.financasnet.com.br
Ela é hipotética e essencial na tomada de decisões em estatística. Muitos dos testes estatísticos só têm validade se seus dados constituírem uma distribuição normal.
Características da Distribuição Normal Quanto mais valores são
plotados em uma distribuição, mais ela se assemelha a uma normal
É determinada por dois parâmetros: - Média da população - Desvio padrão da população
Distribuição é simétrica e unimodal em relação à média
Valores de média, moda e mediana são iguais
Área total sob a curva é igual a 100%, com exatos 50% distribuídos à esquerda da média e 50% à sua direita
Áreas sob a Curva Normal A área sob a curva de uma
distribuição normal é fundamental na solução de problemas. Ela corresponde a 100% dos dados
Uma área de 34,13 % da totalidade dos dados é delimitada entre a média e 1 desvio padrão da média
Quando o desvio padrão da média é 2 a área aumenta para 47,87%
Quando é 3 a área aumenta para 49,87%.
Estas proporções são constantes em uma distribuição normal
Tipos de distribuição Distribuição Unimodal e Simétrica: Média, Mediana e Moda
são iguais!!!! o ponto de Freqüência Máxima (moda) é também o mais
central (mediana) e o centro de gravidade (média) Em geral, em uma distribuição assimétrica:
A moda está sempre próxima ao “pico” A média está mais próxima da “cauda” (sofre influência dos
valores extremos) mediana está entre a moda e mediana
Medida de Tendência Central mais adequada: Distribuição Simétrica Média Distribuição Assimétrica Mediana ou Moda Distribuição Bimodal Modas
Tipos de Distribuição e medidas de tendência central
Distribuição Unimodal e Simétrica:
Média, Mediana e Moda são iguais!!!!
Ponto de Freqüência Máxima (moda) é também o mais central (mediana) e o centro de gravidade (média).
Distribuição assimétrica: A moda está sempre próxima ao
“pico” A média está mais próxima da
“cauda” (sofre influência dos valores extremos)
A mediana está entre a moda e mediana
Distribuição Assimétrica
0
1
2
3
4
5
2 3 4 7 8 9 10N o ta
Fre
qü
ên
cia
M oda
M ediana
M édia
Distribuições assimétricas => mediana !!!Distribuição bimodal => Moda!!!
Exercício 1 em sala: Idade Altura Peso Taxa
PulsaçãoPressão Sistólica
Pressão diastólica
Colesterol IMC
(anos) (m) (Kg) bat/min mmHg mmHg mg
58 1,8 76,1 68 125 78 522 23,5
22 1,68 64,9 64 107 54 127 23
32 1,82 80,7 88 126 81 740 24,3
31 1,74 79,1 72 110 68 49 26
28 1,72 68,7 64 110 66 230 23,3
46 1,76 75,1 72 107 83 316 24,3
41 1,69 60,8 60 113 71 590 21,3
56 1,71 90,7 88 126 72 466 31,1
20 1,73 78,8 76 137 85 121 26,2
54 1,67 62,6 60 110 71 578 22,5
17 1,6 70,3 96 109 65 78 27,5
73 1,73 84 72 153 87 265 27,9
52 1,86 86 56 112 77 250 24,9
25 1,72 68,1 64 119 81 265 23,1
29 1,73 94,2 60 113 82 273 31,6
17 1,8 106,7 64 125 76 272 32,8
41 1,56 79,5 84 131 80 972 32,8
52 1,94 99,3 76 121 75 75 26,5
32 1,68 74,7 84 132 81 138 26,4
20 1,77 61,8 88 112 44 139 19,7
20 1,66 73,9 72 121 65 638 26,8
29 1,78 73,1 56 116 64 613 23,1
18 1,6 68,3 68 95 58 762 26,8
26 1,74 64,8 64 110 70 303 21,4
33 1,73 92,1 60 110 66 690 30,6
55 1,76 87,2 68 125 82 31 28,1
53 1,76 77,8 60 124 79 189 25,2
28 1,73 72,9 60 131 69 957 24,4
28 1,83 78,7 56 109 64 339 23,6
37 1,68 76,4 84 112 79 416 27,1
40 1,84 96 72 127 72 120 28,4
33 1,85 89,1 84 132 74 702 25,9
26 1,73 78 88 116 81 1252 26
53 1,74 96,5 56 125 84 288 31,7
36 1,79 61,7 64 112 77 176 19,3
34 1,62 53,8 56 125 77 277 20,5
42 1,81 85,1 56 120 83 649 26,1
18 1,67 74,1 60 118 68 113 26,7
44 1,73 76,5 64 115 75 656 25,4
20 1,68 68 72 115 65 172 24
Calcule Média, Mediana,Moda, desvio padrão e erro padrão dos dados abaixo
Exercício 2 em sala: Um teste de memória foi aplicado a 10 idosos e 10 jovens com o objetivo de verificar o
declínio de memória decorrente do processo de envelhecimento. Além do resultado do teste, foram registrados outros dados dos indivíduos, tais como: idade, sexo e anos de escolaridade (ver apostila). Estas características foram registradas pois podem influenciar o desempenho dos indivíduos nos testes. Construa uma planilha no BROffice utilizando os dados destas amostras.
a) Desempenho de cada sujeito: (varia de 0 a 20)Idosos: 16/17/19/19/15/17/18/20/20/16Jovens: 20/20/19/19/20/20/17/19/20/18
b) Calcule a média, desvio padrão e erro padrão da média do desempenho para idosos e jovens
c) Faça um gráfico de colunas da média do desempenho de idosos e jovens, com o título Teste de Memória
d) Inclua as barras de erros com o erro padrão da média
e) Discuta a diferença do desempenho entre os grupos com base nos valores de média e erro.
Para inserir o erro padrão no BROffice
Selecionar os valores de erro calculados na planilha
Exercício 3 em Sala Considere a seguinte tabela de dados de
pressão sanguínea obtida para um grupo de 40 pessoas:
Indivíduo Pres s ão S is tólic a
Pres s ão dia s tólic a
mmHg mmHg
1 1 2 5 7 8
2 1 0 7 5 4
3 1 2 6 8 1
4 1 1 0 6 8
5 1 1 0 6 6
6 1 0 7 8 3
7 1 1 3 7 1
8 1 2 6 7 2
9 1 3 7 8 5
1 0 1 1 0 7 1
1 1 1 0 9 6 5
1 2 1 5 3 8 7
1 3 1 1 2 7 7
1 4 1 1 9 8 1
1 5 1 1 3 8 2
1 6 1 2 5 7 6
1 7 1 3 1 8 0
1 8 1 2 1 7 5
1 9 1 3 2 8 1
2 0 1 1 2 4 4
2 1 1 2 1 6 5
2 2 1 1 6 6 4
2 3 9 5 5 8
2 4 1 1 0 7 0
2 5 1 1 0 6 6
2 6 1 2 5 8 2
2 7 1 2 4 7 9
2 8 1 3 1 6 9
2 9 1 0 9 6 4
3 0 1 1 2 7 9
3 1 1 2 7 7 2
3 2 1 3 2 7 4
3 3 1 1 6 8 1
3 4 1 2 5 8 4
3 5 1 1 2 7 7
3 6 1 2 5 7 7
3 7 1 2 0 8 3
3 8 1 1 8 6 8
3 9 1 1 5 7 5
4 0 1 1 5 6 5
Utilizando os dados de pressão diastólica, calcule a média, desvio padrão e construa duas tabelas de frequência:
1) com intervalos de 5 batimentos (<50, 51-55, 56-60, ...)
2) com intervalos de 10 batimentos (<50, 51-60, 61-70, ...)
Faça os respectivos gráficos de distribuição.
Qual das duas tabelas de frequência melhor representa uma distribuição normal? Por quê? E se ao invés de 40, tomássemos a pressão sanguínea de 4000 indivíduos, qual das tabelas de frequência você acredita que seria mais adequada? Por quê?
Exercício 1 para Casa Escolha um cruzamento que tenha o tráfego controlado por um semáforo.
Pode ser o que você observa diretamente da janela de seu apartamento ou da padaria.
Enquanto você toma um café (isso é opcional) conte o número de carros que passa (escolha uma direção e sentido) a cada intervalo de tempo em que o sinal é verde. Tome no mínimo 30 medidas. Faça uma tabela que registre cada medida. Anote o cruzamento, direção, sentido e hora da experiência. Calcule a média e o desvio padrão.
Elabore tabelas de frequência considerando diferentes intervalos (observe que o intervalo aqui é dado em número de carros). Faça os respectivos gráficos de distribuição.
Faça uma nova série de medidas para comparação. Pode ser outro cruzamento, outro horário (hora do rush/trânsito livre, dia útil/domingo) etc. Que conclusões você pode tirar comparando as duas séries? Baseie sua resposta nos valores médios, desvio padrão e forma da distribuição.
Exercício 2 para Casa – Finalizar exercício da planilha de memória como está na apostila