26
BC-0005 Bases Computacionais da Ciência 2009 Aula 08 Noções de Estatística Média, desvio padrão, erro padrão Exercicíos – utilização da base de dados da turma

Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Embed Size (px)

Citation preview

Page 1: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

BC-0005Bases Computacionais da

Ciência

2009

Aula 08Noções de Estatística

Média, desvio padrão, erro padrãoExercicíos – utilização da base de dados da turma

Page 2: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Roteiro da Aula PARTE I – Noções de Estatística

O que é Estatística Descritiva e Estatística Inferencial Medidas de Tendência Central Medidas de Dispersão

PARTE II –Exercícios Determinação da altura média, peso médio Gráficos

idade X altura; idade x peso Histograma de times

Page 3: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Idade Altura Peso Taxa Pulsação

Pressão Sistólica

Pressão diastólica

Colesterol IMC

(anos) (m) (Kg) bat/min mmHg mmHg mg

58 1,8 76,1 68 125 78 522 23,522 1,68 64,9 64 107 54 127 2332 1,82 80,7 88 126 81 740 24,331 1,74 79,1 72 110 68 49 2628 1,72 68,7 64 110 66 230 23,346 1,76 75,1 72 107 83 316 24,341 1,69 60,8 60 113 71 590 21,356 1,71 90,7 88 126 72 466 31,120 1,73 78,8 76 137 85 121 26,254 1,67 62,6 60 110 71 578 22,517 1,6 70,3 96 109 65 78 27,573 1,73 84 72 153 87 265 27,952 1,86 86 56 112 77 250 24,925 1,72 68,1 64 119 81 265 23,129 1,73 94,2 60 113 82 273 31,617 1,8 106,7 64 125 76 272 32,841 1,56 79,5 84 131 80 972 32,852 1,94 99,3 76 121 75 75 26,532 1,68 74,7 84 132 81 138 26,420 1,77 61,8 88 112 44 139 19,720 1,66 73,9 72 121 65 638 26,829 1,78 73,1 56 116 64 613 23,1

Estatística Quais são a altura, peso

e IMC médios desta amostra?

Qual a altura média da turma?

Qual a taxa de aprovação no vestibular de uma determinada escola?

Qual a maior torcida presente nesta sala?

Page 4: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

A Estastística é capaz de responder com maior exatidão essas questões

Estatística Descritiva apresentação, organização e resumo dos dados Pode incluir a construção de gráficos, tabelas e computação de várias medidas, tais como, medidas de

tendência central (média, mediana, moda), medidas de dispersão (amplitude, desvio médio, variância, desvio padrão), percentagem e outras

O propósito desta estatística é fazer com que os dados coletados sejam compreendidos mais facilmente

Estatística Inferencial generalização de uma amostra de dados para um grande número de sujeitos

métodos estatísticos são usados para tirar conclusões, fazer estimativas, predições e generalizações sobre todo um conjunto de dados, estudando apenas parte dele, ou seja, a estatística inferencial nos permite usar informações de pequenos grupos para fazer inferências sobre grandes grupos dos quais os dados foram retirados

Page 5: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Medidas de Tendência Central Valor médio ou típico de um conjunto

de dados Média Aritmética ou Média: utilizada

para dados quantitativos Mediana: utilizada para dados ordinais Moda: utilizada também para dados

nominais (variáveis qualitativas)

Page 6: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Média Aritmética É o centro de gravidade dos dados

Soma de um conjunto de valores dividida pelo número de dados do conjunto :

N

XX

N

ii∑

== 1

N

iX é o número total de valores do conjunto

é um valor do conjunto

Alunos Notas

1 3,0

2 5,0

3 6,0

4 4,0

5 5,0

6 8,0

7 9,0

8 6,0

9 2,0

10 5,0

Total 53

Média 5,3

Função no Excel ou BrOffice: MÉDIA

2 3 4

5

6

8 90 1

Page 7: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Mediana: valor central do conjunto que divide a

distribuição em duas partes iguais (mesmo número de dados abaixo e acima do valor)

Os dados devem estar ordenados Notação: Mediana = Posição da mediana =>

No caso de um número par de sujeitos a mediana será a média entre os dois valores centrais.

Dadas as alturas: 62 54 82 49 75 64 Ordene: 49 54 62 64 75 82 Med = 62+64 = 63

2

Notas Freqüência Simples

Freqüência Acumulada

2 1 1

3 1 2

4 1 3

5 3 6

6 2 8

7 1 9

8 1 10

9 1 11

iX

21+= Ni

Função no Excel ou BrOffice: MED

i= 11 + 1 = 6 Posição 6 Nota 5

2

Page 8: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Moda é a categoria que ocorre com

maior frequência A moda pode não existir OU pode

não ser única Exemplos:

1,1,3,3,5,7,7,7,11,13 moda 7 3,5,8,11,13,18 não tem moda 3,5,5,5,6,6,7,7,7,11,12 tem duas modas: 5,7 (bimodal)

Notas Freq.

2 1

3 1

4 1

5 3

6 2

7 1

8 1

9 1

Notas Freq.

2 1

3 3

4 1

5 1

7 3

8 1

9 1

01234

2 3 4 5 6 7 8 9

Frequência

Nota

Distribuição Unimodal

01234

2 3 4 5 7 8 9

Frequência

Nota

Distribuição Bimodal

Função no Excel ou BrOffice: MODO

Page 9: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Características das medidas de tendência central

Abaixo de 100100

300500

700900

10003000

5000acima de 5000

0

20000

40000

60000

80000

100000

120000

140000

160000

Renda Média Mensal (R$)

Freq

uênc

ia

MédiaMediana

Moda

Média influência de cada amostra depende de seu valor (os valores extremos influenciam fortemente)

Mediana influência de cada amostra depende de sua posição (valor central)

Moda influência de cada amostra depende de sua frequência (valor com mais ocorrência)

Mediana e Moda são menos influenciadas por valores extremos

Fonte: Censo Demográfico IBGE 2000

Page 10: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Distribuição de Renda na Califórnia e nos EUA

Page 11: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Medidas de Dispersão ou Variabilidade: quanto os dados numéricos dispersam-se em torno de um valor

médio Variância: Soma dos quadrados dos desvios, onde desvio é a

diferença entre cada dado e a média do conjunto.

Dados )(X

Desvios )( XX −

Quadrados dos Desvios 2)( XX −

0 -5 25 4 -1 1 6 1 1 8 3 9 7 2 4

5=X ∑ =− 0)( XX ∑ =− 40)( 2XX

Função no Excel ou BrOffice: VAR2

2 ( )40 / 4 10

1x X

sN

−= = =

−∑

Page 12: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Medidas de Dispersão ou Variabilidade: Desvio Padrão reflete o quanto os dados se

dispersam da média È a raiz quadrada da variância

Função no Excel ou BrOffice: DESVPAD

2( )10 3,16

1x X

sN

−= = =

−∑

Page 13: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Erro Padrão da Média - EPMAlunos Notas

1 3,0

2 5,0

3 6,0

4 4,0

5 5,0

6 8,0

7 9,0

8 6,0

9 2,0

10 5,0

Total 53

Média 5,3

DVP 2,11

EPM 0,7

Quando se obtém uma amostra aleatória de tamanho n, estima-se a média populacional. É bastante intuitivo supor que se uma nova amostra aleatória for realizada a estimativa obtida será diferente daquela primeira. Desta forma, reconhece-se que as médias amostrais estão sujeitas à variação e formam populações de médias amostrais, quando todas as possíveis amostras são retiradas de uma população.

O erro padrão analisa a variabilidade de uma média

Quanto maior o número de dados, menor o erro padrão da média

1−=

Ns

Page 14: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Erro Padrão da Média - EPM

1−=

Ns

Não existe uma Função direta no Excel ou BrOffice para cálculo do EPM

Portanto, calcula-se a partir do desvio padrão

EPM = s/ RAIZ (CONT.NÚM-1)Alunos Turma A Turma B

1 5 8

2 5 9

3 5 7

4 5 7

5 5 2

6 6 5

7 4 2

8 6 0

9 5 2

10 5 10

Total 53 53

Média 5,1 5,2DVP 0,57 3,49EPM 0,18 1,1Turma A Turma B

0

1

2

3

4

5

6

7

8

9

10

Page 15: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Distribuição Normal A distribuição normal (também chamada distribuição gaussiana, em homenagem

a Carl Friedrich Gauss) é um importante modelo de distribuição estatística, observado frequentemente em experimentos relacionados ao estudo de fenômenos de ciências tão distintas quanto biologia, física e economia.

ExemploUm instituto de pesquisas realiza uma amostragem com 5000 pessoas para obter uma estimativa da altura média do brasileiro adulto. Estas pessoas são sorteadas para a pesquisa através de uma estratificação adequada, que reflita os dados de toda a população do país. Observe os resultados, categorizados por faixas de altura:

www.financasnet.com.br

Cálculo da frequência relativa (porcentagem) =

freq. Absoluta/ freq. total * 100

Page 16: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Distribuição Normal

Média: 1,653

Desvio Padrão: 0,173

www.financasnet.com.br

Ela é hipotética e essencial na tomada de decisões em estatística. Muitos dos testes estatísticos só têm validade se seus dados constituírem uma distribuição normal.

Page 17: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Características da Distribuição Normal Quanto mais valores são

plotados em uma distribuição, mais ela se assemelha a uma normal

É determinada por dois parâmetros:     - Média da população        - Desvio padrão da população   

Distribuição é simétrica e unimodal em relação à média

Valores de média, moda e mediana são iguais

Área total sob a curva é igual a 100%, com exatos 50% distribuídos à esquerda da média e 50% à sua direita

Page 18: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Áreas sob a Curva Normal A área sob a curva de uma

distribuição normal é fundamental na solução de problemas. Ela corresponde a 100% dos dados

Uma área de 34,13 % da totalidade dos dados é delimitada entre a média e 1 desvio padrão da média

Quando o desvio padrão da média é 2 a área aumenta para 47,87%

Quando é 3 a área aumenta para 49,87%.

Estas proporções são constantes em uma distribuição normal

Page 19: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Tipos de distribuição Distribuição Unimodal e Simétrica: Média, Mediana e Moda

são iguais!!!! o ponto de Freqüência Máxima (moda) é também o mais

central (mediana) e o centro de gravidade (média) Em geral, em uma distribuição assimétrica:

A moda está sempre próxima ao “pico” A média está mais próxima da “cauda” (sofre influência dos

valores extremos) mediana está entre a moda e mediana

Medida de Tendência Central mais adequada: Distribuição Simétrica Média Distribuição Assimétrica Mediana ou Moda Distribuição Bimodal Modas

Page 20: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Tipos de Distribuição e medidas de tendência central

Distribuição Unimodal e Simétrica:

Média, Mediana e Moda são iguais!!!!

Ponto de Freqüência Máxima (moda) é também o mais central (mediana) e o centro de gravidade (média).

Distribuição assimétrica: A moda está sempre próxima ao

“pico” A média está mais próxima da

“cauda” (sofre influência dos valores extremos)

A mediana está entre a moda e mediana

Distribuição Assimétrica

0

1

2

3

4

5

2 3 4 7 8 9 10N o ta

Fre

ên

cia

M oda

M ediana

M édia

Distribuições assimétricas => mediana !!!Distribuição bimodal => Moda!!!

Page 21: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Exercício 1 em sala: Idade Altura Peso Taxa

PulsaçãoPressão Sistólica

Pressão diastólica

Colesterol IMC

(anos) (m) (Kg) bat/min mmHg mmHg mg

58 1,8 76,1 68 125 78 522 23,5

22 1,68 64,9 64 107 54 127 23

32 1,82 80,7 88 126 81 740 24,3

31 1,74 79,1 72 110 68 49 26

28 1,72 68,7 64 110 66 230 23,3

46 1,76 75,1 72 107 83 316 24,3

41 1,69 60,8 60 113 71 590 21,3

56 1,71 90,7 88 126 72 466 31,1

20 1,73 78,8 76 137 85 121 26,2

54 1,67 62,6 60 110 71 578 22,5

17 1,6 70,3 96 109 65 78 27,5

73 1,73 84 72 153 87 265 27,9

52 1,86 86 56 112 77 250 24,9

25 1,72 68,1 64 119 81 265 23,1

29 1,73 94,2 60 113 82 273 31,6

17 1,8 106,7 64 125 76 272 32,8

41 1,56 79,5 84 131 80 972 32,8

52 1,94 99,3 76 121 75 75 26,5

32 1,68 74,7 84 132 81 138 26,4

20 1,77 61,8 88 112 44 139 19,7

20 1,66 73,9 72 121 65 638 26,8

29 1,78 73,1 56 116 64 613 23,1

18 1,6 68,3 68 95 58 762 26,8

26 1,74 64,8 64 110 70 303 21,4

33 1,73 92,1 60 110 66 690 30,6

55 1,76 87,2 68 125 82 31 28,1

53 1,76 77,8 60 124 79 189 25,2

28 1,73 72,9 60 131 69 957 24,4

28 1,83 78,7 56 109 64 339 23,6

37 1,68 76,4 84 112 79 416 27,1

40 1,84 96 72 127 72 120 28,4

33 1,85 89,1 84 132 74 702 25,9

26 1,73 78 88 116 81 1252 26

53 1,74 96,5 56 125 84 288 31,7

36 1,79 61,7 64 112 77 176 19,3

34 1,62 53,8 56 125 77 277 20,5

42 1,81 85,1 56 120 83 649 26,1

18 1,67 74,1 60 118 68 113 26,7

44 1,73 76,5 64 115 75 656 25,4

20 1,68 68 72 115 65 172 24

Calcule Média, Mediana,Moda, desvio padrão e erro padrão dos dados abaixo

Page 22: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Exercício 2 em sala: Um teste de memória foi aplicado a 10 idosos e 10 jovens com o objetivo de verificar o

declínio de memória decorrente do processo de envelhecimento. Além do resultado do teste, foram registrados outros dados dos indivíduos, tais como: idade, sexo e anos de escolaridade (ver apostila). Estas características foram registradas pois podem influenciar o desempenho dos indivíduos nos testes. Construa uma planilha no BROffice utilizando os dados destas amostras.

a) Desempenho de cada sujeito: (varia de 0 a 20)Idosos: 16/17/19/19/15/17/18/20/20/16Jovens: 20/20/19/19/20/20/17/19/20/18

b) Calcule a média, desvio padrão e erro padrão da média do desempenho para idosos e jovens

c) Faça um gráfico de colunas da média do desempenho de idosos e jovens, com o título Teste de Memória

d) Inclua as barras de erros com o erro padrão da média

e) Discuta a diferença do desempenho entre os grupos com base nos valores de média e erro.

Page 23: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Para inserir o erro padrão no BROffice

Selecionar os valores de erro calculados na planilha

Page 24: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Exercício 3 em Sala Considere a seguinte tabela de dados de

pressão sanguínea obtida para um grupo de 40 pessoas:

Indivíduo Pres s ão S is tólic a

Pres s ão dia s tólic a

mmHg mmHg

1 1 2 5 7 8

2 1 0 7 5 4

3 1 2 6 8 1

4 1 1 0 6 8

5 1 1 0 6 6

6 1 0 7 8 3

7 1 1 3 7 1

8 1 2 6 7 2

9 1 3 7 8 5

1 0 1 1 0 7 1

1 1 1 0 9 6 5

1 2 1 5 3 8 7

1 3 1 1 2 7 7

1 4 1 1 9 8 1

1 5 1 1 3 8 2

1 6 1 2 5 7 6

1 7 1 3 1 8 0

1 8 1 2 1 7 5

1 9 1 3 2 8 1

2 0 1 1 2 4 4

2 1 1 2 1 6 5

2 2 1 1 6 6 4

2 3 9 5 5 8

2 4 1 1 0 7 0

2 5 1 1 0 6 6

2 6 1 2 5 8 2

2 7 1 2 4 7 9

2 8 1 3 1 6 9

2 9 1 0 9 6 4

3 0 1 1 2 7 9

3 1 1 2 7 7 2

3 2 1 3 2 7 4

3 3 1 1 6 8 1

3 4 1 2 5 8 4

3 5 1 1 2 7 7

3 6 1 2 5 7 7

3 7 1 2 0 8 3

3 8 1 1 8 6 8

3 9 1 1 5 7 5

4 0 1 1 5 6 5

Utilizando os dados de pressão diastólica, calcule a média, desvio padrão e construa duas tabelas de frequência:

1) com intervalos de 5 batimentos (<50, 51-55, 56-60, ...)

2) com intervalos de 10 batimentos (<50, 51-60, 61-70, ...)

Faça os respectivos gráficos de distribuição.

Qual das duas tabelas de frequência melhor representa uma distribuição normal? Por quê? E se ao invés de 40, tomássemos a pressão sanguínea de 4000 indivíduos, qual das tabelas de frequência você acredita que seria mais adequada? Por quê?

Page 25: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Exercício 1 para Casa Escolha um cruzamento que tenha o tráfego controlado por um semáforo.

Pode ser o que você observa diretamente da janela de seu apartamento ou da padaria.

Enquanto você toma um café (isso é opcional) conte o número de carros que passa (escolha uma direção e sentido) a cada intervalo de tempo em que o sinal é verde. Tome no mínimo 30 medidas. Faça uma tabela que registre cada medida. Anote o cruzamento, direção, sentido e hora da experiência. Calcule a média e o desvio padrão.

Elabore tabelas de frequência considerando diferentes intervalos (observe que o intervalo aqui é dado em número de carros). Faça os respectivos gráficos de distribuição.

Faça uma nova série de medidas para comparação. Pode ser outro cruzamento, outro horário (hora do rush/trânsito livre, dia útil/domingo) etc. Que conclusões você pode tirar comparando as duas séries? Baseie sua resposta nos valores médios, desvio padrão e forma da distribuição.

Page 26: Bc0005 aula 08_nocoes_de_estatistica_2009-1d - bases computacionais da ciencia - ufabc

Exercício 2 para Casa – Finalizar exercício da planilha de memória como está na apostila