85
PROBABILIDADE E ESTATÍSTICA 2012 Universidade de Caxias do Sul Centro de Ciências Exatas e Tecnologia Probabilidade e EstatísticA EST0204 Prof a Daiane Scopel Boff, Ms.

Apostila Base probabilidade e estatistica

Embed Size (px)

Citation preview

Page 1: Apostila Base probabilidade e estatistica

PROBABILIDADE E

ESTATÍSTICA

2 012

Universidade de Caxias do Sul Centro de Ciências Exatas e Tecnologia

Probabilidade e EstatísticA EST0204

Profa Daiane Scopel Boff, Ms.

Page 2: Apostila Base probabilidade e estatistica

SUMÁRIO

1 ESTATÍSTICA DESCRITIVA............................................................................................... 5

1.1 Introdução ......................................................................................................................... 5

1.2 Conceitos básicos ............................................................................................................... 6

1.3 Tabelas ............................................................................................................................... 8

1.3.1 Tabela de dupla entrada ............................................................................................ 9

1.4 Distribuição de frequência ............................................................................................... 9

1.4.1 Distribuição de frequência por categoria ................................................................ 9

1.4.2 Distribuição de frequência por classe .................................................................... 11

1.5 Gráficos ............................................................................................................................ 13

1.5.1 Gráfico em linha ou em curva................................................................................. 13

1.5.2 Gráfico em colunas ou em barras ........................................................................... 14

1.5.3 Gráfico em setores.................................................................................................... 16

1.5.4 Histograma de frequência ....................................................................................... 16

1.5.5 Cartograma .............................................................................................................. 17

1.5.6 Pictograma ................................................................................................................ 17

1.6 Medidas de tendência central (medidas de posição) .................................................... 22

Propriedades da média ..................................................................................................... 22

1.6.1 Média aritmética simples ........................................................................................ 22

1.6.2 Média aritmética ponderada ................................................................................... 23

1.6.3 Média geométrica ..................................................................................................... 24

1.6.4 Média harmônica ..................................................................................................... 24

1.6.5 Relação entre as médias aritmética, geométrica e harmônica ............................. 24

1.6.6 Mediana .................................................................................................................... 25

1.6.7 Moda.......................................................................................................................... 26

1.6.8 Cálculo da moda pela fórmula de Pearson ............................................................ 27

1.6.9 Aspecto das distribuições ........................................................................................ 28

1.7 Medidas de variabilidade ............................................................................................... 32

1.7.1 Amplitude total......................................................................................................... 32

1.7.2 Variância ................................................................................................................... 32

1.7.3 Desvio padrão ........................................................................................................... 33

1.7.4 Coeficiente de variação de Pearson ........................................................................ 34

2. PROBABILIDADE ............................................................................................................... 36

Page 3: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

3

2.1 Apresentação ................................................................................................................... 36

2.2 Experimento determinístico ........................................................................................... 36

2.3 Experimento aleatório .................................................................................................... 36

2.4 Espaço amostral .............................................................................................................. 37

2.5 Função de probabilidade ................................................................................................ 38

2.5.1 Definição de probabilidade ..................................................................................... 38

2.6 Regras da adição ............................................................................................................. 40

2.7 Regras da multiplicação ................................................................................................. 41

3 PERMUTAÇÕES E COMBINAÇÕES ............................................................................... 46

3.1 Permutações..................................................................................................................... 46

3.2 Combinações .................................................................................................................... 46

4. VARIÁVEL ALEATÓRIA .................................................................................................. 49

4.1 Distribuição de probabilidades de variáveis aleatórias ............................................... 49

4.2 Esperança matemática ou valor esperado .................................................................... 50

4.3 Variância .......................................................................................................................... 51

5. DISTRIBUIÇÕES DE PROBABILIDADE ....................................................................... 52

5.1 Distribuições discretas .................................................................................................... 52

5.1.1 Distribuição Binomial .............................................................................................. 52

5.1.2 Distribuição de Poisson............................................................................................ 55

5.2 Distribuição Contínua .................................................................................................... 59

5.2.1 Distribuição Normal ................................................................................................ 59

6. AMOSTRAGEM................................................................................................................... 66

6.1 Processos de amostragem ............................................................................................... 67

6.1.1 Amostragem aleatória (ou amostragem aleatória simples) ..................................... 67

6.1.2 Amostragem sistemática .......................................................................................... 69

6.1.3 Amostragem estratificada proporcional ................................................................ 69

7. DISTRIBUIÇÕES AMOSTRAIS........................................................................................ 73

7.1 Distribuição amostral da média ..................................................................................... 73

7.2 Distribuição amostral da proporção ............................................................................. 75

8 MÉTODOS INFERENCIAIS ............................................................................................... 76

8.1 Estimação ......................................................................................................................... 76

8.1.1 Estimativa por ponto ............................................................................................... 76

8.1.2 Estimativa por intervalo .......................................................................................... 76

8.1.2.1 Intervalo de confiança para a média populacional ................................................ 76

Page 4: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

4

8.1.2.2 Intervalo de confiança para a proporção populacional ......................................... 79

8.2 Testes estatísticos ............................................................................................................ 81

8.2.1 Etapas básicas em um teste de hipótese ................................................................. 81

Page 5: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

5

1 ESTATÍSTICA DESCRITIVA

1.1 Introdução

A palavra estatística origina-se da palavra “Status” (Estado em latim). Com a finalidade de orientar decisões governamentais, inicialmente ligadas ao levantamento de dados, a taxação de impostos (censo em latim significa taxar), a regimentação de homens para a guerra, a determinação de estratégias de batalhas, e outros, era fundamental conhecer quantas armas, homens e cavalos se dispunham para uma batalha, ou mesmo quantas famílias deveriam pagar impostos. Assim, se desenvolveram métodos para coleta, resumo, organização e apresentação de dados.

Podemos considerar a estatística como “a ciência que se preocupa com a coleta, a organização, a análise e a interpretação de dados experimentais” e, a partir deles, faz inferências a respeito da população que os origina. Seu maior desenvolvimento deu-se, a partir do século XVII, com os estudos de Bernoulli, Pascal, Laplace, Gauss, Pearson, Fisher, Poisson e outros, que estabeleceram a forma mais atual de seu uso. Contudo, é uma ciência nova, que continua a se desenvolver de acordo com o avanço tecnológico e a ampliação de suas aplicações no estudo das populações. Cabe observar que alguns autores não a consideram como ciência, mas sim como método quando utilizada como instrumento para outra ciência. Popularmente, o uso da estatística está ligado à representação de dados experimentais através de tabelas e gráficos. Exemplos: movimento nas bolsas de

valores, estatísticas de saúde, estatísticas de acidentes, estatísticas populacionais, etc. Entretanto, esta noção é apenas parcial, pois envolve somente a organização e a descrição de dados observados. Além deste enfoque tem-se todo um campo de atuação dentro da estatística, que se refere à análise e a interpretação desses dados para inferir sobre a população que os deu origem. A inferência estatística carece decisivamente da teoria da probabilidade e conhecer probabilidade faz-se extremamente útil a quem quer prever e inferir sobre acontecimentos. A ciência estatística é aplicável a qualquer ramo do conhecimento onde se manipulem dados experimentais. Assim, a física, a química, a engenharia, a medicina, a psicologia, a biologia, as ciências sociais, as ciências administrativas, a agronomia, entre outros, tendem, cada vez mais, a servir-se dos métodos estatísticos como ferramenta de trabalho; justificando a sua grande importância. Dentro desta ideia podemos considerar a ciência estatística, dividida em duas grandes partes:

Page 6: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

6

• Estatística Descritiva: é o ramo da estatística que compreende a organização, o resumo e, em geral, a simplificação de informações. Utiliza métodos numéricos e gráficos para descrever fatos.

• Estatística Indutiva (inferência estatística): é o ramo da estatística que tem por objetivo

obter e generalizar conclusões a partir da análise e interpretação de dados amostrais. A ideia básica da amostragem é efetuar determinada mensuração sobre uma parcela pequena, mas representativa, de determinada população e utilizar esta informação para fazer inferência sobre a população. Relaciona-se diretamente com a teoria da probabilidade analisando situações que envolvem o acaso. Permite analisar o tamanho do erro amostral ao se fazer inferência.

Observa-se que estas divisões não são totalmente distintas, sua utilização e abrangência possuem pontos de entrelaçamento, como a descrição de dados, a teoria da probabilidade, a análise e a interpretação de dados amostrais.

1.2 Conceitos básicos

Estatística: estuda fenômenos coletivos, sociais, ultrapassando o aspecto individual. No singular, significa o conjunto de procedimentos usados na coleta, análise e interpretação dos dados numéricos.

Estatísticas ou estimativas: no plural, referem-se aos resultados das relações calculadas com dados de uma amostra.

População ou universo (N): é um conjunto de todas as N unidades em observação (pessoas, objetos, experimentos ou eventos) sobre o fenômeno em estudo, onde N é o tamanho fixo e algumas vezes desconhecido da população, sendo que a partir destas unidades se deseja tomar uma decisão. Essas observações apresentam pelo menos uma característica comum e observável, delimitando inequivocamente quais os elementos que pertencem à população e quais os que não pertencem. Deste modo uma população pode ser finita ou infinita.

• População finita: é aquela em que o número de unidades em observação pode ser contado e assume um número limitado.

Exemplos: eleitores de um município; clientes atendidos em um supermercado no dia; 100 lançamentos de uma moeda e quantidade de experimentos realizados num mês.

• População infinita: é aquela em que o número de observações não possui uma quantidade limitada.

Exemplos: clientes de um supermercado; sucessivos lançamentos de uma moeda e unidades produzidas em uma linha de produção (incluindo as produzidas até o momento e as que serão produzidas no futuro).

A Estatística fornece métodos para a coleta, organização, apresentação, descrição, análise

e interpretação de dados e para a utilização dos mesmos na tomada de decisões.

A coleta, a organização e a descrição dos dados estão a cargo da Estatística Descritiva,

enquanto a análise e a interpretação desses dados ficam a cargo da Estatística Indutiva.

Page 7: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

7

Censo ou recenseamento: é o levantamento envolvendo todos os elementos da população. Propriedades principais do censo: admite erro processual zero e tem confiabilidade de 100%; é caro; lento; quase sempre desatualizado e nem sempre é viável.

Amostra (n): é um subconjunto representativo da população (não-vazio e finito), ou seja, é uma fração de tamanho n obtida da população, onde todos esses n elementos serão examinados para a realização do estudo desejado. Os resultados obtidos da amostra devem ser muito próximos dos obtidos do estudo da população. É intuitivo que quanto maior a amostra, mais precisas e mais confiáveis deverão ser as induções realizadas sobre a população. Desta forma, poderíamos dizer que o ideal seria o exame completo da população (censo); porém esta conclusão é válida em teoria, mas na prática isto nem sempre se configura, até porque o levantamento de toda população demanda custo, tempo, acesso a população e um grande número de pessoas envolvidas, o que nem sempre é possível. Algumas vezes não se conhece toda a população, e nem sempre o resultado da população traz melhores resultados do que os dados colhidos através de um bom processo de amostragem.

Amostragem: é o processo para selecionar os n elementos de uma população cujo objetivo posterior é fazer generalizações sobre esta população.

Estimadores: referem-se a uma característica numérica estabelecida para uma amostra e são simbolizados por caracteres latinos.

Parâmetros: refere-se a uma característica numérica estabelecida para toda a população e são simbolizados por caracteres gregos.

Inferência ou estimação: é produzir afirmações sobre uma dada característica dos elementos da população a partir de dados colhidos de uma amostra representativa da população.

Propriedades principais da estimação: admite erro processual positivo e tem confiabilidade menor que 100%; é barata; rápida; atualizada e é sempre viável.

Variáveis: sem rigor matemático diremos que são as características investigativas, e se dividem em:

• Qualitativas: que apresentam uma qualidade ou atributo e podem ser nominais e ordinais.

� Nominais: não existe nenhuma ordenação nas possíveis realizações. Exemplos: sexo; religião; estado de um produto (bom ou defeituoso); cor de cabelos; e outros.

� Ordinais: existe certa ordenação nos seus resultados. Exemplos: grau de instrução; graduações como: bom, razoável e ruim; e outros.

• Quantitativas: que apresentam números resultantes de uma contagem ou de uma mensuração, podendo ser discretas ou contínuas.

� Discretas ou descontínuas: cujos possíveis valores formam um conjunto finito ou enumerável de números e resultam, freqüentemente, de uma contagem assumindo valores inteiros. Exemplos: número de filhos de uma família; número de defeitos em uma unidade e número de empregados de uma empresa.

� Contínuas: cujos possíveis valores formam um intervalo de números reais e resultam, normalmente, de uma mensuração. Exemplos: altura; peso; renda; temperatura; pressão e tempo de duração de um dispositivo elétrico.

Page 8: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

8

As variáveis são expressas através de escalas de medidas. Estas escalas podem ser do tipo nominal, intervalar, ordinal ou de razão.

• Escala nominal: as categorias de variáveis são associadas a números (esses não possuem significados matemáticos).

Exemplos: a) cor dos olhos: 1. castanhos

2. azuis

3. verdes

b) sexo: 1. masculino

2. feminino

• Escala ordinal: as variáveis são numeradas conforme uma numeração crescente ou decrescente, dada pela ordem natural. É possível determinar-se que uma categoria é melhor ou não do que a outra, apesar de não podermos quantificar estas diferenças.

Exemplos: a) situação em uma linha de produção: 1. não satisfatório

2. satisfatório

3. ótimo

b) desempenho 1. baixo

2. regular

3. bom

4. excelente

• Escala intervalar: ocorre quando conhecemos a ordem e a relação numérica entre as variáveis, inclusive a diferença intervalar que ocorre.

Exemplos: a) temperatura b) valores de balanço

• Escala de razão: assumem as mesmas características das variáveis intervalares, porém possuem um verdadeiro ponto zero como origem.

Exemplos: a) medições de uma peça b) tempo c) massa

1.3 Tabelas

Uma tabela é organização em forma de matriz (linha/coluna) onde se resume um conjunto

de observações. Compõe-se de:

a) Título b) Coluna indicadora c) Corpo d) Casa ou célula e) Fonte

Page 9: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

9

Exemplo:

CAPITAL BRASILEIRO NO EXTERIOR

Anos US$ bi 2001 2002 2003

68,59 72,32 82,69

FONTE: Banco Central

1.3.1 Tabela de dupla entrada

Apresenta, em uma única tabela, a variação de valores de mais de uma variável. Exemplo:

DESAPARECIMENTO DE ESPÉCIES NATIVAS NA INGLATERRA

Plantas Pássaros Borboletas

Anos de estudo 40 20 20

Espécies pesquisadas 1254 201 58

Quantas sofreram redução expressiva 351 108 41

FONTE: Revista VEJA, março 2004 1.4 Distribuição de frequência

Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o comportamento dessa variável, analisando a ocorrência de suas possíveis realizações. A Estatística tem por objetivo encontrar leis de comportamento para todo o conjunto de dados, por meio da sistematização dos dados numéricos, sob a forma de tabelas e gráficos. Entre estas sistematizações encontra-se a distribuição de frequência que se constitui por uma série estatística específica, onde os dados encontram-se dispostos em classes ou categorias, juntamente com as frequências correspondentes.

1.4.1 Distribuição de frequência por categoria

Utilizada em variáveis qualitativas e quantitativas, discretas e contínuas (pode ser numerada uma a uma). Os dados são agrupados com suas respectivas frequências absolutas. Uma medida importante na interpretação das tabelas de frequências é proporção de cada

realização em relação ao total, chamada de frequência relativa, cujo cálculo é dado por: n

nf ir =

onde in é o número de realizações na categoria i e n é o número total de realizações.

Colunas Indicadoras

Casa ou Célula

Título

Linha

Page 10: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

10

Dado que:

xi: identifica as categorias em que a variável em estudo se divide.

fi: corresponde a frequência absoluta, isto é, o número de vezes que cada uma das categorias ocorrem. fr: corresponde a frequência relativa, isto é, a porcentagem de cada categoria presente na amostra, ou população. N: somatório das frequências (fi), ou seja, o total dos elementos da população. Se for amostra usa-se n. Exemplo1:

Número de assinantes de jornais

Cidade A - julho/2008

Jornal (xi) Nº. de assinaturas

Freqüência absoluta (fi) Freqüência relativa

(fr)

Correio de povo 1.256

Pioneiro 2.468

Zero Hora 2.130

Total Fonte: Dados aleatórios Exemplo 2: Fonte: Dados aleatórios Exemplo 3:

Notas de matemática de 45 alunos

Turma A - 1º Trimestre/2007 (xi)

notas 21 22 23 24 25 26 28 30 31 33 38 40 ∑

(fi) nº de notas

1 1 3 4 5 6 7 6 5 4 2 1 45

fr

Fonte: Secretaria da escola E.

Número de erros por página Livro de matemática/2005

Nº de erros (xi) Nº de páginas (fi) fr 0 1 2 3 4 5

35 20 13 6 4 2

Total

Page 11: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

11

Exemplo 4:

Reclamações referentes ao desconforto em aviões Companhia H - 2º Trimestre/2006

Natureza das reclamações (xi) Nº de reclamações

(fi) fr

Espaço insuficiente para as pernas Assentos desconfortáveis Corredores estreitos Espaço insuficiente para bagagem de mão Banheiros insuficientes Outras reclamações

719 914 146 218 58 348

Total (∑) Fonte: SIMON, A gary; FREUND, E. John. Estatística Aplicada. 1.4.2 Distribuição de frequência por classe

Utilizada em varáveis discretas ou contínuas. A organização dos dados de maneira agrupada com auxílio de intervalos numéricos. Quando a variável é discreta, em um determinado intervalo, o número de elementos é finito, quando a variável é contínua, em um determinado intervalo, o número de elementos pode ser ilimitado.

Faixa etária dos internos Hospital A

Idade (xi) Nº internos (fi) 0 − 10

10 − 20

20 − 30

30 − 40

40 − 50

50 − 60

60 − 70

70 − 80

N 80 Fonte: Dados Aleatórios

Para distribuição de frequência de dados agrupados por classe, faz necessário algumas definições e procedimentos:

• Dados brutos: O conjunto de valores numéricos obtidos na pesquisa que ainda não foram organizados.

Exemplo: As idades dos internos no Hospital A por ordem de internação (as 80 idades não estão em ordem crescente, nem em ordem decrescente).

10

15

8

5

12

9

11

10

Page 12: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

12

• Rol: arranjo, organização dos dados brutos, em ordem crescente ou decrescente.

Exemplo: As idades dos pacientes 0,1, 2, 3, 3, 4, 6, 6, 8,... 77, 77, 78, 78, 79.

• Amplitude do rol, ou “Range (R)”: Diferença entre o maior e o menor elemento do rol.

R = Ls – Li (limite superior menos limite inferior).

Exemplo: R = 79– 0

R = 79.

• Número de classes (k): Não há uma fórmula exata para o cálculo do número de classes. O que existe são alguns critérios que podem auxiliar o pesquisador a ter uma idéia do melhor número de classes. Uma opção é usar K= N

Para N > 25 pode ser utilizada a fórmula de Sturges: K ≅≅≅≅ 1 + 3,3 log N quando for população ou K ≅≅≅≅ 1 + 3,3 log n quando for amostra.

Exemplo: N = 79, então K ≅ 79 , ou seja, K ≅ 8,9. Pode-se trabalhar com 9 classes

Pela fórmula de Sturges, temos: K ≅ 1 + 3,3 log 79, ou seja, K ≅ 1 + 3,3. 1, 9, ou seja, K ≅ 7,27

Podemos arredondar para 8 classes (se deixarmos 7 classes poderá sobrar elementos na distribuição das frequências). As regras de arredondamento não precisam ser seguidas.

• Amplitude da classe (h): Toma-se como base a amplitude total (R) e divide-se pelo número de classes, ajustando esse resultado, de acordo com a conveniência.

classesden

amplitudeh

º=

Exemplo: 879

=h , ou seja, h 10≅ ; ficando assim com 8 classes de amplitude igual a 10

unidades. • Limites das classes: a b ou ]a; b[ : compreende os elementos entre os extremos “a” e “b” , excluindo o

“a” e “b”; a│ b ou [a; b[ : compreende os elementos entre “a” e “b”, incluindo o “a” e excluindo o “b”;

a b ou ] a; b] : compreende os elementos entre “a” e “b”, excluindo o “a” e incluindo o “b”; a b ou [a; b] : compreende os elementos entre “a” e “b”, incluindo o “a” e o “b”;

• Ponto médio da classe (xm ou xi): É o ponto equidistante dos extremos. Em muitas

situações é o representante da classe. Para calculá-lo, basta somar os dois extremos e dividir essa soma por 2.

Exemplo: Para a classe [ [44,35 temos: 5,392

4435=

+. Portanto xm= 39,5 (este xm será o

representante de todos os xi’s da classe e poderá ser escrito como xi).

Page 13: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

13

• Frequência absoluta (fi): número de elementos em cada classe.

• Frequência relativa (fr): é dada pela razão entre o número da frequência absoluta e o

número total de elementos a população ou amostra. fr = N

f i . Para saber a porcentagem

do valor, basta multiplicar por 100, ou seja, fr. 100.

• Frequência acumulada (fac): é a soma das frequências dos valores anteriores ou iguais ao valor dado.

• Frequência acumulada relativa (frac): é dada pela razão entre o número da frequência

acumulada e o número total de elementos a população ou amostra: frac = N

f ac . Para

saber a porcentagem do valor, basta multiplicar por 100. frac . 100

• Histograma: é a representação gráfica de uma distribuição de frequência por meio de retângulos justapostos.

• Polígono de frequência: é a representação gráfica de uma distribuição por meio de um polígono.

1.5 Gráficos

A representação gráfica de uma série de dados permite, ao mesmo tempo, uma visão geral e alguma caracterização particular da população por meio de uma correspondência entre as categorias ou valores e uma determinada figura geométrica, de tal modo que cada valor ou categoria é representado por uma figura proporcional.

Para isso ser realmente eficiente deve-se respeitar certos requisitos para a representação gráfica:

• Simplicidade • Clareza • Veracidade

1.5.1 Gráfico em linha ou em curva

Os gráficos de linha são bastante utilizados na identificação de tendências de aumento ou diminuição dos valores numéricos de um fenômeno. Encontra-se com frequência esse tipo de representação em análises de lucros de empresas, incidência de doenças, índice de crescimento populacional ou de mortalidade infantil, índices de custo de vida, etc. No eixo horizontal, marca-se o tempo. Exemplo: Taxa de desemprego na grande São Paulo

TAXA DE DESEMPREGO NA GRANDE SÃO PAULO

ANO HOMENS (%) MULHERES (%) 1996 13,5 17,1 1997 14,1 18,3 1998 16 21 1999 17,5 21,8 2000 15,1 20,8 2001 15 20,7

FONTE: Exame (Meu Dinheiro), Abril 2002.

Page 14: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

14

1.5.2 Gráfico em colunas ou em barras

É a representação de uma série por meio de retângulos, dispostos verticalmente (em colunas) ou horizontalmente (em barras).

Quando em colunas, os retângulos têm a mesma base e as alturas são proporcionais aos respectivos dados. Um gráfico de colunas mostra as alterações dos dados em um intervalo de tempo ou ilustra comparações entre categorias, as quais são organizadas de maneira horizontal e os valores de maneira vertical para enfatizar a variação ao longo do tempo.

Quando em barras, os retângulos têm a mesma altura e os comprimentos são proporcionais aos dados. Um gráfico de barras ilustra comparações entre categorias; estas são organizadas verticalmente, enquanto os valores têm disposição horizontal, para enfatizar a comparação de valores e dar menos ênfase ao tempo.

No gráfico de colunas e de barras, também é indiferente a ordem de apresentação dos retângulos, por se tratar de uma série ordenada segundo uma característica qualitativa. Nesses casos, não há, em geral, uma ordem única, técnica e logicamente admissível, podendo ocorrer diversas ordens, correspondentes a diversos critérios. Exemplo 1: Gráfico de colunas

Frequência do período de aleitamento materno observado entre as crianças avaliadas Tempo de aleitamento Freqüência

0 mês 16 Até 3 meses 31

De 4 a 6 meses 30 De 7 a 12 meses 36 De 13 a 24 meses 27 Mais de 24 meses 15

Total 155 Fonte: APCD, setembro/outubro 2007.

Taxa de desemprego na grande São Paulo

10

12

14

16

18

20

22

1996 1997 1998 1999 2000 2001

Anos

Taxa (%)

Homens

Mulheres

Page 15: Apostila Base probabilidade e estatistica

Exemplo 2: Gráfico em colunas ou barras múltiplas

Este tipo de gráfico é geralmente simultaneamente, dois ou mais fenômenos estudados

BALANÇA COMERCIAL DO BRASIL

ESPECIFICAÇÕES 1989

Exportação Importação

34.38318.263

FONTE: Ministério da Fazenda

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

Gráfico em colunas ou barras múltiplas

Este tipo de gráfico é geralmente empregado quando queremos representar, simultaneamente, dois ou mais fenômenos estudados, com o propósito de comparação.

BALANÇA COMERCIAL DO BRASIL 1989 – 93

VALOR ( U$ 1.000.000 ) 1989 1990 1991 1992

34.383 18.263

31.414 20.661

31.620 21.041

35.79320.554

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

15

empregado quando queremos representar, com o propósito de comparação.

1992 1993

35.793 20.554

38.783 25.711

Page 16: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

16

1.5.3 Gráfico em setores

Consiste em distribuir em um círculo setores (ou categorias) proporcionais aos dados do problema.

Exemplo: O gráfico acima mostra quais são as partes do corpo de um atleta que mais sofrem com a prática do vôlei. O total é representado pelo círculo, que fica dividido em tantos setores quantas são as partes. As áreas dos setores são proporcionais aos dados da série. Obtemos cada setor por meio de uma regra de três simples e direta, lembrando que o total da série corresponde a 360°.

Se a série já apresenta os dados percentuais, obtemos os respectivos valores em graus

multiplicando o valor percentual por 3,6.

Obs.: As escalas usadas nos eixos horizontal e vertical são muito importantes. Pode-se distorcer a verdade se o seu uso for mal empregado. 1.5.4 Histograma de frequência

É um gráfico de barras justapostas, com bases proporcionais aos intervalos das classes e a área de cada retângulo proporcional à respectiva frequência. Pode-se usar tanto a frequência absoluta como a frequência relativa. Exemplo: Histograma do consumo de água em m³.

FONTE: Corsan

0,00

0,10

0,20

0,30

0,40

0 ----| 10 10 ----| 20 20 ----| 30 30 ----| 40 40 ----| 50 50 ----| 60

Consumo de água. em m³, de 75 contas da CORSAN

Total 360 o

Parte ___ x o

Page 17: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

17

1.5.5 Cartograma

É a representação sobre uma carta geográfica. Esse gráfico é empregado quando o objetivo é o de figurar os dados estatísticos diretamente relacionados com áreas geográficas ou políticas. Exemplo:

1.5.6 Pictograma

O pictograma constitui um dos processos gráficos que melhor fala ao público, pela sua forma ao mesmo tempo atraente e sugestiva. A representação gráfica consta de figuras. Exemplo:

Page 18: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

18

Atividades de estudo 1: 1) Represente a série abaixo usando um gráfico de linhas:

COMÉRCIO EXTERIOR BRASIL – 1984 a 1993

ANOS QUANTIDADE ( 1.000 t ) EXPORTAÇÃO IMPORTAÇÃO

1984 1985 1986 1987 1988 1989 1990 1991 1992 1993

141.737 146.351 133.832 142.378 169.666 177.033 168.095 165.974 167.295 182.561

53.988 48.870 60.597 61.975 58.035 57.293 57.184 63.278 68.059 77.813

FONTE: Min. Indústria, Comércio e Turismo 2) Represente a tabela usando um gráfico em colunas:

PRODUÇÃO BRASILEIRA DE PETRÓLEO BRUTO 1991-1993

ANOS QUANTIDADE ( 1.000 m³ )

1991 1992 1993

36.180,4 36.410,5 37.164,3

FONTE: Petrobrás

Page 19: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

19

3) Represente a tabela por meio de gráfico em barras:

PRODUÇÃO DE FERRO-GUSA BRASIL - 1993

UNIDADES DA FEDERAÇÃO

PRODUÇÃO ( 1.000 t )

Minas Gerais Espírito Santo Rio de Janeiro

São Paulo

12.888 3.174 5.008 2.912

FONTE: Instituto Brasileiro de Siderurgia 4) Numa região verifica-se que em dezembro de 2001, 864 pessoas morreram por doenças do aparelho circulatório, 443 pessoas morreram por doenças ligadas ao aparelho respiratório e 440 devido a tumores malignos, os demais óbitos não foram diagnosticados. Sabendo que o total de óbitos é de 2676. Organize estes dados em uma tabela e após faça um gráfico de setores para demonstrá-los. Nesta tabela registre também os valores em porcentagem

Page 20: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

20

Atividades de estudo 2:

1) 0s dados abaixo representam as medidas das alturas em cm, de 50 alunos de uma turma de alunos, da escola X, no ano de 2010

182, 175, 166, 140, 145, 142, 147, 148, 151, 153, 152, 156, 158, 159, 160, 162, 163, 178, 170, 167, 184, 165, 174, 163, 160, 158, 159, 169, 168, 178, 175, 183, 178, 168, 162, 170, 161, 173, 174, 172, 170, 169, 181, 165, 180, 164, 167, 159, 150, 177

Determine:

a) O rol dos dados

b) A amplitude do rol (R)

c) O número de classe (K) e a amplitude de cada classe (h)

d) Faça a distribuição de frequência em classe

e) Calcule as frequências relativas percentuais e as frequências acumuladas

f) Construa o histograma de frequência

2) Os dados que seguem representam as notas bimestrais da disciplina de Física de uma turma de alunos da escola B: 3, 4, 4, 5, 7, 7, 4, 5, 5, 6, 6, 7, 5, 8, 5, 6, 6.

a) Construir a distribuição de frequência

b) Determinar as frequências relativas percentuais

c) Determinar as frequências acumuladas

d) Definir a amplitude total do rol

e) Qual a porcentagem de notas maiores que 5?

Page 21: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

21

3) A distribuição abaixo representa os salários dos funcionários de uma empresa H. Calcule fr%, fac, xi (valor médio da classe).

Salário (R$) f i xi fr% fiac frac%

500│─ 600 600│─ 700 700│─ 800 800│─ 900 900│─ 1000 1 000 │─ 1100 1 100 │─ │ 1 200

Total

a) Qual o percentual de salários menores que R$ 900,00? b) Qual o percentual de salários entre R$ 700,00 e R$ 800,00?

c) Qual a faixa salarial com maior frequência? O que isso significa?

d) Construa o polígono de frequência absoluta

8

10

16

14

10 5 2

Page 22: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

22

1.6 Medidas de tendência central (medidas de posição)

Uma medida de tendência central ou de posição de um conjunto de dados mostra o valor em torno do qual se agrupam as observações (resume um conjunto de dados). Representa o fenômeno pelo valor médio, em torno da qual os dados tendem a concentrar-se. É a medida de posição que orienta quanto à posição da distribuição dos dados no eixo x do plano cartesiano. As principais medidas de tendência central são: a média aritmética (ou média), a mediana e a moda. Outras médias utilizadas na estatística são: a média geométrica, a média harmônica, a média quadrática, a média cúbica e a média biquadrática. Existem ainda as medidas definidas como separatrizes (quartis, decis, percentis). As medidas de tendência central, juntamente com as medidas de dispersão ou variabilidade, de assimetria, de curtose, entre outras, permitem caracterizar de forma concisa, um conjunto de dados. Propriedades da média

• A média de um conjunto de números pode sempre ser calculada. • Para um dado conjunto de números, a média é única. • A média é sensível a (ou afetada por) todos os valores do conjunto. Assim, se um valor

se modifica, a média também se modifica. • Somando-se uma constante a cada valor do conjunto, a média ficará aumentada do valor

dessa constante (ex: somando-se 4, 5, a cada um dos valores do conjunto, a média ficará aumentada de 4,5). Quando se subtrai, se multiplica ou se divide cada um dos elementos do conjunto por um valor constante, a média ficará subtraída, multiplicada ou dividida pelo referido valor.

• O somatório dos desvios dos elementos do conjunto a contar da média é zero, ou seja,

( ) 0=−= ∑ ixxd

1.6.1 Média aritmética simples

A média aritmética simples é dada pelo quociente entre o somatório (∑) dos valores do conjunto e o número de elementos (n ou N). A média aritmética simples é calculada quando os dados são apresentados de forma não agrupados.

n

xx i∑=

(elementos de uma amostra) N

xi∑=µ (elementos de uma população)

Exemplo 1: Suponha que em um escritório tenha cinco funcionários cujos salários são equivalentes a: R$ 260, 00, R$ 340, 00, R$ 430, 00, R$ 790,00 e R$ 540,00. Qual a média salarial entre o salário dos funcionários?

Page 23: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

23

1.6.2 Média aritmética ponderada A média aritmética ponderada é dada pelo quociente entre o somatório do produto dos valores das variáveis e suas respectivas frequências e a soma das frequências (nº. de elementos). A média ponderada é calculada sempre que os dados estiveram agrupados em distribuição de frequência.

∑∑=

i

ii

f

fxx

(amostra) ∑∑=

i

ii

f

fxµ (população)

Exemplo 2: As idades de 15 pessoas aparecem distribuídas na tabela de distribuição que segue. Determinar a média ponderada entre as idades.

Idade (xi) Nº pessoas (fi) xi . fi

13 16 18 21 26

3 4 5 2 1

∑ Exemplo 3: A tabela abaixo apresenta os dados correspondentes ao consumo de eletricidade de 80 usuários, calcular a média aritmética do consumo de energia em kw/h.

Consumo kw/h (xi’s) Nº usuários (fi) xi xi.fi 5 25 25 45 45 65 65 85 85 105 105 125 125 145 145 1 65

4 6 14 26 14 8 6 2

∑ Exemplo 4: Um professor realiza quatro provas por ano em uma matéria X, atribuindo a cada um os seguintes pesos: 1, 2, 3, 4. Se um aluno tiver recebido as notas 8, 7, 9 e 9, nessa ordem, qual a média aritmética final desse aluno?

Page 24: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

24

1.6.3 Média geométrica A média geométrica é utilizada quando se deseja fazer a média de taxas de juro, por exemplo. Neste caso, multiplicam-se os n termos e em seguida extraí-se a raiz de ordem n. A média geométrica é o resultado da raiz de ordem n do produto de todos os valores da população ou da amostra. Média Geométrica = n

ixΠ com =Π ix x1 . x2 . x3. ... . xn

Exemplo 5: Calcular a média geométrica de: 12 14 16 1.6.4 Média harmônica A média harmônica de um conjunto de n números é a recíproca da média aritmética dos recíprocos dos números.

Média Harmônica = ∑∑

=

ii x

n

xn

1111

Exemplo 6: Calcular a média harmônica de: 12 14 16 1.6.5 Relação entre as médias aritmética, geométrica e harmônica A média geométrica de um conjunto de números positivos é menor ou igual à sua média aritmética, mas é maior ou igual à sua média harmônica. Quanto maior a variabilidade, maior será a diferença entre as médias harmônica, geométrica e aritmética. H ≤ G ≤ X O sinal de igualdade vale somente quando todos os números forem iguais.

Page 25: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

25

1.6.6 Mediana É dada pelo valor que ocupa a posição central de um conjunto de dados quando organizados em ordem crescente ou decrescente. A mediana é considerada uma medida separatriz, pelo fato de separar o rol em duas partes iguais. Exemplo 1: Sejam os elementos da série 2 3 4 4 5 6 6 6 7 7 8 8 8 9 9 10 11 12 13 14 15 Este rol tem N = 21 (21 elementos), um número impar de elementos, então, a mediana é o valor que ocupa a 11º posição, ou seja, o valor “8”. A “posição” da mediana em uma série com número “N” impar de elementos é encontrada por

2

1+N

Exemplo 2: Sejam os elementos de uma série 3 6 9 12 14 15 17 20 ( a mediana está entre 12 e 14) Como o rol constitui-se de N = 8 (8 elementos), um número par de elementos, pode-se dizer

que a mediana encontra-se entre os elementos que ocupam os lugares 2N

e 12

+N

. No

exemplo tem-se: O elemento que ocupa o 4º lugar é 12, o elemento que ocupa o 5º lugar é 14. Assim o valor

correspondente a mediana é 132

1412=

+

Exemplo 3: A tabela abaixo representa a distribuição do número de crianças, por idade, vacinadas contra a catapora. Determinar o valor da mediana.

xi (idade) 2 3 5 6 7 ∑ fi 1 4 5 3 2 facm

O procedimento para definir o valor da Mediana (Md) de valores agrupados em distribuição não em classe é igual aos procedimentos utilizados nos exemplos anteriores: acha-se o número de elementos e procura-se o lugar central, associando o elemento que ocupa este lugar. Usar frequência acumulada é uma boa opção.

Page 26: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

26

Para definir o valor da Mediana (Md) para dados agrupados em classe, o cálculo é realizado por interpolação, sendo que o valor da mediana será o valor da variável que divide a

série contínua ao meio

2N

. Tratando de representação geométrica, o valor da mediana será a

abscissa que divide o histograma ao meio. Para definir o valor da mediana, encontra-se:

• a classe da mediana a partir de

2N

;

• a frequência acumulada • aplica-se a fórmula

onde: N: número de elementos.

il : limite inferior da classe da Md

acaf : frequência acumulada anterior a classe da mediana

Mdf : frequência da classe mediana h : amplitude da classe da mediana. 1.6.7 Moda É dada pelo valor que ocorre com maior frequência no conjunto. Exemplo 4: 10, 10, 8, 6, 10, o valor que mais se repete é o valor 10, logo este valor representa a moda do conjunto de valores. Quando não existir valor repetido ou todos aparecerem com a mesma intensidade diz-se que a classe é amodal. Quando houver dois valores que se repetem na mesma quantidade de vezes a série é bimodal, mais que dois valores predominantes, têm-se uma classe plurimodal. Quando a série estiver distribuída em frequência, o valor da moda será dado pelo elemento que tiver maior frequência. Quando esta distribuição for em classe, o valor que representa a moda poderá ser calculado pela fórmula de Czuber.

21

1.∆+∆

∆+= hlMo i

Onde: Mo: Moda (achar a classe modal)

1∆ : fmo – fant (diferença entre a classe modal e a classe anterior a classe modal)

2∆ : fmo – fpost (diferença entre a classe modal e a classe posterior a classe modal) li : limite inferior a classe modal h: amplitude da classe moda

hf

fN

lMMd

aca

id .2

−+=

Page 27: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

27

Exemplo 5: A tabela abaixo apresenta o agrupamento das idades de vinte funcionários de uma empresa. Encontre a moda e a idade mediana

1.6.8 Cálculo da moda pela fórmula de Pearson A moda é aproximadamente a diferença entre o triplo da mediana e o dobro da média aritmética. xMMo d 23 −=

Valendo-se do exemplo anterior calcule o valor da moda, utilizando a equação de Pearson.

Classe Idade (xi’s) fi facm 10 ├ 20 2 20 ├ 30 4 30 ├ 40 8 40 ├ 50 5 50 ├ 60 1 ∑

Page 28: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

28

1.6.9 Aspecto das distribuições Simétrica Uniforme

Média Média Mediana Mediana Moda Assimétrica à esquerda Assimétrica à direita

Média < Mediana < Moda Moda < Mediana < Média Atividades de estudo 3

1. Em um escritório de consultoria, trabalham cinco funcionários que recebem os seguintes salários: R$ 800,00; R$ 780,00; R$ 820,00; R$ 810,00 e R$790,00. Calcule o valor da média salarial do grupo.

Page 29: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

29

2. Um professor realiza quatro provas por ano em uma matéria X, atribuindo a cada um os seguintes pesos: 1, 2, 3, 4. Se um aluno tiver recebido as notas 8, 7, 9 e 9. Nessa ordem, qual a média aritmética final desse aluno?

3. Sabendo que a produção leiteira diária de uma vaca A, durante uma semana foi de 10, 14, 13, 15, 16, 18 e 12 litros de leite. Determine a medida da média aritmética, da mediana e da moda

4. Se o exame final, em um curso, tem peso 3 e as provas realizadas no semestre têm peso 1, e um aluno tem notas 85 no exame, 70 e 90 nas provas realizadas no semestre, calcule a média aritmética ponderada obtida

5. Os salários médios anuais dos professores do ensino elementar em três cidades são

R$14.500,00, R$16.300,00, R$20.200,00. Havendo 720, 660 e 520 professores de ensino elementar nessas cidades. Calcule a média salarial entre as três cidades

6. Em uma companhia de produção múltipla, as margens de lucro para as 4 linhas de

produto da firma durante o último ano fiscal foram: linha A - 4,2%; linha B - 5,5%; linha C - 7,4% e linha D - 10,1%. Calcule a média aritmética da margem de lucro

Page 30: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

30

7. Se no problema 6 considerarmos que o valor correspondente a venda de cada linha seja diferente, a média de lucro deverá ser calculada com respaldo no valor vendido. Supondo que as vendas sejam de acordo com a tabela que segue, calcule a média geral do lucro.

Linha Margem de lucro (xi) Vendas R$ (fi) xi.fi A B C D

4,2 5,5 7,4 10,1

30.000,00 20.000,00 5.000,00 3.000,00

∑= ∑= ∑=

8. Uma pesquisa amostral efetuada junto a uma Universidade mostra que as notas obtidas pelos alunos estão relacionadas com o tempo de estudo extraclasse, em horas, conforme mostra a tabela que segue. Determine o valor médio de horas de estudo considerando o nº de horas médias por pessoa e suas respectivas freqüências

Nota (informação)

Nº de horas médias por pessoa (xi)

Nº de estudantes (fi) xi .fi

7 8 9

0,9 0,7 1,0

80 70 65

∑ -

9. Determine o lugar e o valor da mediana na série de valores: 5, 13, 10, 2, 18, 15, 6, 16, 9.

10. Determine o valor da média, da mediana e da moda na série amostral: 152, 132, 164, 127, 10, 142.

Page 31: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

31

11. A tabela abaixo apresenta o agrupamento das idades de uma amostra de pessoas que participam de um grupo ligado a assistência social, responsável pelos donativos de alimentos para asilos.

Classe Idade (xi) fi

10 ├ 18 2 18 ├ 26 3 26 ├ 34 6 34 ├ 42 8 42 ├ 50 6 50 ├ 58 3 58 ├ 66 2 ∑

Determine: a) A média aritmética das idades das pessoas.

b) A medida da mediana e a medida da moda.

c) Fazer o histograma, a linha poligonal e marcar o valor das três medidas de tendência central.

d) O desvio de cada elemento em relação a média aritmética.

e) Escreva o que significa cada uma dessas medidas.

f) Qual o percentual das pessoas com idade menor que 42 anos.

Page 32: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

32

1.7 Medidas de variabilidade

O resumo de um conjunto de dados por uma única medida representativa de posição central esconde toda a informação sobre a variabilidade do conjunto de observações. Por exemplo, se temos três amostras de observações dadas pelas séries que seguem: A: 20, 20, 20 B: 15, 10, 20, 25, 30 C: 16, 20, 20, 24, 20

=Ax =Bx =Cx Apesar das médias serem iguais, na série A não se tem dispersão, a série B apresenta dispersão maior que a série C. Dessa forma, podemos dizer que na série A a média é mais representativa que em B e que em C a média é mais representativa que em B. Dessa forma faz-se necessário o estudo das medidas de dispersão que são utilizadas para avaliar o grau de variabilidade dos valores em torno da média. Servem para medir a representatividade da média. Pequena dispersão Grande dispersão 1.7.1 Amplitude total

É dado pela diferença entre o maior e o menor valor da série. É também conhecida como intervalo entre um grupo de valores. R = xmáx - xmin

Exemplo 1: 1, 5, 7, 9 R= 9 – 1⇒ R = 8 Exemplo 2: 14, 3, 17, 4, 8, 80, 83, 42, 31 R= 83 – 3⇒ R= 80 È uma medida pouco utilizada por ser muito limitada, pois depende apenas dos valores extremos da série, não considerando os valores intermediários. 1.7.2 Variância

É dada pela média aritmética dos quadrados dos desvios dos valores a contar da média. É uma medida de dispersão que nos leva a determinar a medida do desvio padrão (principal medida de dispersão). Para calcular a variância é necessário:

• Calcular o desvio de cada elemento a partir da média

As medidas de variabilidade (dispersão) indicam se os valores estão próximos uns dos outros ou se estão mais longe.

Page 33: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

33

• Elevar ao quadrado cada um dos desvios antes de somá-los. Quando o trabalho está sendo feito com dados distribuídos em frequência, cada desvio ao quadrado deve ser multiplicado por sua frequência antes da soma

Variância populacional (σσσσ2) Variância amostral (S2)

• Dados não agrupados

( )N

xx i∑ −=

2

( )1

2

2

−= ∑

n

xxS i

• Dados agrupados

( )N

fxx ii∑ −=

.2

( )1

2

2

−= ∑

n

fxxS ii

Na análise inferencial usa-se (n-1) no divisor para ter uma melhor estimativa da variância populacional. A unidade resultante do cálculo da variância é sempre o quadrado da unidade original. Por exemplo, se a variável em estudo é medida em metros (m), a unidade da variância será em m2. Para se ter a unidade original, há necessidade de outra medida de dispersão, que definimos como sendo o desvio padrão. 1.7.3 Desvio padrão

É dado pela raiz quadrada positiva da variância. Para calcular o valor da medida do desvio padrão, basta extrair a raiz quadrada da variância. Obs.: O desvio padrão nada mais é do que a distancia média em que os elementos de uma série ou distribuição encontram-se da média aritmética dos referidos elementos. Desvio padrão de uma população Desvio padrão amostral

2σσ =

2SS = Exemplo 1: Calcular a variância e o desvio padrão da amostra: 2, 4, 6, 8, 10

Page 34: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

34

1.7.4 Coeficiente de variação de Pearson

As medidas de dispersão apresentam a variação dos valores de um conjunto, em relação a uma medida de tendência central, geralmente a média aritmética. Entretanto, na comparação de dois ou mais conjuntos diferentes, pode acontecer que todos eles ou alguns apresentem a mesma medida de dispersão, ou seja, o mesmo desvio padrão; ou ainda, pode ocorrer que os termos dos conjuntos sejam heterogêneos, com unidades diferentes, o que nos impede de compará-los diretamente. Devemos, nesses casos, usar uma outra medida que nos permita verificar a variação desejada. Com essa finalidade, existem os coeficientes de variação, dentre os quais, o mais utilizado é o coeficiente de variação de Pearson, dado pelo quociente entre o valor do desvio padrão (σ ) ou (S) e a média aritmética (µ) ou ( x ).

AritméticaMédia

PadrãoDesviodeeCoeficient =Variação

µσ

=CV (para amostra usa-se S e x )

Essa fórmula pode ser expressa na forma de porcentagem: 100.µσ

=CV

Exemplo 1: Numa empresa, o salário médio dos homens é de R$ 4.000,00, com desvio padrão de R$ 1.500,00, e o das mulheres é em média de R$ 3.000,00, com desvio padrão de R$ 1.200,00. Qual o coeficiente de variação para os homens? E para as mulheres? Obs.: Diz-se que uma distribuição possui pequena variabilidade quando o coeficiente der menor que 10%, média dispersão quando o coeficiente estiver acima de 10% e abaixo de 20%, e grande quando o coeficiente for maior que 20%. No entanto, alguns analistas estatísticos consideram:

Baixa dispersão: CV ≤≤≤≤ 15% ; Média dispersão: 15% <<<< CV <<<< 30% e

Alta dispersão: CV ≥≥≥≥ 30%

Page 35: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

35

Atividades de estudo 4: 1. O tempo gasto por 6 alunos para fazer um trabalho foi, em minutos: 6, 5, 5, 3 ,3 e 2.

Nessas condições, calcule a média aritmética, a variância, o desvio padrão e o coeficiente de variação dessa série. Resp.: média: 4; variância: 2; desvio padrão: 1,41 CV: 35,25%

2. Dado o rol que representa as notas de um grupo de alunos (avaliados de zero a cem) que estudam em uma escola que tem 2300 alunos, faça a distribuição em 7 classes e calcule: • Os valores das medidas de tendência central (média, mediana, moda) • As medidas de variabilidade (variância, desvio padrão) • O coeficiente de variabilidade

3 5 7 8 9 12 15 18 20 22 22 25 27 28 29 31 36 37 38 39 40 41 45 46 48 49 51 53 53 53 55 57 57 58 59 59 60 63 64 65 67 71 75 75 79 79 80 85 87 98

3. A tabela abaixo representa as estaturas em (cm) de uma amostra.

Estatura (xi) fi xi xi . fi 150 154 4 154 158 9 158 162 11 162 166 8 166 170 5 170 174 3

∑ Calcule:

a) A média das estaturas b) A medida do desvio padrão. Explique o que essa medida representa c) O coeficiente de variabilidade

Page 36: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

36

2. PROBABILIDADE 2.1 Apresentação

Vivemos num mundo probabilístico, falamos probabilisticamente quase todo o tempo, embora frequentemente vivamos como se os acontecimentos da vida fossem sempre certos.

Conhecer probabilidade faz-se extremamente útil a quem quer prever e inferir sobre acontecimentos, quer sejam reais ou fictícios. Neste ponto, a inferência estatística carece decisivamente da teoria da probabilidade.

A inclusão da probabilidade no estudo de estatística se justifica pelo fato de a maioria dos fenômenos estatísticos ser de natureza aleatória ou probabilística.

Em qualquer experimento aleatório, há sempre uma incerteza quanto à ocorrência ou não, de determinando evento. A fim de obtermos uma medida de chance ou de probabilidade, com que podemos esperar a ocorrência de determinado evento, é conveniente que atribuamos um número entre 0 e 1. Se tivermos certeza de que o evento ocorrerá, dizemos que sua probabilidade é de 100% ou de 1; se estivermos certos de que não ocorrerá, dizemos que sua

probabilidade é zero. Se, por exemplo, a probabilidade é 41

, diremos que há uma chance a cada

4 ocorrências, ou seja existe a chance de 25% de ocorrência e a chance de 75% de não-ocorrência.

Há dois processos importantes para se obter a estimativa da probabilidade de um evento:

1. Processo clássico ou “a priori”: É aquele que decorre da possibilidade de calcular os casos totais possíveis e os casos favoráveis utilizado normalmente nos mundos artificiais, como: o baralho, a roleta, os dados, etc. Antes de começar o experimento sabe-se o que pode acontecer.

2. Processo de frequência ou “a posteriori”: Nas ciências aplicadas, físicas e tecnológicas, a probabilidade a priori não pode ser usada normalmente. Pois não conhecemos a priori os possíveis resultados, como por exemplo, do número de produtos defeituosos que uma máquina pode produzir. Seria necessário contar, inspecionar toda a produção (o que é impraticável ou impossível). Nestes casos, tomamos uma amostra e desenvolvemos sobre esta a inspeção para verificação da quantidade de peças defeituosas.

2.2 Experimento determinístico São aqueles experimentos repetidos, que sob mesmas condições iniciais, conduzem sempre a um mesmo resultado. Se as alterações no resultado final forem mínimas elas podem ser desprezadas. Exemplo: a queda livre de um objeto de certa altura considerando o tempo de queda. 2.3 Experimento aleatório

São fenômenos que, mesmo repetido várias vezes sob condições semelhantes, apresentam resultados imprevisíveis. O resultado final depende do acaso.

Se o fenômeno seguir o modelo não-determinístico, temos um experimento aleatório, que apresenta as seguintes características:

Page 37: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

37

• o experimento pode ser repetido; • embora não se possa prever que resultado particular ocorrerá, pode-se descrever o

conjunto dos resultados possíveis; • a medida que se aumenta o número de repetições tende a aparecer uma regularidade

nos resultados.

Exemplo: O lançamento de um dado anotando o número de pontos obtidos na face superior. Dificilmente se consegue repetir o lançamento exatamente nas mesmas condições anteriores. Estas pequenas variações que podem ocorrer na repetição do lançamento podem provocar mudanças no número de pontos apresentados na face superior. Essas mudanças não podem ser desprezadas, pois o fenômeno admitirá por repetição, mais de um resultado.

2.4 Espaço amostral

O espaço amostral (S) ou conjunto universo é o conjunto dos possíveis resultados de um experimento aleatório. Pode ser:

• finito: se tem um número finito de elementos

• infinito enumerável: quando tem tantos elementos (infinitos) quantos são os números naturais “0,1,2,3,4...”, (espaço discreto)

• infinito não enumerável: se tem tantos elementos (infinitos) quantos forem os pontos de um determinado segmento de reta, ou seja, um intervalo numérico, por exemplo: “0 ≤ x ≤ 3”, (espaço contínuo)

Obs.: Quando todos os elementos do espaço amostral têm a mesma chance de acontecer, o espaço amostral é chamado de conjunto equiprovável. Cada elemento do espaço amostral que corresponde a um dos possíveis resultados recebe o nome de ponto amostral. Um evento é um subconjunto do espaço amostral. Os eventos podem ser certos, impossíveis e mutuamente exclusivos.

• Evento certo: quando o evento coincide com o espaço amostral (probabilidade um)

• Evento impossível: quando o evento é vazio (probabilidade zero)

• Eventos exclusivos: quando a interseção entre dois ou mais eventos é vazia, ou seja, quando eles não puderem acontecer mutuamente

Exemplo: No experimento aleatório “lançar um dado e registrar o resultado”, podemos ter: Evento A: “ocorrência de um número menor que 7 e maior que zero” ___________________ Evento B: “ocorrência de número maior que 6” _____________________________________ Evento C: “ocorrência de número par” ____________________________________________ Evento D: “ocorrência de número impar” __________________________________________

Page 38: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

38

Sabendo que um evento é um subconjunto do espaço amostral (S), podemos considerar as operações de união, interseção e complementar de um evento.

União de eventos: Se A e B forem eventos, AUB será o evento que ocorrerá se e somente se A ou B ocorrerem (ou ambos ocorrerem).

Intersecção de eventos: Se A e B forem eventos, A∩B será o evento que ocorrerá se e

somente se A e B ocorrerem simultaneamente. Complementar de um evento: Se A for um evento de S, o complementar de A, denotado

por CA ou A , será o conjunto formado por todos os resultados de S que não estão em A. Exemplo: No espaço amostral do exemplo anterior temos:

• A ∪ B= • A ∩ B= • DC ∪ = • DC ∩ = • CC = • CB = • CD =

2.5 Função de probabilidade Ao conhecermos o espaço amostral de um evento, podemos associar a cada elemento a sua probabilidade de ocorrência. A função de probabilidade é uma função definida no espaço amostral S do experimento, assumindo valores reais, com as seguintes propriedades:

• a probabilidade de um evento é um valor que varia entre 0 e 1; ( 0 ≤≤≤≤ p ≤≤≤≤ 1) • a soma de todas as probabilidades de um espaço amostral é igual a 1.

Notação básica de probabilidade

P denota uma probabilidade. A, B, C denotam eventos específicos. P(A) denota a probabilidade de ocorrência do evento A. 2.5.1 Definição de probabilidade

Aproximação da probabilidade pela frequência relativa

Realize (ou observe) um experimento um grande número de vezes e conte quantas vezes o evento A ocorre efetivamente. Então P(A) é estimada como segue:

erimentodorepetiçõesdenúmero

AdesocorrênciadenúmeroAP

exp)( =

Page 39: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

39

Queremos estudar as frequências de ocorrência das faces de um dado. Um procedimento seria lançar o dado certo número de vezes, n, e depois contar o número s de vezes em que

ocorre a face em questão. As proporções n

s determinam a distribuição de frequências do

experimento realizado. Lançando o dado um número diferente de vezes da anterior, teríamos outra distribuição de frequências, mas com um padrão que esperamos ser muito próximo do anterior. Nessas condições, o modelo teórico (ou probabilístico) para o experimento é dado na tabela a seguir: Face

1 2 3 4 5 6 Total

Frequência teórica 1/6 1/6 1/6 1/6 1/6 1/6 1

Atividades de estudo 5:

1) Um experimento consiste no lançamento de dois dados, o resultado é um par ordenado de números e pode se representado por (x1, x2) onde x1 representa o resultado do primeiro dado e x2 representa o resultado do segundo dado. a) Descreva o espaço amostral do experimento b) Descreva os seguintes eventos:

A = {(x1, x2) / x1 > x2 } C = {(x1, x2) / x1 = x2 } B = {(x1, x2) / x1 + x2 = 10 } D = {(x1, x2) / x1 < x2 }

c) Determine as probabilidades: P(A), P(B), P(C), P(D), P(AUB), P(AUD), P(A∩C),

P(B∩C), P(Ā)

Definição Clássica de Probabilidade

Suponha que um experimento tenha n eventos simples diferentes, cada um dos quais com a mesma chance de ocorrer. Se o evento A pode ocorrer em s dentre as n maneiras, então

)S(n

)A(n

diferentessimpleseventosdenúmero

ocorrerpodeAcomomaneirasdenúmero)A(P ==

Lei dos Grandes Números

Ao repetirmos um experimento um grande número de vezes, a probabilidade encontrada por meio da frequência relativa de um evento tende para a probabilidade teórica

Page 40: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

40

2) No lançamento simultâneo de três moedas perfeitas distinguíveis, qual a probabilidade de serem obtidas

a) pelo menos duas caras? b) exatamente duas caras?

2.6 Regras da adição

As regras da adição são utilizadas quando desejamos determinar a probabilidade P(A ou B) de ocorrer o evento A ou o evento B (ou ambos) como resultado de um experimento. A palavra-chave aqui é a conjunção ou. Na linguagem da teoria dos conjuntos, isto é conhecido como união de A e B e a probabilidade é designada por )( BAP ∪ .

Existem duas variações da regra de adição, dependendo de serem os dois eventos mutuamente exclusivos ou não. A regra para eventos mutuamente exclusivos é:

)()()()( BPAPBAPBouAP +=∪=

Exemplo 1: Ao retirar uma carta de um baralho, os eventos “ás” e “rei” são mutuamente exclusivos. A probabilidade de tirar um ás ou um rei numa única tentativa é:

132

528

524

524

)()()( ==+=+= KPAPKouAP

Para eventos que não são mutuamente exclusivos, é subtraída da soma a probabilidade da ocorrência conjunta dos eventos. Podemos representar a probabilidade da ocorrência conjunta por )( BeAP . Em linguagem de teoria dos conjuntos isto é chamado de intersecção de A e B, e a probabilidade é indicada por )( BAP ∩ . Então, a regra da adição para eventos que não são mutuamente exclusivos é: )()()()( BeAPBPAPBouAP −+= Exemplo 2: Ao retirar uma carta de um baralho, os eventos “ás” e “espadas” não são mutuamente exclusivos. A probabilidade de retirar um ás ou espada (ou ambos) em uma só tentativa é

134

5216

521

5213

524

)()()()( ==−+=−+= EeAPEPAPEouAP

Page 41: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

41

2.7 Regras da multiplicação

As regras de multiplicação se relacionam com a determinação da probabilidade da ocorrência conjunta de A e B. Temos, então, a intersecção de A e B, sendo a probabilidade designada por )( BAP ∩ . Existem duas variações da regra de multiplicação, conforme os eventos sejam independentes ou dependentes.

)(.)()()( BPAPBAPBeAP =∩=

Exemplo 3:

1. Uma moeda é lançada duas vezes. A probabilidade de que ambos os resultados sejam “cara” é:

41

21

21

)( == xcaraecaraP

2. Um júri consiste em 9 pessoas naturais do local e 3 pessoas naturais de outros estados.

Se dois jurados são selecionados aleatoriamente para uma entrevista, qual é a probabilidade de serem ambos naturais de outro estado?

123

)( =AP 112

)( =BP

221

112

.123

)()()( ==∩= BPAPBeAP

3. Na extração de duas cartas de um baralho bem misturado, determine a probabilidade de

que a primeira carta seja um ás e a segunda seja um rei. (Admita que a primeira carta extraída não seja reposta antes da extração da segunda carta.)

00603,0514

524

)( == xreieásP

4. Deve-se inspecionar uma grande remessa de caixas de chocolate. Os registros indicam

que 2% das caixas acusam conteúdo inferior ao estipulado. Escolhidas duas caixas aleatoriamente, qual a probabilidade de ambas acusarem conteúdo inferior, admitindo-se que a remessa inspecionada é semelhante às anteriores?

P(ambas defeituosas) 0004,0)02,0(.)02,0( ==

A Probabilidade de “ao menos um”

* “Ao menos 1” é equivalente a “1 ou mais” * O complemento de “obter ao menos 1 item de determinado tipo” é “não obter item daquele tipo”

Page 42: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

42

A regra da multiplicação e a regra dos complementos podem ser conjugadas para simplificar consideravelmente certos tipos de problemas, como a determinação da probabilidade de que, em várias tentativas, ao menos 1 tenha um resultado especificado. Vamos supor que um empregado de uma cidade precise falar com 1 de seus 5 colegas em sua casa. Admita que os 5 colegas sejam escolhas aleatórias de uma população, e que 39,5% dos números de telefone da cidade não estejam na lista. Devemos determinar a probabilidade de que ao menos 1 dos 5 colegas de trabalho do nosso empregado tenha seu número de telefone na lista. Exemplo 4: Determine a probabilidade de ao menos 1 dentre os 5 empregados na cidade ter o número de telefone na lista (podendo, portanto, ser chamado). Suponha que os números de telefone sejam independentes e que, na cidade, 39,5% dos números não estejam na lista. Passo 1: Represente por um símbolo a probabilidade desejada.

Em nosso caso, seja =L ao menos 1 número na lista, dentre os números dos 5 empregados.

Passo 2: Identifique o complemento do evento indicado no passo 1.

=L nenhum número na lista dentre os 5 empregados = 5 números não listados dentre os 5 empregados Passo 3: Determine a probabilidade do complemento do passo 2. =)(LP P( 5 números não listados entre os 5 empregados) = (0,395). (0,395). (0,395). (0,395). (0,395) = 0,00962

Passo 4: Determine a probabilidade do evento considerado, subtraindo de 1 a probabilidade do complemento.

=)(LP 1 - =)(LP 1- 0,00962 = 0,990

Portanto, temos 99% de probabilidade de ao menos 1 dos empregados ter seu número na lista, podendo, então, ser contatado

Probabilidade condicional

A probabilidade condicional de B dado A é a probabilidade de ocorrência do evento B, dado que o evento A já ocorreu. Pode ser determinada dividindo-se a probabilidade de ocorrência de ambos os eventos A e B pela probabilidade do evento A

)(

)()|(

AP

BeAPABP =

Page 43: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

43

Observação: Podemos determinar a probabilidade condicional de B dado A supondo que A já tenha ocorrido e, sob essa hipótese, calcular a probabilidade de ocorrência do evento B. Exemplo 5: Considere a situação do status da promoção de oficiais masculinos e femininos de uma força policial. Esta força policial consiste em 1200 oficiais, sendo 960 homens e 240 mulheres. Nos dois últimos anos, 324 oficiais foram promovidos, cuja divisão está na tabela a seguir. Depois de rever o registro de promoções, um comitê feminino de oficiais levantou um caso de discriminação com base em que 288 oficiais masculinos receberam promoções, mas somente 36 oficiais femininas foram promovidas. Vamos mostrar como a probabilidade condicional poderia ser usada para analisar a acusação de discriminação.

Homens Mulheres Total Promovidos

Não promovidos 288 672

36 204

324 876

Total 960 240 1200 Seja H = evento em que um oficial seja um homem M = evento em que um oficial seja uma mulher A = evento em que um oficial é promovido AC = evento em que um oficial não é promovido Obtemos as seguintes probabilidades:

24,01200288

)( ==∩ AHP = probabilidade de que o oficial seja um homem e é promovido.

56,01200672

)( ==∩ CAHP = probabilidade de que o oficial seja um homem e não é promovido.

03,01200

36)( ==∩ AMP = probabilidade de que o oficial seja uma mulher e é promovida.

17,01200204

)( ==∩ CAMP = probabilidade de que o oficial seja uma mulher e não é promovida.

Vamos começar a análise de probabilidade condicional calculando a probabilidade de que um oficial seja promovido dado que o oficial seja um homem.

)()(

)|(HP

HeAPHAP = =

Vamos agora calcular a probabilidade condicional de que um oficial seja promovido dado que seja uma mulher.

Page 44: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

44

)()(

)|(MP

MeAPMAP = =

A probabilidade de uma promoção dado que um oficial seja um homem é 0,30, isto é, duas vezes a probabilidade de 0,15 de uma promoção dado que o oficial seja uma mulher. Atividades de estudo 6: 1. Joga-se um par de dados equilibrados:

a) Qual a probabilidade de ambas as faces serem seis? b) Qual a probabilidade de ambas as faces serem dois? c) Qual a probabilidade de ambas as faces serem números pares?

2. As falhas de diferentes máquinas são independentes umas das outras. Se há quatro máquinas e, se suas respectivas probabilidades de falha são 1%, 2%, 5% e 10% em determinado dia, calcule as probabilidades:

a) De todas falharem em determinado dia b) De nenhuma falhar c) De ao menos uma falhar

3. Numa escola de ensino fundamental, 30% dos estudantes são do primeiro ciclo, 35% do segundo, 20% do terceiro e os restantes, do quarto ciclo. Um dos estudantes ganhou uma bolsa de estudos. Determine as seguintes probabilidades:

a) De o estudante ser do quarto ciclo b) De ser do primeiro ou do segundo ciclo c) De não ser do quarto ciclo

Page 45: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

45

4. Os dados da tabela resumem resultados de um estudo de 1000 mortes, selecionadas aleatoriamente, de homens com idade de 45 a 64 anos.

Causa da morte Câncer Doença Cardíaca Outros Fumante Não fumante

135 55

310 155

205 140

a) Se, dos 1000 indivíduos, 1 é selecionado aleatoriamente, determine a probabilidade de se

obter um fumante.

b) Se, dos 1000 indivíduos, 1 é selecionado aleatoriamente, determine a probabilidade de se obter um fumante ou alguém que tenha morrido em conseqüência de doença cardíaca.

c) Escolhidos aleatoriamente dois indivíduos, determine a probabilidade de ambos terem morrido de câncer.

d) Escolhidos aleatoriamente um indivíduo, determine a probabilidade de obter um não fumante que tenha morrido de câncer.

e) Escolhidos aleatoriamente três indivíduos diferentes, determine a probabilidade de serem todos fumantes.

f) Escolhido aleatoriamente um indivíduo, determine a probabilidade de se tratar de um fumante, dado que morreu de câncer.

g) Escolhido aleatoriamente um indivíduo, determine a probabilidade de obter alguém que tenha morrido de câncer, dado que se tratava de um fumante.

Respostas: 1) a) 1/36 b) 1/36 c) ¼ 2) a) 0,000001 b) 0,829 c) 0,171 3) a) 0,15 b) 0,65 c) 0,85 4) a) 0,65 b) 0,805 c) 0,0359 d) 0,055 e) 0,274 f) 0,711 g) 0,208

Page 46: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

46

3 PERMUTAÇÕES E COMBINAÇÕES Até agora, o valor da probabilidade foi calculado baseado na razão do número de resultados igualmente prováveis que são favoráveis ao evento pelo número total de resultados possíveis. Quando os problemas são simples, o número de resultados pode ser diretamente contado. Contudo, para problemas mais complexos são necessários os métodos de permutações e combinações para determinar o número de resultados possíveis. 3.1 Permutações

O número de permutações de n objetos é o número de maneiras pelas quais os objetos podem ser arranjados em termos de ordem:

Permutações de n objetos = n! = (n) . (n-1) . ... . 2 . 1 Exemplo 1: Três membros de uma organização social se oferecem como voluntários para comporem a diretoria para o próximo ano, assumindo as funções de Presidente, Tesoureiro e Secretário. O número de maneiras (permutações) pelas quais os três podem assumir tais cargos é:

n! = 3! = 3 . 2 . 1 = 6

Geralmente estamos interessados no número de permutações de algum subgrupo dos n objetos, e não em todos os n objetos. Isto é, estamos interessados no número de permutações de n objetos tomados r de cada vez, onde r é menor do que n:

Exemplo 2: No exemplo 1, suponha que existem 10 membros na organização social e que nenhuma indicação tenha sido feita para os cargos de Presidente, Tesoureiro e Secretário. O número de diferentes disposições de três diretores eleitos entre os 10 membros do clube é:

720!7!10

)!310(!10

3,10, ==−

==PP rn

3.2 Combinações No caso de permutações, é importante a ordem na qual os objetos estão dispostos. No caso das combinações, interessa-nos o número de diferentes agrupamentos de objetos que podem ocorrer sem levar a ordem em consideração. Por conseguinte, o interesse em combinações sempre se relaciona com o número de diferentes subgrupos que se pode formar com n objetos. O número de combinações de n objetos tomados r de cada vez é:

)!(!

, rn

nP rn −

=

Page 47: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

47

Em diversos textos a combinação de n objetos tomados r de cada vez é representada por

r

n. Note que isto não é uma fração.

Exemplo 3: Suponhamos que três membros de uma pequena organização social de 10 membros vão ser escolhidos para formar uma comissão. O número de diferentes grupos de 3 pessoas que podem ser escolhidos, sem ter em conta as diferentes ordens em que cada indivíduo poderia ser escolhido, é:

120)!310(!3

!103,10, =

−==CC rn

Atividades de estudo 7: 1. Cinco pessoas que constituem a junta diretora de uma pequena empresa manufatureira

sentarão juntas em um banquete. a) Determinar o número de arranjos de lugares possíveis para as cinco pessoas. b) Suponha que somente três dos cinco diretores serão convidados a representar a empresa

no banquete. Quantos arranjos diferentes seriam possíveis?

2. Para o problema 1-b suponha que não estejamos interessados no número possível de

arranjos de lugares, mas, sim, no número de diferentes grupos de três diretores (dentre cinco) que poderiam ir ao banquete. Quantos grupos são possíveis?

3. De quantas maneiras podemos formar um comitê de três pessoas dentre cinco?

( )!!!

, rnr

nC rn −

=

Page 48: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

48

4. Um representante de vendas deve visitar seis cidades durante uma viagem. Se há dez cidades na área geográfica que vai visitar, quantos grupos diferentes de 6 cidades pode ele visitar?

5. Suponhamos que existam 10 cidades na região que ele visitará e suponhamos, também, que a sequência das visitas programadas às cidades selecionadas seja importante. Quantas diferentes seqüências existem de seis cidades escolhidas de um grupo de dez?

6. Um vendedor de automóveis deseja impressionar os possíveis compradores com o número

de combinações diferentes possíveis. Um modelo pode ser dotado de três tipos de motor, dois tipos de transmissão, cinco cores externas e duas internas. Quantas são as escolhas possíveis?

7. Um cardápio oferece cinco tipos de carne ou peixe, três de salada, dois de batatas e quatro de vegetais. Quantos “pratos” são possíveis de serem formados, com um tipo de cada um?

Page 49: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

49

4. VARIÁVEL ALEATÓRIA Definição: Seja E um experimento aleatório e S o espaço amostral associado ao experimento. Uma função f que associa a cada elemento s ∈ S um número real f(s) é denominada variável aleatória.

4.1 Distribuição de probabilidades de variáveis aleatórias Definição: Função de probabilidade é a função que associa a cada valor assumido pela variável aleatória, a probabilidade do evento correspondente, isto é , P(X=xi) = P(Ai), i= {1, 2, 3, ....,n}.

Exemplo 1: Uma urna contém duas bolas brancas (B) e três bolas vermelhas (V). Suponha que são sorteadas duas bolas ao acaso, sem reposição. Defina a variável aleatória X: número de bolas vermelhas obtidas nas duas extrações.

X P(X=x)

0 1 2

1/10 6/10 3/10

Distribuição de probabilidade: x = 0; P(0) = P(X=0) = P(BB) = 1/10 x = 1; P(1) = P(X=1) = P(BV ou VB) = 6/10. x = 2; P(2) = P(X=2) = P(VV) = 3/10

• A soma de todas as probabilidades de uma função é igual a 1: ∑ =n

xip1

1)(

• A p(xi) ≥ 0 para todo xi

Exemplo 2: Na jogada de duas moedas o espaço amostral é S={ } Sendo a variável aleatória X: número de coroas. Estabeleça a distribuição de probabilidade.

Exemplo 3: Um casal pretende ter três filhos. Sendo a variável aleatória X: o número de filhos homens que o casal poderá ter. Faça a distribuição de probabilidades.

S= {........,.........,..........,.........,........,.........,.........,.......}

X 0 1 2 3

P(X=xi)

X Evento P(x) 0 1 2

Page 50: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

50

Obs.: Para calcular o número de elementos do espaço amostral S, basta multiplicar o número de possibilidades em cada situação, como no exemplo:

• dos filhos: 2 . 2. . 2 = 8 • na jogado dos dois dados: 6 . 6 = 36 • na jogada das três moedas: 2 . 2. 2 = 8

4.2 Esperança matemática ou valor esperado

O valor esperado de um experimento é uma média aritmética, podendo ser calculada por uma equação matemática do tipo E(x) = ∑ xi . P (xi)

Esperança (x) = µµµµ (x)

O conceito de esperança matemática surgiu em relação aos jogos de azar e, em sua forma mais simples, é o produto da quantia que um jogador aposta pela respectiva probabilidade de ganho.

Exemplo 1: Qual é a esperança matemática se comprarmos um dos 2 000 bilhetes de rifa de um aparelho de TV avaliado em R$ 640,00?

Como a probabilidade de ganhar o aparelho de TV é de 0005,0000.21

= , assim a

esperança matemática é de 640 . (0,0005) = R$ 0,32.

Do ponto de vista econômico é incoerente pagar mais do que R$ 0,32 pelo bilhete. Nesse exemplo tem-se um único prêmio, mas dois resultados possíveis R$ 0,00 ou o aparelho de TV avaliado em R$ 640,00.

Atividades de estudo 8:

1. Uma agência de seguros paga R$ 20.000,00 em caso de acidente de carro e cobra uma taxa de R$ 1.000,00. Sabe-se que a probabilidade de que um carro sofra acidente é de 3%. Quanto espera a seguradora ganhar por carro segurado? Resolução: R: R$ 400,00

X=x 1000,00 -19000,00 p(x)

Page 51: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

51

2. Um comerciante que deseja obter uma concessão para a venda de refrigerantes num jogo de futebol pode esperar lucrar R$ 500,00 com a venda de refri se o dia for ensolarado, mas somente R$ 250,00 se o dia estiver encoberto e R$ 170,00 se chover. As probabilidades para esses eventos são 0,65, 0,25 e 0,10, respectivamente. Qual é o lucro esperado do vendedor? R: R$ 404,50

3. Um investigador julga que tem 0, 40 de probabilidade de ganhar R$ 25.000,00 e 0,60 de probabilidade de perder R$15.000,00 num investimento. Seu ganho esperado é de:

4.3 Variância

Assim como a média é uma medida de tendência central de uma v. a., é natural que

procuremos uma medida de dispersão dessa variável em relação à média. Essa medida é a variância , a ser representada por σ2 e definida por:

σ2 = Var(X) = E [(X – E(X))2 ] = E [X2 - 2XE(X) + (E(X))2] = E(X2) - (E(X))2.

Logo: 2

11

2 )()()(

⋅−⋅= ∑∑

==

n

iii

n

iii xpxxpxXVar

ou σ2 = Var(X) = ∑ )(.))(( 2ii xPxEx −

O desvio padrão (σ) é a raiz quadrada positiva da variância. Tem sobre esta a vantagem de exprimir a dispersão na mesma unidade de medida da v. a.:

Exemplo 1: Dada a distribuição, calcule a esperança matemática, a variância e o desvio padrão.

x 8 12 16 20 24 P(x) 1/8 1/6 3/8 1/4 1/12

R: E(x)= 16; σσσσ2= 19,09; σσσσ=4,47

)(XVar====σσσσ

Page 52: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

52

5. DISTRIBUIÇÕES DE PROBABILIDADE As variáveis aleatórias numéricas podem ser descritas por intermédio de distribuições de probabilidades, as quais devem contemplar todas as possíveis manifestações do fenômeno examinado e as respectivas probabilidades ou frequências relativas. Esses dados são obtidos por meio de cadastros, os quais se classificam em:

• teóricos, gerados por modelos matemáticos que representem, com graus variados de sucesso, os fenômenos examinados.

• empíricos, elaborados com base nas frequências efetivamente observadas. • subjetivos, que reflitam as convicções do pesquisador acerca das frequências

O primeiro tipo de cadastro permite definir funções de distribuição de probabilidades, com base nas quais são calculadas, com precisão, as probabilidades de ocorrência de quaisquer possíveis manifestações da variável aleatória. Os modelos de distribuição de probabilidade apresentam características específicas conforme as variáveis aleatórias numéricas sejam discretas ou contínuas. 5.1 Distribuições discretas As distribuições discretas (descontínuas) de probabilidades envolvem variáveis aleatórias relativas a dados que podem ser contados, como o número de ocorrências por amostra, ou o número de ocorrências por unidade num intervalo de tempo, de área, ou de distância. 5.1.1 Distribuição Binomial Usa-se o termo “binomial” para designar situações em que os resultados de uma variável aleatória podem ser agrupados em duas classes ou categorias. As principais propriedades da distribuição binomial são:

• há n observações ou provas idênticas; • cada prova tem dois resultados possíveis, usualmente chamados “sucesso” e “fracasso”; • as probabilidades p de sucesso e ( 1 – p ) de fracasso permanecem constantes em todas

as provas e são complementares; • os resultados das provas são independentes uns dos outros.

Há muitos exemplos de variáveis aleatórias que podem ser classificadas como variáveis binomiais: respostas a um teste tipo V ou F, respostas do tipo sim ou não a um questionário, produtos manufaturados classificados como perfeitos ou defeituosos. Além disso, variáveis com resultados múltiplos podem frequentemente ser tratadas como binomiais, quando apenas um resultado tem interesse. Pode haver bolas de cinco cores em uma urna, mas se nosso interesse é apenas na extração de uma bola verde, as bolas podem classificar-se como verdes e não-verdes.

O fenômeno estudado que segue uma distribuição binomial é o que trata da quantidade de “sucessos” observados em uma amostra. Conhecendo a quantidade n de observações contidas na amostra e a probabilidade p de “sucesso”, a distribuição binomial é representada pela seguinte equação:

Page 53: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

53

Onde: P(x) = probabilidade de que sejam observados x sucessos, dados n e p x = quantidade de sucessos da amostra (varia de zero a n ) n = tamanho da amostra p = probabilidade de sucesso (1-p) = probabilidade de fracasso Exemplos: a) Qual a probabilidade de se obter exatamente 2 caras em 3 lançamentos de uma moeda? b) Aplicando a fórmula da probabilidade binomial, determine a probabilidade de obter 3 estudantes canhotos em uma turma de 15 estudantes, dado que 10% da população são canhotos.

Atividades de estudo 9:

1. Uma moeda é lançada 10 vezes, qual a probabilidade de se obter exatamente 6 caras?

R: 0, 2047

)()1(..)!(!

!)( xnx pp

xnx

nxP −−

−=

Page 54: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

54

2. Lançando uma moeda quatro vezes, qual a probabilidade de se obter exatamente três

caras? R: 0,25

3. Um dado é lançado cinco vezes. Qual a probabilidade de se obter face 4, no máximo

duas vezes? R: 0, 9645

4. Qual a probabilidade de ocorrer três faces “6” em 5 jogadas de um dado?

R: 0, 032

5. Dos estudantes de um colégio, 41% fumam cigarro. Escolhem-se seis alunos ao acaso

pára darem sua opinião sobre o fumo. Determine:

a) A probabilidade de nenhum dos seis ser fumante. R: 0, 042

b) De todos os seis serem fumantes. R: 0, 0048

Page 55: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

55

6. Supondo que os 10 componentes de um sistema funcionem independentemente e se p =

0,6 é a probabilidade de cada componente funcionar, qual é a probabilidade de que no

máximo 8 componentes funcionem?

7. Se 20% dos parafusos produzidos por uma máquina são defeituosos, determinar a

probabilidade de, entre 4 parafusos escolhidos ao acaso, um ser defeituoso.

R: 0,4096

5.1.2 Distribuição de Poisson A distribuição de Poisson tem dupla importância: uma como modelo probabilístico para inúmeros fenômenos aleatórios nas mais diversas áreas, e outra, como uma aproximação da distribuição binomial, esta difícil de calcular quando n é grande. A distribuição de Poisson é útil para descrever as probabilidades do número de ocorrências num campo ou num intervalo contínuo (em geral tempo ou espaço). Eis alguns exemplos de variáveis que podem ter como modelo a distribuição de Poisson:

• Defeitos por centímetro quadrado. • Acidentes por dia. • Número de chamadas telefônicas recebidas por uma central durante 5 minutos. • Número de falhas de um computador num dia de operação. • Número de relatórios de acidentes enviados a uma companhia de seguros numa semana.

Note-se que a unidade de medida (tempo, área) é contínua, mas a variável aleatória (número de ocorrências) é discreta. Além disso, as falhas não são contáveis. Não é possível contar os acidentes que não aconteceram, nem tão pouco o número de chamadas que não foram feitas, nem o número de defeitos que não ocorreram. A distribuição de Poisson baseia-se nas seguintes condições:

Page 56: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

56

1. A probabilidade de uma ocorrência é a mesma em todo o campo de observação, portanto, o número de ocorrências durante qualquer intervalo depende somente da extensão do intervalo;

2. As ocorrências ocorrem independentemente, ou seja, um excesso ou falta de ocorrências

em algum intervalo não exerce efeito sobre o número de ocorrências em outro intervalo;

3. A possibilidade de duas ou mais ocorrências acontecerem em um pequeno intervalo é muito pequena (aproximadamente zero) quando comparada à de uma única ocorrência.

O limite inferior do número de ocorrências, em todas essas situações, é 0, enquanto que

o limite superior – ao menos teoricamente – é infinito, muito embora, na maioria dos exemplos acima, seja difícil imaginar um número ilimitado de ocorrências. A distribuição de Poisson fica completamente caracterizada por um único parâmetro: a média do processo. Assim, sabendo que uma variável aleatória tem resultados distribuídos segundo Poisson, e conhecendo o número médio de ocorrências por unidade, podemos determinar a probabilidade de qualquer dos resultados possíveis. Assim como no caso binomial, podemos usar tabelas individuais onde se encontram as probabilidades para algumas médias, e também usar uma fórmula para calcular a probabilidade para qualquer média. A fórmula de Poisson: Onde x é o número de ocorrências e é a base dos logaritmos naturais λ é a taxa média por unidade multiplicada pelo número de unidades Exemplos:

1) Um processo mecânico produz tecido para tapetes com uma média de dois defeitos por metro quadrado. Determine a probabilidade de um metro quadrado ter exatamente um defeito, admitindo que o processo possa ser bem aproximado por uma distribuição de Poissson.

R: λ = 2 defeitos por m²

!)(

x

exP

xλλ−

=

Page 57: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

57

2) Suponhamos que os navios cheguem a um porto à uma razão de 2 navios/hora, e que

essa razão seja bem aproximada por um processo de Poisson. Observando o processo durante um período de meia hora, determine a probabilidade de

• não chegar nenhum navio; • chegarem 3 navios.

3) Uma central telefônica recebe, em média, cinco chamadas por minuto. Supondo que a distribuição de Poisson seja adequada nessa situação, obter a probabilidade de que a central

• não receba chamada durante um intervalo de um minuto. • receba no máximo duas chamadas em quatro minutos.

Atividades de estudo 10:

1. As chamadas de emergência chegam a uma delegacia de polícia à razão de 4 por hora em dias úteis, e podem ser aproximadas por uma distribuição de Poisson.

a) Quantas chamadas de emergência são esperadas num período de 30 minutos? b) Qual a probabilidade de nenhuma chamada num período de 30 minutos? c) Qual a probabilidade de ao menos 2 chamadas no mesmo período?

Page 58: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

58

2. O número de rádios vendidos por dia por uma empresa tem distribuição aproximadamente de Poisson com média 1,5. Determine a probabilidade de a firma vender quatro ou mais rádios num período de 3 dias.

3. Os defeitos em rolos de filme fotográfico colorido ocorrem à razão de 0,1 defeito/rolo, e a distribuição dos defeitos é de Poisson. Determine a probabilidade de um rolo em particular conter um ou mais defeitos.

4. Os clientes chegam a uma loja à razão de 6,5/hora (Poisson). Determine a probabilidade de que, durante qualquer hora:

a) não chegue cliente. b) chegue 1 cliente ou mais.

Respostas 1) a) 2 chamadas b) 0,135 c) 0,594 2) 0,6577 3) 0,0952 4) a) 0,0015 b) 0,9985

Page 59: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

59

5.2 Distribuição Contínua Definição 1: Uma função X, definida sobre o espaço amostral S e assumindo valores num intervalo de números reais, é chamada de função de variáveis contínuas. O ponteiro da figura abaixo ilustra o conceito de variável contínua. Uma vez que tenha sido posto a girar, o ponteiro pode parar em qualquer posição ao longo do círculo. Não se pode esperar que venha a parar exatamente num dos valores do círculo. Mesmo levando-se em conta as limitações na mensuração feita ao longo do círculo, ainda assim, há um número extremamente grande de pontos de paradas possíveis.

O polígono de variáveis contínuas de uma amostra ou de uma população é apresentado a partir de uma curva definida por uma equação do tipo y = p (x), onde a probabilidade de ocorrência do evento corresponde a área total limitada pela curva que se originou da função e o eixo x . A área da referida curva é igual a “1”, e a área compreendida entre as verticais “a” e “b” sombreada, dá a probabilidade de X cair entre “a” e “ b” , podendo ser representada por P(a ≤ x ≤ b).

Definição 2: Seja X variável aleatória contínua. A função f é chamada de distribuição ou de função de probabilidade contínua (ou função densidade) de X, satisfaz as condições:

a) f(x) ≥ 0 b) )()(∫ ≤≤=b

a

bxaPdxxf , b > a; c) 1dx)x(f =∫+∞

∞−

Isto é, f é não-negativa e a área total sob seu gráfico é 1.

5.2.1 Distribuição Normal Entre as distribuições teóricas de variável aleatória contínua, uma das mais empregadas

é a distribuição normal.

0 1

2

3 4

5

6

7

Page 60: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

60

A distribuição normal, também chamada de gaussiana por razão das contribuições da teoria de Kart F. Gauss no século XVII, além de representar a distribuição de frequências observadas em fenômenos naturais e físicos, serve como aproximação de probabilidades binomiais, quando o número de experimentos n é muito grande.

Muitas das variáveis analisadas na pesquisa sócio-econômica correspondem à distribuição normal ou dela se aproximam.

Definição: Diz-se que uma variável aleatória X tem distribuição normal com parâmetro µ (média da distribuição) e σ (desvio padrão), com -∞ < µ < +∞ e 0 < σ < ∞ , se sua densidade é dada por :

f(x) = 2

2)(21

21 σ

µ

πσ

−−

x

e

A distribuição normal constitui, na realidade, uma “família” infinitamente grande de distribuições, uma para cada combinação possível de média e desvio padrão. Dessa forma, seria inútil procurar tabelas que atendessem a todas as necessidades. A distribuição normal padronizada é a mais usada. Gráfico:

• Propriedades da Curva Normal

1a A variável aleatória X pode assumir todo e qualquer valor real.

2ª A representação gráfica da distribuição normal é uma curva simétrica em torno da média, que recebe o nome de curva normal ou de Gauss.

3ª A área total limitada pela curva e pelo eixo das abscissas é igual a 1, já que essa área corresponde à probabilidade de a variável aleatória X assumir qualquer valor real.

4ª A curva normal é assintótica em relação ao eixo das abscissas, isto é, aproxima-se indefinidamente do eixo das abscissas sem, contudo, alcançá-lo.

5ª Como a curva é simétrica em torno da média, a probabilidade de ocorrer valor maior que a média é igual à probabilidade de ocorrer valor menor do que a média, isto é, ambas as probabilidades são iguais a 0,5 ou 50%. Cada metade da curva representa 50% de probabilidade.

Page 61: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

61

Sendo o perfil de uma curva normal determinado pelo desvio padrão, pode-se reduzir qualquer curva normal a uma curva normal padrão. A variável X da distribuição normal é transformada numa variável Z, que constitui uma distribuição normal padrão ou reduzida.

onde

z = número de desvios padrões a contar da média

x = valor arbitrário

µ = média da distribuição

σ = desvio padrão

Sendo a média igual a zero (0) e o desvio igual a um (1) constantes, as áreas sob a curva

normal padrão podem ser calculadas e tabeladas, pois dependem exclusivamente do valor da variável z.

Quando temos em mãos uma variável aleatória com distribuição normal, nosso principal interesse é obter a probabilidade de essa variável aleatória assumir um valor em um determinado intervalo.

σµ−

=x

z

Page 62: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

62

Exemplo 1: Seja X a variável aleatória que representa os diâmetros dos parafusos produzidos por certa máquina. Vamos supor que essa variável tenha distribuição normal com média = 2 cm e desvio padrão = 0,04 cm. Qual a probabilidade de um parafuso ter o diâmetro com valor entre 2 e 2,05 cm ?

Com o auxílio de uma distribuição normal reduzida, isto é, uma distribuição normal de média = 0 e desvio padrão = 1. Resolveremos o problema através da variável z, onde

σµ−

=X

Z

Utilizaremos também uma tabela normal reduzida, que nos dá a probabilidade de z

tomar qualquer valor entre a média 0 e um dado valor z, isto é: P (0 < z < z) Nessa tabela, a primeira coluna e a primeira linha dão o valor de z, sendo que a coluna

da valores de z, com primeiro dígito decimal e a linha, com o segundo dígito decimal. Nas intersecções da coluna com linha, encontramos a área sob a curva, que é a probabilidade de a variável situar-se entre zero ( 0) e o valor de z procurado.

No nosso problema queremos calcular P(2 < X < 2,05). Para obter esta probabilidade, precisamos, em primeiro lugar, calcular o valor de z que corresponde a x = 2,05.

z = (2,05 - 2) / 0,04 = 1,25

• Utilização da tabela Z

Procuremos, agora, na tabela Z o valor de z = 1,25. Na primeira coluna encontramos o valor até uma casa decimal = 1,2. Em seguida, encontramos, na primeira linha, o valor 5, que corresponde ao último algarismo do número 1,25. Na intersecção da linha e coluna correspondentes encontramos o valor 0, 3944, o que nos permite escrever:

P (0 < Z < 1,25) = 0, 3944 ou 39,44 %, assim a probabilidade de um certo parafuso apresentar um diâmetro entre a média = 2 cm e x = 2,05 cm é de 39,44 %.

Atividades de estudo 11:

1) Dado que uma população com média 25 e desvio padrão 2 tem distribuição normal, determine os valores de z para os seguintes valores de população. a) x=23 b) x= 23,5

Page 63: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

63

2) Uma distribuição normal tem média (µ) 40 e desvio padrão (σ) 5. Que percentagem da população está em cada um dos intervalos. a) de 40 a 50 b) de 40 a 48 c) 45 a 55

3) Defina a probabilidade para a área sob a curva normal entre a média e: (represente a

curva). a) Um desvio padrão para a esquerda e um para a direita. b) Dois desvios padrões para a esquerda e dois para a direita. c) Três desvios padrões para a esquerda e três para a direita.

4) As alturas dos alunos de determinada escola são normalmente distribuídas com média de 1,60m e desvio padrão 0,30m. Encontra a probabilidade de um aluno medir: a) entre 1,50 e 1,80m. b) mais de 1,75m c) menos de 1,48m (R: 37,79%; 30,85%; 34,46%)

Page 64: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

64

5) Um fabricante de bateria sabe, por experiência passada que as baterias de sua fabricação têm vida média de 600 dias e desvio padrão de 100 dias, sendo que a duração tem aproximadamente distribuição normal. Oferece uma garantia de 312 dias, isto é, troca as baterias que apresentarem falhas nesse período. Fabrica 10 000 baterias mensalmente. Quantas baterias deverão ser trocadas pelo uso da garantia, mensalmente? (R: 20 baterias)

6) A duração de certo componente eletrônico tem média de 850 dias e desvio padrão de 40

dias. Sabendo que a duração é normalmente distribuída, calcule a probabilidade de esse componente durar: a) entre 700 e 1000 dias. b) mais de 800 dias. c) menos de 750 dias.

7) Suponha que a renda média de uma grande comunidade possa ser razoavelmente

aproximada por distribuição normal com média de 12 salários mínimos e desvio padrão de 3 salários mínimos.

a) Que porcentagem da população terá renda superior a 15 salários mínimos? b) Numa amostra de 50 assalariados, quantos podemos esperar que ganhem menos de

9 salários mínimos?

Page 65: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

65

Atividades de estudo 12:

1. Determine as probabilidades:

a) P(-1,25 < Z < 0) =

b) P(-0,5 < Z < 1,48) =

c) P(0,8 < Z < 1,23) =

d) P(-1,25 < Z < -1,20) =

e) P(Z < 0,92) =

f) P(Z > 0,6) =

2. Os salários de uma categoria profissional são distribuídos normalmente, em torno da média R$ 10.000,00, com desvio padrão de R$ 800,00. Calcule a probabilidade de um bancário ter o salário situado entre R$ 9.800,00 e R$ 10.400,00.

3. Uma máquina empacota produtos com média de peso de 1 kg com variações de peso de 20 g. Qual a probabilidade de termos pacotes com:

a) menos de 950 g b) com peso variando de 940 g a 1030 g

Page 66: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

66

6. AMOSTRAGEM A amostragem é naturalmente usada em nossa vida diária. Por exemplo, para verificar o tempero de um alimento em preparação, podemos provar (observar) uma pequena porção deste alimento. Estamos fazendo uma amostragem, ou seja, extraindo do todo (população) uma parte (amostra), com o propósito de avaliarmos (inferirmos) a qualidade de tempero de todo o alimento. Assim, a população é um conjunto de elementos passíveis de serem mensurados, com respeito às variáveis que se pretende levantar. A população pode ser formada por pessoas, famílias, pacotes de biscoito, estabelecimentos industriais, ou qualquer outro tipo de elementos, dependendo basicamente dos objetivos da pesquisa (Todos os elementos do grupo a ser estudado constituem a população. A parte da população efetivamente examinada é a amostra). É comum termos interesse em descrever certas características específicas dos elementos da população, que denominaremos parâmetros. Exemplos:

1) Numa pesquisa eleitoral a uma semana de uma eleição estadual, a população pode ser definida como todos os eleitores com domicílio eleitoral no estado. Os parâmetros devem ser as porcentagens de votos de cada candidato o governo do estado, no momento da pesquisa.

2) Para planejar projetos de recursos humanos numa empresa, com centenas de

funcionários, podemos realizar uma pesquisa para avaliar alguns parâmetros da população de funcionários desta empresa como: porcentagem de funcionários que concluíram o ensino fundamental, tempo médio de serviço dos funcionários na empresa.

Estes dois exemplos ilustram a dificuldade que se pode ter em pesquisar toda a população. São situações onde se recorre à amostragem. O termo inferência estatística refere-se ao uso apropriado dos dados da amostra para se ter conhecimento sobre os parâmetros da população. Os valores calculados a partir dos dados obtidos pela amostra são chamados estimativas desse parâmetro. Citaremos, agora, quatro razões para o uso de amostragem em levantamentos de grandes populações.

1) Economia: Em geral, torna-se bem mais econômico o levantamento de somente uma parte da população.

2) Tempo: Numa pesquisa eleitoral, a três dias de uma eleição presidencial, não haveria tempo suficiente para pesquisar toda a população de eleitores do país, mesmo que houvesse recursos financeiros disponíveis.

3) Confiabilidade dos dados: Quando se pesquisa um número reduzido de elementos, pode-se dar mais atenção a casos individuais, evitando erros nas respostas.

4) Operacionalidade: É mais fácil realizar operações de pequena escala. Um dos problemas dos grandes censos é o controle dos entrevistadores.

Mas há situações em que não é necessário realizar amostragem:

1) População pequena: Se a população for pequena, por exemplo, 50 elementos, para termos uma amostra capaz de gerar resultados precisos para os parâmetros da

Page 67: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

67

população, necessitamos de uma amostra relativamente grande, em torno de 80% da população.

2) Característica de fácil mensuração: Talvez a população não seja tão pequena, mas a variável que se quer observar é de tão fácil mensuração que não compensa investir num plano de amostragem.

3) Necessidade de alta precisão: Algumas características de alunos da rede municipal de ensino são importantes para o planejamento do município, por exemplo, o que leva a prefeitura a coletar informações a respeito de toda a população.

Os estudos que utilizam métodos estatísticos vão desde os que são bem concebidos e executados, dando resultados confiáveis, aos que são concebidos deficientemente e mal executados, levando a conclusões enganosas e sem qualquer valor real. Eis alguns pontos importantes para o planejamento de um estudo eficaz de produzir resultados válidos:

• Identificar com precisão a questão a ser respondida e definir com clareza a população de interesse.

• Estabelecer um plano para coleta de dados. Esse plano deve descrever detalhadamente a realização de um estudo observacional ou de um experimento, e deve ser elaborado cuidadosamente, de modo que os dados coletados representem efetivamente a população em questão.

• Coletar os dados. Devemos ser extremamente cautelosos, para minimizar os erros que podem resultar de uma coleta tendenciosa de dados.

• Analisar os dados e tirar conclusões. Identificar também possíveis fontes de erros.

6.1 Processos de amostragem 6.1.1 Amostragem aleatória (ou amostragem aleatória simples) Em uma amostra aleatória, os elementos da população são escolhidos de tal forma que cada um deles tenha igual chance de figurar na amostra. (Escolhe-se uma amostra aleatória simples de n elementos, de maneira que toda amostra de tamanho n possível tenha a mesma chance de ser escolhida). As amostras aleatórias podem ser escolhidas por diversos métodos, inclusive a utilização de tabelas de números aleatórios e de computadores para gerar números aleatórios. Este tipo de amostragem é equivalente a um sorteio lotérico. Na prática, a amostragem aleatória simples pode ser realizada numerando-se a população de 1 a n e sorteando-se, a seguir por meio de um dispositivo aleatório qualquer, k números dessa sequência, os quais corresponderão aos elementos pertencentes à amostra. Observação:

• A amostra aleatória simples pode ser realizada pelo software Excel na função ALEATÓRIOENTRE, onde entramos com o intervalo da amostra determinado e o software nos retorna com o valor k correspondente da amostra.

1º passo – Selecionar o item Ferramentas 2º passo – Em Ferramentas aciona o item Suplementos...

Page 68: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

68

3º passo – Acionar conforme a janela a seguir -� OK

4º passo – Inserir função � Categoria Todas � função ALEATÓRIOENTRE � OK

Exemplo:

Page 69: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

69

Obter uma amostra de 5% para a pesquisa da estatura de 90 alunos de uma escola:

Os números obtidos foram: 24 11 49 68 52

Medindo as alturas dos alunos correspondentes aos números sorteados, obteremos uma amostra das estaturas dos noventa alunos. 6.1.2 Amostragem sistemática Quando os elementos da população já se acham ordenados, não há necessidade de construir um sistema de referência. São exemplos os prontuários médicos de um hospital, dos prédios de uma rua, as linhas de produção e etc. Nestes casos, a seleção dos elementos que constituirão a amostra pode ser feita por um sistema imposto pelo pesquisador. A esse tipo de amostragem denominamos sistemática. Assim, no caso de uma linha de produção, podemos, a cada dez itens produzidos, retirar um para pertencer a uma amostra da produção diária. Neste caso estaríamos fixando o tamanho da amostra em 10% da população. Exemplo 1: Se a Motorola quisesse fazer uma pesquisa sobre seus 107 000 empregados, poderia partir de uma relação completa dos mesmos e selecionar cada 100º empregado, obtendo uma amostra de 1.070 elementos. Esse método é simples e utilizado com frequência. Exemplo 2: Deseja-se retirar uma amostra de n = 10 unidades de observação de uma população de tamanho N = 874. O intervalo de seleção é, então, 874/10 = 87,4 ≈ 87(aproxima-se para menos, senão se ultrapassará a ordem da última unidade). Desse modo, vão-se contando as unidades de observação e escolhem-se aquelas que estiverem nas seguintes posições: 87, 174, 261, 348, 435, 522, 609, 696, 783 e 870. 6.1.3 Amostragem estratificada proporcional A amostragem estratificada proporcional é recomendada quando existe uma divisão natural da população em grupos com números de elementos diversos.

Page 70: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

70

Com a amostragem estratificada, subdividimos a população em, no mínimo, duas subpopulações (ou estratos) que compartilham das mesmas características (como sexo) e, em seguida, extraímos uma amostra de cada estrato. Exemplo 1: Suponhamos que numa escola há 120 crianças na faixa de 7 anos de idade estejam distribuídas em 5 turmas, com quantidades diferentes de alunos. Vamos supor que nossa amostra deva ter, no mínimo, 12 elementos. OBS: Os dados deverão ser arredondados para o inteiro mais próximo, já que esses números indicam a quantidade de crianças.

Turma População Amostra A 20 B 15 C 35 D 30 E 20

Total 120

Na última coluna está representada a quantidade de elementos de cada estrato e o total da amostra. Atividades de estudo 13:

1. Pretende-se obter uma amostra dos alunos de uma universidade para estimar a

proporção que tem trabalho remunerado.

a) Qual é a população em estudo? b) Qual é o parâmetro que se quer estimar? c) Você acha que se obteria uma boa amostra dos alunos no restaurante

universitário? No ponto de ônibus mais próximo? Nas portas das salas de aula? Você tem outra alternativa para obter a amostra?

Page 71: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

71

2. Em uma cidade, quer-se estudar o interesse despertado por um programa de TV entre os alunos de 7 anos de idade das escolas de ensino fundamental. Para isso, pretende-se levantar uma amostra de 300 crianças. A partir dos dados abaixo, estratifique a amostra. Encontre primeiro a porcentagem correspondente ao tamanho da amostra. (14, 8515%)

Escola População Amostra

A B C D E

400 300 350 450 520

Total

3. Em uma cidade com 30 000 habitantes deseja fazer uma pesquisa sobre a preferência por tipo de lazer entre pessoas de 20 anos de idade, levando em conta o sexo a que pertence.

a) Qual a população envolvida na pesquisa? b) Supondo que na cidade haja 5 500 mulheres e 6000 homens, com 20 anos,

determine uma amostra com 1200 pessoas. (p:10, 4348%)

4. Uma população encontra-se dividida em três estratos, com tamanhos diferentes, respectivamente a: n1= 40, n2= 100, n3= 60. Sabendo que, ao ser realizada uma amostragem estratificada proporcional, 9 elementos da amostra foram retirados do 3º estrato, determine o número total de elementos da amostra. (30 elementos)

Page 72: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

72

5. Em uma empresa existem 250 funcionários, sendo 35 na linha de produção A, 32 na linha de produção B, 30 na linha de produção C, 28 na linha D, 35 na linha E, 32 na linha F, 31 na área administrativa e 27 na engenharia. Obtenha uma amostra de 40 funcionários.

R: p:16%, A= 6, B= 5, C= 5, D=4, E= 6, F= 5 Adm= 5, Eng=4 6. Uma empresa apresenta o seguinte quadro de funcionários:

Nº de funcionários

Setor Masculino Feminino Produção 80 60

Engenharia 11 4 Administração 13 17

Qualidade 4 5 Total

Obtenha uma amostra estratificada correspondente a 35 funcionários. (p:18,04%)

(Nº masculino e feminino em cada extrato)

Page 73: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

73

7. DISTRIBUIÇÕES AMOSTRAIS A finalidade da amostragem é obter uma indicação do valor de um ou mais parâmetros de uma população, tais como a média, o desvio-padrão populacional, ou a proporção de itens que possuem determinadas características. As estatísticas amostrais que correspondem a esses parâmetros populacionais são usadas para aproximar os valores conhecidos daqueles parâmetros. Assim é que a média amostral é usada para estimar a média da população, o desvio padrão amostral é usado para estimar o desvio padrão populacional, e a proporção amostral serve para estimar a proporção da população. Uma das realidades da amostragem aleatória é que, quando se extraem repetidas amostras da mesma população, há uma tendência de a estatística amostral variar de uma amostra para outra, e também em relação ao verdadeiro valor do parâmetro, simplesmente em razão de fatores casuais relacionados com a amostragem. Essa tendência é conhecida como variabilidade amostral. (Por esta razão, quase sempre podemos estar certos de que determinada estatística amostral não é igual ao correspondente parâmetro populacional). Obviamente, então, qualquer tentativa para fazer inferências sobre uma população deve levar em conta a variabilidade amostral. De modo geral, pode parecer difícil lidar, de maneira racional, com a variabilidade amostral. No caso de amostragem aleatória, entretanto, demonstra-se matematicamente que a variabilidade amostral pode ser descrita por distribuições de probabilidades tais como a normal e a binomial. Quando as distribuições de probabilidade são usadas desta maneira, são conhecidas como distribuições amostrais. E como essas distribuições só podem ser utilizadas quando se trata de amostras aleatórias, é essencial usar somente amostras aleatórias para fazer inferência estatística. 7.1 Distribuição amostral da média Uma distribuição da população representa a distribuição de uma população de valores, e uma distribuição da amostra representa a distribuição de uma amostra de valores coletados de uma população. A distribuição amostral da média é a distribuição de probabilidade para os possíveis valores da média da amostra x baseados em um particular tamanho da amostra. Para qualquer tamanho dado n de amostra tomada de uma população com média µ, o valor da média da amostra x irá variar de amostra para amostra. Esta variabilidade serve como base da distribuição amostral. A distribuição amostral da média é descrita pela determinação do valor esperado E( x ) , ou média, da distribuição e do desvio padrão da distribuição das médias

. Uma vez que este desvio padrão indica o quanto a média da amostra é acurada, é usualmente chamado de erro padrão da média. Em geral o valor esperado e o erro padrão da

média são definidos por µ=)(XE e nX

σσ =

Ao fazer amostras de uma população finita, deve-se incluir o fator de correção finita (ou fator de correção para população finita) na fórmula do erro padrão da média. (uma “regra de bolso” é que a correção é insignificante e pode ser omitida sempre que o tamanho da amostra for menor que 5% do tamanho da população). A fórmula para o erro padrão da média quando se inclui o fator de correção finita é:

1.

−−

=N

nN

nX

σσ

Page 74: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

74

Se o desvio padrão da população for desconhecido, o erro padrão da média pode ser estimado, usando-se o desvio padrão da amostra como um estimador do desvio padrão da população. Para diferenciar este erro padrão daquele baseado em um σ conhecido, denota-se o mesmo por

Xs . A fórmula para o erro padrão estimado da média é:

n

ssX

=

A fórmula para o erro padrão estimado, da média quando se inclui o fator de correção finita é:

1.

−−

=N

nN

n

ssX

Exemplo 1: Um auditor toma uma amostra aleatória de tamanho n=16 de um conjunto de N=100 contas a receber. Não se conhece o desvio padrão dos valores das 100 contas a receber. Contudo, o desvio padrão da amostra é s = 57 reais. Determinamos o valor do erro padrão da distribuição amostral da média da seguinte forma:

reaisN

nN

n

ssX

13,138484,025,149984

457

110016100

.1600,57

1. ≅==

−−

=−−

=

O erro padrão da média fornece a base principal para a inferência estatística no que diz respeito a uma população com média desconhecida, como será visto posteriormente. Um teorema em Estatística que conduz ao uso do erro padrão da média é o Teorema do Limite Central que diz: À medida que se aumenta o tamanho da amostra, a distribuição amostral da média se aproxima da forma da distribuição normal, qualquer que seja a forma da distribuição da população. Na prática, a distribuição amostral da média pode ser considerada como aproximadamente normal sempre que o tamanho da amostra for n > 30. (Alguns autores consideram mais adequado trabalhar com a ideia de n > 40). Em se tratando de variável z, a distribuição tem média zero e variância um. Por conseguinte, poderá ser usada a tabela de áreas da normal padrão para calcular probabilidades relacionadas com a média da amostra, após a sua padronização. Para distribuições padronizadas, temos: Exemplo 2: Sabendo-se que a média de determinada população é 50 kg e o desvio padrão 10 kg, qual é a probabilidade de que a média de uma amostra de 36 observações dessa população desvie da média em mais de 5 kg?

Page 75: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

75

Neste caso a média da amostra pode ser maior que 55 ou menor que 45. Calculamos um valor para x z = → z = 3. O valor tabelado para z corresponde a 0, 4987 Este valor é de um lado só. A probabilidade de estar entre 45 e 55 é 99,74%, portanto, a probabilidade de que desvie mais do que 5 kg é 1 – 0, 9974 = 0, 0026 ou 0,26%. 7.2 Distribuição amostral da proporção Que porcentagem de peças numa grande remessa apresenta defeito? Qual é a probabilidade de um aluno do curso fundamental não ser vacinado? Essas perguntas e outras análogas podem ser respondidas utilizando-se dados amostrais para estimar o parâmetro populacional. A estimativa de proporções populacionais é muito semelhante à de médias populacionais. Por exemplo, intervalos de confiança para grandes amostras se baseiam numa distribuição amostral que é aproximadamente normal, usando-se a estatística amostral (neste caso a proporção amostral) como estimativa pontual do verdadeiro parâmetro (proporção populacional). O valor esperado de uma proporção amostral é sempre igual à verdadeira proporção da população. Usa-se, portanto, a proporção amostral como estimativa pontual da verdadeira proporção:

n

xp =

3610

5055 −

Page 76: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

76

8 MÉTODOS INFERENCIAIS

Um dos objetivos da Estatística é o de conhecer populações por meio das informações amostrais. Como as populações são caracterizadas por medidas numéricas descritivas, denominados parâmetros, a estatística diz respeito à realização de inferências sobre esses parâmetros populacionais desconhecidos. Parâmetros populacionais típicos são a média µ e o desvio padrão σ. Os métodos para realizar inferências a respeito dos parâmetros referentes a uma pertencem a duas categorias:

• Estimação: determinação de estimativas dos parâmetros populacionais.

• Teses de hipóteses: tomada de decisão relativa ao valor de um parâmetro populacional.

8.1 Estimação 8.1.1 Estimativa por ponto É utilizada quando o interesse é estimar o parâmetro por meio de um único valor amostral. Assim, o valor da média amostral x é uma estimativa por ponto da média populacional µ . De maneira análoga, para o desvio padrão. Exemplo: Uma amostra aleatória de 200 alunos de uma universidade de 20.000 estudantes revelou nota média amostral de 5,2. Logo: x = 5,2 é uma estimativa pontual da verdadeira nota média µ dos 20.000 alunos. 8.1.2 Estimativa por intervalo É utilizada quando temos um intervalo, representado por dois limites, máximo e mínimo, dentro do qual está contido o parâmetro desconhecido com uma segurança (ou confiança) especificada. Geralmente usa-se (1 - α) %, que pode corresponder a 90%, ou 95%, ou 97,5%, etc. Se o comprimento do intervalo é pequeno, temos um elevado grau de precisão da inferência realizada. As estimativas dessa natureza são denominadas de intervalo de confiança. Exemplo: O intervalo [1,60 m; 1,64 m] contém a altura média dos moradores do município X, com nível de confiança de 95%.

8.1.2.1 Intervalo de confiança para a média populacional

• Quando o desvio padrão é conhecido Admitindo-se x como sendo uma variável normalmente distribuída com média µ e desvio padrão σ, pode-se estabelecer um limite inferior e um limite superior, definindo-se um

Page 77: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

77

intervalo que contém certo percentual dos valores de x. Geralmente usam-se os percentuais 90%, 95% e 99% que são denominados níveis de confiança para a média da população. Na distribuição normal padrão, os valores de z que limitam os intervalos estão assim representados:

A variável x é reduzida à variável z através da fórmula: Para fixarmos um intervalo de confiança para a média, o valor de z correspondente a x obtida da amostra, deverá estar compreendido entre os valores limites de z, conforme o nível de confiança estabelecido. Sejam – z e + z os valores limites do intervalo de confiança e z o valor correspondente a x , então: Isolando µ , para amostragem de uma população infinita ou amostragem com reposição de uma população finita, vem: e no caso de amostragem sem reposição de uma população finita de tamanho N, vem: OBS: Podemos substituir σ por s para amostras consideradas grandes (n ≥ 30). Exemplo: Estabelecer o intervalo de confiança de 95% para µ , sabendo que uma amostra de

tamanho 36 dessa população forneceu x = 30 e σ = 4.

Limite inferior = 364

96,130 − � 30 – 1,96 x 2/3 = 28,693

Limite superior = 364

96,130 + � 30 + 1,96 x 2/3 = 31,307

Page 78: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

78

Portanto, podemos presumir que a média dessa população esteja entre 28,693 e 31, 307, com 95% de confiança. Neste intervalo a média amostral igual a 30 está incluída.

P (28,693 ≤ µ ≤ 31,307) = 95%

Atividades de estudo 14:

1. A duração da vida de uma peça de equipamento é tal que σ = 5 horas. Foram amostradas

aleatoriamente 100 dessas peças, obtendo-se média de 500 horas. Construir um intervalo de confiança para a verdadeira duração média da peça com um nível de 95% de confiança.

2. Uma amostra de 64 elementos de uma variável normalmente distribuída forneceu x =

25,4 e σ = 5,2. Determinar os limites de confiança de 90% para a média.

• Quando o desvio padrão é desconhecido Quando temos pequenas amostras e não conhecemos o valor do desvio padrão populacional, podemos construir intervalos de confiança apara a média. Para tanto, é necessário que a população de onde foi extraída a amostra aleatória tenha distribuição normal. Neste caso, devemos empregar uma nova variável. Esta variável é denominada t de Student. O processo para se obter o intervalo de confiança é semelhante ao mostrado no item anterior. Como não se conhece σ, é preciso substituí-lo por s (desvio padrão amostral) que, contrariamente a σ, é uma variável aleatória. A forma da distribuição t é bastante parecida com a normal. A principal diferença entre as duas distribuições é que a distribuição t tem maior área nas caudas. A tabela t fornece os valores limites para os intervalos de confiança. A variável t possui n –1 graus de liberdade.

Page 79: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

79

Quando σ é desconhecido e n < 30, obtém-se o intervalo de confiança para a média µ substituindo-se z por t. Assim: Exemplo: Qual o intervalo de confiança para a média, no nível de 95%, sabendo que uma amostra de tamanho 10 forneceu x= 8,7 e s = 2?

Limite inferior = 102

2622,27,8 − � 7,27

Limite superior = 102

2622,27,8 + � 10,13

P (7,27 ≤≤≤≤ µµµµ ≤≤≤≤ 10,13) = 95%, ou seja, o intervalo [7,27 ; 10,13] contém a verdadeira média com 95% de confiança.

• Erro máximo de estimativa Na fórmula a expressão constitui o erro máximo da estimativa. O erro é igual à diferença entre a média amostral e a verdadeira média da população. Como o intervalo de confiança tem centro na média amostral, o erro máximo provável é igual à metade da amplitude do intervalo. Assim, para diminuir o erro máximo de estimativa, dando a esta maior precisão, a única alternativa de que dispomos é o aumento do tamanho da amostra. Dessa forma, se fixarmos previamente o erro máximo de estimativa e o nível de confiança podemos determinar o tamanho da amostra a ser tomada: Exemplo 1: Desejando estimar, ao nível de confiança de 95%, a média de uma população de modo que ela não exceda a 2 unidades, sendo σ = 8, qual é o tamanho da amostra a ser tomada?

Se e = 2 (no máximo), temos que: 614656,612

8*96,1 2

≅⇒=⇒

= nnn

Portanto aproximadamente 61 elementos a serem investigados 8.1.2.2 Intervalo de confiança para a proporção populacional Que proporção de bolas em uma urna são vermelhas? Que proporção de eleitores aprova determinado projeto. Essas perguntas e outras análogas podem ser respondidas utilizando-se dados amostrais para estimar o parâmetro populacional. Tal como antes, as estimativas serão pontuais e intervalares.

Page 80: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

80

Como vimos, o valor esperado de uma proporção amostral é sempre igual à verdadeira proporção da população. Usa-se, portanto, a proporção amostral como estimativa pontual da verdadeira proporção:

A estimativa intervalar do parâmetro populacional (para grandes amostras) é simétrica em relação à proporção amostral, tal como ocorre com o intervalo para a média populacional em relação à média amostral. A principal diferença entre a estimativa de médias e a de proporções está nos desvio padrões das distribuições amostrais. O desvio padrão de uma proporção se baseia na distribuição binomial. A estimativa de σp é dada abaixo:

n

pppop

)1(. −=σ

Intervalo de confiança para p:

Exemplo 1: Determinar um intervalo de 98% de confiança para a verdadeira proporção populacional, se x = 50 e n = 200. Exemplo 2: Uma amostra de 200 observações acusou 20 baterias defeituosas numa remessa. Usando uma confiança de 99% determinar o erro de estimação. Atividades de estudo 15: 1. Uma amostra de 36 crianças de uma escola de ensino fundamental/séries iniciais forneceu

peso médio 28,5 kg e desvio padrão de 5,2 kg. Determinar no nível de 99%: a) O intervalo de confiança para a média µ ; b) O tamanho da amostra para que o erro máximo seja igual a 1,2 kg;

n

xp =

n

ppzp

)1(..

−±

Page 81: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

81

2. Sendo x normalmente distribuída, uma amostra de 50 elementos forneceu uma média de 78,4 e desvio padrão de 6,2.

a) Estimar, ao nível de 99%, a média da população; b) Qual deveria ser o tamanho da amostra para o erro de estimativa ser 2?

8.2 Testes estatísticos

Na avaliação de um parâmetro populacional, sobre o qual não se possui nenhuma informação com respeito a seu valor, não resta outra alternativa a não ser estimá-lo através do intervalo de confiança. No entanto, se tiver alguma informação com respeito ao valor do parâmetro que se deseja avaliar, pode-se testar esta informação no sentido de aceitá-la como verdadeira ou rejeitá-la. Denomina-se de hipótese nula (H0), a informação a respeito do valor do parâmetro que se quer avaliar. Chama-se de hipótese alternativa (H1), a afirmação a respeito do valor do parâmetro que se aceita como verdadeiro caso a hipótese nula seja rejeitada. Ao aplicar um teste, aplicamos uma regra de decisão que permite aceitar ou rejeitar como verdadeira uma hipótese nula, com base na evidência amostral. Isto significa que se utiliza uma amostra desta população para verificar se a amostra confirma ou não o valor do parâmetro informado pela hipótese nula.

8.2.1 Etapas básicas em um teste de hipótese Em um teste de hipótese, começamos com um valor suposto (hipotético) de um parâmetro populacional. Depois de coletar uma amostra aleatória, comparamos a estatística da amostra, tal como a média amostral x , com o parâmetro suposto, tal como a média populacional hipotética µ. Então, ou aceitamos ou rejeitamos o valor hipotético como sendo correto. O valor hipotético é rejeitado somente se o resultado da amostra for claramente improvável de ocorrer quando a hipótese for verdadeira. Etapa 1: Formular a hipótese nula e a hipótese alternativa. A hipótese nula é uma afirmação sobre o valor de um parâmetro populacional (como a média), deve conter a condição de igualdade e deve escrever-se como =, ≤ ou ≥ . (Ao fazermos efetivamente o teste, trabalhamos com a hipótese de que o parâmetro é igual a um valor específico.) Para a média temos as três formas possíveis para a hipótese nula: H0 : µ = algum valor H0 : µ ≤ algum valor H0: µ ≥ algum valor Por exemplo, a hipótese nula correspondente à suposição geral de que a temperatura média do corpo é 98,6ºF se expressa como H0: µ = 98,6ºF. Testamos a hipótese nula diretamente no

Page 82: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

82

sentido de que, supondo-a verdadeira, procuramos chegar a uma conclusão que nos leve a rejeitar H0 ou não rejeitar H0. A hipótese alternativa é a afirmação que deve ser verdadeira se a hipótese nula é falsa. Note que H1 é o oposto de H0. Por exemplo, se H0 é dada como µ = 98,6ºF, então a hipótese alternativa é H1: µ ≠ 98,6ºF. Para a média, a hipótese alternativa comporta apenas uma das três formas: H1: µ ≠ algum valor H1: µ > algum valor H1: µ < algum valor

A hipótese nula é verdadeira A hipótese nula é falsa

Decisão

Decidimos rejeitar a

hipótese nula

Erro Tipo I (rejeição de uma

hipótese nula verdadeira)

= nível de significância

Decisão correta

Não rejeitamos a

hipótese nula

Decisão correta

Erro Tipo II

(não rejeição de uma hipótese nula falsa)

Exemplo 1: Um auditor deseja testar a hipótese de que o valor médio de todas as contas a receber em uma dada empresa é R$ 2.600,00, tomando para tanto uma amostra de n = 36 e calculando a média amostral. Ele deseja rejeitar o valor hipotético de R$ 2.600,00 somente se tal valor for claramente contraditado pela média da amostra, sendo que, desta maneira, é dado ao valor suposto o “benefício da dúvida”. As hipóteses nula e alternativa para este teste são H0: 2600=µ e H1: 2600≠µ Etapa 2: Especificar o nível de significância a ser utilizado O nível de significância é o padrão estabelecido especificado para rejeitar a hipótese nula. Se é especificado um nível de significância de 5%, a hipótese nula é rejeitada somente se o resultado da amostra é tão diferente do valor suposto que uma diferença igual ou maior ocorreria por acaso com uma probabilidade máxima de 0,05. Observamos que, se for utilizado um nível de significância de 5%, existe uma probabilidade de 0,05 de rejeitar a hipótese nula sendo a mesma verdadeira. Este é o chamado Erro Tipo I. A probabilidade de Erro Tipo I é sempre igual ao nível de significância utilizado como padrão para rejeitar a hipótese nula; ele é representado pela letra grega maiúscula α , sendo que α , deste modo, representa o nível de significância. Os níveis de significância mais frequentemente utilizados em testes de hipótese são os de 5% e 1%. Etapa 3: Selecionar a estatística de teste. É uma estatística amostral, ou um valor baseado nos dados amostrais. Utiliza-se uma estatística de teste para tomar uma decisão sobre a rejeição da hipótese nula.

Page 83: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

83

• Teste de significância para a média com 2σ conhecido.

Neste teste H0: µ = c e o melhor estimador para µ é x . A distribuição amostral das médias é normal, com

n

xz

σµ−

=

• Teste de significância para a proporção

O melhor estimador de � é p . A distribuição amostral das proporções é normal, com

( )n

pz

πππ−

−=

1

Observação: Quando não se conhece o desvio padrão populacional, deve-se estimá-lo a partir dos dados amostrais usando o desvio padrão amostral. Quando isto ocorrer (na maioria das situações reais

Xσ é desconhecido), a distribuição t é a distribuição amostral mais adequada.

Na prática, entretanto, só se exige o uso da distribuição t quando o tamanho da amostra é igual ou inferior a 30, pois, para maiores valores do tamanho da amostra, os valores de t e z são aproximadamente os mesmos. Etapa 4: Estabelecer o valor crítico ou valores críticos da estatística do teste. Região crítica é o conjunto de todos os valores da estatística de teste que levam à rejeição da hipótese nula. O valor crítico é o valor (ou valores) que separa(m) a região crítica dos valores da estatística de teste que não levam à rejeição da hipótese nula. Os valores críticos dependem da natureza da hipótese nula, da distribuição amostral principal, e do nível de significância α . Etapa 5: Tomar a decisão. O valor esperado da estatística é comparado com o valor crítico (ou valores) da estatística de teste. A hipótese nula é, então, ou aceita ou rejeitada. Se a hipótese nula é rejeitada, a hipótese alternativa é aceita. Exemplo 2: Suponhamos que, sob determinada hipótese, a distribuição amostral de uma estatística S acuse distribuição normal com média µs e desvio padrão σs. Então a distribuição da variável padronizada Z = (S - µs)/ σs é a distribuição da variável padronizada (média 0, variância 1) , conforme mostra a figura.

Page 84: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

84

Tal como indicado na figura, podemos ter 95% de confiança em que o escore z de uma estatística amostral S esteja entre – 1,96 e + 1,96. Todavia, se, na escolha de uma única amostra aleatória, verificamos que o escore z está fora do intervalo de –1,96 e +1,96, poderemos concluir que o evento ocorreria com probabilidade de apenas 0,05 (área total sombreada na figura) no caso de a hipótese formulada ser verdadeira.

Diríamos então que o escore z difere significativamente do que seria de esperar sob a hipótese formulada e, assim, estaríamos inclinados a rejeitar a hipótese. A área sombreada, 0, 05, é o nível de significância do teste. Representa a probabilidade de erro na rejeição de uma hipótese, isto é, a probabilidade de um erro tipo I. Dizemos então que a hipótese é rejeitada ao nível de significância de 0,05, ou que o escore z da estatística amostral é significativo ao nível de 0,05. O conjunto de valores dos escores z exteriores ao intervalo de –1,96 a 1,96 constitui o que se chama região crítica, região de rejeição da hipótese ou região de significância. O conjunto dos escores z interior ao intervalo de –1,96 a 1,96 poderia então ser chamado de região de aceitação da hipótese ou região de não significância. Exemplo 3: A vida média de uma amostra de 100 lâmpadas fluorescentes fabricadas por determinada companhia é de 1570 horas, com desvio padrão de 120 horas. Se µ é a vida média de todas as lâmpadas fabricas pela companhia, teste a hipótese µ = 1600 horas contra a hipótese alternativa µ ≠ 1600 horas, utilizando um nível de significância de (a) 0,05 e (b) 0,01. Solução: H0: µ = 1600 horas H1: µ ≠ 1600 horas Aplicando a fórmula ao lado, calculamos o z. z = (1570 – 1600) 120/√100 Obtemos z calculado = -2,5

(a) Ao nível de 0, 05, o z tabelado compreende o intervalo de –1,96 a +1,96. Como o valor calculado está fora desse intervalo, rejeitamos H0 ao nível de significância de 0,05.

(b) Ao nível de 0, 01, o z tabelado compreende o intervalo de –2,58 a +2,58. Como o valor

calculado está dentro desse intervalo, aceitamos H0 ao nível de significância de 0,01.

Page 85: Apostila Base probabilidade e estatistica

Centro de Ciências Exatas e Tecnologia Profª. Daiane Scopel Boff, Ms.

85

Exemplo 4: Um auditor deseja testar a hipótese de que o valor médio de todas as contas a receber em uma dada empresa é R$ 2.600,00, tomando para tanto uma amostra de n = 36 e calculando a média amostral. Determinar os valores críticos da média da amostra para testar a hipótese a um nível de significância de 5%, dado que se conhece o desvio padrão das contas a receber: σ = 430,00 reais. Portanto, para rejeitar a hipótese nula, a média da amostra deve ter um valor menor do que R$ 2.459,53 ou maior do que R$ 2.740,47. Então, existem duas regiões de rejeição no caso de um teste bilateral. Em lugar de estabelecer os valores críticos em termos de média da amostra como tal, os valores críticos nos testes de hipóteses são tipicamente especificados em termos de valores z. Quando o valor da média da amostra estiver determinado, ele será transformado para um valor z, de modo a poder ser comparado com os valores críticos de z.