109
E E s s t t a a t t í í s s t t i i c c a a e e P P r r o o b b a a b b i i l l i i d d a a d d e e Professores: Daniela Carine Ramires de Oliveira Marcos Santos de Oliveira

Apostila estatistica 2009 mec

Embed Size (px)

Citation preview

Page 1: Apostila estatistica 2009 mec

EEssttaattííssttiiccaa ee

PPrroobbaabbiilliiddaaddee

PPrrooffeessssoorreess:: DDaanniieellaa CCaarriinnee RRaammiirreess ddee OOlliivveeiirraa

MMaarrccooss SSaannttooss ddee OOlliivveeiirraa

Page 2: Apostila estatistica 2009 mec

Prof. Daniela ____/____/____ ii

Índice 1. Introdução à Estatística 1 1.1. O que é Estatística? 1 1.2. Estatística na Prática 1 1.3. Um pouco da história da Estatística 2 1.4. Exercícios 2 2. Variáveis 3 2.1. Definição de Variável 3 2.2. Classificação das Variáveis 3 2.3. Exercícios 5 3. Amostragem 6 3.1. Por que fazer Amostragem? 6 3.2. Quando o uso de amostragem não é interessante? 6 3.3. Tipos de Amostragem 6 3.3.1. Amostragem Aleatória Simples (AAS) 6 3.3.2. Amostragem Sistemática (AS) 7 3.3.3. Amostragem Estratificada (AE) 8 3.3.4. Amostragem por Conglomerado (AC) 9 3.4. Exercícios 10 4. Tabulação de Variáveis 11 4.1. Variáveis Qualitativas Unidimensionais 11 4.2. Variáveis Quantitativas Unidimensionais 12 4.3. Variáveis Qualitativas e Quantitativas Bidimensionais 13 4.4. Exercícios 14 5. Medidas de Posição 15 5.1. Mínimo e Máximo 15 5.2. Moda 15 5.3. Média 15 5.4. Mediana 16 5.5. Exercícios 18

Page 3: Apostila estatistica 2009 mec

Prof. Daniela ____/____/____ iii

6. Medidas de Dispersão 19 6.1. Motivação 19 6.2. Amplitude 19 6.3. Variância e Desvio Padrão 19 6.4. Intervalo Interquartil 21 6.5. Exercícios 21 7. Estatística Gráfica 22 7.1. Gráficos para as Variáveis Qualitativas 22 7.1.1. Gráfico em Barras 22 7.1.2. Gráfico de Composição em Setores (“Pizza”) 23 7.1.3. Gráfico de Pareto 23 7.2. Gráficos para as Variáveis Quantitativas 25 7.2.1. Gráfico em Barras 25 7.2.2. Gráfico de Pontos 26 7.2.3. Histograma 26 7.2.4. Gráfico em Linhas (ou Gráfico Temporal) 27 7.2.5. Ramo-e-Folhas 28 7.2.6. Desenho Esquemático ou Diagrama de Caixas (Box-Plot) 29 7.3 Exercícios 31 8. Correlação e Regressão 32 8.1. Estudo da relação entre variáveis 32 8.2. Diagrama de Dispersão 32 8.3. Coeficiente de Correlação 35 8.4. Regressão Linear Simples 37 8.5. Coeficiente de Determinação 39 8.6. Exercícios 40 Lista de Exercícios 1 41 9. Probabilidade 44 9.1. Processo ou Experimento Aleatório 44 9.2. Espaço Amostral (Ω) 44 9.3. Evento 45 9.4. Exercícios 46 9.5. Introdução à Probabilidade 47

Page 4: Apostila estatistica 2009 mec

Prof. Daniela ____/____/____ iv

9.6. Definição Clássica 48 9.7. Definição Freqüentista 49 9.8. Definição Subjetiva 51 9.9. Definição Moderna 51 9.10. Probabilidade Condicional 52 9.11. Independência de Eventos 53 9.12. Regra da Probabilidade Total 54 9.13. Teorema de Bayes 54 10. Variável Aleatória Discreta 56 10.1. Introdução 56 10.2. Esperança Matemática (Média) 57 10.3. Variância 58 10.4. Exercício 58 10.5. Modelo Bernoulli 58 10.6. Modelo Binomial 59 10.7. Exercícios 60 10.8. Distribuição Hipergeométrica 60 10.9 Exercício 61 10.10. Distribuição Poisson 61 10.11. Exercícios 62 11. Variável Aleatória Contínua 63 11.1. Esperança e Variância 65 11.2. Distribuição Normal 66 11.3. Tabela da Distribuição Normal Padrão 69 11.4. Exercícios 73 Lista de Exercícios 2 74 12. Estimação 77 12.1. Inferência Estatística 77 12.2. Estimação Pontual e Intervalar para Proporção 77 12.3. Exercícios 79 12.4. Estimativa Pontual e Intervalar para a Média Populacional 79 12.5. Exercícios 81 12.6. Estimativa para a Média Populacional com Variância Desconhecida 81 12.7. Exercício 83

Page 5: Apostila estatistica 2009 mec

Prof. Daniela ____/____/____ v

13. Testes de Hipóteses 84 13.1. Introdução 84 13.2. Formulação das Hipóteses 84 13.3. Tipos de Erros possíveis nos Testes de Hipóteses 84 13.4. Nível de Significância de um Teste de Hipótese (α) 85 13.5. Teste de Hipóteses para a Proporção 85 13.6. Exercícios 87 13.7. Teste de Hipóteses para Média com Variância Conhecida 88 13.8 Exercícios 90 13.9 Teste de Hipóteses para Média com Variância Desconhecida 91 13.10. Exercícios 93 Lista de Exercícios 3 94 Apêndice A Gabarito da Lista de Exercícios 1 95 B Gabarito da Lista de Exercícios 2 101 C Gabarito da Lista de Exercícios 3 102 D Aula no Laboratório de Computação 104

Page 6: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 1

1. INTRODUÇÃO À ESTATÍSTICA 1.1. O que é Estatística?

Estatística é uma ciência que nos permite coletar, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento. Estamos denominando por dados a um (ou mais) conjunto de valores, numéricos ou não. A aplicabilidade das técnicas a serem discutidas se dá nas mais variadas áreas das atividades humanas. Assim, o principal objetivo da Estatística é nos auxiliar a tomar decisões ou tirar conclusões em situações de incerteza, a partir de informações numéricas. 1.2. Estatística na Prática

População: é o conjunto de todos os elementos que nos interessa estudar. Deve ser notado que na terminologia estatística, população refere-se não somente a uma coleção de indivíduos, mas ao alvo no qual reside nosso interesse. Exemplos: todos os clientes de um banco, todos os alunos de uma faculdade, todos os automóveis da Ford, todo o sangue no corpo de uma pessoa, etc. Técnicas de Amostragem: ferramentas que nos auxiliam a coletar amostras. Planejamento de Experimentos: cria esquemas e teorias para verificação de hipóteses científicas. Amostra: é qualquer subconjunto da população. Análise Descritiva: Conjunto de técnicas destinadas a descrever e resumir os dados a fim de tirarmos conclusões a respeito de características de interesse. Probabilidade: Teoria utilizada para se estudar a incerteza associada a fenômenos aleatórios. Inferência Estatística: Técnicas que possibilitam a extrapolação, a um grande conjunto de dados (população), das informações e conclusões obtidas a partir de um subconjunto de valores (amostra).

População (Características)

Informações contidas nos

dados

Conclusões sobre as

características da população

Análise descritiva

Inferência Estatística

Amostra

Técnicas de amostragem

Análise descritiva

Planejamento de Experimentos

Cálculo de Probabilidades

Page 7: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 2

1.3. Um pouco da história da Estatística 5000 AC Registros egípcios de presos de guerra; 2000 AC Censo Chinês; 695 Primeira utilização da média ponderada pelos árabes na contagem de moedas; 1654 Pierre de Fermat e Blaise Pascal estabelecem os Princípios do Cálculo das

Probabilidades; 1763 Inferência Estatística (Reverendo Bayes); 1930 Controle de Qualidade nas indústrias; 1959 Estudo retrospectivo de doenças (Mantel & Haenszel); 1996 Profundidade da Regressão (Rousseeuw e Hubert); 1997 Modelos Fatoriais; 2001 100 anos da Biometrika. Maiores detalhes sobre a história da Estatística no site: http://www.redeabe.org.br/historia.htm 1.4. Exercícios – Parte I – A1 1) Para as situações descritas a seguir, identifique a população e a amostra correspondente. (a) Para avaliar a eficácia de uma campanha de vacinação no Estado de Minas Gerais, 200 mães de recém-nascidos durante o primeiro semestre de um dado ano, em uma dada maternidade em Belo Horizonte, foram perguntadas a respeito da última vez que vacinaram seus filhos. População: Amostra: (b) Uma amostra de sangue foi retirada de um paciente com suspeita de anemia. População: Amostra: (c) Para verificar a audiência de um programa de TV, 563 indivíduos foram entrevistados por telefone com relação ao canal em que estavam sintonizados. População: Amostra:

Page 8: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 3

2. VARIÁVEIS 2.1. Definição de Variável

Qualquer característica associada a uma população é chamada de variável. Porque o nome variável? Porque ela “varia” de alguma forma.

Exemplos: Idade: pode variar de 0, 1 , 2, ... anos

Sexo: pode ser masculino ou feminino Estado Civil: pode ser solteiro, casado, divorciado, etc.

2.2. Classificação das Variáveis

As variáveis podem ser classificadas como Qualitativas ou Quantitativas. Algumas variáveis como sexo, grau de instrução, estado civil, região de procedência,

apresentam como possíveis resultados uma qualidade (ou atributo) do indivíduo pesquisado, logo, estas variáveis são chamadas de variáveis Qualitativas.

As variáveis como número de filhos, salário, idade, apresentam como possíveis resultados números resultantes de uma contagem ou mensuração, logo, estas variáveis são chamadas de variáveis Quantitativas. Exemplo: Um pesquisador está interessado em fazer um levantamento sobre alguns aspectos socio-econômicos dos empregados da seção de orçamentos de uma empresa. Usando informações obtidas do departamento pessoal, ele elaborou a Tabela 2.1.

Tabela 2.1: Informações sobre estado civil, grau de instrução, número de filhos, salário (expresso

como fração do salário mínimo), idade (medida em anos e meses) e procedência de 36 empregados da seção de orçamentos de uma Empresa.

Idade N° Estado Civil Grau de Instrução N° de Filhos Salário Anos Meses Região de Procedência 1 Solteiro Fundamental ... 4,00 26 3 Interior 2 Casado Fundamental 1 4,56 32 10 Capital ... ... ... ... ... ... ... ... 35 Casado Médio 2 19,40 48 11 Capital 36 Casado Superior 3 23,30 42 2 Interior Fonte: Bussab e Morettin (2002)

Observações sobre a Tabela 2.1.

De modo geral, para cada elemento investigado numa pesquisa, tem-se associado um (ou mais de um) resultado correspondendo à realização de uma característica (ou características). Por exemplo, considerando a variável estado civil, para cada empregado pode-se associar um dos resultados, solteiro ou casado (note que poderia haver outras possibilidades, como separado, divorciado, mas somente as duas mencionadas foram consideradas no estudo).

Page 9: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 4

Dentre as variáveis Qualitativas, ainda podemos fazer uma distinção entre dois tipos: Variável Qualitativa Nominal: para a qual não existe nenhuma ordenação nos possíveis resultados. Exemplo: Região de Procedência, etc. Variável Qualitativa Ordinal: para a qual existe uma ordem natural nos seus resultados. Exemplo: Grau de instrução, etc.

As variáveis Quantitativas também podem sofrer uma classificação dicotômica:

Variável Quantitativa Discreta: cujos possíveis valores formam um conjunto finito ou enumerável de números, e que resultam, freqüentemente, de uma contagem. Exemplo: Nº de Filhos, etc. Variável Quantitativa Contínua: cujos possíveis valores pertencem a um intervalo de números reais e que resultam de uma mensuração. Exemplo: Salário, etc. Resumindo Como as variáveis são classificadas e outros exemplos:

Nominal Sexo, Cor dos Olhos. Qualitativa

Ordinal Estado Civil, Classe social.

Discreta Números de carros. Quantitativa

Contínua Peso, altura.

Para cada tipo de variável existem técnicas apropriadas para resumir as informações dos dados obtidos da amostra. Por exemplo, a utilização de uma tabela é uma forma de escrever os dados de uma forma resumida.

Em algumas situações podem-se atribuir valores numéricos às várias qualidades ou atributos de uma variável qualitativa e depois se proceder à análise como se esta fosse quantitativa, desde que o procedimento seja passível de interpretação.

Existe um tipo de variável qualitativa para a qual essa quantificação é muito útil: a chamada

variável dicotômica. Para essa variável podem ocorrer somente duas realizações, usualmente chamadas de sucesso e fracasso. Exemplos: Sexo (Masculino ou Feminino), Hábito de Fumar (Sim ou Não), etc.

Page 10: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 5

2.3. Exercícios – Parte I – A1 1) Um questionário foi aplicado aos alunos do primeiro ano de uma escola fornecendo as seguintes informações: ID: Identificação do aluno; Turma: Turma a que o aluno foi alocado (A ou B); Sexo: Feminino (F) ou Masculino (M); Idade: Idade; Alt: Altura; Peso: Peso; Filh: Número de filhos na família; Fuma: Hábito de fumar (sim ou não); Toler: Tolerância ao cigarro: (I) Indiferente, (P) Incomoda Pouco e (M) Incomoda Muito; Exer: Horas de atividade física, por semana; Cine: Número de vezes que vai ao cinema por semana; OpCine: Opinião a respeito das salas de cinema na cidade: (B) regular a boa e (M) muito boa TV: Horas gastas assistindo TV, por semana OpTV: Opinião da programação na TV: (R) Ruim, (M) Média, (B) Boa e (N) não sabe.

Tabela 2.2: Informações do questionário estudantil.

ID Turma Sexo Idade Alt Peso Filh Fuma Toler Exer Cine Opcine Tv OpTV1 A F 17 1,60 60,5 2 Não P 0 1 B 16,5 R 2 A F 18 1,69 55,0 1 Não M 0 1 B 7 R ... ... ... ... ... ... ... ... ... ... ... ... ... ... 49 B M 17 1,80 71,0 1 Não P 7 0 M 14 R 50 B M 18 1,83 86,0 1 Não P 7 7 M 20 B Fonte: Magalhães e Lima (2004). Classifique as variáveis da Tabela 2.2. como Variável Qualitativa Nominal: Variável Qualitativa Ordinal: Variável Quantitativa Discreta: Variável Quantitativa Contínua:

Page 11: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 6

3. AMOSTRAGEM A amostragem é naturalmente usada em nossa vida diária. Por exemplo, para verificar o tempero de um alimento em preparação, podemos provar (observar) uma pequena porção deste alimento. Estamos fazendo uma amostragem, ou seja, extraindo do todo (população), uma parte (amostra) com propósito de avaliarmos sobre a qualidade do tempero de todo o alimento. 3.1. Por que fazer Amostragem?

Existem várias razões para o uso de amostragem em levantamento de grandes populações. Algumas delas são:

Economia: Em geral, torna-se bem mais econômico o levantamento de somente uma parte da população.

Tempo: Numa pesquisa eleitoral, a três dias de uma eleição presidencial, não haveria tempo suficiente para pesquisar toda a população de eleitores do país.

Operacionalidade: É mais fácil realizar operações de pequena escala. Um dos problemas típicos nos grandes censos é o controle dos entrevistadores.

3.2. Quando o uso de amostragem não é interessante?

População pequena: Não há necessidade de utilizar técnicas estatísticas, pois neste caso é aconselhável realizar o censo (análise de toda a população).

Característica de fácil mensuração: Talvez a população não seja tão pequena, mas a variável que se quer observar é de tão fácil mensuração, que não compensa investir num plano de amostragem. Por exemplo, para verificar a porcentagem de funcionários favoráveis à mudança no horário de um turno de trabalho, podemos entrevistar toda a população no próprio local de trabalho. Esta atitude pode ser politicamente mais recomendável.

Necessidade de alta precisão: A cada dez anos o IBGE realiza um Censo1 Demográfico para estudar diversas característica da população brasileira. Dentre estas características têm-se o número total de habitantes, que é fundamental para o planejamento do país. Desta forma, o número de habitantes precisa ser avaliado com grande precisão e, por isto, se pesquisa toda a população.

3.3. Tipos de Amostragem 3.3.1. Amostragem Aleatória Simples (AAS)

A técnica de Amostragem Aleatória Simples (ou Amostragem Casual Simples) é o método

mais simples e um dos mais importantes para a seleção de uma amostra. Para a seleção de uma AAS precisamos ter uma lista completa dos elementos da população. Este tipo de amostragem consiste em selecionar a amostra através de um sorteio. Sua principal característica está no fato de todos os elementos da população ter igual probabilidade de serem escolhidos.

1 Censo: estudo de todos os elementos da população.

Page 12: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 7

Procedimento para o uso deste método: 1) Numerar todos os elementos da população (N elementos); 2) Efetuar sucessivos sorteios até completar o tamanho da amostra (n).

Para realizar este sorteio, podemos utilizar urnas, tabelas de números aleatórios ou algum software que gere números aleatórios. A Tabela abaixo foi feita usando o Excel®.

Tabela de Números Aleatórios Exemplo: Estamos interessados em estudar a qualidade da gasolina nos postos de uma determinada cidade. Essa cidade possui N = 40 postos. A empresa que estudará a qualidade pode investigar apenas uma amostra de n = 4 postos. Para selecionarmos uma amostra, utilizando a amostragem casual simples, basta escolhermos uma posição de qualquer linha da tabela de números aleatórios e extrairmos conjuntos de dois algarismos (pois N, que é o tamanho da população, possui 2 casas decimais), até completarmos os 4 elementos da amostra. Se o número sorteado não existir, simplesmente não consideramos e prosseguimos o processo.

Escolhendo a primeira linha da Tabela de Números Aleatórios, temos a seguinte amostra de 4 elementos: 09, 26, 29, 11. Exemplo: Considere agora, uma população com 500 elementos e, deseja-se retirar dessa população 10 elementos. Obtenha uma AAS utilizando a primeira linha da Tabela de Números Aleatórios. 3.3.2. Amostragem Sistemática (AS)

É utilizada quando a população está naturalmente ordenada, como listas telefônicas, fichas

de cadastramento, produção de garrafas da cervejas, etc. Procedimento para o uso deste método:

1) Seja N o tamanho da população e n o tamanho amostral. Calcula-se o intervalo da amostragem i = N/n (considera-se apenas a parte inteira do número).

6 1 0 9 2 6 2 9 8 5 1 1 9 5 7 7 7 9 0 4 5 7 0 0 9 1 2 9 5 9 8 3 5 3 8 7 0 2 0 29 4 4 7 4 0 9 9 9 3 8 2 1 3 2 2 4 0 3 3 1 9 7 2 5 5 6 9 8 2 1 6 9 4 2 1 6 6 3 95 0 4 0 5 0 5 5 7 9 0 0 5 8 1 7 2 6 3 0 3 8 1 1 5 4 8 9 0 4 1 3 6 9 1 7 3 5 4 85 8 9 3 4 2 7 0 1 5 2 8 9 6 2 4 7 5 0 3 0 0 4 5 8 6 6 8 7 9 0 2 5 8 9 6 2 4 8 58 0 4 8 9 6 3 2 5 8 1 2 5 8 7 4 6 3 2 1 4 8 9 6 5 4 1 2 3 2 0 1 4 5 2 3 6 9 8 0

1 2 8 7 5 6 3 2 1 0 8 5 6 4 9 7 3 2 1 0 5 9 4 7 6 4 1 2 3 3 0 1 2 5 8 9 7 4 1 03 1 4 5 8 7 6 9 3 2 0 1 4 5 6 9 8 7 4 5 9 8 7 4 5 6 3 2 1 5 9 4 5 6 0 2 5 8 0 08 5 1 8 9 6 5 4 7 3 1 0 2 5 8 9 6 3 2 0 4 7 8 9 6 3 2 0 1 4 8 2 3 6 8 9 5 2 0 10 8 5 8 9 6 3 2 1 4 5 2 5 8 9 6 3 2 1 4 8 5 2 3 0 2 5 7 4 0 8 5 6 3 1 2 5 2 3 09 0 1 2 5 9 0 3 6 8 2 0 3 5 8 4 6 1 3 0 5 8 7 9 6 3 2 0 1 8 9 6 3 2 5 8 4 1 0 3

1 9 1 5 8 9 6 3 2 1 7 8 9 6 5 2 0 3 2 5 9 6 3 2 0 1 5 8 9 6 2 1 5 4 7 9 9 4 0 22 7 9 1 2 3 5 8 9 6 0 1 5 4 2 0 3 6 9 8 2 5 8 0 2 1 4 8 0 9 5 2 0 3 2 1 2 4 8 95 6 1 9 4 5 9 6 3 2 1 4 7 8 9 6 3 0 1 5 1 4 5 8 9 6 3 2 1 4 0 2 1 3 6 5 4 7 8 99 2 5 1 2 3 5 8 9 4 3 2 1 4 7 0 2 3 0 0 4 5 6 3 0 0 1 4 5 2 9 3 0 2 5 8 9 2 6 46 3 3 1 2 5 8 7 0 3 9 4 7 8 4 1 0 1 3 6 8 7 4 1 2 3 0 2 5 8 6 1 0 2 5 4 6 7 8 9

Page 13: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 8

2) Sorteia-se, utilizando a tabela de números aleatórios, um número x entre 1 e i formando a amostra: x, (x + i), (x + 2*i), ... , (x + (n-1)*i).

Exemplo: Numa turma com N = 36 alunos, deseja-se retirar uma amostra de n = 5 elementos para verificar uma característica de interesse. Utilize a técnica de amostragem sistemática para retirar essa amostra. 1) Calcular: i = N/n = 36/5 = 7,2. Considerando a parte inteira do número, temos que i = 7; 2) Sortear um número entre 1 e 7 da Tabela de Números Aleatórios. Escolhendo a última linha e a primeira coluna, temos que o primeiro número que está entre 1 e 7 é 6. Logo a amostra será composta dos elementos: 06, 13, 20, 27, 34 Exemplo: Considere agora, uma população com 500 elementos e, deseja-se retirar dessa população 10 elementos. Obtenha uma AS utilizando a primeira linha da Tabela de Números Aleatórios, quando for necessário. 3.3.3. Amostragem Estratificada (AE)

A população é dividida em subgrupos, denominados estratos (por exemplo, por sexo, renda,

bairro, etc.) e a AAS é utilizada na seleção de uma amostra de cada estrato. Esses estratos devem ser internamente mais homogêneos do que a população toda, com respeito às variáveis em estudo. Aqui, um conhecimento prévio sobre a população em estudo é fundamental.

Estrato 1 Subgrupo 1 da amostra Estrato 2 Subgrupo 2 da amostra

... ... ... Estrato k Subgrupo k da amostra

Amostra

Estratificada

A AE tem as seguintes características:

• dentro de cada estrato há uma grande homogeneidade (pequena variabilidade); • entre os estratos há uma grande heterogeneidade (grande variabilidade).

Em geral, utiliza-se a AE proporcional. Neste caso, a proporcionalidade do tamanho da amostra de cada estrato da população é mantida na amostra. Por exemplo, se um estrato corresponde a 20% do tamanho da população, ele também deve corresponder a 20% da amostra. Exemplo: Com o objetivo de realizar uma pesquisa de opinião sobre a gestão atual da reitoria em uma determinada universidade, realizaremos um levantamento por amostragem. A população é composta por 100 professores, 100 servidores técnicos administrativos e 300 alunos, que identificaremos da seguinte forma:

População Professores P001 P002 … P100

Servidores S001 S002 ... S100

Alunos A001 A002 ... A300

Page 14: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 9

Supondo que a opinião sobre a gestão atual da reitoria possa ser relativamente homogêneo dentro de cada categoria, realizaremos uma amostragem estratificada proporcional por categoria, para obter uma amostra global de tamanho n = 10. A tabela a seguir mostra as relações de proporcionalidade.

Estrato Proporção na População Tamanho do subgrupo na amostra

Professores 100/500 = 0,20 (ou 20%) np = ( 0,20)*10 = 2

Servidores 100/500 = 0,20 (ou 20%) ns = ( 0,20)*10 = 2

Alunos 300/500 = 0,60 (ou 60%) na = ( 0,60)*10 = 6

Para selecionar aleatoriamente dois professores, podemos usar a Tabela de Números

Aleatórios, tomando dois números com três algarismos. Usando, por exemplo a primeira linha da tabela de números aleatórios, temos os seguintes professores selecionados: P045, P020. Para os servidores, usando a segunda linha da tabela, temos: S055, S058. Usando a terceira linha da tabela, temos a seguinte amostra de alunos: A050, A136, A270, A152, A247, A004. A amostra P045, P020, S055, S058, A050, A136, A270, A152, A247, A004 é uma amostra estratificada proporcional da comunidade da universidade. Cada indivíduo desta amostra deverá ser pesquisado para se obter a opinião em relação à gestão atual da reitoria. 3.3.4. Amostragem por Conglomerado (AC)

A população é dividida em subpopulações (conglomerados) distintas (quarteirões,

residências, famílias, bairros, etc.). Alguns dos conglomerados são selecionados segundo a AAS e todos os indivíduos nos conglomerados selecionados são observados. Em geral, é menos eficiente que a AAS ou AE, mas por outro lado é bem mais econômica. Tal procedimento amostral é adequado quando é possível dividir a população em um grande número de pequenas subpopulações.

A AC tem as seguintes características: • dentro de cada conglomerado há uma grande heterogeneidade (grande

variabilidade); • entre os conglomerados há uma pequena variabilidade (grande homogeneidade).

Exemplo: Realização de uma pesquisa eleitoral em uma cidade com 12 zonas eleitorais. Usando a técnica de amostragem por conglomerados, podemos selecionar aleatoriamente 2 zonas eleitorais e, em seguida, entrevistar todos os eleitores dessas zonas selecionadas

Zona

1

2

3

4

5

6

7

8

9

10

11

12

Entrevistar todos os eleitores dessas zonas

Zona

1

2

3

4

5

6

7

8

9

10

11

12

Zona

1

2

3

4

5

6

7

8

9

10

11

12

Entrevistar todos os eleitores dessas zonas

Page 15: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 10

Obs.: É fácil confundir amostragem estratificada com amostragem por conglomerado, porque ambas envolvem a formação de subgrupos. A diferença é que a amostragem por conglomerado usa todos os membros de uma amostra de conglomerados, enquanto a amostragem estratificada usa uma amostra de membros de todos os estratos. Curiosidade

Também podemos encontrar na prática a Técnica de Amostragem de Conveniência que simplesmente usa resultados que sejam muito fáceis de obter. 3.4. Exercícios – Parte I – A1 1) Um administrador especialista em avaliar através de sistemas informatizados as ações da BOVESPA, está interessado em fazer uma pesquisa nos preços das ações, para indicar aos seus clientes se hoje é um dia favorável a fazer investimentos. Ele sabe que existe N = 500 ações em venda. Como o tempo de estudo de cada ação é de aproximadamente 10 minutos, decidiu-se verificar apenas n = 25 ações. Utilizando as técnicas de amostragem aleatória simples, quais ações serão selecionadas (Use a primeira linha da tabela de números aleatórios)? 2) Um gerente de controle de qualidade estudará fontes de computador que passam numa esteira transportadora dentro da empresa onde trabalha. Sabendo que por dia passam N = 85 fontes e na amostra deverá ter n = 10 fontes, quais serão as fontes selecionadas utilizando a técnica de amostragem sistemática? (Quando for necessário utilizar a Tabela de Números Aleatórios utilize a primeira linha) 3) Num depósito em uma determinada empresa produtora de materiais eletrônicos possui N = 100 computadores que estão separados em duas qualidades. N1 = 40 computadores Pentium 3 e N2 = 60 computadores Pentium 4. O custo para verificar se cada computador está sob controle é muito alto. O administrador responsável disse que a empresa tem condições de verificar apenas n = 12 computadores. Utilizando a técnica de amostragem estratificada proporcional, quais computadores serão selecionados? (Quando for necessário utilizar a Tabela de Números Aleatórios utilize a primeira linha)

Ei! Você é a favor da pena de morte?Ei! Você é a favor

da pena de morte?

Page 16: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 11

4. TABULAÇÃO DE VARIÁVEIS 4.1. Variáveis Qualitativas Unidimensionais

Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o

comportamento dessa variável, analisando a ocorrência de seus possíveis resultados. A tabela a seguir apresenta a distribuição de freqüências da variável grau de instrução dos

dados da Tabela 2.1.

Tabela 4.1: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB segundo o grau de instrução.

Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) Fundamental 12

Médio 18 Superior 6

Total n = 36 1,0000 Fonte: Bussab e Morettin (2002)

Interpretação da Tabela 4.1.: Nota-se que dos 36 empregados da seção de orçamentos, 33,33% tem nível fundamental, 50% nível médio e apenas 16,67% nível superior. Notação: Usaremos a notação ni para indicar a freqüência (absoluta) de cada classificação ou categoria da variável. A notação fi = ni/n para indicar a proporção (ou freqüência relativa) de cada categoria, sendo o “n” o número total de observações.

As proporções são muito úteis quando se querem comparar resultados de duas pesquisas distintas. O próximo exemplo ilustra este fato. Exemplo: Suponhamos que se queira comparar a variável grau de instrução para empregados da seção de orçamentos com a mesma variável para todos os empregados da Companhia MB. Digamos que a empresa tenha 2000 empregados e que a distribuição de freqüências seja a tabela abaixo: Tabela 4.2: Freqüências e Porcentagens dos 2000 empregados da Companhia MB, segundo o grau

de instrução. Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi)

Fundamental 650 Médio 1020 0,5100

Superior Total n = 2000 1,0000

Fonte: Bussab e Morettin (2002) Comparação entre a Tabela 4.1. e a Tabela 4.2.: Não podemos comparar diretamente as colunas das freqüências (ni) das duas tabelas pois os totais de empregados são diferentes nos dois casos (n = 36 e n = 2000). Mas as colunas das porcentagens (ou proporções) são comparáveis, pois reduzimos as freqüências relativas a um mesmo total.

Page 17: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 12

4.2. Variáveis Quantitativas Unidimensionais

A construção de tabelas de freqüências para variáveis quantitativas necessita de certos cuidados. Por exemplo, a construção da tabela de freqüências para a variável Salário da Tabela 2.1., usando o mesmo procedimento que o grau de instrução, não resumirá as 36 observações num grupo menor, pois não existem observações iguais. Solução: Agrupar os dados por faixas de salário. Assim, construímos uma tabela chamada Tabela de Classes de Freqüências. Exemplo: Distribuição de Freqüências dos salários dos 36 empregados da seção de orçamentos da Companhia MB por faixas de salário:

Tabela 4.3: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB por faixas de salário.

Classe de Salário Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) 04 |-- 08 10 0,2778 27,78% 08 |-- 12 12 12 |-- 16 8 16 |-- 20 5 20 |-- 24 1

Total 36 1,0000

Obs.: Procedendo desse modo, ao resumir os dados referentes a uma variável quantitativa, perde-se alguma informação. Por exemplo, não sabemos quais são os oito salários da classe de 12 a 16, a não ser que investiguemos a tabela original. Sem perda de muita precisão, poderíamos supor que todos os oito salários daquela classe fossem iguais ao ponto médio da referida classe, isto é, 14. Número de Classes

A escolha dos intervalos é arbitrária. A familiaridade do pesquisador com os dados é que lhe indicará quantas e quais classes (intervalos) devem ser usadas. Entretanto, deve-se observar que, com um número pequeno de classes, perde-se informação, e com um número grande de classes, o objetivo de resumir os dados fica prejudicado. Solução: Normalmente, sugere-se o uso de 4 a 8 classes com a mesma amplitude.

Dentre muitas regras citadas na literatura, duas tem sido universalmente adotadas, caso o pesquisador não tenha idéia alguma sobre o número de classes adotar. O número ideal de classes é um número inteiro próximo de:

Regra 1: nlogx2,31C += Regra 2: nC =

onde n é o número de elementos pesquisado. As duas regras são equivalentes para n ≤ 80. A partir daí, a Regra 2 fornece valores que

crescem rapidamente e desse modo a Regra 1, proposta por Sturges tem sido preferida.

Page 18: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 13

4.3. Variáveis Qualitativas e Quantitativas Bidimensionais As tabelas usadas neste caso são conhecidas como tabela de dupla entrada, tabela de

associação, tabela de contingência ou distribuições conjuntas de freqüências.

Tabela 4.4: Distribuição dos funcionários da empresa MB, segundo o conceito em Metodologia e a Seção a que pertence.

Conceito em Metodologia Seção A B C

Total por Seção

Dep. Pessoal 3 1 3 7 Séc. Técnica 0 4 3 7 Sec. Venda 4 3 4 11

Total por Conceito 7 8 10 25

Tabela 4.5: Vendas dos Produtos A, B, C, no supermercado Glória, no Primeiro semestre de 2005.

Vendas em 1000 R$ Meses A B C

Total por Mês

Janeiro 40,0 25,2 8,1 73,3 Fevereiro 40,1 28,0 10,0 78,1

Março 35,1 28,0 15,4 78,5 Abril 28,2 20,2 22,3 70,7 Maio 14,1 25,6 28,1 67,8 Junho 5,0 30,0 35,2 70,2

Total por Produto 162,5 157,0 119,1 438,6 Fonte: Dados Hipotéticos.

Tabela 4.6: Distribuição dos alunos da Faculdade Vitória, segundo suas notas em Matemática e Estatística.

Matemática Estatística 0 |- 4 4 |- 7 7 |- 10

Totais em Estatística

0 |- 4 32 25 5 62 4 |- 7 20 183 82 285 7 |- 10 7 27 19 53

Totais em Matemática

59 235 106 400

Fonte: Dados Hipotéticos.

Page 19: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 14

4.4. Exercícios – Parte I – A1

Tabela 4.7: Conjuntos de dados da empresa MB Indústria e Comércio Func. Seção* Admin. Direito Redação Estat. Inglês Metodologia Política Economia

1 P 8,0 9,0 8,6 9,0 B A 9,0 8,5 2 P 8,0 9,0 7,0 9,0 B C 6,5 8,0 3 P 8,0 9,0 8,0 8,0 D B 9,0 8,5 4 P 6,0 9,0 8,6 8,0 D C 6,0 8,5 5 P 8,0 9,0 8,0 9,0 A A 6,5 9,0 6 P 8,0 9,0 8,5 10,0 B A 6,5 9,5 7 P 8,0 9,0 8,2 8,0 D C 9,0 7,0 8 T 10,0 9,0 7,5 8,0 B C 6,0 8,5 9 T 8,0 9,0 9,4 9,0 B B 10,0 8,0 10 T 10,0 9,0 7,9 8,0 B C 9,0 7,5 11 T 8,0 9,0 8,6 10,0 C B 10,0 8,5 12 T 8,0 9,0 8,3 7,0 D B 6,5 8,0 13 T 6,0 9,0 7,0 7,0 B C 6,0 8,5 14 T 10,0 9,0 8,6 9,0 A B 10,0 7,5 15 V 8,0 9,0 8,6 9,0 C B 10,0 7,0 16 V 8,0 9,0 9,5 7,0 A A 9,0 7,5 17 V 8,0 9,0 6,3 8,0 D C 10,0 7,5 18 V 6,0 9,0 7,6 9,0 C C 6,0 8,5 19 V 6,0 9,0 6,8 4,0 D C 6,0 9,5 20 V 6,0 9,0 7,5 7,0 C B 6,0 8,5 21 V 8,0 9,0 7,7 7,0 D B 6,5 8,0 22 V 6,0 9,0 8,7 8,0 C A 6,0 9,0 23 V 8,0 9,0 7,3 10,0 C C 9,0 7,0 24 V 8,0 9,0 8,5 9,0 A A 6,5 9,0 25 V 8,0 9,0 7,0 9,0 B A 9,0 8,5

(*) P = Departamento Pessoal; T = Seção Técnica e V = Seção de Vendas. Fonte: Bussab e Morettin (2002)

1) Baseado na Tabela 4.7., construa a distribuição de freqüências da variável Metodologia, com as freqüências absoluta e relativa, as porcentagens, dê um título e interprete. 2) Ainda baseado na Tabela 4.7., construa uma Tabela de Classes de Freqüências para a variável Redação, com as freqüências absoluta e relativa, as porcentagens, dê um título e interprete. 3) Construa uma tabela de dupla entrada para as variáveis “seção” e conceito tirado em “Inglês” da Tabela 4.7. 4) Construa uma tabela de contingência para as variáveis “seção” e “notas em estatística” da Tabela 4.7. 5) Construa uma tabela de contingência para as variáveis “notas em redação” e “política” da Tabela 4.7.

Page 20: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 15

5. MEDIDAS DE POSIÇÃO 5.1. Mínimo e Máximo

O mínimo é a menor observação do conjunto de dados, enquanto que o máximo é a maior observação. Exemplo: Considere o seguinte conjunto de dados: 4, 5, 4, 6, 5, 8, 4. Logo,

Min = __ e Max = __. 5.2. Moda

Valor ou atributo que ocorre com maior freqüência. Exemplo (a): 2, 5, 2, 7, 8 Moda = __ . Exemplo (b): 3, 4, 2, 2, 4, 5 Moda = __ e __. “Conjunto _ _ _ _ _ _ _” Exemplo (c): 1, 2, 3, 4, 5 Moda = não tem “Conjunto _ _ _ _ _ _” Moda para dados agrupados em Tabelas de Freqüências Exemplo: Uma empresa de segurança deseja estudar qual o número de ligações a cobrar mais freqüentes que são recebidas em um determinado bairro de classe alta da cidade de São Paulo no mês de março. Foram selecionadas 30 residências e observadas 10 ligações em cada residência. O resultado foi:

Números de Ligações a Cobrar (xi) Número de Residências (ni) 0 2 1 5 2 15 3 8

Total 30 Moda = __. Interpretação: __ ligações a cobrar foi o que ocorreu com maior freqüência. 5.3. Média

Valor que representa o centro do conjunto de dados. Considere n observações de um conjunto de dados representados por x1, x2, ..., xn. A média

desse conjunto é obtida pela soma das n observações dividido por n, ou seja,

n

x

nxxxx

x

n

ii

n∑

==++++

= 1321 L (5.1)

Exemplo: Considere o seguinte conjunto de notas: 2, 5, 3, 7, 8. A média das notas é ___.

Page 21: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 16

Média para dados agrupados em Tabelas de Freqüências Exemplo: Considere novamente o exemplo da empresa de segurança, mas suponha que o interesse seja estudar o número médio de ligações a cobrar recebido em um determinado bairro de classe alta da cidade de São Paulo no mês de março.

Números de Ligações a Cobrar (xi) Número de Residências (ni) 0 2 1 5 2 15 3 8

Total 30

Nesse caso, a média é calculada levando em conta as freqüências de cada valor da variável, da seguinte forma:

n

nxx

v

iii∑

== 1 , (5.2)

onde v é a quantidade de resultados que a variável contém e ni a respectiva freqüência da i-ésima classe. Assim, para o exemplo temos:

=+++

==∑

=

308315251201 xxxx

n

nxx

i

n

ii

___.

Logo, o número médio de ligações a cobrar recebido em um determinado bairro de classe alta da cidade de São Paulo no mês de março é ___. 5.4. Mediana

É o valor que divide os dados, isto é, metade dos dados será maior ou igual que a mediana e metade será menor ou igual.

Considere a seguinte série de valores: 5, 2, 6, 13, 9, 15, 10. De acordo com a definição de mediana, o primeiro passo a ser dado é ordenar o conjunto de

valores: 2, 5, 6, 9, 10, 13, 15. O valor que divide a série em duas partes iguais é 9. Logo, a mediana é 9.

Método prático para o cálculo da Mediana para dados em Rol 1) Ordenar os valores do menor para o maior, isto é, x(1),...., x(n), onde x(1) é o mínimo e x(n) é o máximo.

2) Calcular em que posição estará a mediana nos dados ordenados através da fórmula: 2

1np += .

3) O valor da mediana será: (a) Se p for um número inteiro, então a mediana será o valor que está na posição p nos dados ordenados, isto é

Mediana = x(p)

Page 22: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 17

(b) Se p não for inteiro, considere p- e p+ os inteiros imediatamente abaixo e acima de p, respectivamente. A mediana será a média dos valores que estão nas posições p- e p+ nos dados ordenados, ou seja,

2

xxMediana )P()P( +− +

=

Exemplo: Calcule a mediana da seguinte série de dados: 1, 3, 0, 0, 2, 4, 1, 2, 5 1º ordenar a série: __, __, __, __, __, __, __, __, __. n = __ . Logo, P = (n + 1)/2 é dado por P = (__+1)/2 = 5, ou seja, o 5º elemento da série ordenada será a mediana. Assim, mediana = __ . Exemplo: Calcule a mediana da seguinte série de dados: 1, 3, 0, 0, 2, 4, 1, 3, 5, 6 1º ordenar a série: __, __, __, __, __, __, __, __, __, __. n = __. P = (n + 1)/2 é dado por P = (__+1)/2 = 5.5, logo, P- = 5 e P+ = 6, ou seja, o 5º e o 6º elementos da série ordenada, que representam os seguintes valores: __ e __, respectivamente. Pela definição, a mediana será a média aritmética do 5º e 6º termos da série, ou seja,

Mediana = (2+3)/2 = 2,5. Notas: 1) Quando o número de elementos da série estatística for ímpar, haverá coincidência da mediana com um dos elementos da série. 2) Quando o número de elementos da série estatística for par, a mediana será sempre a média aritmética dos 2 elementos centrais da série. 3) Em uma série de dados, a mediana, a média e a moda não têm, necessariamente, o mesmo valor. 4) A mediana, depende da posição e não dos valores dos elementos na série ordenada. Essa é uma diferença marcante entre mediana e média (que se deixa influenciar, e muito, pelos valores extremos). Vejamos:

Na série: 5, 7, 10, 13, 15 Média = 10 e Mediana = 10; Na série: 5, 7, 10, 13, 65 Média = 20 e Mediana = 10,

isto é, a média do segundo conjunto de valores é maior do que a do primeiro, por influência dos valores extremos, ao passo que a mediana permanece a mesma. Mediana para dados agrupados em Tabelas de Freqüências

Nesse caso, utilizamos a freqüência acumulada para identificar qual o valor da mediana. Exemplo: Considere novamente o exemplo da empresa de segurança que desejava estudar qual o número de ligações a cobrar mais freqüentes recebidas em um determinado bairro de classe alta da cidade de São Paulo no mês de março. Vamos introduzir uma nova coluna na tabela dos dados referentes a freqüência acumulada.

Page 23: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 18

Números de Ligações a Cobrar (xi) Número de Residências (ni) Freqüência Acumulada (Fi) 0 2 1 5 2 15 3 8

Total 30 Como o rol é par, pois n = __, a mediana é a média dos valores que estão nas posições 15 e 16. Ambos valores que estão nestas posições são __ ligações a cobrar recebida por residência, pois F3 é a primeira freqüência acumulada que contém os elementos 15 e 16. 5.5. Exercícios – Parte I – A1 1) Os tempos de sobrevivência (em meses) de um tipo de bateria estão listados a seguir.

5, 21, 21, 23, 23, 25, 27, 29, 30, 31, 32, 32, 32, 34, 35, 36, 38, 38, 38, 42, 43, 44, 60. Calcule o mínimo, máximo, moda, média e mediana.

2) Um artigo em Computers and Industrial Engineering (2001, p.51) descreve os dados de tempos de falha (em horas) para motores de jatos. Alguns desses dados estão a seguir.

Tabela 5.1: Dados Brutos (em horas) Máquina # Tempo de Falha Máquina # Tempo de Falha

1 150 14 171 2 291 15 197 3 93 16 200 4 53 17 262 5 2 18 255 6 65 19 286 7 183 20 206 8 144 21 179 9 223 22 232 10 197 23 165 11 187 24 155 12 197 25 203 13 213

Obtenha mínimo, máximo, moda, média e mediana dos tempos de falhas das máquinas e interprete os resultados. 3) As idades dos 20 ingressantes num certo curso de pós-graduação em finanças de uma universidade foram as seguintes: 22, 22, 22, 22, 23, 23, 24, 24, 24, 24, 25, 25, 26, 26, 26, 26, 27, 28, 35 e 40. Construa uma tabela de freqüências e calcule o mínimo, máximo, moda, média e mediana das idades organizadas nessa tabela.

Page 24: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 19

6. MEDIDAS DE DISPERSÃO 6.1. Motivação

Para preencher uma única vaga existente em uma empresa, 50 candidatos foram submetidos a 6 provas sobre conhecimentos específicos de interesse da empresa. Três destes candidatos destacaram-se com as notas descritas na tabela abaixo:

Tabela 6.1: Distribuição das Notas

Provas Candidatos

1 2 3 4 5 6 A 7,0 7,5 8,0 8,0 8,5 9,0 B 6,0 7,0 8,0 8,0 9,0 10,0 C 7,5 8,0 8,0 8,0 8,0 8,5

Fonte: Dados Hipotéticos Que candidato escolher? Um critério inicial poderia ser o de escolher o que tem a maior média, mas:

Candidatos A B C Média

De modo análogo, nem adianta pensar em moda ou mediana, pois: Candidatos A B C

Moda Mediana

Solução: Um segundo critério de escolha pode ser escolher o candidato que apresentou notas mais homogêneas, isto é, aquele que apresentou menor dispersão das notas. 6.2. Amplitude

A amplitude é definida pelo intervalo entre o valor máximo e o valor mínimo da série de dados, ou seja, Amplitude = Máximo – Mínimo (6.1) Exemplo: Para os três candidatos temos:

Candidatos A B C Amplitude

6.3. Variância e Desvio Padrão

A variância mede a dispersão dos dados em torno de sua média.

1

)(

1)()()()( 1

222

32

22

12

−=

−−++−+−+−

=∑

=

n

xx

nxxxxxxxx

s

n

ii

nL (6.2)

Page 25: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 20

O desvio padrão é simplesmente a raiz quadrada positiva da variância

2ss = (6.3) Exemplo: Vamos calcular a variância e o desvio padrão para os três candidatos:

Notas Média Candidato A 7,0 7,5 8,0 8,0 8,5 9,0 8,0

5,055,2

16)89()85,8()88()88()85,7()87( 222222

2 ==−

−+−+−+−+−+−=As 7,05,0 ≅=As

Notas Média

Candidato B 6,0 7,0 8,0 8,0 9,0 10,0 8,0

==−

=516

2Bs =Bs

Notas Média

Candidato C 7,5 8,0 8,0 8,0 8,0 8,5 8,0

==−

=516

2Cs =Cs

Resumindo

Tabela 6.2: Medidas de Posição e Dispersão dos 3 melhores candidatos Candidatos Média Moda Mediana Amplitude Variância Desvio Padrão

A 8,0 8,0 8,0 B 8,0 8,0 8,0 C 8,0 8,0 8,0

Fórmula alternativa para o cálculo da variância

Podemos calcular a variância através da seguinte fórmula alternativa:

⎥⎦

⎤⎢⎣

⎡−⎟

⎞⎜⎝

⎛−

= ∑=

2

1

22 )(1

1 xnxn

sn

ii (6.4)

. A fórmula (6.4) é obtida através de algumas manipulações algébricas na fórmula (6.2). Esta

tem a facilidade de apenas necessitar da informação da média ( x ) e da soma dos valores ao quadrado da variável ( )∑ 2

ix .

Page 26: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 21

6.4. Intervalo Interquartil

O intervalo interquartil é a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1), ou seja, IQ = Q3 – Q1. (6.5)

Essa medida nos dá a informação da amplitude dos 50% pontos centrais do conjunto de

dados ordenados. 6.5. Exercícios – Parte I – A1

1) Considere o seguinte conjunto de dados: 2, 3, 5, 7, 10. Utilize a fórmula alternativa para calcular a variância, sabendo que a média é 5,4. 2) Foram coletados aleatoriamente 5 empregados de 3 empresas (A, B e C) e perguntado para cada um deles o seu salário (em salários mínimos). Se estas 3 empresas estivessem oferecendo emprego, em qual delas você trabalharia sendo que o resultado da pesquisa com os 15 funcionários entrevistados foi:

Empresa A Empresa B Empresa C 5,5 4 5 6 5 6 6 6 6 6 6 6

6,5 9 7 Obs: Obtenha a Amplitude, Variância, Desvio Padrão e o Intervalo-Interquartil de cada empresa para tomar sua decisão. 3) Um laboratório clínico precisa decidir comprar um dentre três aparelhos (A, B, C) para dosagem de sangue. Para isto o responsável pelas análises preparou uma substância de concentração conhecida (10 mg/ml) e extraiu várias amostras para serem dosadas pelos três aparelhos. Os resultados obtidos em cada um deles foram os seguintes:

A 5 10 7 15 16 12 4 8 10 13 B 10 9 10 9 11 8 9 7 8 9 C 10 11 9 10 10 9 11 12 8 10

Em medidas clínicas três termos são utilizados freqüentemente: Precisão: refere-se à dispersão dos resultados Não-viciado: refere-se à tendência de um conjunto de medidas produzir um resultado igual ao “verdadeiro valor” Exato: refere-se ao instrumento preciso e não-viciado (a) Descreva os três instrumentos em termos das definições acima. (b) Qual instrumento lhe parece recomendável? Justifique sua resposta.

Page 27: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 22

7. ESTATÍSTICA GRÁFICA 7.1. Gráficos para as Variáveis Qualitativas

A representação gráfica da distribuição de uma variável tem a vantagem de, rápida e

concisamente, informar sobre sua variabilidade. Existem vários tipos de gráficos para as variáveis Qualitativas. Aqui serão ilustrados três

deles: Gráficos em Barras, o de Composição em Setores (“Pizza”) e o Gráfico de Pareto. 7.1.1. Gráfico em Barras

O gráfico em Barras consiste em construir retângulos ou barras, em que uma das dimensões

é proporcional à magnitude a ser representada (ni), sendo a outra arbitrária, porém igual para todas as barras. Essas barras são dispostas paralelamente uma às outras, horizontalmente ou verticalmente. No exemplo a seguir temos o gráfico em barras (verticais) para a variável Grau de Instrução.

Tabela 7.1: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB segundo o grau de instrução.

Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) Fundamental 12 0,3333 33,33%

Médio 18 0,5000 50,00% Superior 6 0,1667 16,67%

Total n = 36 1,0000 100,00% Fonte: Bussab e Morettin (2002)

12

18

6

0

2

4

6

8

10

12

14

16

18

Freq

üênc

ia (n

i)

Fundamental Médio SuperiorGrau de Instrução

Figura 7.1: Gráfico em Barras para a variável Grau de Instrução

Page 28: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 23

7.1.2. Gráfico de Composição em Setores (“Pizza”)

O gráfico de composição em setores (“pizza”), destina-se a representar a composição, usualmente em porcentagem, de partes de um todo. Consiste num círculo de raio arbitrário, representando o todo, dividido em setores, que correspondem às partes de maneira proporcional.

Para o exemplo anterior temos o seguinte gráfico:

50%

17%

33%

Fundamental

Médio

Superior

Figura 7.2: Gráfico em Setores para a variável Grau de Instrução

7.1.3. Gráfico de Pareto

O gráfico de Pareto é um gráfico de barras representando a freqüência absoluta com um gráfico de linha, representando a porcentagem acumulada. Ele exibe a freqüência absoluta e a porcentagem acumulada no eixo vertical e as categorias da classificação no eixo horizontal (Ver Figura 7.3 a seguir). Organizamos sempre as categorias em ordem decrescente da freqüência de ocorrência, isto é, a de maior freqüência absoluta fica à esquerda, seguida pela segunda de maior freqüência, e assim por diante.

Freq

uenc

ia A

bsol

uta

Porc

enta

gem

Acu

mul

ada

Modelo-AviõesCount

Percent 57,5 11,2 9,2 9,0 6,5 5,1 0,8 0,6Cum %

281

57,5 68,7 77,9 86,9 93,5 98,6 99,4 100,0

55 45 44 32 25 4 3MD-90MD-11MD-747MD-717MD-767MD-757MD-777MD-737

500

400

300

200

100

0

100

80

60

40

20

0

Figura 7.3: Produção de aviões em 2000. (Fonte: Boeing Commercial Airplane Company)

Page 29: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 24

A Figura 7.3 apresenta um gráfico de Pareto para a produção de aviões de transporte da Boeing Commercial Airplane Company no ano de 2000. Note que o 737 foi o modelo mais popular, seguido pelos 777, 757, 767, 717, 747, MD-11 e o MD-90. A linha no gráfico de Pareto conecta as porcentagens acumuladas dos k modelos produzidos com maior freqüência (k = 1, 2, 3, 4, 5). Nesse exemplo, os dois modelos produzidos com maior freqüência respondem aproximadamente 69% do total dos aviões produzidos em 2000.

Núm

ero

de D

efei

tos

Porc

enta

gem

Acu

mul

ada

Tipo de Defeito

CountPercent 37,0 25,9 7,4 7,4 6,2 6,2 4,9 4,9Cum %

30

37,0 63,0 70,4 77,8 84,0 90,1 95,1 100,0

21 6 6 5 5 4 4

Outro

s

Ental

hes/f

enda

s/goiv

as

Parte

s sal i

entes

Parte

s não

lubri

ficad

as

Fora de

seqü

ência

Falta

de fu

ros/r

anhu

ras

Parte

s mal

aparad

as

Fora

do co

ntorn

o

90

80

70

60

50

40

30

20

10

0

100

80

60

40

20

0445566

21

30

Figura 7.4: Gráfico de Pareto dos defeitos em elementos estruturais da porta.

Os gráficos de Pareto são muito úteis na análise dos dados defeituosos em sistemas de produção. A Figura 7.4 apresenta um gráfico de Pareto que mostra a freqüência com que vários tipos de defeitos ocorrem em peças de metal usadas em um componente estrutural da moldura de uma porta de automóvel. Note como o gráfico de Pareto realça os relativamente poucos defeitos que são responsáveis pela maioria dos defeitos observados na peça. O gráfico de Pareto é parte importante no programa de melhora da qualidade, porque permite que a gerência e a engenharia concentrem sua atenção nos defeitos mais críticos do produto ou processo. Uma vez identificados esses defeitos críticos, devem-se desenvolver e implementar ações corretivas para reduzi-los ou eliminá-los. Curiosidade: O gráfico de Pareto tem esse nome em homenagem ao economista italiano Vilfredo Pareto que estabeleceu a teoria de que, em certas economias, a maior parte da riqueza (80%) pertence à minoria da população (20%).

Page 30: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 25

7.2. Gráficos para as Variáveis Quantitativas Para variáveis Quantitativas podemos considerar uma variedade maior de representações

gráficas. 7.2.1. Gráfico em Barras

O gráfico em Barras para as variáveis quantitativas é construído da mesma forma ao das variáveis qualitativas.

Como ilustração, considere a variável “Número de Filhos” dos empregados casados da seção de orçamentos da Companhia MB. A Tabela 7.2 apresenta os dados.

Tabela 7.2: Freqüências e Porcentagens dos empregados da seção de orçamentos da Companhia MB, segundo o número de filhos.

Números de Filhos (xi) Freqüência (ni) Porcentagem (100 x fi) 0 4 20 1 5 25 2 7 35 3 3 15 4 0 0 5 1 5

Total n = 20 100 Fonte: Bussab e Morettin (2002)

Figura 7.5: Gráfico de Barras para a variável Números de Filhos

Page 31: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 26

7.2.2. Gráfico de Pontos ou Gráfico de Dispersão Unidimensional (ou Dot-Plot)

Quando os dados consistem em um pequeno conjunto de números, estes podem ser representados traçando-se uma reta com uma escala que abranja todas as mensurações observadas e grafando-se as respectivas freqüências como pontos acima da reta. Por esse motivo, é também conhecido como gráfico de pontos. Exemplo: Considere a variável tempo, em segundos, entre carros que passam por um cruzamento, viajando na mesma direção: 6, 3, 5, 6, 4, 3, 5, 4, 6, 3, 4, 5, 2, 10.

Figura 7.6: Gráfico de Dispersão – Dot Plot 7.2.3. Histograma

O Histograma é utilizado para representar a distribuição de freqüência. É um gráfico de barras contíguas, com bases proporcionais aos intervalos de classes e a área de cada retângulo proporcional à respectiva freqüência relativa. Indicaremos a amplitude do i-ésimo intervalo por ai. Para que a área do retângulo respectivo seja proporcional a fi, a sua altura deve ser proporcional a di = fi/ai, que é chamada de densidade de freqüência da i-ésima classe. Quanto mais dados tivermos em cada classe, mais alto deve ser o retângulo. Com essa convenção, a área total do histograma será 1 (um). Exemplo: Considerando a variável Salário dos empregados da seção de orçamentos da Companhia MB, temos os seguintes dados:

Tabela 7.3: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB, por faixas de salário

Classe de Salário

Freqüência (ni)

Proporção (fi)

Porcentagem (100 x fi)

Densidade de Freqüência (di = fi/ai)

04 |-- 08 10 0,2778 27,78 0,0695 08 |-- 12 12 0,3333 33,33 0,0833 12 |-- 16 8 0,2222 22,22 0,0556 16 |-- 20 5 0,1389 13,89 0,0347 20 |-- 24 1 0,0278 2,78 0,0070

Total n = 36 1,0000 100,00

1098765432

Page 32: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 27

0,0695

0,0833

0,0556

0,0347

0,007

0

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

Den

sida

de d

e Fr

eqüê

ncia

04 |-- 08 08 |-- 12 12 |-- 16 16 |-- 20 20 |-- 24Classes de Salários

Figura 7.7: Histograma da variável Salário

7.2.4. Gráfico em Linhas (ou Gráfico Temporal)

É um gráfico utilizado para representar observações feitas ao longo do tempo, em intervalos iguais ou não. Tais conjuntos de dados constituem as chamadas séries históricas, ou séries temporais. Traduzem o comportamento de um fenômeno em certo intervalo de tempo.

Tabela 7.4: Dívida Externa do Brasil de 1956 a 2006, em Milhões de Dólares.

Ano Dívida Ano Dívida Ano Dívida 1956 2736 1973 14857 1990 123439 1957 2491 1974 20032 1991 123910 1958 2870 1975 25115 1992 135949 1959 3160 1976 32145 1993 145726 1960 3738 1977 37951 1994 148295 1961 3291 1978 52187 1995 159256 1962 3533 1979 55803 1996 179935 1963 3612 1980 64259 1997 199998 1964 3294 1981 73963 1998 241644 1965 3823 1982 85487 1999 241468 1966 3771 1983 93745 2000 236156 1967 3440 1984 102127 2001 226067 1968 4092 1985 105171 2002 227689 1969 4635 1986 111203 2003 235414 1970 6240 1987 121188 2004 220182 1971 8284 1988 113511 2005 187987 1972 11464 1989 115506 2006 191999

Fonte: IPEADATA

Page 33: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 28

0

50000

100000

150000

200000

250000

1956

1958

1960

1962

1964

1966

1968

1970

1972

1974

1976

1978

1980

1982

1984

1986

1988

1990

1992

1994

1996

1998

2000

2002

2004

2006

Ano

Dív

ida

em M

ilhõe

s de

Dól

ares

Figura 7.8: Gráfico de Linhas para a variável Dívida Externa do Brasil no período 1956 a 2006

7.2.5. Ramo-e-Folhas Suponha que os dados sejam representados por x1, x2, ..., xn, e que cada número xi consista em, pelo menos, dois dígitos. Para construir um diagrama ramo-e-folhas dividimos cada número xi em duas partes: um ramo, que consiste em um ou mais dos dígitos líderes, e uma folha, que consiste nos dígitos restantes. Por exemplo, se os dados representam porcentagens de defeitos (valores entre 0 e 100), em lotes de placas de semicondutores, então poderíamos dividir o valor 76 no ramo 7 e na folha 6. Em geral, devemos escolher poucos ramos em comparação com o número de observações. Usualmente, é utilizado entre 5 e 20 ramos. Uma vez escolhido um conjunto de ramos, eles são listados ao longo da margem esquerda do diagrama e, ao lado de cada ramo, são listadas todas as folhas que correspondem aos valores dos dados observados.

Tabela 7.5: Força de ruptura em libras por polegada para 100 garrafas

descartáveis de 1 litro de refrigerante. 176 221 242 253 261 265 271 278 286 301 187 223 243 254 262 265 272 278 287 307 197 228 245 254 263 267 274 280 290 308 200 231 246 257 263 267 274 280 293 317 205 231 248 258 264 268 274 280 294 318 208 234 248 258 264 268 274 280 296 321 210 235 250 260 265 269 275 281 298 328 214 235 250 260 265 269 276 281 299 334 215 235 250 260 265 270 276 283 299 337 220 242 251 260 265 271 277 283 300 346

Fonte: Hines et al. (2006), p. 157.

Page 34: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 29

1 17 6 2 18 7 3 19 7 6 20 058 9 21 045 13 22 0138 19 23 114555 26 24 2235688 36 25 0001344788 (22) 26 0000123344555555778899 42 27 01124444566788 28 28 0000113367 18 29 0346899 11 30 0178 7 31 78 5 32 18 3 33 47 1 34 6

Figura 7.9: Diagrama ramo-e-folhas para os dados da força de ruptura de garrafas da Tabela 7.5.

O ramo-e-folhas resultante está representado na Figura 7.9. A inspeção dessa representação revela imediatamente que a maioria das forças de ruptura fica entre 220 e 308 psi, e que o valor central está em algum ponto entre 260 e 270 psi. Além disso, as forças de ruptura estão distribuídas de maneira aproximadamente simétrica em torno do valor central. Assim, o ramo-e-folhas, como o histograma, nos permite determinar rapidamente algumas características importantes dos dados que não eram tão imediatamente óbvias na apresentação original da Tabela 7.5. Note que, aqui, os números originais não se perdem, como ocorre em um histograma. Através do ramo-e-folhas podemos calcular qualquer medida de posição e dispersão.

7.2.6. Desenho Esquemático ou Diagrama de Caixas (Box-Plot)

Representa os dados utilizando os três quartis (Q1, Q2 ou mediana e Q3), o mínimo e o máximo em uma caixa retangular, alinhada verticalmente. A caixa inclui o intervalo-interquartil para o cálculo das linhas extremas. * (Outlier ou Ponto Discrepante ou Ponto Aberrante)

Figura 7.10: Desenho esquemático geral.

“M áxim o”

Q 3

M ediana

Q 1

“M ínim o”

25%

50%75%

Q 3+1,5(Q 3-Q 1)

Q 1-1,5(Q 3-Q 1)

“M áxim o”

Q 3

M ediana

Q 1

“M ínim o”

25%

50%75%

“M áxim o”

Q 3

M ediana

Q 1

“M ínim o”

25%

50%75%

Q 3+1,5(Q 3-Q 1)

Q 1-1,5(Q 3-Q 1)

Page 35: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 30

O diagrama de caixas ou desenho esquemático ou box-plot é útil na comparação de duas ou mais amostras. Para ilustrar considere os dados da Tabela 7.6, retirados de Hines et al (2006), que representam leituras de viscosidade em três misturas diferentes de uma matéria-prima usada em uma linha de produção. Um dos objetivos do estudo que Hines et al discutem é comparar as três misturas.

Tabela 7.6: Medidas de viscosidade para três misturas Mistura 1 Mistura 2 Mistura 3

22,02 21,49 20,33 23,5 22,56 20,49

23,83 22,67 21,67 25,38 22,78 21,95 25,49 24,18 22,28 25,9 24,46 22,45

26,67 24,62 27,00 A Figura 7.11 a seguir apresenta os box-plot para os dados da viscosidade. Essa apresentação permite uma interpretação fácil dos dados. A mistura 1 tem viscosidade mais alta do que a mistura 2, e esta tem viscosidade mais alta que a mistura 3. A distribuição da viscosidade não é simétrica, porque as linhas superior e inferior e os comprimentos das caixas superior e inferior em torno da linha mediana não são iguais. O valor da viscosidade máxima da mistura 3 parece alta, em comparação com os demais valores da mistura 3 e, também, é maior que os valores das demais misturas 1 e 2. Essa observação é um outlier, e ela exige exame e análise mais aprofundados.

Vis

cosi

dade

(cen

tipoi

se)

Mistura 3Mistura 2Mistura 1

27

26

25

24

23

22

21

20

26,67

25,9

25,38

23,5

22,02

24,62

24,46

22,78

22,56

21,49

27

22,45

21,95

20,49

20,33

Figura 7.11: Diagramas de caixas para os dados de viscosidade da mistura na Tabela 7.6.

Page 36: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 31

7.3. Exercícios – Parte I – A1 1) Faça o gráfico de barras, o de composição em setores e o de Pareto para os dados fornecidos na Tabela 7.7.

Tabela 7.7: Defeitos em elementos estruturais da porta Tipo de Defeito Frequência Absoluta Partes Salientes 5

Fora do Contorno 30 Partes mal aparadas 25

Total 60 2) Observe a sua conta de luz de 2007 e construa um gráfico temporal e um gráfico de barras, colocando no eixo x, os meses (janeiro, ..., dezembro) e no eixo y, consumo de energia (em kWh). 3) Desenhe o ramo-e-folhas, box-plot e o dot plot para os dados das taxas médias geométricas de incremento anual (por 100 habitantes) dos 30 maiores municípios do Brasil abaixo: 4) Construa uma tabela de classes de freqüências para os dados do exercício 3, com intervalos de amplitude 1, de 0 a 10, isto é:

Taxas Freqüência Absoluta Proporção Densidade [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6) [6, 7) [7, 8) [8, 9) [9, 10]

em seguida, faça o histograma.

3,67 1,82 3,73 4,10 4,30 1,28 8,14 2,43 4,17 5,36 3,96 6,54 5,84 7,35 3,63 2,93 2,82 8,45 5,28 5,41 7,77 4,65 1,88 2,12 4,26 2,78 5,54 0,90 5,09 4,07

Page 37: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 32

8. CORRELAÇÃO E REGRESSÃO 8.1. Estudo da relação entre variáveis

O objetivo é investigar a presença ou ausência de relação linear sob três pontos de vista: (a) Inspeção visual: diagrama de dispersão (b) Quantificando a força dessa relação: coeficiente de correlação. (c) Explicitando a forma dessa relação: ajuste de uma reta. Exemplos: 1) Idade e altura das crianças;

2) Tempo de prática de esportes e ritmo cardíaco; 3) Tempo de estudo e nota na prova; 4) Taxa de desemprego e taxa de criminalidade; 5) Expectativa de vida e taxa de analfabetismo.

8.2. Diagrama de Dispersão

Utilizado para estudar a relação entre duas variáveis quantitativas, fornecendo uma representação gráfica das duas variáveis. Exemplo: Nota na Prova e Tempo de Estudo X: tempo de estudo (em horas) Y: nota obtida na prova

Tabela 8.1: Pares de observações (Xi, Yi) Tempo Nota

3,0 4,5 7,0 6,5 2,0 3,7 1,5 4,0

12,0 9,3 Construção do Gráfico de Dispersão No Excel podemos fazer:

Coluna A: Valores de X (Tempo) Coluna B: Valores de Y (Notas)

Selecione as duas colunas e clique no ícone “Assistente de Gráfico”. Selecione o gráfico de

“Dispersão (XY)”.

Page 38: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 33

0

1

2

3

4

5

6

7

8

9

10

0 2 4 6 8 10 12 14Tempo

Not

a

Figura 8.1: Diagrama de Dispersão para as variáveis Tempo e Nota

Exemplo: Estudo da Renda Bruta Mensal pela Porcentagem da Renda Bruta Anual gasta com Assistência Médica.

Numa pesquisa feita com 11 famílias com renda bruta mensal entre 10 e 60 salários mínimos mediram-se: X: renda bruta mensal (em salários mínimos) Y: porcentagem da renda bruta anual gasta com assistência médica

Tabela 8.2 X Y X Y 12 7,2 40 6,0 16 7,4 48 5,6 18 7,0 50 6,0 20 6,5 54 5,5 28 6,6 32 6,5 30 6,7

Page 39: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 34

0

1

2

3

4

5

6

7

8

0 10 20 30 40 50 60

Renda Bruta Mensal (em sal. mínimos)

Porc

enta

gem

da

Ren

da B

ruta

Anu

al g

asta

com

Ass

ist.

Méd

ica

Figura 8.2: Diagrama de Dispersão para as variáveis Renda Bruta Mensal e Porcentagem da

Renda Bruta Anual gasta com Assistência Médica.

Nesta Figura 8.2, temos o diagrama de dispersão de X (Renda Bruta Mensal) e Y (Porcentagem da Renda Bruta Anual gasta com Assist. Médica). Podemos notar que, conforme aumenta a renda bruta mensal, a porcentagem da renda bruta anual gasta com assistência médica diminui. Nota-se também uma tendência linear decrescente.

Fazendo apenas uma mudança na escala do eixo Y da Figura 8.2, obtemos a Figura 8.3, que ilustra com maior clareza essa tendência linear decrescente.

5

5,5

6

6,5

7

7,5

0 10 20 30 40 50 60

Renda Bruta Mensal (em sal. mínimos)

Porc

enta

gem

da

Ren

da B

ruta

Anu

al g

asta

com

Ass

ist.

Méd

ica

Figura 8.3: Diagrama de Dispersão para as variáveis Renda Bruta Mensal e Porcentagem da

Renda Bruta Anual gasta com Assistência Médica.

Page 40: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 35

8.3. Coeficiente de Correlação

O coeficiente de correlação linear é definido como:

yx

n

iii

yx

n

iii

SSn

YXnYX

SSn

YYXXr

)1()1(

))((11

−=

−−=

∑∑== (9.1)

onde X e Y são as médias amostrais das variáveis X e Y , respectivamente.

xS e yS são os desvios padrão das variáveis X e Y , respectivamente

Recordando: 1

)(1

2

−=

∑=

n

XXS

n

ii

x e 1

)(1

2

−=

∑=

n

YYS

n

ii

y

Propriedades do coeficiente de correlação linear

O valor do coeficiente de correlação linear situa no intervalo [-1, 1], ou seja, 11 ≤≤− r

Classificação da correlação 1. 1=r indica correlação linear positiva e perfeita; 2. 1−=r indica correlação linear negativa e perfeita; 3. 0=r indica inexistência de correlação linear; 4. 01 ≤≤− r indica correlação linear negativa; 5. 10 ≤≤ r indica correlação linear positiva.

Gráficos - Exemplos da classificação da correlação

1=r , correlação linear positiva e perfeita 1−=r , correlação linear negativa e perfeita

0≅r , inexistência de correlação linear

5040302010

40

30

20

10

Y

5040302010

40

30

20

10

Y

Page 41: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 36

-1 ≤ r ≤ 0, correlação linear negativa 0 ≤ r ≤ 1, correlação linear positiva.

O valor do coeficiente de correlação não depende da escala que medimos as variáveis. Para as duas figuras abaixo o valor do coeficiente de correlação é 46,0=r .

O coeficiente de correlação linear mede apenas o grau de associação LINEAR.

01,0≅r

O coeficiente de correlação linear é sensível a valores discrepantes.

X

Y

X

Z=Y/10+0,8

X

Y

r = 0 r = 0.91

Page 42: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 37

Exemplo: Considere o Estudo da Renda Bruta Mensal pela Porcentagem da Renda Bruta Anual gasta com Assistência Médica. Obter o coeficiente de correlação com os dados da Tabela 8.2.

Medidas Descritivas com os dados da Tabela 8.2 Média X 31,63636 Média Y 6,454545

Desvio de X 14,63744 Desvio de Y 0,62348

n 11 Soma XY 2160,4

-0,939956462348,0.63744,14.10

454545,6.636363,31.114,2160SS)1n(

YXnYXr

yx

n

1iii

=−

=−

∑ −= =

Podemos observar uma correlação negativa entre a renda bruta mensal e a porcentagem da renda bruta anual gasta com assistência médica, isto é quanto maior for a renda bruta mensal, menor é a porcentagem de sua renda gasta com assistência médica. 8.4. Regressão Linear Simples

Objetivo: ajustar uma reta entre duas variáveis quantitativas.

Reta Ajustada A reta ajustada de duas variáveis quantitativas Y e X é dado por

bXaY +=

)

Definição de a e b a: intercepto; b: inclinação da reta. Interpretação de b: Para cada aumento de uma unidade em X, temos um aumento médio de b unidades em Y.

Podemos calcular a e b utilizando o método de mínimos quadrados, que visa encontrar os valores de a e b, que minimiza a soma dos quadrados dos erros (ou desvios)

∑∑==

+−==n

iii

n

ii bXaYebaSQ

1

2

1

2 )(),(

O problema agora se restringe a encontrar o mínimo de uma função de duas variáveis, a e b. Derivando e igualando a zero, observamos que as soluções de a e b devem satisfazer:

XbYa −= 21

)1( x

n

i ii

SnYXnYX

b−

−= ∑ =

Page 43: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 38

Reta Ajustada - Uso do Excel Coluna A: variável Y; Coluna B: variável X.

Para pedir à reta que se ajusta aos dados devemos utilizar os seguintes comandos: =INTERCEPÇÃO(A1:An;B1:Bn): Mostrará o intercepto (a); =INCLINAÇÃO(A1:An;B1:Bn): Mostrará a inclinação (b). Exemplo: Consumo de cerveja e temperatura

As variáveis foram observadas em nove localidades com as mesmas características demográficas e sócio-econômicas. Y: consumo de cerveja em um dia (em 100 litros) X: temperatura máxima (em ºC)

Os dados amostrais estão dispostos na Tabela 8.3.

Tabela 8.3 Temperatura Consumo Temperatura Consumo

16 290 36 370 31 374 36 365 38 393 22 320 39 425 15 270 37 406

A correlação entre X e Y é:

X = xS = Y = yS = ∑=

n

iiiYX

1=

A reta ajustada para este exemplo é:

y = 5,2194x + 200,42

250

270

290

310

330

350

370

390

410

430

450

10 15 20 25 30 35 40 45

Temperatura Máxima

Con

sum

o de

Cer

veja

Figura 8.4: Diagrama de Dispersão para as variáveis Temperatura Máxima e Consumo de Cerveja,

juntamente com a Reta de Regressão

Page 44: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 39

(a) Qual a interpretação de b para o exemplo consumo de cerveja e temperatura? (b) Qual o consumo previsto para uma temperatura de 25ºC? 8.5. Coeficiente de Determinação A quantidade r2 = (quadrado do coeficiente de correlação x 100%) chama-se coeficiente de determinação e é, em geral, usada para julgar-se a adequação de um modelo de regressão. Claramente, 0 ≤ r2 ≤ 100. Na prática, nos referimos a r2 de modo mais informal como a quantidade de variabilidade nos dados explicada pelo, ou devido ao, modelo de regressão. Exemplo: Considere o estudo da renda bruta mensal pela porcentagem da renda bruta anual gasta com assistência médica, onde o coeficiente de correlação deu aproximadamente -0,9399, com os dados da Tabela 8.2, logo, o coeficiente de determinação será r2 ≅ 88,35%, isto é, 88,35% da variabilidade nos dados é explicada pelo modelo de regressão y = 7,7212 – 0,04x.

y = -0,04x + 7,7212R2 = 0,8835

5

5,5

6

6,5

7

7,5

10 15 20 25 30 35 40 45 50 55 60

renda bruta mensal (em salários mínimos)

porc

enta

gem

da

rend

a br

uta

anua

l gas

ta c

om a

ssis

tênc

ia m

édic

a

Page 45: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 40

8.6. Exercícios – Parte I – A1 1) Considere o exemplo das variáveis Nota na Prova e Tempo de Estudo X : tempo de estudo (em horas) Y : nota obtida na prova

Tempo 3 7 2 1,5 12 Nota 4,5 6,5 3,7 4 9,3

(a) Faça o Gráfico de Dispersão. (b) Obtenha o Coeficiente de Correlação. (c) Calcule a Reta de Regressão e represente no Gráfico de Dispersão. (d) Obtenha o coeficiente de determinação.

Page 46: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 41

Lista de Exercícios 1

1) Identifique a população e a amostra correspondente à: A fim de avaliar a intenção de voto para presidente dos brasileiros, 122 pessoas foram entrevistadas em Brasília. 2) Classifique as seguintes variáveis: a) Conceitos obtidos na Disciplina Estatística (R:Ruim, M:Médio, B:Bom e O:Ótimo); b) Bacias Hidrográficas (A:Amazônica, P:Platina, SF:São Francisco, N:do Nordeste, L:do Leste, S:do Sul); c) Número de sementes germinadas (0, 1, 2, 3, 4, 5); d) Renda; 3) Selecione uma amostra de tamanho 10 dentre 80 funcionários, utilizando as técnicas de amostragem aleatória simples e sistemática. Depois, levando em conta que o sexo dos funcionários é importante na pesquisa, obtenha uma amostra de mesmo tamanho utilizando amostragem estratificada proporcional considerando que dos 80 funcionários, 30 são mulheres e 50 são homens. (Utilize a primeira linha da tabela de números aleatórios, quando for necessário) 4) Uma certa cidade possui N = 200 zonas eleitorais. Uma empresa destinada a fazer uma pesquisa eleitoral vai selecionar aleatoriamente n = 15 zonas e entrevistar todos os elementos que estão dentro dessas zonas eleitorais, isto é, foi utilizada amostragem por conglomerado. Apresentem quais serão as 15 zonas eleitorais amostradas. (Utilize a primeira linha da tabela de números aleatórios, quando for necessário) 5) Os dados a seguir referem-se aos conceitos obtidos de n = 60 alunos, na disciplina de Estatística na Escola E.

Tabela 1: Dados Brutos R : Ruim M : Médio B: Bom O : Ótimo

M R M M M R B B M M R B M M M M R B B R B M R M B M R M R M B M R M R M B M B MB B B B O M M M M M B B B B B B B O B O

a) Organize os dados abaixo em uma Tabela de Freqüências, com título, freqüências absoluta e relativa, porcentagens e interpretação. b) Faça os gráficos de barras,o de composição em setores e o de Pareto para os dados da Tabela 1. 6) Os dados abaixo se referem ao comprimento de 31 canos PVC vendidos em uma loja de material de construção.

Tabela 2: Dados Brutos (em m) 19,5 20,0 14,1 16,1 10,0 16,0 22,0 20,5 15,0 16,7 22,0 12,5 16,3 15,3 16,0 13,8 19,7 17,0 14,1 18,8 12,3 15,5 14,7 20,3 17,4 19,5 17,9 18,2 16,9 19,3 16,9

a) Obtenha as medidas de posição: mínimo, máximo, média, moda, mediana, Q1 e Q3. b) Obtenha as medidas de dispersão: amplitude, variância, desvio-padrão e intervalo-interquartil.

Page 47: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 42

c) Organize os dados da Tabela 2 em uma Tabela de Classes de Freqüências, com título, freqüências absoluta e relativa, porcentagem e interpretação. Utilize uma amplitude de 2 para as classes. d) Faça o histograma utilizando os dados agrupados em (c), baseados na Tabela 2. e) Construa o dot-plot, box-plot e o ramo-e-folhas para os dados da Tabela 2. 7) Medidas da pulsação de 15 índios nativos dos Alpes Peruanos estão apresentadas a seguir:

Tabela 3: Medidas da pulsação 64 64 68 68 76 60 72 68 80 60 72 88 60 88 60

a) Calcule: Média, Mediana. Comente os resultados; b) Calcule: Mínimo, Q1, Q3 e Máximo. Interprete estas 4 estatísticas; c) Calcule: Variância e Desvio Padrão. Comente. d) Construa o gráfico de barras para os dados de pulsação dos índios. 8) Um órgão do governo do estado está interessado em determinar padrões sobre o investimento em educação, por habitante, realizado pelas prefeituras. De um levantamento de dez cidades, foram obtidos os valores (codificados) da tabela abaixo:

Tabela 4: Valores codificados do investimento em educação Cidade A B C D E F G H I J

Investimento 20 16 14 7 19 15 14 16 19 18 a) Calcule a média e o desvio-padrão das observações; b) Receberão um programa especial às cidades com valores de investimento inferiores à média menos duas vezes o desvio padrão. Alguma cidade receberá o programa? c) Será considerado como investimento básico a média das observações compreendidas entre a média original menos dois desvios padrão e a média original mais dois desvios padrão. Calcule o investimento básico e compare com a média obtida no item a). Justifique a diferença encontrada. 9) Três medicamentos para cicatrização estão sendo testados e um experimento é feito para estudar o tempo (em dias) do completo fechamento em cortes provenientes de cirurgia. Os resultados abaixo mostram o tempo de cicatrização em cobaias submetidas a um dos três tratamentos (A, B, C):

Tabela 5: Tempo (em dias) do completo fechamento em cortes provenientes de cirurgia

A 13 14 15 13 15 14 15 15 14 14 B 14 12 13 13 14 14 13 14 C 12 12 13 13 12 13 11 11

Analise os dados descritivamente utilizando todas as medidas apresentadas em aula e comente. 10) A seguir, temos informações do número de peixes-boi mortos e o número de barcos de turismo (em milhares) que circulam em seu habitat na Flórida-EUA.

Tabela 6: Dados Brutos Barcos(X) 68 68 67 70 71 73 76 81 83 84 Mortes(Y) 53 38 35 49 42 60 54 67 82 78

Page 48: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 43

a) Observe o diagrama de dispersão e comente sobre a relação linear dessas duas variáveis. b) Verifique se a correlação é significativa (através do coeficiente de correlação (r)). c) Obtenha a reta de regressão, considerando o número de peixes mortos a variável dependente e o número de barcos como a variável independente. d) Interprete o coeficiente de determinação (r2). 11) É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relação uma nutricionista selecionou 18 mulheres com idade entre 40 e 79 anos, e observou em cada uma delas a idade (X) e a massa muscular (Y).

Tabela 7: Dados Brutos X 71 64 43 67 56 73 68 56 76 65 45 58 45 53 49 78 73 68 Y 82 91 100 68 87 73 78 80 65 84 116 76 97 100 105 77 73 78

a) Faça o diagrama de dispersão dos dados. b) Calcule o coeficiente de correlação linear entre X e Y e interprete-o. c) Ajuste uma reta de regressão para mostrar a relação linear entre as variáveis Y: massa muscular (dependente) e X: idade (independente) e interprete os coeficientes.

Alguns resultados: n = 18; 110818

1

=∑=i

iX ; 7036218

1

2 =∑=i

iX ; 153018

1

=∑=i

iY ; 13330018

1

2 =∑=i

iY e

9196418

1=∑

=i

iiYX .

Observação: O gabarito da Lista de Exercícios 1 encontra-se no Apêndice A

Page 49: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 44

9. PROBABILIDADE 9.1. Processo ou Experimento Aleatório Definição 1: Qualquer fenômeno que gere resultado incerto ou casual é chamado de Processo ou Experimento Aleatório. Exemplos: 1) Jogar uma moeda duas vezes e observar a seqüência obtida de caras e coroas; 2) Jogar um dado e observar o número mostrado na face superior; 3) Peso de Animais; 4) Número de filhos de um casal.

9.2. Espaço Amostral (Ω) Definição 2: Espaço amostral (Ω) é o conjunto de todos os resultados possíveis de um experimento aleatório. Exemplos: Obtenha o espaço amostral dos seguintes experimentos: 1) Jogar um dado e observar o resultado: Ω = 1, 2, 3, 4, 5, 6. 2) Lançar uma moeda duas vezes e observar as faces obtidas: 3) Uma urna contém 10 bolas azuis e 10 brancas. 3 bolas são retiradas ao acaso e as cores são anotadas: 4) Dois dados são lançados simultaneamente e estamos interessados na soma das faces observadas: 5) Uma moeda é lançada consecutivamente até o aparecimento da 1ª cara: 6) Uma máquina produz 20 peças por hora. Ao final da primeira hora de produção, observa-se o nº de defeituosas: 7) Medição do “tempo de vida” de uma lâmpada antes de se queimar:

Page 50: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 45

9.3. Evento Definição 3: Evento é qualquer subconjunto do espaço amostral. Exemplos: (a) Alguns eventos do experimento 1: A = 5, B = 2, 4, 6, etc. (b) Alguns eventos do experimento 2: Existem dois eventos especiais: espaço todo (Ω) e o conjunto vazio (∅). Operações com Eventos Sejam A e B dois eventos de um mesmo espaço amostral: • O evento interseção de A e B, denotado A∩B, é o evento em que A e B ocorrem

simultaneamente. • O evento união de A e B, denotado A∪B, é o evento em que A ocorre ou B ocorre (ou ambos). • O evento complementar de A, denotado Ac, é o evento em que A não ocorre.

Exemplos: Operações com Eventos. Seja Ω1 = 1, 2, 3, 4, 5, 6 e considere os seguintes eventos A = 2, 4, 6, B = 4, 5, 6 e C = 1, 3, 5.

Faça as seguintes operações: A ∩ B = A ∩ C = A ∪ B = A ∪ Bc = Eventos Disjuntos Definição 4: Dois eventos A e B são mutuamente exclusivos ou disjuntos se eles não podem ocorrer simultaneamente (A ∩ B = ∅). Exemplo: A = o resultado do dado foi 4, e B = o resultado do dado foi 5 ⇒ A ∩ B = ∅ Após essas quatro definições, estamos preparados para calcular probabilidades.

A BA B

A BA B

A BA B

A BA B

Page 51: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 46

9.4. Exercícios – Parte II – A2 1) Determine o espaço amostral dos seguintes experimentos: (a) Lançar 2 dados e observar as faces superiores; (b) Lançar 2 dados e observar a soma das faces superiores; 2) Considere o seuinte espaço amostral: Ω = = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 Defina os eventos: A = número par: B = número ímpar: C = múltiplo de 3: D = maior ou igual a 6: E = maior que 8: F = menor que 5: G = menor ou igual a 3: Obtenha os seguintes eventos: (a) A ∩ B = (e) C ∩ D = (b) A ∪ B = (f) E ∪ F = (c) (A ∩ B)c = (g) (A ∩ G)c = (d) (A ∪ B)c = (h) (Ec ∪ B)c =

Page 52: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 47

9.5. Introdução à Probabilidade

A área de Probabilidade começou a ser desenvolvida no século XVII antes ainda da formalização da área da Estatística, em questões propostas em jogos de azar. 1654 – Pierre de Fermat (1601-1665) e Blaise Pascal (1623-1662), na França, estabelecem os Princípios do Cálculo das Probabilidades.

1656 - Huygens (1629-1695) publica o primeiro Tratado de Probabilidade.

No entanto, é fácil perceber que o termo probabilidade já está enraizado no senso comum, pois as pessoas vivem o cotidiano calculando implicitamente algumas probabilidades, tais como:

situações de sua vida pessoal; organizando-se em relações a horários a cumprir, levando em conta as circunstâncias do

tráfego; agasalhando-se ao sair de casa se a previsão do tempo indicar uma frente fria.

Em resumo, prevenindo-se em situações de risco.

Como podemos definir Probabilidade?

Probabilidade é uma medida que quantifica a sua incerteza frente a

um possível acontecimento futuro. Há várias maneiras de se medir a incerteza e é costume se pensar na seguinte divisão: 1) Método Clássico 3) Método Subjetivo 2) Método Freqüentista 4) Método Moderno ou Axiomático

O primeiro é devido a Laplace e é o mais conhecido, pois relaciona eventos favoráveis com

eventos possíveis. O segundo consiste em repetir um experimento várias vezes. O terceiro é baseado na opinião pessoal e o último é devido a Kolmogorov e baseia-se no princípio de que qualquer experimento pode ser modelado.

Page 53: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 48

9.6. Definição Clássica Definição 5 (Clássica): Dado um conjunto de N eventos equiprováveis, a probabilidade de ocorrência de um determinado evento A, é dado pela razão

NnAP =)(

onde n é o número de elementos em A e N é o número de elementos em Ω. Exemplo: Considere o lançamento de uma moeda equilibrada, nesse caso o espaço amostral associado é Ω = Cara, Coroa. Então, pela definição clássica, a probabilidade de ocorrência do evento “cara” é P(cara) = . Exemplo: População Residente em São João del Rei em 2006 Fonte: DATASUS (http://www.datasus.gov.br) Ω = conjunto de 82.952 habitantes residentes em São João del Rei em 2006 por faixa etária. Possíveis eventos de interesse: M = Indivíduo sorteado é do sexo masculino F = Indivíduo sorteado é do sexo feminino A = Indivíduo sorteado tem mais que 80 anos B = Indivíduo sorteado tem entre 15 e 29 anos M ∩ A = Indivíduo sorteado é do sexo masculino e tem mais de 80 anos F ∪ B = Indivíduo sorteado é do sexo feminino ou tem entre 15 e 29 anos

Distribuição da Faixa Etária da Cidade de São João del Rei em 2006, por Sexo

Idade Menor 1 1 a 4 5 a 9 10 a 14 15 a 19 20 a 29 30 a 39 40 a 49 50 a 59 60 a 69 70 a 79 80 e mais TotalMasculino 600 2592 3411 3491 3774 7027 6699 5528 3300 2222 1085 397 40126Feminino 572 2457 3257 3482 3692 7059 7096 5863 3894 2910 1781 763 42826

Total 1172 5049 6668 6973 7466 14086 13795 11391 7194 5132 2866 1160 82952

1,50

1,34

6,46

5,74

8,50

7,61

8,70

8,13

9,41

8,62

17,5

116

,48

16,6

916

,57

13,7

813

,69

8,22

9,09

5,54

6,79

2,70

4,16

0,99

1,78

0,00

2,00

4,00

6,00

8,00

10,00

12,00

14,00

16,00

18,00

20,00

Porc

enta

gem

Menosque 1

1 a 4 5 a 9 10 a 14 15 a 19 20 a 29 30 a 39 40 a 49 50 a 59 60 a 69 70 a 79 acimade 80

Grupos de Idade

MasculinoFeminino

Page 54: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 49

Exercício – Parte II – A2: Suponha que um indivíduo é escolhido aleatoriamente na cidade de São João del Rei em 2006. Determine a probabilidade de ocorrer cada um dos eventos definidos. 9.7. Definição Freqüentista Definição 6 (Freqüentista): A probabilidade de ocorrência de um determinado evento é igual à freqüência relativa de ocorrência de tal evento, quando o processo aleatório que o gerou for repetido infinitas vezes. Exemplo: Atividade Prática do lançamento da moeda. Passo 1 – Agrupem-se 2 a 2 e peguem uma moeda – chamem o valor numérico da moeda de COROA (K ) e a outra face de CARA (C). Suponham que haja interesse em saber se a sua moeda é “honesta” (isto significa saber se a probabilidade de CARA de sua moeda é ½ ou, em termos percentuais, se a probabilidade de sair Cara é 50%). Passo 2 – Um membro do grupo vai lançar a moeda e o outro vai marcar os resultados na planilha anexa, seguindo as seguintes instruções: a) Jogar a moeda uma vez e anotar C ou K no espaço adequado (linha 2) da planilha. b) Repetir este procedimento 30 vezes, preenchendo um a um todos os espaços da linha 2. Passo 3 – Continuando com a planilha, trocar de lugar com o parceiro, voltar para os itens a) e b) das instruções e continuar mais 30 jogadas – até perfazer 60. Passo 4 – Voltar ao primeiro da dupla e, ainda com a planilha, seguir as instruções: c) Depois do registro na linha 2 de todos os resultados como C ou K, passar para a linha 3: chamar CARA de 1 e COROA de 0 e colocar estes valores na planilha, abaixo de cada resultado já obtido na linha 2. Cada membro do grupo deve fazer metade – um faz a linha de cima e o outro a linha de baixo. d) Agora a linha 4 da planilha deve ser preenchida – em cada posição deve ser colocado o número acumulado de CARAS, até aquela jogada (verifique que a jogada está explicitada na linha 1- que é a linha n). Discutir com outro membro do grupo para ver se está claro – se não, pergunte! A linha de baixo é continuação do acumulado da linha de cima. e) Finalmente chegamos à última linha – linha 5: colocar a freqüência relativa (m/n) de CARAS em cada momento – o que é isto? Discuta com o outro membro do grupo (desprezar as entradas assinaladas com X).

Page 55: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 50

Passo 5 – depois de completar a 1a parte da planilha, construir a seguinte tabela, usando as linhas 4 e 5 da planilha:

n 1 2 3 4 5 6 7 8 9 10 20 30 40 50 60 m/n

Passo 6 – Completar o gráfico, usando os valores da tabela recém construída, do seguinte modo: Eixo Y – valores m/n Eixo X – valores da linha 1: (n)

Gráfico da Atividade Prática - Parte II – A2 Passo 7 – Comparar os resultados com os colegas e interpretar o resultado comentando sobre a “honestidade” da sua moeda. Conclusão: Com isto chegamos a uma possível “definição freqüentista” de probabilidade, ou seja, probabilidade é o valor em que a freqüência relativa se estabiliza após um número muito grande de ensaios.

1) Jogada(n) 1 2 3 4 5 6 7 8 9 10 12 14 17 20 25 302) C ou K3) 1 ou 04) Caras Acumuladas (m)5) Frequência Relativa (m/n) X X X X X X X X X X X X X X X X X X

1) Jogada(n) 31 32 33 40 47 50 55 602) C ou K3) 1 ou 04) Caras Acumuladas (m)5) Frequência Relativa (m/n) X X X X X X X X X X X X X X X X X X X X X X X X X X X

m/n

1 2 3 4 5 6 7 8 9 10 …… 20 30 40 50 60n

0,2

0,1

0,6

0,5

0,4

0,3

1,0

0,9

0,8

0,7

Page 56: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 51

9.8. Definição Subjetiva Definição 7 (Subjetiva): Cada indivíduo, baseado em informações anteriores e na sua opinião pessoal a respeito de um evento em questão, pode ter uma resposta para a probabilidade desse evento. Exemplo: Um médico experiente consegue calcular uma probabilidade do indivíduo ter uma determinada doença baseado nos sintomas que o indivíduo apresenta. 9.9. Definição Moderna Definição 8 (Moderna): Probabilidade é uma função P(.), que associa a cada evento do espaço amostral Ω, um número real, pertencente ao intervalo [0, 1], satisfazendo os seguintes axiomas: (1) 0 ≤ P(A) ≤ 1. (2) P(Ω) = 1. (3) Se A e B são eventos mutuamente exclusivos: P(A∪B) = P(A) + P(B). Exemplos: Segue alguns exemplos de funções já descobertas na literatura para calcular probabilidades, que serão discutidas em detalhes nos capítulos posteriores. 1) Distribuição Bernoulli

( ) x1x p1p)xX(P −−== , x = 0, 1. 2) Distribuição Binomial

( ) xnx p1ppn

)xX(P −−⎟⎟⎠

⎞⎜⎜⎝

⎛== , x = 0, 1, ..., n.

3) Distribuição Hipergeométrica

⎟⎟⎠

⎞⎜⎜⎝

⎟⎟⎠

⎞⎜⎜⎝

⎛−−

⎟⎟⎠

⎞⎜⎜⎝

==

nN

xnrN

xr

)xX(P , 0 ≤ x ≤ mínimo(r, n).

4) Distribuição Poisson

!xe)xX(P

xλ==

λ−, x = 0, 1, ...

5) Distribuição Normal

( )22 x

2

1

e2

1)x(fµ−

σ−

πσ= , - ∞ < x< + ∞

Page 57: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 52

6) Distribuição t de Student

( )[ ][ ]

( ) 2/1k2

kx1

k2/k2/1k)x(f

+−

⎟⎟⎠

⎞⎜⎜⎝

⎛+

πΓ

+Γ= , - ∞ < x< + ∞

7) Distribuição Qui-Quadrado

[ ]

2x

2k

ex

22/k

1)x(f1

2k

−−

Γ

= , x > 0

Propriedades

P1: P(∅) = 0, onde ∅ é o conjunto vazio. P2: Se Ac for o evento complementar de A, então P(Ac) = 1 – P(A). P3: Se A e B forem dois eventos quaisquer, então P(A ∪ B) = P(A) + P(B) – P(A ∩ B). P4: Se A ⊂ B, então P(A) ≤ P(B).

Nos capítulos posteriores veremos algumas distribuições de probabilidade para variáveis discretas e contínuas comumente utilizadas. 9.10. Probabilidade Condicional

A probabilidade condicional surge, por exemplo, quando se deseja calcular a probabilidade de um evento A ocorrer sabendo que um evento B já ocorreu.

Sejam A e B dois eventos associados a um mesmo espaço amostral Ω. Denota-se por P(A|B) a probabilidade condicionada do evento A, quando o evento B tiver ocorrido.

Sempre que calculamos P(A|B), estamos essencialmente calculando P(A) em relação ao espaço amostral reduzido devido a B ter ocorrido, em lugar de fazê-lo em relação ao espaço amostral original Ω.

Assim, uma definição mais formal de probabilidade condicional é dada pela definição 9. Definição 9 (Probabilidade Condicional): Dados dois eventos A e B, a probabilidade condicional de A dado que ocorreu B é representada por P(A | B) e definida por

0>∩

= )(,)(

)()|( BPBP

BAPBAP

Da definição de probabilidade condicional, obtemos a regra do produto de probabilidades.

)|()()( BAPBPBAP =∩ Exemplo: Voltando ao Exemplo da População Residente em São João del Rei em 2006, temos:

Fonte: DATASUS (http://www.datasus.gov.br)

Idade Menor 1 1 a 4 5 a 9 10 a 14 15 a 19 20 a 29 30 a 39 40 a 49 50 a 59 60 a 69 70 a 79 80 e mais TotalMasculino 600 2592 3411 3491 3774 7027 6699 5528 3300 2222 1085 397 40126Feminino 572 2457 3257 3482 3692 7059 7096 5863 3894 2910 1781 763 42826

Total 1172 5049 6668 6973 7466 14086 13795 11391 7194 5132 2866 1160 82952

Page 58: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 53

Se soubermos que um indivíduo sorteado é do sexo masculino, qual é a probabilidade de

que ele tenha idade entre 30 e 39 anos? B = indivíduo é do sexo masculino e A = tem idade entre 30 e 39 anos

167,0401266699

8295240126829526699

)B(P)BA(P)B|A(P ===

∩=

Exercício – Parte II – A2: Na Segunda Guerra Mundial, houve um esforço de pesquisa operacional na Inglaterra direcionado a estabelecer padrões de busca de submarinos alemães pelas patrulhas aéreas. Por algum tempo, houve uma tendência em concentrar os vôos em áreas próximas à costa, uma vez que se acreditava que mais avistamentos tinham ocorrido ali. O grupo de pesquisa estudou os registros de 1000 patrulhas, obtendo os seguintes resultados (os dados são fictícios):

Próximo à costa (B1) Alto-mar (B2) Total Houve avistamento (A1) 80 20 100 Não houve avistamento (A2) 820 80 900 Total de Patrulhas 900 100 1000

(a) Dado que a patrulha estava próximo à costa, qual a probabilidade de que houve avistamento? (b) Dado que a patrulha estava em alto-mar, qual a probabilidade de que houve avistamento? (c) Os resultados de (a) e (b) indicam uma estratégia de busca contrária à prática anterior? 9.11. Independência de Eventos Definição 10: Dois eventos A e B são independentes se a ocorrência de um não altera a probabilidade de ocorrência do outro, isto é, P(A|B) = P(A) ou P(B|A) = P(B), ou ainda, a seguinte forma equivalente:

P(A∩B) = P(A) P(B) Exemplo: Joaninha tem probabilidade de 0,8 de passar no vestibular enquanto que Joãozinho tem probabilidade de 0,6. Qual a probabilidade dos dois passarem no vestibular? Qual a suposição a ser feita nesse caso para calcular a probabilidade? Sejam os eventos: A: Joaninha passa no vestibular e B: Joãozinho passa no vestibular

P(A∩B) = 0,8.0,6 = 0,48 Exercício – Parte II – A2: O campo da Engenharia da confiabilidade se desenvolveu rapidamente a partir do início da década de 1960. Um tipo de problema encontrado é o de se estimar a confiabilidade de um sistema a partir das confiabilidades dos subsistemas. A confiabilidade é definida, aqui, como a probabilidade do funcionamento apropriado durante um certo período de tempo. Considere a estrutura de um sistema em série simples, como o da figura a seguir:

Sistema Subsistema 1 Subsistema 2

Page 59: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 54

O sistema funciona se e somente se o subsistema 1 e o subsistema 2 funcionarem. Se os

subsistemas sobrevivem independentemente, a confiabilidade do subsistema 1 é de 0,90 e do subsistema 2 é de 0,80, qual é a confiabilidade do sistema? 9.12. Regra da Probabilidade Total

Se A e B são eventos, temos duas maneiras de A ocorrer: A e B ocorrem ⇒ (A ∩ B) ou A e Bc ocorrem ⇒ (A ∩ Bc)

Assim temos que: A = (A ∩ B) ∪ (A ∩ Bc) pela Regra da Soma temos: P(A) = P(A ∩ B) + P(A ∩ Bc) e finalmente pela Regra do Produto temos:

P(A) = P(B).P(A | B) + P(Bc).P(A | Bc) Exemplo: O Cruzeiro ganha com probabilidade 0.7 se chove e 0.8 se não chove. Em maio a probabilidade de chuva é de 0.3. Qual a probabilidade do Cruzeiro ganhar uma partida no mês de maio? A: Cruzeiro vencer; B: chove; Bc: Não chove

P(A) = P(B).P(A | B) + P(Bc).P(A | Bc) = 0,3.0,7 + 0,7.0,8 = 0,77 Exercício – Parte II – A2: Em um centro de máquinas, há quatro máquinas automáticas de parafusos. Uma análise dos registros de inspeção passados fornece os seguintes dados:

Máquina Percentual de Produção Percentual de Defeituosos Produzidos 1 15 4 2 30 3 3 20 5 4 35 2

As máquinas 2 e 4 são mais novas e, assim, a maior parte da produção foi atribuída a elas. Suponha que o estoque atual reflita as porcentagens de produção indicadas. Se um parafuso é selecionado aleatoriamente do estoque, qual é a probabilidade de que seja defeituoso? 9.13. Teorema de Bayes

Finalmente, uma das relações mais importantes envolvendo probabilidades condicionais é dada pelo Teorema de Bayes. Thomas Bayes (1702-1761) afirmou que as probabilidades devem ser revistas quando conhecemos algo mais sobre os dados. A versão mais simples desse teorema é dada pela fórmula

)B(P)A(P)A|B(P

)B(P)BA(P)B|A(P =

∩=

A forma geral do Teorema de Bayes pode ser introduzida da seguinte forma: Considere a seqüência C1, C2, ..., Cn como sendo uma partição do espaço amostral Ω, isto é, Ci ∩ Cj = ∅ sempre que i ≠ j e C1 ∪ C2 ∪ ... ∪ Cn = Ω. Considere um evento qualquer A em Ω. Suponha que sejam conhecidas as probabilidades de cada partição (P(Ci)) e as probabilidades condicionais P(A|Ci).

Page 60: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 55

Logo, temos o seguinte teorema: Teorema: A probabilidade de ocorrência do evento Ci, supondo a ocorrência do evento A, é dado por para todo i = 1, 2, ..., n. Curiosidade O teorema de Bayes, que aparentemente poderia ser encarado como mais um resultado na teoria de probabilidades, tem importância fundamental, pois fornece a base para uma abordagem da inferência estatística conhecida como inferência bayesiana. Como estamos falando do Thomas Bayes, não podemos deixar de fazer um breve comentário sobre o que chamamos de probabilidades subjetivas, ou seja, cada indivíduo, baseado em informações anteriores e na sua opinião pessoal a respeito de um evento em questão, pode ter uma resposta para a probabilidade desse evento. A inferência Bayesiana toma como uma de suas bases o fato de que todas as probabilidades são subjetivas. O teorema de Bayes tem um papel importante nesse tipo de inferência, pois passa a ser visto como um mecanismo de atualização de opiniões, ou seja, o indivíduo aprende B e passa a ter opinião P(A|B) sobre A. As probabilidades associadas a eventos de modo subjetivo têm propriedades análogas as que foram mencionadas nesse texto. Exemplo:

Níveis Históricos de Qualidade de Dois Fornecedores % de Peças Boas % de Peças Ruins

Fornecedor 1 98 2

Fornecedor 2 95 5 Considere uma empresa fabricante que recebe embarques de peças de dois diferentes

fornecedores. Atualmente, 65% das peças compradas pela empresa são do fornecedor 1 e o restante, 35%, são do fornecedor 2. Dado que uma peça selecionada seja defeituosa, qual a probabilidade dela ter vindo do fornecedor 2?

57,00305,00175,0

35,0.05,065,0.02,035,0.05,0

)2F(P)2F|D(P)1F(P)1F|D(P)2F(P)2F|D(P

)D(P)2F(P)2F|D(P

)D|2F(P ≅=+

=+

==

Exercício – Parte II – A2: Em um centro de máquinas, há quatro máquinas automáticas de parafusos. Uma análise dos registros de inspeção passados fornece os seguintes dados:

Máquina Percentual de Produção Percentual de Defeituosos Produzidos 1 15 4 2 30 3 3 20 5 4 35 2

Suponha que o estoque atual reflita as porcentagens de produção indicadas. Se um parafuso é selecionado aleatoriamente do estoque e ele é defeituoso, qual é a probabilidade de que seja da máquina 2?

∑=

=

n

1jjj

iii

)C|A)(C(P

)C|A)(C(P)A|C(P

Page 61: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 56

10. VARIÁVEL ALEATÓRIA DISCRETA Exemplos 1. Lança-se uma moeda 10 vezes e anota-se o número de caras. Este número pode ser 0, 1, 2 ...10. 2. Em uma pesquisa de mercado feita com 200 pessoas, perguntam-se estes compram um determinado produto. O número de pessoas que compram o produto varia de 0 a 200. 3. Conta-se o nº de acidentes que ocorrem em uma rodovia num feriado prolongado. O número de acidentes em questão pode ser: 0, 1, 2… Como não temos um valor que limite esse número, supomos que o número de acidentes é qualquer inteiro não negativo. 4. Número de chamadas telefônicas que chegam a uma central em um intervalo de tempo. 10.1. Introdução

Vamos incorporar o conceito de probabilidade ao estudo de variáveis associadas a características em uma população. Muitos experimentos produzem resultados não-numéricos. Antes de analisá-los, é conveniente transformar seus resultados em números. Isto é feito através da variável aleatória que é uma função que associa um valor numérico a cada ponto do espaço amostral.

Para entender melhor o conceito, considere o seguinte exemplo. Exemplo: Observa-se o sexo das crianças em famílias com três filhos. O espaço amostral é

Ω = (MMM), (MMF), (MFM), (FMM), (MFF), (FMF), (FFM),(FFF) Uma variável aleatória de interesse é: X = nº. de crianças do sexo masculino. A cada evento simples, ou ponto de Ω, associamos um número, que é o valor assumido pela variável aleatória X:

Evento MMM MMF MFM FMM MFF FMF FFM FFF X 3 2 2 2 1 1 1 0

Poderíamos também ter considerado o nº. de crianças do sexo feminino. Os valores de X, na mesma ordem, seriam então 0, 1, 1, 1, 2, 2, 2, 3. Obs: A expressão “variável aleatória” será abreviada por “v.a.”. Definição: uma v.a. é discreta quando o conjunto de valores possíveis for finito ou infinito numerável. Exemplos: Número de filhos, Número de bactérias numa lâmina, número de lâmpadas em uma residência, etc.

O passo fundamental para entendermos uma v.a. discreta é associar a cada valor a sua probabilidade, obtendo o que se chamamos de distribuição de probabilidade.

X x1 x2 ... xn P(X=x) P(X=x1) P(X=x2) ... P(X=xn)

Page 62: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 57

A função de probabilidade (P(⋅)) deve satisfazer: 0 ≤ P(X=xi) ≤ 1 p/ ∀ xi e ∑ ===

n

i ixXP1

1)(

Exemplo: Um certo departamento da UFSJ é formado por 35 professores, sendo 21 homens e 14 mulheres. Uma comissão de 3 professores será constituída, sorteando-se, ao acaso, três membros do departamento. Qual a probabilidade da comissão ser formada por pelo menos duas mulheres? Seja X = nº. de mulheres na comissão.

10.2. Esperança Matemática (Média)

Assim como definimos a média de uma distribuição de freqüências como a soma dos produtos dos diversos valores observados pelas respectivas freqüências relativas, é natural definirmos agora a média de uma v.a., ou de sua distribuição de probabilidade, como a soma dos produtos dos diversos valores de xi da v.a. pelas respectivas probabilidades P(xi).

A média de uma v.a. X é também chamada valor esperado ou esperança matemática, ou simplesmente esperança de X. É representada por E(X) e se define como

∑=

===++=+==n

1iiinn2211 )xX(Px)xX(Px)xX(Px)xX(Px)X(E L

É uma média ponderada dos xi, em que os pesos são as probabilidades associadas. Exemplo: Um lojista mantém extensos registros das vendas diárias de certo aparelho. O quadro a seguir dá o número xi de aparelhos vendidos em uma semana e a respectiva probabilidade:

Número xi 0 1 2 3 4 5 Probabilidade P(X = xi) 0,1 0,1 0,2 0,3 0,2 0,1

Se for de R$ 20,00 o lucro por unidade vendida, qual o lucro esperado nas vendas de uma semana?

Espaço Amostral X Probabilidade

HHH 0 203,03319x

3420x

3521

= Distribuição de Probabilidade

HHM 1 150,03314x

3420x

3521

= X 0 1 2 3 P(X) 0,203 0,450 0,291 0,056

HMH 1

MHH 1 Assim, P(X ≥ 2) = P(X = 2) + P(X = 3)

HMM 2 097,03313x

3414x

3521

= = 0,291+ 0,056

MHM 2 = 0,347

MMH 2

MMM 3 056,03312x

3413x

3514

=

Page 63: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 58

Solução: Calculemos inicialmente E(X), que é o número esperado de aparelhos vendidos em uma semana:

E(X) = (0)(0,1) + (1)(0,1) + (2)(0,2) + (3)(0,3) + (4)(0,2) + (5)(0,1) = 2,70. Para x unidades vendidas o lucro é 20x. Logo, o lucro esperado é de R$ 54,00. 10.3. Variância

Assim como a média é uma medida de posição de uma v.a., é natural que procuremos uma medida de dispersão dessa variável em relação à média. Essa medida é a variância, a ser representada por σ2 e definida por

∑=

=−==σn

1ii

2i

2 )xX(P))X(Ex()X(Var

Desenvolvendo o termo quadrático do somatório, obtemos uma expressão mais fácil de calcular a variância dada por:

222 )]X(E[)X(E)X(Var −==σ

onde ∑=

==n

1ii

2i

2 )xX(Px)X(E .

Desvio Padrão O desvio padrão (σ) é a raiz quadrada positiva da variância. Tem sobre essa última a

vantagem de exprimir a dispersão na mesma unidade de medida da v.a.: 2σ=σ

10.4. Exercício – Parte II – A2 1) A distribuição de X: nº de crianças por domicílio numa determinada região é dada pela tabela abaixo:

X 0 1 2 3 4 5 P(X = x) 0,10 0,15 0,25 0,30 0,15 0,05

Calcule: (a) O número médio de crianças por domicílio, µX. (b) O desvio padrão de X, σX. (c) A probabilidade PµX - σX ≤ X ≤ µX + σX. 10.5. Distribuição Bernoulli

Na prática existem muitos experimentos que admitem apenas dois resultados. Exemplos: 1) Uma peça é classificada como boa ou defeituosa; 2) Um entrevistado concorda ou não com a afirmação feita; 3) O resultado de um exame médico para detecção de uma doença é positivo ou negativo; 4) No lançamento de um dado ocorre ou não a face 5.

Page 64: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 59

Situações com alternativas dicotômicas podem ser representadas genericamente por respostas do tipo sucesso-fracasso.

Esses experimentos recebem o nome de ensaio de Bernoulli e originam uma v.a. com distribuição Bernoulli. Variável Aleatória de Bernoulli

É uma v.a. X que assume apenas dois valores: 1 se ocorrer sucesso, e 0 se ocorrer fracasso, e, sendo p a probabilidade de sucesso, 0 < p < 1. Denotamos por X ~ Bernoulli (p) uma v. a. com distribuição de Bernoulli com parâmetro p.

1, se ocorrer “sucesso” X =

0, se ocorrer “fracasso” e função de probabilidade,

X 1 0 P(X=x) p 1-p

Segue-se que

E(X) = p e Var(X) = p(1-p) Repetições independentes de um ensaio de Bernoulli dão origem ao modelo binomial.

10.6. Distribuição Binomial Experimento Binomial: É o experimento

(a) que consiste em n ensaios de Bernoulli; (b) cujos ensaios são independentes; e (c) para o qual a probabilidade de sucesso em cada ensaio é sempre igual a p, 0 < p < 1. A v.a. X, correspondente ao número de sucessos num experimento binomial, tem

distribuição binomial com parâmetros n e p, com função de probabilidade dada por:

n,,1,0x,)p1(pxn

)xX(P xnx K=−⎟⎟⎠

⎞⎜⎜⎝

⎛== −

onde )!xn(!x

!nxn

−=⎟⎟

⎞⎜⎜⎝

⎛, )1)(2()2n)(1n(n!n L−−= e 1!0 = .

Notação: X ~ B(n; p). Média e Variância da Binomial

A Média e a Variância são dadas, respectivamente, por:

E(X) = np e Var(X) = np(1-p)

Page 65: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 60

Exemplo: Suponha que 20% dos clientes de uma empresa sejam inadimplentes. Se 10 pessoas dessa população forem escolhidas ao acaso e com reposição, determine:

(a) O nº esperado de inadimplentes. (b) A probabilidade de selecionar exatamente 3 pessoas inadimplentes. (c) A probabilidade de selecionar no máximo 3 inadimplentes.

10.7. Exercícios – Parte II – A2 1) Nos Estados Unidos, 29% dos advogados e juízes são mulheres (Statistical Abstract of the United States, 1997). Em uma jurisdição com 30 advogados e juízes, qual é o número esperado de mulheres? Qual é a variância e o desvio padrão? 2) O maior número de reclamações dos proprietários de automóveis com dois anos de uso se referem ao desempenho do sistema elétrico. Considere que um questionário anual, enviado aos proprietários de mais de 300 marcas e modelos de automóveis, revelou que 10% dos proprietários de automóveis com dois anos de uso encontraram pontos com problemas no sistema elétrico, que incluíam o motor de arranque, o alternador, a bateria, controles diversos, luzes e radio. Qual a probabilidade de que uma amostra de 12 proprietários de automóveis com dois anos ter (a) exatamente dois proprietários com problemas no sistema elétrico (b) pelo menos dois proprietários com problemas no sistema elétrico (c) no máximo um proprietário com problemas no sistema elétrico. 10.8. Distribuição Hipergeométrica A distribuição Hipergeométrica está restritamente relacionada com a distribuição binomial. A diferença chave entre as duas distribuições de probabilidade é que com a distribuição hipergeométrica os ensaios não são independentes e a probabilidade de sucesso muda de ensaio para ensaio, pois as seleções dos elementos são feitas sem reposição, enquanto que na distribuição binomial as seleções dos elementos são feitas com reposição. Considere um conjunto de N objetos dos quais r são do tipo I e N - r são do tipo II. Um sorteio de n objetos (n < N) é feito ao acaso e sem reposição. Definição: A variável aleatória discreta X que é igual ao número de objetos do tipo I selecionados nesse sorteio tem distribuição Hipergeométrica.

Os valores possíveis de X vão de 0 a min(r, n), uma vez que não podemos ter mais do que o número de objetos existentes do tipo I, nem mais que o total de sorteados. Sua função de probabilidade é dada por:

⎟⎟⎠

⎞⎜⎜⎝

⎟⎟⎠

⎞⎜⎜⎝

⎛−−

⎟⎟⎠

⎞⎜⎜⎝

==

nN

xnrN

xr

)xX(P , 0 ≤ x ≤ mínimo(r, n).

Notação: X ~ Hipergeométrica (N; n; r) Esperança: E(X) = np Variância: Var(X) = np(1-p)(N-n)/(N-1), onde p = r/N.

Page 66: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 61

Exemplo: Uma fábrica produz peças que são embaladas em caixas com 40 unidades. Para aceitar o lote de caixas enviado por essa fábrica, o controle de qualidade de uma empresa sorteia uma caixa do lote e sorteia 10 peças, sem reposição, dessa mesma caixa. Se houver alguma peça defeituosa o lote inteiro é devolvido. Se a caixa sorteada tiver 4 peças defeituosas, qual é a probabilidade do lote não ser devolvido? N = 40, n = 10 e r = 4 X: número de peças defeituosas 10.9. Exercício – Parte II – A2: Para fazer o controle de qualidade numa empresa, lotes com 100 peças são examinados. O número de peças com defeito no lote é 10. Após colher uma amostra de 5 peças sem reposição, calcule a probabilidade de que nessa amostra não haja nenhum item defeituoso. 10.10. Distribuição Poisson

A distribuição de Poisson é empregada em experimentos nos quais não se está interessado no número de sucessos obtido em n tentativas, como ocorre no caso da distribuição binomial, mas sim no número de sucessos ocorridos durante um intervalo contínuo, que pode ser um intervalo de tempo, espaço, etc. Alguns exemplos de variáveis que podem ter a distribuição de Poisson são (a) número de defeitos por centímetro quadrado; (b) n° de acidentes por dia; (c) n° de clientes por hora; (d) n° de chamadas telefônicas recebidas por minuto; (e) n° de falhas de um computador num dia de operação; (f) n° de relatórios de acidentes enviados a uma companhia de seguros numa semana.

Note-se que a unidade de medida (tempo, área) é contínua, mas a variável aleatória de interesse (número de ocorrência) é discreta. Além disso, as falhas não são contáveis. Não é possível contar os acidentes que não ocorreram, nem o número de defeitos por centímetros quadrados que não ocorreram.

O limite inferior do número de ocorrências, em todos as situações dos exemplos, é ________, enquanto que o limite superior é – ao menos teoricamente – infinito, muito embora, na maioria dos exemplos acima, seja difícil imaginar um número infinito de ocorrências.

As probabilidades, calculadas agora para todos os números inteiros não negativos k = 0, 1, 2, ... são dadas da seguinte forma:

!xe)xX(P

xλ==

λ−, x = 0, 1, ...

onde “X = números de sucessos em um intervalo” é a variável de interesse, λ > 0 é o número médio de sucessos da variável X e “e” é a constante 2,7183 (base dos logaritmos naturais). Notação: X ~ P(λ) Esperança e Variância: E (X) = Var (X) = λ

3,0

1040

010440

04

)0X(P ≅

⎟⎟⎠

⎞⎜⎜⎝

⎟⎟⎠

⎞⎜⎜⎝

⎛−−

⎟⎟⎠

⎞⎜⎜⎝

==

Page 67: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 62

Exemplo: Um departamento de conserto de máquinas recebe uma média de cinco chamadas por hora. Supondo que a distribuição de Poisson seja adequada nessa situação, obter a probabilidade de que, em uma hora selecionada aleatoriamente, sejam recebidas exatamente três chamadas: 10.11. Exercícios – Parte II – A2 1) Numa central telefônica, o número de chamadas chega segundo uma distribuição Poisson, com a média de oito chamadas por minuto. Determine qual a probabilidade de que num minuto se tenha: (a) duas ou mais chamadas; (b) menos que duas chamadas; (c) entre sete (inclusive) e nove (exclusive) chamadas.

Page 68: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 63

11. VARIÁVEL ALEATÓRIA CONTÍNUA Até aqui estudamos variáveis aleatórias discretas que são caracterizadas por ter uma distribuição de probabilidade dada por uma tabela que associa a cada um de seus valores uma probabilidade. Esta probabilidade é um número entre 0 e 1 cuja soma é igual a 1. Definição: Seja X uma variável aleatória. Suponha que os possíveis valores de X seja um intervalo que possui infinitos valores, então diremos que X é uma variável aleatória contínua. Exemplos: 1. Mede-se a altura de uma mulher em uma cidade. O valor encontrado é um número real. Aqui também sabemos que esse número não passa de 3 metros, mas é conveniente considerar qualquer nº real positivo. 2. Em um exame físico para selecionar um jogador de futebol é medido o peso de cada candidato; aqui também consideramos que o resultado pode ser qualquer número real positivo. 3. Em campanhas preventivas de hipertensão arterial é comum de tempos em tempos medir-se o nível de colesterol. O valor de cada medida pode ser um número real não negativo. 4. Para pacientes que se apresentam num hospital a primeira atitude é medir-se a temperatura; o valor da temperatura é um número real que se pode considerar compreendido entre 35º e 42ºC. 5. Retira-se uma lâmpada da linha de produção e coloca-se a mesma em um soquete acendendo-a; observa-se a mesma até que se queime. O tempo de duração da lâmpada é um nº real não negativo. Nos exemplos de 1 a 5, o número observado no experimento aleatório é um número real e resulta em geral de uma medição: • altura das mulheres; • peso do atleta; • nível de colesterol; • temperatura; • tempo de duração da lâmpada. Uma variável aleatória contínua assume seus valores em um intervalo. Como são atribuídas probabilidades nesse caso? Exemplo: Suponha que observamos o peso, em kg, de 1500 pessoas adultas selecionadas aleatoriamente numa população. O histograma por densidade desses valores é apresentado abaixo.

Page 69: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 64

A análise do histograma indica que: a distribuição dos valores da variável PESO é aproximadamente simétrica em torno de 70kg; a maioria dos valores encontra-se no intervalo (55;85); existe uma pequena proporção de valores abaixo de 48kg e acima de 92kg.

Seja X = peso em kg de uma pessoa adulta escolhida ao acaso da população. Como se distribuem os valores da variável aleatória X, ou seja, qual a distribuição de probabilidades de X?

Para as variáveis contínuas as probabilidades são atribuídas por meio de uma função cuja área entre a mesma e o eixo das abscissas (X) é igual a um.

P(a ≤ X ≤ b) = área hachurada Esta função f(x) é denominada função densidade de probabilidade da variável

aleatória contínua X. A área sob uma curva delimitada por dois valores a e b, como mostra a figura, é

determinada calculando-se a integral definida entre a e b da densidade de probabilidade representada pela função, isto é,

∫ ≤≤=b

a

b)xP(af(x)dx

Page 70: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 65

Exemplo: Um fabricante de televisão a cores oferece uma garantia de 1 ano para substituição gratuita se o tubo de imagem falhar. Ele estima o tempo de falha (em unidades de anos), x, como uma variável aleatória contínua com a seguinte fdp

contráriocaso,0

0x,e41)x(f 4

x

=

>=−

Qual a probabilidade de você comprar a televisão e necessitar de uma substituição gratuita?

∫ ≅==≤−1

0

4x

2,0dxe41)1x(P

Definição: Se X é uma v.a. contínua, a função densidade de probabilidade f(X), indicada abreviadamente por fdp, é uma função que satisfaz às seguintes condições: (a) f(X) ≥ 0, ∀ X; (b) A área sob a função densidade de probabilidade é 1, isto é: (c) P(a ≤ X ≤ b) = área sob a função densidade de probabilidade f(x) e acima do eixo x entre os pontos a e b, isto é: (d) P(X = x0) = 0, porque: Conseqüência: P(a < X < b) = P(a ≤ X < b) = P(a < X ≤ b) = P(a ≤ X ≤ b) Definição: Se X é uma v.a. contínua, a função de distribuição acumulada (fda) de X é definida como: Exemplo: Considere a seguinte densidade de probabilidade: f(x) = 2x, para 0 ≤ x ≤ 1 e f(x) = 0, fora desse intervalo. Obtenha a F(x) de X.

⎪⎪⎩

⎪⎪⎨

>

≤≤==

<

= ∫1x,1

1x0,x0x

ss2

0x,0

)x(F 22x

0

11.1. Esperança e Variância Definição: Se X é uma v. a. contínua, o valor esperado de X (ou esperança matemática de X) denotada por E(X) é definido como:

E(X) =

1dx)x(f =∫+∞

∞−

∫=≤≤b

adx)x(f)bXa(P

0dx)x(f)xX(P 0

0

x

x0 === ∫

∫ ∞−=≤=

xds)s(f)xX(P)x(F

∫∞

∞−

dx)x(fx

Page 71: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 66

Exemplo: Para uma variável que têm densidade f(x) = 2x, 0<x<1, então: Definição: A variância de uma variável aleatória contínua é definida por:

Var(X) = E(X2) – [E(X)]2, onde E(X2) =

Exemplo: Para uma variável que têm densidade f(x) = 2x, 0<x<1, então: Logo, Var(X) = 2/4 – (2/3)2 =1/18 = 0,056 Também podemos obter o Desvio Padrão: Exercícios – Parte II – A2: 1) O diâmetro de um cabo elétrico é uma variável aleatória com fdp dada por: f(x) = 6x(1-x) para 0 < x < 1 e f(x) = 0 fora desse intervalo. Qual a probabilidade do diâmetro ser: (a) Igual a 0,5 cm? (b) Entre 0,10 e 0,20? (c) Maior que 0,5? (d) Menor que 1? 2) A quantia gasta anualmente, em milhões de reais, na manutenção do asfalto de uma cidade do interior é representada pela variável y modelada pela função: f(y) = (8/9)y – (4/9), se 0,5 ≤ y ≤ 2 e f(y) = 0, caso contrário. Qual a probabilidade da quantia gasta ser inferior a 0,8 milhões de reais? 3) O tempo de sobrevivência de uma bateria (em anos) pode ser modelado pela função: f(x) = e-x, se x ≥ 0 e f(x) = 0, caso contrário. (a) Qual a probabilidade da bateria sobreviver mais que 2 anos? (b) Qual é o tempo médio de sobrevivência da bateria? 4) O diâmetro de um cabo elétrico é uma v. a. com fdp dada por: f(x) = 6x(1-x) para 0 < x < 1 e f(x) = 0 fora desse intervalo. (a) Verifique se f(x) é uma fdp, através do item (b) da definição 2. (b) Obtenha a F(x). 11.2. Distribuição Normal

A distribuição Normal é uma das mais importantes distribuições contínuas de

probabilidade. Foi introduzida em 1730 por D´Moivre e depois foi muito utilizada em Astronomia pelo alemão físico/matemático Gauss, trazendo muita confusão para várias pessoas que por esse motivo, acham que foi Gauss que a descobriu.

32x

32dxx2dxx2x)X(E 1

03

1

0

1

0

2 ==== ∫ ∫

∫∞

∞−

dx)x(fx 2

32)X(E =

42x

42dxx2dxx2x)X(E 1

04

1

0

1

0

322 ==== ∫ ∫

23,0056,0 ≅

Page 72: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 67

Muitos dos fenômenos aleatórios de interesse comportam-se próximos a essa distribuição com valores muito freqüentes em torno da média e diminuindo a freqüência à medida que nos afastamos da média.

Nem todos os fenômenos se ajustam à distribuição Normal. Por exemplo, considere a variável tempo de duração, em horas, de uma lâmpada de certa marca.

A experiência sugere que esta distribuição deve ser assimétrica com uma grande proporção de valores entre 0 e 500 horas e uma pequena proporção de valores acima de 1500 horas

Obs: A distribuição utilizada nesse caso é a Distribuição Exponencial. Função Densidade de Probabilidade da Distribuição Normal

∞<<∞−πσ

=⎟⎠⎞

⎜⎝⎛

σµ−

xexfx

,2

1)(2

21

2

O gráfico da densidade normal Propriedades:

A curva normal é simétrica em torno da média µ; A moda e a mediana são iguais a µ; Os pontos de inflexão são µ- σ e µ + σ; A área sob a curva e acima do eixo horizontal é

igual a 1. Parâmetros: µ : média ou valor esperado σ2: variância Notação : X ~ N(µ, σ2)

Page 73: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 68

A distribuição normal depende dos parâmetros µ e σ2

Cálculo de Probabilidades

P(a < X < b)

Área sob a curva e acima do eixo horizontal (x) entre a e b.

a µ b

µ1 µ2

___N(µ, σ12)

___N(µ, σ22)

___N(µ, σ32)

σ12 < σ2

2< σ32

Curvas normais com mesmo desvio padrão, mas com médias diferentes.

Curvas normais com mesma média, mas com desvios padrão diferentes.

Page 74: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 69

Se X ~ N(µ ; σ2), definimos: σ

µ−=

XZ . Então, E(Z) = 0 e Var(Z) = 1.

A variável Z ~ N (0,1) denomina-se normal padrão ou reduzida. Portanto,

⎟⎠⎞

⎜⎝⎛

σµ−

<<σ

µ−=⎟

⎠⎞

⎜⎝⎛

σµ−

µ−<

σµ−

=<<bZaPbXaPbXaP )(

Dada a v.a. Z ~N (0;1) podemos obter a v.a. X ~ N (µ;σ2) através da transformação inversa

X = µ + Zσ

a µ b x

f(x)

0 z

f(z)

a – µ σ

b – µ σ

Page 75: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 70

11.3. Tabela da Distribuição Normal Padrão Denotamos: A(z) = P(Z ≤ z), para z ≥ 0.

Probabilidades Acumuladas da Distribuição Normal (0, 1) A(z) = P(Z ≤ z) , z ≥ 0.

0 1 2 3 4 5 6 7 8 90.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.53590.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.57530.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.61410.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.65170.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.68790.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.72240.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.75490.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.78520.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.81330.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.83891.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.86211.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.88301.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.90151.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.91771.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.93191.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.94411.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.95451.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.96331.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.97061.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.97672.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.98172.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.98572.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.98902.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.99162.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.99362.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.99522.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.99642.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.99742.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.99812.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.99863.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.99903.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.99933.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.99953.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.99973.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.99983.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.99983.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.99993.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.99993.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.99993.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

Segunda decimal de z

Parte

inte

ira e

prim

eira

dec

imal

de

z

Probabilidades Acumuladas da Distribuição Normal (0, 1) A(z) = P(Z ≤ z) , z ≥ 0.

0 1 2 3 4 5 6 7 8 90.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.53590.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.57530.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.61410.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.65170.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.68790.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.72240.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.75490.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.78520.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.81330.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.83891.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.86211.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.88301.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.90151.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.91771.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.93191.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.94411.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.95451.7 0.9554 0.9564

0 1 2 3 4 5 6 7 8 90.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.53590.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.57530.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.61410.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.65170.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.68790.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.72240.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.75490.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.78520.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.81330.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.83891.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.86211.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.88301.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.90151.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.91771.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.93191.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.94411.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.95451.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.96331.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.97061.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.97672.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.98172.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.98572.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.98902.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.99162.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.99362.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.99522.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.99642.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.99742.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.99812.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.99863.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.99903.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.99933.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.99953.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.99973.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.99983.5 0.9998 0.9998 0.9998 0.9998

0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.96331.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.97061.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.97672.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.98172.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.98572.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.98902.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.99162.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.99362.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.99522.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.99642.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.99742.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.99812.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.99863.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.99903.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.99933.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.99953.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.99973.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.99983.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.99983.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.99993.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.99993.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.99993.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

Segunda decimal de z

Parte

inte

ira e

prim

eira

dec

imal

de

z

Page 76: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 71

Exemplos: Seja Z ~ N (0,1), calcular: a) P(Z ≤ 1,71) = A(1,71) = 0,9564 b) P(0 < Z ≤ 1,71) =

c) P(1,32 < Z ≤ 1,79) d) P(Z ≥ 1,5) e) P(Z ≤ -1,3) f) P(-1,5 ≤ Z ≤ 1,5) g) P(-1,32 < Z < 0) h) P( -2,3 < Z ≤ -1,49) i) P(-1 ≤ Z ≤ 2)

Page 77: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 72

Exemplo: Seja X o gasto com lanche semanal. Após estudar esta variável, vimos que X ~ N (20, 64), então obtenha: a) P(16 < X < 22) = b) P(X < 18 ou X > 24) = P(X < 18) + P(X > 24) = Como encontrar o valor z da distribuição N(0,1) tal que: (i) P(Z ≤ z) = 0,975 z é tal que A(z) = 0,975. Pela tabela, z = 1,96.

(ii) P(0 < Z ≤ z) = 0,4975 (iii) P(Z ≥ z) = 0,3 (iv) P(Z ≥ z) = 0,975 (v) P(Z ≤ z) = 0,10 (vi) P(-z ≤ Z ≤ z) = 0,80

Page 78: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 73

Calcule: a) k tal que P( X ≥ k) = 0,05

b) k tal que P( X ≤ k) = 0,025

Nota Importante: Para toda v.a. X ~ N(µ ; σ2) temos: (i) =σ+µ≤≤σ−µ )X(P P(– 1 ≤ Z ≤ 1) = 0,6826. (ii) P(µ – 2σ ≤ X ≤ µ + 2σ) = P(– 2 ≤ Z ≤ 2) = 0,955. (iii) P(µ – 3σ ≤ X ≤ µ +3σ) = P(–3 ≤ Z ≤ 3) = 0,997. 11.4. Exercícios – Parte II – A2 1) O tempo gasto no exame vestibular de uma universidade tem distribuição Normal, com µ = 120 min e σ = 15 min. (a) Sorteando-se um aluno ao acaso, qual é a probabilidade dele terminar o exame antes de 100 minutos? (b) Qual deve ser o tempo de prova, de modo a permitir que 95% dos vestibulandos terminem no prazo estipulado? (c) Qual o intervalo central de tempo, tal que 80% dos estudantes gastam para completar o exame?

Page 79: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 74

Lista de Exercícios 2 Exercício 01 Sendo A e B dois eventos de um mesmo espaço amostral, “traduza” para a linguagem da teoria dos conjuntos as seguintes situações: (a) Pelo menos um dos eventos ocorre. (b) Exatamente um dos eventos ocorre. (c) Nenhum dos eventos ocorre. (d) A ocorre, mas B não ocorre. Exercício 02 Dois processadores, A e B, são colocados em teste por 50 mil horas. A probabilidade de um erro acontecer em A é 2/60, em B é 1/80 e em ambos é 1/100. Calcule a probabilidade de que: (a) Pelo menos um processador apresente erro. (b) Nenhum apresente erro. (c) Somente A apresente erro. Exercício 03 A probabilidade de que um homem que possui veículo motorizado se acidente num período de um ano é de 0,113 e uma mulher que tenha um veículo motorizado se acidente num período de um ano é de 0,057. Suponha que 55% dos motoristas em Lucas Country sejam homens. No preenchimento de um questionário de histórico sobre desempenho ao volante, uma pessoa de Lucas Country indicou um envolvimento em acidente com veículo motorizado durante o último ano. Qual é a probabilidade de essa pessoa ser uma mulher? Exercício 04 Um pai leva o filho ao cinema e gasta R$15,00 nas duas entradas. O filho vai pedir para comer pipoca com probabilidade 0,7 e pedir para comer bala com probabilidade 0,9. Os pedidos são atendidos pelo pai com probabilidade 0,5 independentemente. Se a pipoca custa R$2,00 e a bala R$3,00 estude a variável aleatória “despesa efetuada com a ida ao cinema” construindo sua distribuição de probabilidade. Exercício 05 Suponha que a probabilidade de que um item produzido por uma máquina seja defeituoso é de 0,2. Se 4 itens são produzidos por esta máquina são selecionados ao acaso, qual a probabilidade de que não mais do que um item defeituoso seja encontrado? Exercício 06 Na manufatura de certo artigo, é sabido que a proporção de artigos defeituosos é de 0,1. Qual a probabilidade de que uma amostra casual de tamanho 5 contenha: (a) nenhum defeituoso: (b) exatamente um defeituoso: (c) não mais que 2 defeituosos:

Page 80: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 75

Exercício 07 De acordo com o Beverage Digest, a Coca Cola e a Pepsi se posicionaram como a número um e a número dois em vendas em 1996 (The Wall Street Journal Almanac, 1998). Suponha que de um grupo de 10 indivíduos, 6 prefiram a Coca Cola e 4 prefiram a Pepsi. Uma amostra aleatória sem reposição de 3 desses indivíduos é selecionada. (a) Qual a probabilidade de que exatamente dois prefiram a Coca Cola? (b) Qual é a probabilidade de que a maioria (tanto dois como três) prefira Pepsi? Exercício 08 Dos 25 estudantes (14 meninos e 11 meninas) na sala de aula de uma escola, 5 estudantes estavam ausentes na quinta-feira.

(a) Qual é a probabilidade de que 2 dos ausentes fossem meninas? (b) Qual é a probabilidade de que 2 dos ausentes fossem meninos? (c) Qual é a probabilidade de que todos os ausentes fossem meninos? (d) Qual é a probabilidade de que nenhum dos ausentes fosse um menino?

Exercício 09 Num certo tipo de fabricação de fita magnética, ocorrem cortes a uma taxa de um por 2000 pés. Qual a probabilidade de que um rolo com 2000 pés de fita magnética tenha: (a) nenhum corte; (b) no máximo 3 cortes; (c) pelo menos dois cortes. Exercício 10 Os passageiros de uma linha aérea chegam às instalações de passageiros de um grande aeroporto internacional a uma taxa média de 10 por minuto. (a) Qual é a probabilidade de nenhuma chegada em 1 minuto? (b) Qual é a probabilidade de que 3 passageiros ou menos cheguem em um período de 1 minuto? (c) Qual é a probabilidade de nenhuma chegada em um período de 15 minutos? Exercício 11 Depois de tomarmos várias amostras, decidiu-se adotar um modelo para as medidas do perímetro do tórax de uma população de homens adultos com os parâmetros: média = 40 polegadas e desvio padrão = 2 polegadas. (a) Qual é a probabilidade de um indivíduo sorteado desta população ter um perímetro de tórax entre 40 e 43 polegadas? (b) Qual é a probabilidade de um indivíduo sorteado desta população ter um perímetro de tórax maior ou igual a 43 polegadas? (c) Qual é a probabilidade de um indivíduo sorteado desta população ter um perímetro de tórax menor que 35 polegadas? (d) Qual é o valor do tórax que seria ultrapassado por 25% da população?

Page 81: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 76

Exercício 12 Considere a altura de 351 mulheres idosas como seguindo uma distribuição normal com média = 160 cm e desvio padrão = 6 cm. Sorteia-se uma mulher, qual a probabilidade de que ela tenha: (a) Altura entre 160 cm e 165 cm? (b) Altura menor do que 145 cm? (c) Altura maior do que 170 cm? Exercício 13 O diâmetro X de rolamentos de esfera fabricados por certa fábrica tem distribuição Normal com média = 0,6140 e variância = (0,0025)2. O lucro T de cada esfera depende de seu diâmetro, e: T = 0,10 se a esfera é boa (0,6100 < X < 0,6180); T = 0,05 se a esfera é recuperável (0,6080 < X < 0,6100 ou 0,6180 < X < 0,6200); T = - 0,10 se a esfera é defeituosa (X < 0,6080 ou X > 0,62). Calcular: (a) As probabilidades das esferas serem boas, recuperáveis e defeituosas. (b) A esperança do lucro ( E(T) ). Observação: O gabarito da Lista de Exercícios 2 encontra-se no Apêndice B

Page 82: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 77

12. ESTIMAÇÃO 12.1. Inferência Estatística

A tomada de decisões sobre a população com base em estudos feitos sobre os dados da

amostra constitui o problema central da Inferência Estatística. A tais decisões estão sempre associados um grau de incerteza e, conseqüentemente, uma probabilidade de erro. A generalização da amostra para a população é feita com o auxílio de um modelo estatístico para a situação em estudo.

Conceitos Importantes Parâmetro: qualquer função da população (θ). Exemplos: P (proporção), µ (média), σ2 (variância). Estatística ou Estimador: qualquer função da amostra ( θ ). Exemplos: P (proporção), X (média), S2 (variância). Estimativa: valor que a estatística (ou o estimador) assume em uma amostra (θ0). Exemplos: p (proporção), x (média), s2 (variância). 12.2. Estimação Pontual e Intervalar para Proporção Objetivo Estimar uma proporção p (desconhecida) de elementos de uma população, apresentando certa característica de interesse, a partir da informação fornecida de uma amostra. Exemplos p: proporção de consumidores satisfeitos com os serviços prestados por uma empresa de telefonia; p: proporção de eleitores de São João del-Rei que votariam em um determinado candidato, caso a eleição para prefeito se realizasse hoje; p: proporção de crianças de 2 a 6 anos, do estado de Minas Gerais, que não estão matriculadas em escola de educação infantil. Estimador Pontual O estimador pontual para p (proporção amostral) é definido por:

nXP =

sendo que X denota o número de elementos na amostra que apresentam a característica; n denota o tamanho da amostra coletada. O valor assumido por p na amostra é denominado estimativa pontual para p.

Page 83: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 78

Exemplo: Sejam, p: proporção de alunos da UFSJ que foram ao cinema pelo menos uma vez no último mês, e X: número de estudantes que respondem “sim” em uma pesquisa com n entrevistados. Suponha que foram entrevistados n = 500 estudantes e que, desses, x = 100 teriam afirmado que foram ao cinema pelo menos uma vez no último mês. A estimativa pontual (proporção amostral) é dada por: 20,0)500/100()n/x(p === , ou seja, 20% dos estudantes entrevistados afirmaram que foram ao cinema pelo menos uma vez no último mês.

Note que, outra amostra de mesmo tamanho pode levar a uma outra estimativa pontual para p. Estimativa Intervalar Idéia: Se selecionarmos várias amostras de uma população contendo n dados, observaremos que cada amostra terá sua respectiva proporção. A fim de obtermos uma estimativa da proporção da população em estudo com certo grau de confiabilidade, recorremos a um intervalo de confiança, que delimita essa proporção.

A estimativa por intervalo de p corresponde a um intervalo determinado da seguinte maneira:

[ ]εε +− pp ˆ;ˆ , sendo que ε representa o erro amostral ou margem de erro.

Na prática o intervalo de confiança com um coeficiente de confiança γ é dado por:

IC (p,γ) = ⎥⎦

⎤⎢⎣

⎡ −+

−−

nppzp

nppzp )ˆ1(ˆˆ;)ˆ1(ˆˆ

Note que, n

ppz )ˆ1(ˆ −=ε . O valor de z é obtido da distribuição normal padrão. Assim, os valores

de z que limitam os níveis de confiança, onde z é tal que γ = P(-z ≤ Z ≤ z) na N (0,1) são:

γ 90% 95% 99% z

Exemplos 1) No exemplo da UFSJ, considere agora, n = 500 e 20,0ˆ =p . Construa um intervalo de confiança para p com coeficiente de confiança γ = 0,95. Resolução: Como γ = 0,95 fornece z = 1,96, o intervalo é dado por:

[ ]235,0;165,0500

80,020,096,120,0;500

80,020,096,120,0)ˆ1(ˆˆ;)ˆ1(ˆˆ =⎥⎦

⎤⎢⎣

⎡+−=⎥

⎤⎢⎣

⎡ −+

−−

xxn

ppzpn

ppzp

Nesse intervalo (γ=0,95), a estimativa pontual para p é 0,20, com um erro amostral ε igual a

0,035. Interpretação do IC com γ = 95%: Se sortearmos 100 amostras de tamanho n = 500 e construirmos os respectivos 100 intervalos de confiança, com coeficiente de confiança de 95%, esperamos que, aproximadamente, 95 destes intervalos contenham o verdadeiro valor de p.

Page 84: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 79

2) Ainda no exemplo da UFSJ, considere k = 100 e n = 500. Qual é a probabilidade da estimativa pontual estar a uma distância de, no máximo, 0,03 da verdadeira proporção?

Dados do problema: ?03,0;20,0ˆ;500 =⇒=== γεpn Com esses dados podemos calcular o valor de z e, assim, obter γ, o nível de confiança do

intervalo. Cálculo de z:

68,18,02,0

50003,0)ˆ1(ˆ

==−

=xpp

nz ε

Logo, obtemos: γ ≈ 2 A(z) – 1 = 2 A(1,68) – 1 = 2 x 0,953 – 1 = 0,906 (90,6 %). Portanto a probabilidade da estimativa pontual estar a uma distância de no máximo 0,03 da

verdadeira proporção é de 90,6 %. 12.3. Exercícios – Parte III – A3 1) A gerente de uma empresa quer estimar a proporção p de clientes que gostaram da última exposição de arte apresentada pela empresa. Numa amostra de 300 clientes, 270 afirmaram que gostaram da exposição. Qual seria a estimativa pontual de p? 2) Numa eleição de segundo turno, um instituto de pesquisa de opinião obteve, num levantamento de boca de urna, que 40% (p = 0,40) dos entrevistados votaram no candidato A. (a) Construa intervalos de confiança para a verdadeira proporção p de eleitores que votaram no candidato A com coeficientes de confiança de 90%, 95% e 99%. Compare os intervalos. Comente. Admita aqui que o tamanho da amostra seja n = 150. b) Construa intervalos de confiança para p admitindo que a estimativa p = 0,40 foi obtida de amostras de tamanho n = 100, n = 150 e n = 200. Compare os intervalos. Comente. Considere aqui um coeficiente de confiança de 90%. 12.4. Estimativa Pontual e Intervalar para a Média Populacional Objetivo Estimar a média µ de uma variável aleatória X, que representa uma característica de interesse de uma população, a partir de uma amostra. Exemplos µ: quantia média gasta por cliente; µ: salário médio dos empregados de um a indústria; µ: tempo médio gasto usando a Internet. Estimativa Pontual

Vamos observar n elementos, extraídos ao acaso de uma população; Para cada elemento selecionado, observamos o valor da variável X de interesse.

Page 85: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 80

Obtemos, então, uma amostra aleatória de tamanho n de X, que representamos por X1, X2, ..., Xn. Uma estimador pontual para µ é dado pela média amostral,

∑=

=+++

=n

1i

in21

nX

nXXXX K

Estimativa Intervalar Se selecionarmos várias amostras de uma população contendo n dados, observaremos que cada amostra terá sua respectiva média. A fim de obtermos uma estimativa da média da população em estudo com certo grau de confiabilidade, recorremos a um intervalo de confiança, que delimita essa média.

Uma estimador intervalar ou intervalo de confiança para µ tem a forma: [ ]εε +− XX ;

sendo ε o erro amostral (margem de erro). Teorema Central do Limite Se X1, ..., Xn representa uma amostra aleatória de uma variável X de média µ e desvio padrão σ, então para n grande

⎟⎟⎠

⎞⎜⎜⎝

⎛n

NX2

,~ σµ

Portanto, para n grande a média amostral tem distribuição Normal de média µ e desvio padrão n/σ .

Na prática, temos que o intervalo de confiança para µ com um nível de confiança γ é dado

por:

⎥⎦⎤

⎢⎣⎡ σ

−n

zx;n

zx

onde x é a média amostral, σ é o desvio padrão populacional e n é o tamanho amostral. Sendo

assim, temos que o erro é: n

z σ=ε .

Exemplo: Não se conhece o consumo médio de combustível de automóveis da marca T. Sabe-se, no entanto, que o desvio padrão do consumo de combustível de automóveis dessa marca é 10 km/l. Na análise de 100 automóveis da marca T, obteve-se consumo médio de combustível de 8 km/l. Encontre um intervalo de confiança para o consumo médio de combustível dessa marca de carro. Adote um nível de confiança igual a 95%. X: Consumo de combustível da marca T; σ = 10 km/l 8100 =⇒= xn km/l γ = 0,95 ⇒ z=1,96

[ ] [ ]96,9;04,696,18;96,181001096,18;

1001096,18; =+−=⎥

⎤⎢⎣

⎡+−=⎥

⎤⎢⎣

⎡+−

nzX

nzX σσ

Portanto, a estimativa intervalar de 95% de confiança é [ ]96,9;04,6 .

Page 86: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 81

Exemplo: Deseja-se estimar o tempo médio de estudo (em anos) da população adulta de um município. Sabe-se que o tempo de estudo tem distribuição normal com desvio padrão σ = 2,6 anos. Foram entrevistados n = 25 indivíduos, obtendo-se para essa amostra, um tempo médio de estudo igual há 10,5 anos. Obter um intervalo de 90% de confiança para o tempo médio de estudo populacional. X: tempo de estudo, em anos X ~ N(µ, 2,62)

5,1025 =⇒= xn anos γ = 0,90⇒ z=1,65 A estimativa intervalar com 90% de confiança é dada por:

[ ]36,11;64,9256,265,15,10;

256,265,15,10; =⎥

⎤⎢⎣

⎡+−=⎥

⎤⎢⎣

⎡+−

nzX

nzX σσ

12.5. Exercícios – Parte III – A3 1) Estabeleça um intervalo de confiança para a média populacional, sendo que o desvio padrão populacional é 4, o tamanho amostral é n = 36 e a média amostral igual a 30. Utilize um nível de confiança de 95% para a média. 2) Uma amostra de n = 64 elementos de uma variável normalmente distribuída forneceu média 25,4, sendo que o desvio padrão populacional é 5,2. Determine o intervalo de confiança de 90% para a média. 12.6. Estimativa para Média Populacional com Variância Desconhecida

Na prática, a variância populacional σ2 é desconhecida e é substituída por sua estimativa:

∑=

−−

=n

ii XX

nS

1

22 )()1(

1

Lembrar que a estimativa amostral do desvio padrão σ é s = 2s

Page 87: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 82

Distribuição t – Student: Valores tc tais que P(-tc ≤ t ≤ tc) = 1 - p

Exemplo: 1) Para n = 11 e p = 10%, temos t = 2) Para n = 11 e p = 5%, temos t = 3) Para n = 11 e p = 1%, temos t = 4) Para n = 20 e p = 15%, temos t =

Nessa situação, para calcularmos o intervalo de confiança substituímos a variável z por t, onde t possui distribuição t de Student com n-1 graus de liberdade. Assim, uma estimativa intervalar para a média populacional µ, quando σ é desconhecido, é

⎥⎦⎤

⎢⎣⎡ +−

nstx;

nstx

A variável t é bem próxima da normal padrão z quando a amostra é maior ou igual a 25,

Gra

us d

e Li

berd

ade

p = 90% 80% 70% 60% 50% 40% 30% 20% 10% 5% 4% 2% 1% Gra

us d

e Li

berd

ade

1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 15,894 31,821 63,657 12 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 4,849 6,965 9,925 23 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 3,482 4,541 5,841 34 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 2,998 3,747 4,604 45 0,132 0,267 0,408 0,559 0,727 0,920 1,156 1,476 2,015 2,571 2,756 3,365 4,032 5

6 0,131 0,265 0,404 0,553 0,718 0,906 1,134 1,440 1,943 2,447 2,612 3,143 3,707 67 0,130 0,263 0,402 0,549 0,711 0,896 1,119 1,415 1,895 2,365 2,517 2,998 3,499 78 0,130 0,262 0,399 0,546 0,706 0,889 1,108 1,397 1,860 2,306 2,449 2,896 3,355 89 0,129 0,261 0,398 0,543 0,703 0,883 1,100 1,383 1,833 2,262 2,398 2,821 3,250 9

10 0,129 0,260 0,397 0,542 0,700 0,879 1,093 1,372 1,812 2,228 0,359 2,764 3,169 10

11 0,129 0,260 0,396 0,540 0,697 0,876 1,088 1,363 1,796 2,201 2,328 2,718 3,106 1112 0,128 0,259 0,395 0,539 0,695 0,873 1,083 1,356 1,782 2,179 2,303 2,681 3,055 1213 0,128 0,259 0,394 0,538 0,694 0,870 1,079 1,350 1,771 2,160 2,282 2,650 3,012 1314 0,128 0,258 0,393 0,537 0,692 0,868 1,076 1,345 1,761 2,145 2,264 2,624 2,977 1415 0,128 0,258 0,393 0,536 0,691 0,866 1,074 1,341 1,753 2,131 2,248 2,602 2,947 15

16 0,128 0,258 0,392 0,535 0,690 0,865 1,071 1,337 1,746 2,120 2,235 2,583 2,921 1617 0,128 0,257 0,392 0,534 0,689 0,863 1,069 1,333 1,740 2,110 2,224 2,567 2,898 1718 0,127 0,257 0,392 0,534 0,688 0,862 1,067 1,330 1,734 2,101 2,214 2,552 2,878 1819 0,127 0,257 0,391 0,533 0,688 0,861 1,066 1,328 1,729 2,093 2,205 2,539 2,861 1920 0,127 0,257 0,391 0,533 0,687 0,860 1,064 1,325 1,725 2,086 2,197 2,528 2,845 20

21 0,127 0,257 0,391 0,532 0,686 0,859 1,063 1,323 1,721 2,080 2,189 2,518 2,831 2122 0,127 0,256 0,390 0,532 0,686 0,858 1,061 1,321 1,717 2,074 2,183 2,508 2,819 2223 0,127 0,256 0,390 0,532 0,685 0,858 1,060 1,319 1,714 2,069 2,177 2,500 2,807 2324 0,127 0,256 0,390 0,531 0,685 0,857 1,059 1,318 1,711 2,064 2,172 2,492 2,797 2425 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,316 1,708 2,060 2,166 2,485 2,787 25

26 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,315 1,706 2,056 2,162 2,479 2,779 2627 0,127 0,256 0,389 0,531 0,684 0,855 1,057 1,314 1,703 2,052 2,158 2,473 2,771 2728 0,127 0,256 0,389 0,530 0,684 0,855 1,056 1,313 1,701 2,048 2,154 2,467 2,763 2829 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2,150 2,462 2,756 2930 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 2,042 2,147 2,457 2,750 30

35 0,126 0,255 0,388 0,529 0,682 0,852 1,052 1,306 1,690 2,030 2,133 2,438 2,724 3540 0,126 0,255 0,388 0,529 0,681 0,851 1,050 1,303 1,684 2,021 2,123 2,423 2,704 4050 0,126 0,254 0,387 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2,109 2,403 2,678 5060 0,126 0,254 0,387 0,527 0,679 0,848 1,045 1,296 1,671 2,000 2,099 2,390 2,660 60120 0,126 0,254 0,386 0,526 0,677 0,845 1,041 1,289 1,658 1,980 2,076 2,358 2,617 120

Gra

us d

e Li

berd

ade p = 90% 80% 70% 60% 50% 40% 30% 20% 10% 5% 4% 2% 1%

Gra

us d

e Li

berd

ade

Page 88: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 83

porém para amostras menores que esse valor essa variável vai se afastando de z e, quanto menor for o valor de n, maior é o afastamento existente entre a variável t e z.

A tabela que fornece os valores de t, contém na 1a. linha, a área locada nas caudas da curva, à esquerda de –t e à direita de t. Na 1a. coluna, está os graus de liberdade (n-1). Na interseção dos valores considerados, temos os valores de t correspondente. Exemplo: Qual o intervalo de confiança para a média, no nível de 95%, sendo que uma amostra de tamanho 20 forneceu média 38 e desvio padrão 5? Solução:

38x = , n = 20, s = 5. No nível de 95%, obtemos o valor de t cruzando na tabela da t – Student: p = 5% e gl = n-1 = 20-1 = 19 → t = 2,093. Assim:

]34.40,66.35[205093,238,

205093,238

nstx,

nstx%]95,[IC =⎥

⎤⎢⎣

⎡+−=⎥

⎤⎢⎣

⎡+−=µ

Exemplo: Estabeleça limites de confiança para a média, no nível de 90%, sendo que uma amostra de tamanho 16 forneceu média 70 e desvio padrão 6,8? Solução: Temos que 70x = , n = 16, s = 6,8 e para um nível de 90%, obtemos o valor de t cruzando na tabela da t – Student: p = 10% e gl = n-1 = 16-1 = 15 → t = 1,753. Assim:

]98.72,02.67[168,6753,170,

168,6753,170,%]90,[ =⎥

⎤⎢⎣

⎡+−=⎥

⎤⎢⎣

⎡+−=

nstx

nstxIC µ

12.7. Exercício – Parte III – A3

Determine o intervalo de confiança de 99% para a média, sendo que uma amostra de tamanho n = 9 forneceu média 75 e desvio padrão 7.

Page 89: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 84

13. TESTES DE HIPÓTESES

Estimação versus Teste de Hipóteses Qual é a probabilidade de "cara" no lançamento de uma moeda?

A moeda é honesta ou é desequilibrada?

Qual é a proporção de eleitores favoráveis ao candidato A?

O candidato A tem até 50% das intenções de voto ou tem mais?

Qual é a proporção de motoristas que tiveram sua carteira apreendida após a

vigência da nova lei de trânsito?

Pelo menos 2% dos motoristas habilitados de SP tiveram suas

carteiras apreendidas após a entrada da nova lei do trânsito ou não?

13.1. Introdução

Quando colhemos uma amostra de uma determinada população, nosso objetivo é tirar conclusões sobre os parâmetros dessa população. Assim, a partir das informações amostrais estimamos os parâmetros da população.

Entretanto, se existe algum referencial sobre valores que os parâmetros de uma população devem assumir, podemos testar hipóteses, formuladas sobre esses parâmetros, de conformidade com as informações obtidas da amostra. Igualmente, pode-se testar a hipótese de que uma amostra pertence a uma população de parâmetros dados ou ainda, se duas populações têm parâmetros iguais.

13.2. Formulação das Hipóteses

Para testarmos parâmetros de uma população, formulamos hipóteses a respeito desses parâmetros. Essas hipóteses são denominadas:

H0: Hipótese nula Ha: Hipótese alternativa Testar hipóteses formuladas consiste em decidir se aceita ou se rejeita a hipótese nula (H0).

Quando se rejeita a hipótese nula, automaticamente está sendo aceita a hipótese alternativa (Ha).

Exemplo: Numa amostra de 100 peças produzidas por uma máquina foram encontradas 4 defeituosas. A proporção de peças defeituosas é p =0,05? Testes de Hipóteses possíveis: a) H0: p = 0,05

Ha: p ≠ 0,05 Teste Bilateral

b) H0: p = 0,05 Ha: p > 0,05

Teste unilateral à direita

c) H0: p = 0,05 Ha: p < 0,05

Teste unilateral à esquerda 13.3. Tipos de Erros possíveis nos Testes de Hipóteses Erro tipo I: (α) – Rejeitar a hipótese H0 quando na realidade ela é verdadeira. (α é chamado de nível de significância do teste)

Page 90: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 85

Erro tipo II (β) – Aceitar a hipótese H0 quando na realidade ela é falsa.

(a) Os valores de α e β são as probabilidades de cada um dos erros tipo I e tipo II ocorrerem, respectivamente, ou seja,

α = P(erro tipo I) = P(rejeitar Ho dado que Ho é verdadeira) β = P(erro tipo II) = P(aceitar Ho dado que Ho é falsa) 13.4. Nível de Significância de um Teste de Hipótese (α)

É a probabilidade máxima que aceitamos cometer o erro do tipo I (α): Os níveis de significância usualmente adotados são 0,10 (10%), 0,05 (5%) e 0,01 (1%). Quando se deseja testar hipóteses, o primeiro passo é fixar o nível de significância, antes

mesmo de se colher uma amostra. Geralmente, quanto menor for à probabilidade de se cometer o erro tipo I, maior será a

probabilidade de se cometer o erro do tipo II. A única forma de se reduzir às probabilidades relativas aos dois tipos de erros é aumentando o tamanho da amostra, pois quanto maior for à amostra, maior será a precisão das estimativas dos parâmetros.

13.5. Teste de Hipóteses para a Proporção Exemplo 1: Numa amostra de 100 peças produzidas por uma máquina foram encontradas 4 defeituosas. Testar ao nível de significância de 5%, a hipótese de que a proporção de peças defeituosas é p = 0,03 ou é maior. Solução: Hipóteses: H0: p = 0,03 Ha: p > 0,03 (curva unilateral à direita ) Para um nível de significância de 5% temos da Tabela da distribuição Normal Padrão que o z que fornece a área cinza de 0,05, representada na figura, é z = 1,64. Fórmula para obter o z observado na amostra:

zobs = 5103,0

1000384,001,0

100)03,01(03,0

03,004,0

n)p1(p

pp≅=

−−

=−

Conclusão do Teste de Hipóteses: Como zobs = 0,5103 < z = 1,64, não conseguimos rejeitar H0, isto é, aceita-se a hipótese de que a proporção de peças defeituosas é igual a 0,03.

Região Crítica

Região de Aceitação

Page 91: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 86

Exemplo 2: Numa amostra de 100 peças produzidas por uma máquina foram encontradas 3 defeituosas. Testar ao nível de significância de 5%, a hipótese de que a proporção de peças defeituosas é p = 0,08 ou é menor. Solução: Hipóteses: H0: p = 0,08 Há: p < 0,08 (curva unilateral à esquerda) Regra de decisão para Nível de Significância α = 0,05: Para um nível de significância de 0,05 temos que z = - 1,64. O valor de z observado na amostra é:

zobs = 84,1

1000736,0

05,0

100)08,01(08,0

08,003,0

n)p1(p

pp−≅

−=

−−

=−

Conclusão do Teste de Hipóteses: Como zobs = -1,84 < z = -1,64, então rejeito H0, ou seja, há indícios de que a proporção de peças defeituosas é menor que 0,08. Exemplo 3: Numa amostra de 100 peças produzidas por uma máquina foram encontradas 4 defeituosas. Testar ao nível de significância de 5%, a hipótese de que a proporção de peças defeituosas é p = 0,05 ou é diferente. Solução: Hipóteses: H0: p = 0,05 Ha: p ≠ 0,05 (teste bilateral) Regra de decisão para Nível de Significância α = 0,05:

Considerando o nível de significância de 5%, temos que os z’s que fornecem as áreas cinza representada na figura acima, é z = - 1,96 e z= 1,96. O valor de z observado na amostra é:

0,05 Região de Aceitação

Região Crítica

0,025

0,025 Região de Aceitação

Regiões Críticas

Page 92: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 87

zobs = 46,0

10095,0.05,0

01,0

100)05,01(05,0

05,004,0

n)p1(p

pp−≅

−=

−−

=−

Conclusão do Teste de Hipóteses: Como z = -1,96 < zobs = -0,46 < z = 1,96, então não rejeitamos H0, isto é, aceito a hipótese de que a proporção de peças defeituosas é igual a 0,05. 13.6. Exercícios – Parte III – A3 1) Uma nova série de televisão precisa provar que tem mais do que 25% de audiência de telespectadores depois das 13 primeiras semanas de exibição para ser julgada bem-sucedida. Considere que uma amostra de 400 famílias, 112 estavam vendo a nova série. Com um nível de significância de 10%, a série pode ser julgada bem-sucedida com base na informação da amostra? Qual a sua conclusão do teste de hipótese? 2) Um contador acredita que os problemas de fluxo de caixa de uma empresa são o resultado direto do lento recebimento das contas a receber. O contador afirma que pelo menos 70% das atuais contas a receber têm mais de dois meses de idade. Uma amostra de 120 contas a receber mostrou que 78 têm mais do que dois meses de idade. Teste a afirmação do contador a um nível de significância de 5%.

Page 93: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 88

13.7. Teste de Hipóteses para Média com Variância Conhecida

Estimação Versus Teste de Hipóteses Qual a quantidade média de leite

das caixinhas de leite da marca A? As caixinhas de leite da marca A têm em

média 1 litro de leite ou mais? Qual o peso médio das mulheres que estudam na UFSJ e estão no

quarto período de Administração?

O peso médio das mulheres que estão no quarto período de Administração na UFSJ é igual a 60 kg ou é diferente?

Formulação das hipóteses Exemplo: Um comerciante atacadista de cereal admite uma média de impureza de 0,5 kg nas sacas de 60 kg desse cereal. Ao se tomar uma amostra de certo número de sacas de um novo fornecedor, obtém-se um valor para a média e o desvio padrão, que permitirão, com certa probabilidade de êxito, decidir se a média de impurezas por saca do novo fornecedor é igual a 0,5 kg, ou se é maior ou menor que 0,5 kg. Testes de Hipóteses possíveis: a) H0: µ = 0,5

Ha: µ ≠ 0,5 b) H0: µ = 0,5

Ha: µ > 0,5 c) H0: µ = 0,5

Ha: µ < 0,5 Teste da média com variância conhecida Exemplo 1: Uma amostra de 36 elementos de uma variável X normalmente distribuída forneceu média x = 42,3. Sabendo que a desvio padrão populacional σ = 5,2, teste ao nível de significância de 5%, a hipótese de que a média é maior que 40. Solução: Hipóteses: H0: µ = 40 Ha: µ > 40 (curva unilateral à direita ) Nível de significância = 5% ⇒ z = 1,64.

Valor de z observado na amostra: Zobs = 65,22,5

6.3,2

62,5

403,42

362,5

403,42==

−=

−=

n

µ

Conclusão do Teste de Hipóteses: Como zobs = 2,65 > z = 1,64, então rejeito H0, isto é, aceito a hipótese de que a média da população é maior que 40.

Região Crítica

Região de Aceitação

Page 94: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 89

Exemplo 2: Uma amostra de 36 elementos de uma variável X normalmente distribuída forneceu média x = 42. Sabendo que o desvio padrão populacional é σ = 12. Testar ao nível de significância de 5%, a hipótese de que a média é menor que 44. Solução: Hipóteses: H0: µ = 44 Ha: µ < 44 (curva unilateral à esquerda ) Nível de significância = 5% ⇒ z = 1,64.

Valor de z observado na amostra: zobs = 122

612

4442

3612

4442−=

−=

−=

−=

n

µ

Conclusão do Teste de Hipóteses: Como zobs = -1 > z = -1,64, então aceito H0, isto é, aceito a hipótese de que a média da população é igual a 44. Exemplo 3: Uma amostra de 36 elementos de uma variável X normalmente distribuída forneceu média x = 40. Sabendo que o desvio padrão populacional é σ = 12. Testar ao nível de significância de 5%, a hipótese de que a média é diferente de 40. Hipóteses: H0: µ = 40 Ha: µ ≠ 40 (teste bilateral) Nível de significância = 5% ⇒ z = -1,96 e z = 1,96.

Valor de z observado na amostra: zobs = 020

612

4040

3612

4040==

−=

−=

n

µ

Conclusão do Teste de Hipóteses: Como z = -1,96 < zobs = 0 < z = 1,96, então aceito H0, isto é, aceito a hipótese de que a média da população é igual a 40.

0,05 Região de Aceitação

Região Crítica

0,025

0,025 Região de Aceitação

Regiões Críticas

Page 95: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 90

13.8. Exercícios – Parte III – A3 1) Uma máquina automática de encher pacotes de café enche-os segundo uma distribuição normal, com média µ e variância (conhecida) 400 g2. A máquina foi regulada para µ = 500g. Desejamos, de meia em meia hora, colher uma amostra de 16 pacotes e verificar se a produção está sob controle, isto é, se µ = 500g ou não. Se uma dessas amostras apresentasse uma média x = 492g, você pararia ou não a produção? Considere um nível de significância de 1%. 2) Sabe-se que o consumo mensal per capita de um determinado produto tem distribuição normal, com desvio padrão (conhecido) 2 kg. A diretoria de uma firma que fabrica esse produto resolveu que retiraria o produto da linha de produção se a média de consumo per capita fosse menor que 8 kg. Caso contrário, continuaria a fabricá-lo. Foi realizada uma pesquisa de mercado, tomando-se uma amostra de 25 indivíduos, e verificou-se um consumo mensal médio de x = 7,2. Construa um teste de hipótese adequado, utilizando um nível de significância de 5%, e com base na amostra colhida, determine a decisão a ser tomada pela diretoria da firma.

Page 96: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 91

13.9. Teste de Hipóteses para Média com Variância Desconhecida Exemplo 1: Foi testada uma amostra de 9 cigarros de uma certa marca, com relação ao nível de nicotina, fornecendo média x = 42 mg e desvio padrão s = 6 mg. Testar ao nível de significância de 5%, a hipótese de que a média é maior que 40 mg. Solução: Hipóteses: H0: µ = 40 Ha: µ > 40 (curva unilateral à direita) Nível de significância de 5%, obtemos na Tabela da t-Student o t que fornece a área cinza de 0,05, representada na figura. Graus de liberdade: n – 1 = 9 – 1 = 8. Se o teste tiver cauda unilateral à direita: p = 2 x α = 2 x 0,05 = 0,10 = 10%. Então: t = 1,860.

Valor de t observado na amostra: tobs = 122

362

96

4042

ns

x===

−=

µ−

Conclusão do Teste de Hipóteses: Como tobs = 1 < t = 1,860, então aceito H0, isto é, aceito a hipótese de que a média da população é igual a 40. Exemplo 2: Uma nova amostra de 16 cigarros da mesma marca forneceu média x = 40 mg e desvio padrão s = 4 mg. Testar ao nível de significância de 5%, a hipótese de que a média é menor que 44 mg. Solução: Hipóteses: H0: µ = 44 Ha: µ < 44 (curva unilateral à esquerda) Nível de significância de 5%, obtemos na Tabela da t-Student o t que fornece a área cinza de 0,05, representada na figura. Graus de liberdade: n – 1 = 16 – 1 = 15. Se o teste tiver cauda unilateral à esquerda: p = 2 x α = 2 x 0,05 = 0,10 = 10%. Então: t = 1,753.

Valor de t observado na amostra: tobs = 414

444

164

4440

ns

x−=

−=

−=

−=

µ−

Page 97: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 92

Conclusão do Teste de Hipóteses: Como tobs = -4 < t = -1,860, então rejeito H0, isto é, aceito a hipótese de que a média da população é menor que 44. Exemplo 3: Outra amostra de 16 cigarros forneceu média x = 42 mg e desvio padrão s = 4 mg. Testar ao nível de significância de 5%, a hipótese de que a média é diferente de 40. Hipóteses: H0: µ = 40 Ha: µ ≠ 40 (teste bilateral) Nível de significância de 5%, obtemos na Tabela da t-Student o t que fornece a área cinza de 0,05, representada na figura. Graus de liberdade: n – 1 = 16 – 1 = 15. Se o teste tiver cauda bilateral: p = α = 0,05 = 5%. Então: t = -2,131 e t = 2,131.

Valor de t observado na amostra: tobs = 212

442

164

4042

ns

x===

−=

µ−

Conclusão do Teste de Hipóteses: Como t = -2,131 < tobs = 2 < t = 2,131, então aceito H0, isto é, aceito a hipótese de que a média da população é igual a 40.

Região de Aceitação

Região de Rejeição

Page 98: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 93

13.10. Exercícios – Parte III – A3 1) A experiência de muitos anos de uso de um dispositivo eletrônico, da marca A, tem mostrado que sua vida média é de µ = 286 horas. Uma amostra de n = 16 dispositivos de uma nova marca B deu uma vida média de x = 290 horas com desvio padrão de s = 8 horas. Testar, ao nível de significância de 10%, se os dispositivos das duas marcas têm a mesma vida média ou se a vida média do B é maior que a do A. 2) A experiência de muitos anos de uso de uma lâmpada, da marca A, tem mostrado que sua vida média é de µ = 300 horas. Uma amostra de n = 9 lâmpadas de uma nova marca B deu uma vida média de x = 290 horas com desvio padrão de s = 6 horas. Testar, ao nível de significância de 10%, se as lâmpadas das duas marcas têm a mesma vida média ou se a vida média da B é menor que a da A. 3) Uma amostra de 16 empregados de uma empresa forneceu os seguintes resultados com relação às alturas: média 173 cm e desvio padrão 16 cm. Testar ao nível de 10% as hipóteses de que a média da população é igual ou diferente 175cm.

Page 99: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 94

Lista de Exercícios 3 Exercício 01 Examinando 100 peças produzidas por uma máquina, foram encontradas 3 defeituosas. Obter a estimativa intervalar, no nível de 95%, para a proporção de peças defeituosas dessa máquina. Exercício 02 Uma amostra de 50 estudantes de uma Universidade mostrou que 8 destes apresentam problemas visuais. Obter a estimativa intervalar, no nível de 90%, para a verdadeira percentagem dos estudantes com problemas visuais. Exercício 03 Uma amostra de n = 64 elementos de uma variável normalmente distribuída forneceu média 25,4, sendo que o desvio padrão populacional é 5,2. Determine o intervalo de confiança de 90% para a média. Exercício 04 Determine o intervalo de confiança de 99% para a média do ponto de fusão de uma substância química, sendo que uma amostra de tamanho n = 9 pontos de fusão desta mesma substância forneceu uma média 75 e um desvio padrão amostral igual a 7. Exercício 05: Uma moeda é lançada 100 vezes, obteve-se 42 caras. Testar com um nível de significância de 10% a hipótese de que essa moeda é viciada. Exercício 06: Uma amostra de 50 alunos de uma escola de 1o grau apresentou 3 canhotos. Testar, ao nível de significância 10%, a hipótese de que a percentagem de alunos canhotos dessa escola é diferente de 0,05. Exercício 07: Sabe-se que o consumo mensal per capita de um determinado produto tem distribuição normal, com desvio padrão 2 kg. A diretoria de uma firma que fabrica esse produto resolveu que retiraria o produto da linha de produção se a média de consumo per capita fosse menor que 8 kg. Caso contrário, continuaria a fabricá-lo. Foi realizada uma pesquisa de mercado, tomando-se uma amostra de 25 indivíduos, e verificou-se um consumo mensal médio de x = 7,2. Construa um teste de hipótese adequado, utilizando um nível de significância de 5%, e com base na amostra colhida, determine a decisão a ser tomada pela diretoria. Exercício 08: A experiência de muitos anos de uso de uma lâmpada, da marca A, tem mostrado que sua vida média é de µ = 300 horas. Uma amostra de n = 9 lâmpadas de uma nova marca B deu uma vida média de x = 290 horas com desvio padrão de s = 6 horas. Testar, ao nível de significância de 10%, se as lâmpadas das duas marcas têm a mesma vida média ou se a vida média da B é menor que a da A. Exercício 09: Uma amostra de 16 empregados de uma empresa deu os seguintes resultados com relação às alturas: média 173 cm e desvio padrão 16 cm. Testar ao nível de 10% as hipóteses de que a média da população é igual ou diferente 175cm. Observação: O gabarito da Lista de Exercícios 3 encontra-se no Apêndice C

Page 100: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 95

APÊNDICE A Gabarito da Lista de Exercícios 1

1) População: eleitores brasileiros. Amostra: 122 pessoas entrevistadas em Brasília. 2) (a) Qualitativa Ordinal; (b) Qualitativa Nominal; (c) Quantitativa Discreta; (d) Quantitativa Contínua. 3) Aleatória Simples: 61, 09, 26, 29, 11, 77, 79, 04, 57, 59. Sistemática:N/n = 80/10 = 8; x = 6; Amostra: 6, 14, 22, 30, 38, 46, 54, 62, 70, 78. Estratificada: Mulheres (4): 09, 26, 29, 11. Homens (6): 09, 26, 29, 11, 04, 02. 4) Zonas: 045, 020, 099, 033, 197, 166, 040, 005, 038, 115, 041, 173, 030, 025, 123. 5) (a)

Tabela: Conceitos obtidos de 60 alunos na disciplina de Estatística na Escola E Conceitos Freqüência Absoluta Proporção Porcentagem

Ótimo 03 0,05 05,0 Bom 22 0,367 36,7

Médio 25 0,417 41,7 Ruim 10 0,166 16,6 Total 60 1 100

Interpretação: Podemos observar na Tabela acima que a maior proporção dos alunos da Escola E obtiveram conceito Médio na disciplina Estatística (42%) e apenas 5% conquistaram o conceito Ótimo. Além disso, 37% concluíram com conceito Bom e 16% com conceito Ruim. (b)

Conceito

Freq

uênc

ia A

bsol

uta

RuimMédioBomÓtimo

25

20

15

10

5

0

10

25

22

3

Figura: Gráfico de Barras para os Conceitos obtidos na disciplina de Estatística de 60 alunos da Escola E.

Page 101: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 96

16,7%R

5,0%O

41,7%M

36,7%B

Figura: Gráfico de Composição em Setores para os Conceitos obtidos na disciplina de Estatística de 60 alunos da

Escola E. (O : Ótimo; B : Bom; M : Médio; R : Ruim)

Freq

üênc

ia A

bsol

uta

Porc

enta

gem

Acu

mul

ada

ConceitosCount

5,0Cum % 41,7 78,3 95,0 100,0

25 22 10 3Percent 41,7 36,7 16,7

ÓtimoRuimBomMédio

60

50

40

30

20

10

0

100

80

60

40

20

0

Figura: Gráfico de Pareto para os Conceitos obtidos na disciplina de Estatística de 60 alunos da Escola E.

Page 102: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 97

6) (a) mínimo = 10; máximo = 22; média = 16,913; moda = 14.1, 16, 16.9, 19.5, 22; mediana = 16,9; Q1 = 15,0; Q3 = 19,5. (b) amplitude = 12; variância = 8,296; desvio-padrão = 2,88; intervalo-interquartil = 4,5. (c)

Tabela: Comprimento de 31 canos PVC vendidos em uma loja de material de construção Comprimento Freqüência Absoluta Proporção Porcentagem Densidade

[10, 12) 1 0,0322581 3,2 0,0161290 [12, 14) 3 0,0967742 9,7 0,0483871 [14, 16) 6 0,1935480 19,4 0,0967742 [16, 18) 10 0,3225810 32,2 0,1612900 [18, 20) 6 0, 1935480 19,4 0,0967742 [20, 22] 5 0,1612907 16,1 0,0806452

Total 31 1 100 ------ Interpretação: A maior parte dos canos tem comprimento entre 16 e 18m (32,2%), ....(descrever a coluna da porcentagem) (d)

Comprimento

Den

sida

de

22201816141210

0,18

0,16

0,14

0,12

0,10

0,08

0,06

0,04

0,02

0,00

0,0806452

0,0967742

0,16129

0,0967742

0,0483871

0,016129

Figura: Histograma do comprimento de 31 canos PVC vendidos em uma loja de material de construção.

(e)

Comprimento22212019181716151413121110

Figura: Diagrama de dispersão unidimensional do comprimento de 31 canos PVC vendidos em uma loja de material de

construção.

Page 103: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 98

Com

prim

ento

22

20

18

16

14

12

10

Figura: Box-plot do comprimento de 31 canos PVC vendidos em uma loja de material de construção.

1 10 0 1 11 3 12 35 4 13 8 7 14 117 10 15 035 (7) 16 0013799 14 17 049 11 18 28 9 19 3557 5 20 035 2 21 2 22 00

Figura: Ramo-e-folhas do comprimento de 31 canos PVC vendidos em uma loja de material de construção. 7) a) Média = 69,87 e Mediana = 68. A média e a mediana foram bem diferentes. Embora 50% dos índios tenham pulsação abaixo de 68, os índios com maior pulsação, fez com que o valor médio da pulsação fosse maior, isto é, aproximadamente 70. Quando os valores são distintos da média e mediana, implica que os dados são assimétricos. (conforme mostra o gráfico da alternativa (d) desse exercício) b) Mínimo = 60, Q1 = 60, Q3 = 76 e Máximo = 88.A menor e a maior pulsação foram 60 e 88, respectivamente. 25% dos índios tiveram pulsação inferior a 60 e 25% superior a 76. 50% obtiveram entre 60 e 76. c) Variância = 91,12 e Desvio Padrão = 9,55. A variabilidade das pulsações foi de 9,55 em torno do valor médio da pulsação. d)

P u l s a ç ã o

Freq

üênc

ia A

bsol

uta

8 88 07 67 26 86 46 0

4

3

2

1

0

Figura: Gráfico de barras das medidas da pulsação de 15 índios nativos dos Alpes Peruanos.

Page 104: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 99

8) (a) Média = 15,8; Desvio Padrão ≅ 3,8. (b) Média – 2*Desvio ≅ 8,3. Sim, a cidade D. (c) Fazer a média dos investimentos das cidades que tiver 8,3 ≤ Investimento ≤ 23,3. Ivestimento Básico ≅ 16,8. O valor no item (a) era menor em 1 unidade, pois a cidade D foi retirada do cálculo, por não ter o investimento dentro do intervalo pré-estabelecido. A média no item (a) foi menor, porque a cidade D é um possível outlier e o valor da média é sensível aos valores discrepantes, isto é, o seu valor é influenciado por valores pequenos ou grandes. 9)

Medicamentos Nº De Cobaias

Mínimo Máximo Média Mediana Q1 Q3 Amplitude Variância Desvio Padrão

IQ

A 10 13 15 14,2 14 13,5 15 2 0,622 0,789 1,5 B 8 12 14 13,375 13,5 13 14 2 0,554 0,744 1 C 8 11 13 12,125 12 11,5 13 2 0,696 0,835 1,5

Embora as medidas de dispersão, em geral, mostram que o medicamento C tem maior variabilidade dos dados, as medidas de posição mostraram que o medicamento C é o que fornece menor tempo de cicatrização do completo fechamento dos cortes provenientes de cirurgia. 10) (a)

Barcos

Mor

tes

8580757065

80

70

60

50

40

30

Figura: Gráfico de Dispersão do número de peixes-boi mortos versus o número de barcos de turismo (em milhares) que

circulam em seu habitat na Flórida-EUA. Podemos observar visualmente que há uma relação linear positiva entre o número de peixes-boi mortos com o número de barcos de turismo (em milhares), isto é, quanto mais barcos passar no habitat dos peixes-boi, maior será o número de mortes. (b) r ≅ 0,922. Podemos notar através de r, que a correlação positiva entre X e Y é significativa. (c) Mortes = 2,27*Barcos – 113

Page 105: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 100

d) r2 = 84,9%. 84,9% da variação do número de peixes mortos é explicado pelo número de barcos (em milhares) que passam no seu habitat. 15,1% é devido a outros fatores que não foram estudados, tais como, substâncias químicas eliminadas no habitat dos peixe-boi, pescadores, etc. 11) (a)

Idade

Mas

sa

8070605040

120

110

100

90

80

70

60

Figura: Gráfico de Dispersão da idade versus a massa muscular de 18 mulheres com idade entre 40 e 79 anos.

(b) r = – 0,837. O valor do coeficiente de correlação indica que as variáveis idade e massa muscular estão relacionadas linearmente de forma negativa, ou seja, quanto maior a idade menor é a massa muscular. (c) Y = 148,197 – 1,027 X. O coeficiente a = 148,197 (intercepto) não pode ser interpretado, porque a variação de X não contém o valor 0. O coeficiente b = - 1,027 (inclinação) indica que a cada aumento de um ano na idade, espera um decréscimo de aproximadamente 1 da massa muscular.

Page 106: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 101

APÊNDICE B

Gabarito da Lista de Exercícios 2

1) (a) (A ∪ B) b) (A ∩ Bc) ∪ (Ac ∩ B) c) (A ∪ B)c d) (A ∩ Bc) 2) a) P(A∪B) ≅ 0,0358 b) P((A ∪ B)c) ≅ 0,9641 c) P((A ∩ Bc)) ≅ 0,023 3) P(M|A) = 0,292 4)

X 15 17 18 20 E[X] = P(X) 0,3575 0,1925 0,2925 0,1575 17,05

5) 0,8192 6) (a) 0,59049 (b) 0,32805 (c) 0,99144 7) (a) 0,5 (b) 0,33333 8) (a) 0,376812 (b) 0,282609 (c) 0,0376812 (d) 0,0086957 9) (a) 0,367879 (b) 0,981011 (c) 0,264242 10) (a) 0,0000454 (b) 0,0103361 (c) 0≅ 11) (a) 0,4332 (b) 0,0668 (c) 0,0062 (d) ≅ 41,34 12) (a) 0,2967 (b) 0,0062 (c) 0,0475 13) (a) boas: 0,8904 recuperáveis: 0,0932 defeituosas: 0,0164 (b) E[T] ≅ 0,09

Page 107: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 102

APÊNDICE C

Gabarito da Lista de Exercícios 3

1) IC[P ; 95%] = [ ]0634,0;0100

97,0.03,096,103,0;100

97,0.03,096,103,0 =⎥⎦

⎤⎢⎣

⎡+−

2) IC[P ; 90%] = [ ]245,0;075,050

84,0.16,0645,116,0;50

84,0.16,0645,116,0 =⎥⎦

⎤⎢⎣

⎡+−

3) IC[µ ; 90%] = [ ]5.26;3.24642,5645,14,25;

642,5645,14,25 =⎥

⎤⎢⎣

⎡+−

4) IC[µ ; 99%] = [ ]8.82;2.679

7355,375;9

7355,375 =⎥⎦

⎤⎢⎣

⎡+−

5) Hipóteses: Ho: p = 0,5 Ha: p ≠ 0,5 Nível de Significância: α = 0,10 Proporção Amostral: 42,0ˆ =p

Estatística do Teste: 6.1

1005,0.5,05,042,0

−=−

=observadoz

Regra de Decisão: Pela tabela da distribuição normal, Ha e nível de significância: RC = (-∞ , -1.645] ∪ [1.645 , +∞) RA = (-1.645 , 1.645) Conclusão: Como zobservado ∈ RA, então não rejeito Ho com um nível de significância de 10%, ou seja, não podemos afirmar que a moeda é viciada. 6) Hipóteses: Ho: p = 0,05 Ha: p ≠ 0,05 Nível de Significância: α = 0,10 Proporção Amostral: 06,0ˆ =p

Estatística do Teste: 32.0

5095,0.05,005,006,0

≅−

=observadoz

Regra de Decisão: Pela tabela da distribuição normal, Ha e nível de significância: RC = (-∞ , -1.645] ∪ [1.645 , +∞) RA = (-1.645 , 1.645) Conclusão: Como zobservado ∈ RA, então não rejeito Ho com um nível de significância de 10%, ou seja, podemos afirmar que 5% dos alunos dessa escola de 1º grau são canhotos. 7) Hipóteses: Ho: µ = 8 kg Ha: µ < 8 kg Nível de Significância: α = 0,05

Page 108: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 103

Estatística do Teste: 2

252

82,7−=

−=observadoz

Regra de Decisão: Pela tabela da distribuição normal, Ha e nível de significância: RC = (-∞ , -1.645] RA = (-1.645 , +∞) Conclusão: Como zobservado ∈ RC, então rejeito Ho com um nível de significância de 5%, ou seja, a média de consumo per capita é menor que 8 kg. 8) Hipóteses: Ho: µ = 300 Ha: µ < 300 Nível de Significância: α = 0,10

Estatística do Teste: 5

96

300290−=

−=observadot

Regra de Decisão: Pela tabela da t de Student com Graus de Liberdade = 8 e p = 20%, Ha e nível de significância: RC = (-∞ , -1.397] RA = (-1.397 , +∞) Conclusão: Como zobservado ∈ RC, então rejeito Ho com um nível de significância de 10%, ou seja, a vida média de B é menor que a de A. 9) Hipóteses: Ho: µ = 175 Ha: µ ≠ 175 Nível de Significância: α = 0,10

Estatística do Teste: 5,0

1616

175173−=

−=observadot

Regra de Decisão: Pela tabela da t de Student com Graus de Liberdade = 15 e p = 10%, Ha e nível de significância: RC = (-∞ , -1.753] ∪ [1.753 , +∞) RA = (-1.753 , 1.753) Conclusão: Como zobservado ∈ RA, então não rejeito Ho com um nível de significância de 10%, ou seja, podemos afirmar que a altura média é de 175 cm.

Page 109: Apostila estatistica 2009 mec

Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 104

APÊNDICE D - Aula no Laboratório de Computação 1) Em certa localidade, obtiveram-se os seguintes dados sobre precipitação pluviométrica anual, X (cm) e à colheita de algodão, Y (kg/are) para um período de 7 anos:

Ano 1 2 3 4 5 6 7 X 1,0 158,85 118,65 114,80 75,0 127,15 111,15 Y 520 190 208 213 310 194 160

a) Obtenha a média, mediana, Quartil 1, Quartil 3 e desvio-padrão de X e Y. b) Quantos pontos aberrantes você encontrou em cada Box-plot de X e Y? c) Construa o Dot-Plot de X no MINITAB e escreva em qual intervalo de valores de X estão a maior parte dos dados. d) Construa o Ramo-e-Folhas de Y no MINITAB e escreva em qual intervalo de valores de X estão a maior parte dos dados. e) Construa o diagrama de dispersão entre X e Y no MINITAB. Qual a relação entre X e Y visualmente? f) Obtenha o valor da correlação e a reta de regressão entre X e Y. g) Faça o teste-t para testar, com um nível de significância de 5% se: Ho: µ

X = 50 contra Ha: µ

X ≠ 50.

h) Sabendo que o desvio de Y é igual a 10, teste com um nível de significância de 10% as hipóteses: Ho: µ

Y = 256 contra Ha: µ

Y > 256.

2) Se entrevistamos 1500 pessoas e 1050 são a favor de um candidato, teste com um nível de significância de 1% se ele vencerá as eleições. 3) Quando uma máquina nova está funcionando adequadamente, somente 3% dos itens produzidos apresentam defeitos. Suponha que 5 itens são selecionadas aleatoriamente. (a) Qual a probabilidade de encontrarmos 2 defeituosos? (b) Qual a probabilidade de encontrarmos 3 ou mais defeituosos? 4) Para fazer o controle de qualidade numa empresa, lotes com 100 peças são examinados. Todo lote é composto por 10 peças defeituosas. Após coletar uma amostra de 5 peças sem reposição, calcule a probabilidade de que nessa amostra não haja nenhum item defeituoso? 5) Durante o período de tempo em que reservas por telefone estão sendo feitas na universidade local, as chamadas chegam à razão de uma a cada dois minutos. (a) Qual é a probabilidade de 3 chamadas em 2 minutos? (b) Qual é a probabilidade de 2 ou mais chamadas em um período de 4 minutos?