View
123
Download
1
Category
Preview:
DESCRIPTION
Apostila básica de estatística
Citation preview
UNIVERSIDADE
Estadual de Londrina
ESTATÍSTICA
Análise Exploratória de Dados
Probabilidade
Variáveis Aleatórias
PROFESSORES: Dr. José Carlos Dalmas
Ms. José da Costa Soeiro
LONDRINA
2014
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
2
ESTATÍSTICA
INTRODUÇÃO
No moderno ambiente administrativo e econômico global, dispõe-se de uma vasta
quantidade de informações estatística. Os gerentes tomadores de decisão de maior sucesso são
capazes de entender a informação e usá-la eficazmente. A seguir, fornecemos alguns
exemplos que ilustram o uso da estatística.
Nos negócios frequentemente necessita de previsões sobre o futuro do ambiente
econômico, tais como: previsão de taxas de inflação, índice de preços do consumidor, taxa de
desemprego e a utilização da capacidade de produção. Escritórios de Contabilidade usam o
procedimento de amostragem estatística quando realiza auditorias, cálculo de índices etc.
Os consultores financeiros utilizam uma série de informações estatísticas para guiar
suas recomendações de investimentos. No caso das ações, os consultores revêem diversos
dados financeiros incluindo relações preço/ganhos e rendimento de dividendos para concluir
se uma ação individual está sendo sobre ou subavaliada.
Para estabelecer estratégias de marketing, os gerentes utilizam se da estatística para
melhor entender o comportamento do mercado consumidor.
A estatística pode ser utilizada como uma ferramenta de controle da qualidade, com a
criação de cartas de controle, bem como no monitoramento do processo de produção.
Pode se definir a Estatística como: um conjunto de métodos e processos quantitativos
que servem para estudar e medir os fenômenos coletivos, conforme Bernoulli.
No estudo estatístico, o que interessa são os fatos que envolvem os elementos dos
fenômenos, como eles se relacionam e qual o seu comportamento. Para isso, é necessário que
esse estudo seja feito através uma investigação planejada, desenvolvida e redigida de acordo
com a metodologia de pesquisa científica.
METODOLOGIA DA ESTATÍSTICA
Dependendo do objetivo da pesquisa pode-se classificar a metodologia estatística a ser
aplicada como:
Estatística Descritiva
Usualmente a expressão estatística descritiva é empregada para descrever, analisar e
interpretar os registros quantitativos relativos aos atributos do fenômeno em estudo.
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
3
Estatística Indutiva
A estatística indutiva é a parte da Estatística que tem por objetivo obter e generalizar
conclusões para o todo a partir da análise de uma parcela.
OBTENÇÃO DE DADOS
A aplicação da análise estatística é utilizada a partir dos dados obtidos que descrevem
os elementos observados, tais como: características de pessoas, animais, empresas, indústrias,
sistema de produção, fenômenos físicos ou químicos etc.
A coleta desses elementos pode ser feita através de instrumentos, que se adéquam ao
tipo de pesquisa, ou seja, questionários, planilhas de anotações ou através de desenvolvimento
de experimentos.
NOÇÕES BÁSICAS
População
É o grupo de todos os elementos que possuem características comuns, que determinam
o universo a ser pesquisado.
Censo
É quando no estudo das características utilizam-se todos os elementos da população.
Amostra
Quando somente uma parte da população é analisada, retirada com técnicas estatísticas
adequadas, de forma a garantir a representatividade das características dos elementos da
população.
AMOSTRAGEM
Amostragem é um procedimento usado utilizado na retirada de amostras
representativas da população. Para se aplicar a amostragem deve se observar a composição da
população, o método de amostragem necessário e o tamanho da amostra.
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
4
RETIRADA DA AMOSTRA
Basicamente existem dois métodos para a composição da amostra: probabilístico e não
probabilístico.
MÉTODOS PROBABILÍSTICOS
O método de amostragem probabilística exige que cada elemento da população possua
a mesma probabilidade de ser selecionado. Assim, considerando N o tamanho da população, a
probabilidade de cada elemento será 1/N. Trata-se de um método que garante cientificamente
a aplicação das técnicas estatísticas.
Os tipos de amostragem probabilísticos mais usados são:
Amostragem Simples ao Acaso (ASA): Também conhecida como amostragem
aleatória é aplicada quando a população é considerada homogênea, ou seja, quando
todos os seus elementos têm a mesma característica e a mesma chance (probabilidade)
de serem selecionados. Para se aplicar essa amostragem deve-se considerar um
sistema de permita a seleção dos elementos através de um processo aleatório, ou seja,
numerar todos os elementos e, efetuar sucessivos sorteios até atingir o tamanho da
amostra desejado.
Amostragem Sistemática: Trata-se de uma variação da amostragem aleatória,
utilizada quando a população se encontra segundo algum critério, como fichas de um
fichário, listas telefônicas, pessoas organizadas em filas, produção em série etc. Tal
amostragem exige o seguinte procedimento:
Calcular o intervalo de retirada, que corresponde a quantidade de elementos de cada
grupo a ser dividida a população, obtido pela divisão do tamanho da população (N) pelo
tamanho da amostra (n), n
Ns .
Conhecido o valor de S (chamado de salto), sorteia-se um entre eles, que indicará a
posição do primeiro elemento da amostra. Para a retirada dos demais elementos deve-se
somar o valor de S à posição do elemento retirado anteriormente até compor a amostra
desejada.
Por exemplo: Seja o tamanho da população (N) = 1000
O tamanho da amostra (n) = 100
Logo o salto será S = 10
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
5
Dentre os dez primeiros elementos da população determinado pelo salto, sorteia se um
elemento suponha que tenha sido o número dois. Portanto, os elementos da população que
ocupam as posições: 2o; 12
o; 22
o; 32
o; ...; 992
o, irão compor a amostra, ou seja, a cada dez
elementos da população um será o representante na amostra.
Amostragem Estratificada: Utilizada quando a população é heterogênea onde se
distingui grupos mais ou menos homogêneos, os quais se denominam de estratos. Para a
estratificação de uma população pode-se utilizar de algumas características, tais como: classe
social, idade, sexo, profissão, ou qualquer outro atributo que revele os estratos dentro da
população. Após a determinação dos estratos, seleciona-se uma amostra aleatória de cada
estrato. O número de elementos retirados de cada grupo poderá ser proporcional ao tamanho
do estrato, obtendo assim, a Amostragem Estratificada Proporcional.
Tabela - Tamanho da amostra proporcional aos estratos.
Estrato Tamanho do estrato Relação (%) Tamanho da amostra
I 50 10 4
II 150 30 12
III 300 60 24
Total N= 500 100 n=40
Amostragem por Conglomerado: Algumas populações não permitem, ou tornam
extremamente difícil que se identifiquem seus elementos, mas pode ser relativamente
fácil separá-los na forma de grupos. Por exemplo, podem-se separar os grupos levando
em consideração: quarteirões, famílias, organizações, agências, edifícios, etc. O
procedimento de retirada da amostra consiste em sortear os grupos e todos os
elementos desses participarão da amostra. Assim, por exemplo, num levantamento da
população de uma cidade, pode-se dispor do mapa indicando cada quarteirão e não
dispor de uma relação atualizada dos seus moradores. Então, colhe-se uma amostra
dos quarteirões e faz-se a coleta dos dados de todos os que residem naqueles
quarteirões sorteados.
MÉTODOS NÃO PROBABILÍSTICOS
São amostragens em que os elementos são retirados em situações que não possibilitem
a seleção aleatória. Esse tipo de amostragem pode oferecer boas estimativas das
características da população.
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
6
São utilizadas em casos como: ensaios de drogas, vacinas, técnicas cirúrgicas,
pesquisa de opinião, etc.
Destacam-se entre elas:
Amostragem por conveniência: Ocorre quando o pesquisador seleciona os membros
da população dos quais é mais fácil se obter informações. Esse tipo de amostragem,
embora não aleatória, é bastante utilizada na área de marketing. Neste caso, é
importante o senso crítico do pesquisador para evitar vieses, como, não selecionar
sempre pessoas de mesmo sexo, de mesma faixa etária, etc.
Amostragem por julgamento: Ocorre quando o pesquisador utiliza seu próprio
julgamento ao selecionar os membros da população, através do estabelecimento de
uma característica que permite identificar elementos com boas perspectivas de
fornecer as informações necessárias.
Amostragem por quotas: devem–se determinar as quotas de controle dos elementos
pelas características da população alvo, que podem ser determinada através do sexo,
idade, raça, renda, escolaridade etc. Com esse procedimento de quotas fica assegurada
que a composição da amostra seja a mesma que a composição da população. A seguir
os elementos da amostra são selecionados à medida que se ajustem as quotas de
controle.
Exemplo:
Quantidade Sexo Escolaridade Idade Renda
5 Masculino Superior 30 10 s.m
3 Feminino Médio completo 18 3 s.m
Observação: Quanto menor o número de características da quota mais facilmente
fecha-se a coleta.
VARIÁVEL
Representa as características dos indivíduos que pode assumir diferentes valores.
Se um instrumento de uma pesquisa contém as seguintes perguntas:
Perguntas
Gerem informações
para as seguintes
variáveis
Variáveis
Qual a sua idade?
Qual o número de pessoas de sua família?
Qual a renda familiar?
Qual é o seu estado civil?
Você tem emprego fixo?
Qual o tempo de trabalho na empresa?
- Idade
- Tamanho da família
- Renda familiar
- Estado civil
- Emprego
- Tempo de trabalho.
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
7
CLASSIFICAÇÃO DAS VARIÁVEIS
Ao se fazer um estudo estatístico tem-se que considerar o tipo da variável:
Variáveis qualitativas são as que descrevem os atributos de um elemento.
Variáveis quantitativas são as provenientes de uma contagem ou mensuração.
As variáveis qualitativas e as quantitativas dividem-se em dois tipos:
Variáveis Tipos Descrição Exemplos
Qualitativas
ou
Categóricas
Nominal Sem ordenação. Cor dos olhos, sexo, estado civil.
Ordinal Com ordenação. Grau de instrução; classe social.
Quantitativas
Discretas Oriunda de contagem. Número de funcionários; número
acidentes de trabalho ocorrido durante um
mês.
Contínuas Oriunda de medição. Altura, peso, diâmetro de uma peça.
ATIVIDADE 1 - AMOSTRAGEM / VARIÁVEIS
TAMANHO DA AMOSTRA
Outro fator importante na aplicação da técnica de amostragem a ser considerado é o
tamanho da amostra que possa representar significativamente a população.
Para a determinação do tamanho da amostra deve se levar em conta além do tamanho
da população, os seguintes níveis:
Nível de confiança (nível de segurança) é a probabilidade associada aos resultados,
obtidos em uma amostra, como sendo verdadeiros para os parâmetros da população.
A probabilidade complementar é denominada de nível de significância, que consiste
na probabilidade do erro, ou seja, afirmar um valor que não é verdadeiro para a
população.
Margem de erro (nível de precisão) é a diferença máxima a ser aceita entre a
estatística amostral e o parâmetro populacional.
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
8
No caso de uma pesquisa com o objetivo de analisar variáveis categóricas, onde a
estatística de interesse na pesquisa é a proporção, onde os resultados são representados por
porcentagem de ocorrência dos itens:
Determina se o tamanho mínimo inicial de uma amostra baseado nos níveis definidos
pelo pesquisador:
2
2
0
1.
d
ppZn
Sendo: n0 tamanho inicial da amostra
Z (distribuição normal) associado ao nível de confiança estabelecido;
p proporção populacional estimada que possa ter o aspecto pesquisado (chamada de
prevalência ou incidência).
d margem de erro (nível de precisão).
Caso se conheça o tamanho da população (N), adéqua o tamanho inicial da amostra ao
tamanho da população finita pela relação:
Nn
Nnn
0
0 .
Exemplos:
1) Se considerar que uma pesquisa terá o nível de confiança de: 95%, com margem de
erro de 3% para mais e para menos, sendo que a proporção populacional (incidência)
com o atributo pesquisado seja de 15%. Determine:
a) a amostra mínima inicial;
b) a amostra mínima final, caso a população tenha 25.486 elementos.
c) a amostra mínima final se a população tiver 250 elementos.
2) Considerando nível de confiança de 90%, com margem de erro de 4% e proporção de
incidência de 30%. Qual o tamanho mínimo da amostra para uma população infinita?
3) Determine o tamanho da amostra inicial com nível de confiança de 95% e margem de
erro de 3%?
Quadro do tamanho mínimo da amostra conforme o tamanho da população, ao nível de
confiança de 95% e incidência de 50%.
POPULAÇÃO
(N)
AMOSTRA (n)
MARGEM DE ERRO
d=3%
MARGEM DE ERRO
d=5%
100 91 79
1000 516 277
5000 879 356
20000 1013 377
100000 1055 383
500000 1064 384
1000000 1067 384
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
9
Todavia, algumas observações podem ser levadas em considerações, a saber:
Quanto maior o número de elementos numa amostra, menor a margem de erro.
Quanto maior a homogeneidade da população, menor o tamanho da amostra.
ATIVIDADE 2: TAMANHO DA AMOSTRA
DESCRIÇÃO E APRESENTAÇÃO DE DADOS
Os dados obtidos em pesquisas devem ser analisados e interpretados com o auxílio de
métodos estatísticos, o que consiste na análise exploratória dos dados.
Na primeira etapa deve-se fazer uma análise descritiva que consiste na organização,
descrição dos dados, na identificação de valores que representem o elemento típico e, na
quantificação da variabilidade presente nos dados.
DADOS
São as informações inerentes às variáveis que caracterizam os elementos que
constituem a população ou a amostra.
Dados Brutos
São os dados obtidos diretamente da pesquisa, sem terem passados por nenhum
processo de síntese ou análise.
O grupo dessas informações obtidas através das variáveis compõe o que se denomina
de Banco de Dados.
Exemplo: Banco de Dados dos funcionários da Companhia Estilo Modas.
N Estado Civil Grau de Instrução No de filhos Salário (x s.mínimo) idade
1 solteiro fundamental 4,00 26
2 casado fundamental 0 4,56 32
3 casado fundamental 2 5,25 36
4 solteiro Médio 5,73 20
5 solteiro fundamental 6,26 40
6 casado fundamental 1 6,66 28
7 solteiro fundamental 6,86 41
8 solteiro fundamental 7,39 43
9 casado Médio 1 7,59 34
10 solteiro Médio 7,44 23
11 casado Médio 2 8,12 33
12 solteiro fundamental 8,46 27
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
10
N Estado Civil Grau de Instrução No de filhos Salário (x s.mínimo) idade
13 solteiro Médio 8,74 37
14 casado fundamental 3 8,95 44
15 casado Médio 0 9,13 30
16 solteiro Médio 9,35 38
17 casado Médio 1 9,77 31
18 casado fundamental 2 9,8 39
19 solteiro Superior 10,53 25
20 solteiro Médio 10,76 37
21 casado Médio 1 11,06 30
As variáveis: estado civil, grau de instrução são qualitativas, enquanto que o número
de filhos é uma variável quantitativa discreta e os salários e as idades representam variáveis
quantitativas contínuas, embora à idade esteja escrita de forma discreta.
ROL
Rol é o arranjo dos dados brutos numéricos em ordem crescente ou decrescente, se os
dados forem qualitativos o rol é construído em ordem alfabética.
Pode-se, pelo rol, verificar de maneira mais clara e rápida o comportamento dos dados
do conjunto identificando o maior e o menor valor, além de alguns elementos que podem se
repetir várias vezes.
REPRESENTAÇÃO TABULAR
Consiste em apresentar os dados coletados através de tabelas mostrando de forma
resumida o que ocorre com os dados observados.
Para organizar uma série estatística ou uma distribuição de frequências existem
algumas normas nacionais ditadas pela Associação Brasileira de Normas Técnicas (ABNT) as
quais devem ser respeitadas. Assim, toda tabela estatística deve conter:
Elementos essenciais
Título – indica a natureza do fato estudado (o quê?), o local (onde?) e a época (quando?).
Corpo – é o conjunto de linhas e colunas que contém as informações.
Cabeçalho – designa a natureza do conteúdo de cada coluna.
Coluna indicadora – mostra a natureza do conteúdo de cada linha.
Elementos complementares (se necessário)
Os elementos complementares geralmente são colocados no rodapé da tabela, que se
situa abaixo do traço horizontal da parte inferior da tabela, os quais são:
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
11
Fonte – é o indicativo da entidade responsável pela sua organização ou fornecedora dos
dados primários.
Notas – são colocadas para esclarecimentos de ordem geral.
Chamadas – servem para esclarecer minúcias em relação às caselas, colunas ou linhas.
Nenhuma casela da tabela deve ficar em branco, apresentando sempre um número ou
sinal.
Exemplo: Percentuais de exportações brasileiras por Estados, Maio/2008 TÍTULO
Estados Percentuais CABEÇALHO
Minas Gerais 21,92
CORPO
São Paulo 39,96
Rio Grande do Sul 17,50
Espírito Santo 7,68
COLUNA INDICADORA Paraná 9,56
Santa Catarina 3,38
Total 100,00
Fonte: Ministério da Agricultura RODAPÉ
Sinais Convencionais
- (hífen), quando o valor numérico é nulo;
... (reticência), quando não se dispõe do dado;
0; 0,0; 0,00 (zero), quando o valor numérico é muito pequeno para ser expresso pela
unidade utilizada, respeitando o número de casas decimais adotado;
Normas de construção
a) As tabelas devem ser fechadas acima e abaixo por linha horizontal, não sendo fechadas à
direita e à esquerda por linhas verticais.
b) O cabeçalho, os totais e os subtotais devem ser destacados por traços horizontais;
c) Manter a uniformidade do número de casas decimais.
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
12
Exemplo - Tabela univariável
Tabela – Mercado brasileiro de chocolate (2000)
Empresas Porcentagem
Lacta 35,4
Nestlé 31,6
Garoto 22,0
Neugbauer 3,6
Ferrero Rocher 0,9
Outras 6,5
Total 100,0
Fonte: ACB
Exemplo - Tabela bivariável
Tabela - Índice percentual do rendimento da Poupança no Brasil (2007)
Meses Índice (%)
Mensal Anual
Agosto 0,65 5,29
Setembro 0,54 5,85
Outubro 0,61 6,50
Novembro 0,56 7,10
Dezembro 0,56 7,70
Total
Fonte: Indicadores Econômicos da Agência de notícias Dossiê-Dinheiro
ATIVIDADE 3 - REPRESENTAÇÃO TABULAR
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
13
TABELA DE DISTRIBUIÇÃO DE FREQUÊNCIAS
Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o
comportamento dessa variável através da variação contida nos seus dados. A simples inspeção
visual desses dados dificilmente trará alguma informação relevante, assim, é necessário
sintetizá-los na forma de tabelas.
Uma distribuição de frequência é um sumário tabular de dados que mostra a
frequência (o número) de observações em cada uma dos diversos intervalos ou categorias.
Para os dados qualitativos:
Distribuição dos empregados da seção de orçamentos da Companhia MB
segundo o grau de instrução – 2011
Grau de instrução Frequência
Absoluta (fi)
Frequência
Relativa (fr%)
Fundamental 12 33,33
Médio 18 50,00
Superior 6 16,67
Total 36 100
Fonte: RH
Observa se de forma rápida e concisa as informações sobre o grau de instrução dos
empregados da empresa, onde se destaca que a metade deles cursou o ensino médio (50%) e
somente seis têm curso superior o que equivale a 17% aproximadamente de todos os
empregados.
Para dados quantitativos
a) discretos:
Idade dos funcionários da Companhia MB (2011)
Idade Frequência
Absoluta (fi)
Frequência
Relativa (fr%)
20 8 22,22
22 17 47,22
26 6 16,67
30 4 11,11
35 1 2,78
Total 36 100,00
Fonte: RH
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
14
b) contínuos:
Faixa salarial de empregados da seção de orçamentos da Companhia MB (2011)
Faixa Salarial (s.m) fi fr%
4,00 | 8,00 10 27,78
8,00 | 12,00 12 33,33
12,00 | 16,00 8 22,22
16,00 | 20,00 5 13,89
20,00 | 24,00 1 2,78
Total 36 100
Fonte: RH
Para se agrupar os dados selecionam-se intervalos contínuos, onde cada valor coletado
será alocado. Estes intervalos são chamados de intervalos de classe.
Etapas para a construção tabela de distribuição de frequências:
1a Etapa: Encontrar o menor e o maior valor do conjunto de dados e calcular a amplitude
entre eles por: At = no do maior – n
o do menor
2a. Etapa: Não existindo um critério rígido para estabelecer o número ideal de intervalos,
sugere-se que não se utilize menos de 6 e não mais de 15 intervalos. A experiência tem
demonstrado que se pode determinar o número de intervalos (classes) através de:
n tamanhode amostra uma para ,nlog.3,31K ou nK
3a. Etapa: Determinar a amplitude dos intervalos usando:
K
AtC
Sempre que possível pode-se arredondar o valor da amplitude dos intervalos para
valores inteiros, o que possibilita melhor leitura da tabela.
4a. Etapa: Definir os limites dos intervalos que podem ser expressos:
a) 20 ||30: contém os extremos 20 e 30;
b) 20| 30: contém o extremo 20 e não contém o extremo 30;
c) 20 |30: não contém o extremo 20, mas contém o extremo 30;
d) 20 30: não contém os extremos 20 e 30.
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
15
Exemplo:
1) O conjunto de dados apresenta o número de clientes atendidos na LOJA AKI-É-BARATO nos meses de
março e abril de 2012.
42 47 51 52 55 56 57 57 58 59
60 60 62 62 63 63 63 63 65 67
68 69 71 72 72 72 72 73 74 74
75 76 77 77 77 79 80 80 80 81
82 84 84 86 86 91 93 95 95 98
99 100 103 105 106 107 108 110 112 113
2) O conjunto de dados apresenta o número de minutos que 50 usuários de Internet gastaram na rede
durante o dia 30 de janeiro de 2013.
7 7 11 17 17 18 19 20 21 22
23 28 29 29 30 30 31 31 33 34
36 37 39 39 39 40 41 41 42 44
44 46 50 51 53 54 54 56 56 56
59 62 67 69 72 73 77 78 80 86
3) Faturamento (R$ 1000) do Supermercado Pague e Leve Ltda. Nos 40 dias de funcionamento nos meses
janeiro e fevereiro de 2013.
381 389 389 418 429 430 472 486 568 623
669 682 699 728 821 821 822 856 866 904
904 912 924 926 968 973 989 996 1006 1007
1028 1084 1109 1112 1148 1149 1168 1175 1201 1209
REPRESENTAÇÃO GRÁFICA
A representação gráfica da distribuição de uma variável tem a vantagem de, rápida e
concisamente, informar sobre sua variabilidade. Nos gráficos deve sempre:
Ter um título, onde se destaca o fato, o local e o tempo.
Ser construído em uma escala que não desfigure os fatos ou as relações que se deseja
destacar. A altura de um gráfico deve compreender entre 60% a 80% da largura.
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
16
Colocar a fonte de obtenção dos dados, caso não seja o próprio autor que tenha feito a
coleta.
REPRESENTAÇÃO GRÁFICA PARA VARIÁVEL QUALITATIVA (CATEGÓRICA)
Para esse tipo de variável os gráficos mais utilizados são: de colunas, de barras, de
setores e de linhas.
a) Gráfico de Colunas
Figura – Porcentagem total de produtos exportados em alguns estados do Brasil em março
de 2010.
b) ráfico de Setores
Figura – Porcentagem total de produtos exportados em alguns estados do Brasil
em março de 2010.
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
17
c) Gráfico de Barras
Figura – Porcentagem total de produtos exportados em alguns estados do Brasil em março
de 2010.
d) Gráfico de Linha
É o tipo mais utilizado para representar a evolução de uma variável ao longo
do tempo.
Figura – Série de cotações históricas da arroba do boi gordo no estado de São Paulo, Janeiro de 1999 à
Dezembro 2008.
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
18
DISTRIBUIÇÃO DE DUAS OU MAIS VARIÁVEIS QUALITATIVAS
Figura – Produção internacional de carne bovina no Brasil e Estados Unidos entre os
anos de 2000 e 2005 (FAO)
Figura – Produção internacional de carne bovina no Brasil e Estados Unidos entre os
anos de 2000 e 2005 (FAO)
REPRESENTAÇÃO GRÁFICA DE VARIÁVEIS QUANTITATIVAS
Para variáveis contínuas organizadas em tabelas de distribuições de frequências,
três tipos de gráficos são utilizados: histograma, polígono de frequência e ogivas.
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
19
Histograma
Figura – Faturamento em milhões de reais da empresa AJK, 2010.
Polígono de Frequências
Figura – Faturamento em milhões de reais da empresa AJK, 2010
0
10
20
30
40
50
60
3 11 13 5 7 9 15 17 21 19 23 25 27
0
10
20
30
40
50
60
2 4 6 8 10 12 14 16 18 20 24 22 26 28
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
20
Ogiva
Figura – Faturamento em milhões de reais da empresa AJK, 2010
ATIVIDADE 4 - DISTRIBUIÇÃO DE FREQUÊNCIAS
MÉTODOS NUMÉRICOS
Vimos que o resumo dos dados por meio de tabelas, gráficos e distribuições de
frequências nos fornece informações sobre o comportamento de uma variável, mais
informações complementares podem ser obtidas através valores representativos do conjunto,
determinados pelas seguintes medidas:
Medidas de Posição: média, mediana e moda.
Medidas de Dispersão: amplitude total, variância, desvio-padrão e coeficiente de
variação.
Medidas Separatrizes: quartil, decil e percentil.
0%
20%
40%
60%
80%
100%
2 3 5 7 9 11 13 15 17 19 21 23 25
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
21
MEDIDAS DE POSIÇÃO
As medidas de posição (média, mediana, moda) descrevem apenas uma das
características dos valores numéricos de um conjunto de observações, o da tendência central,
pois representam os fenômenos pelos seus valores médios, em torno dos quais tendem a
concentrar seus valores. Também são chamadas por medidas de tendência central.
Média Aritmética
Seja uma amostra de n elementos composta pelos seguintes valores: x1, x2,..., xn. A
média aritmética simples desses elementos é a soma das observações dividida pelo número
delas. É representada por:
n
x
X
n
i
i 1 ou simplesmente
n
xX
Onde: n é o número de observações da amostra.
Se os dados são relativos a uma população, a média aritmética simples é calculada por:
N
x
Sendo N é o número de elementos da população.
Exemplo: As taxas de juros recebidas por uma amostra de 10 ações durante certo período
foram (medidas em porcentagem):
2,59; 2,64; 2,60; 2,62; 2,57; 2,55; 2,61; 2,50; 2,63; 2,64. Calcule a média.
X =
Mediana
A mediana é outra medida de tendência central de uma variável. A mediana é o valor
que fica no meio da sequencia quando os dados são arranjados na ordem ascendente.
Com um número ímpar de observações, a mediana é o valor do meio, ou seja, que
divide os valores em partes iguais.
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
22
Um número par de observações não tem um valor único no meio. Neste caso,
seguimos a convenção de definir a mediana como sendo a média dos valores das duas
observações do meio.
50% 50%
Md
Exemplo: Para ilustrar o cálculo da mediana vamos considerar os seguintes dados que se
referem aos salários iniciais pagos para uma amostra de 11 economistas:
2350; 2450; 2550; 2380; 2560; 2210; 2390; 2630; 2440; 2420; 2380
Arranjando as observações na ordem crescente, obtém-se a seguinte lista, chamada de rol:
2210; 2350; 2380; 2380; 2390; 2420; 2440; 2450; 2550; 2560; 2630
Uma vez que o número de observações é ímpar, a mediana é o valor que se encontra
exatamente do meio da série. Assim, a mediana dos salários é 2420.
Se retirar o valor 2210 dessa amostra, teremos um número par de salários:
2350; 2380; 2380; 2390; 2420; 2440; 2450; 2550; 2560; 2630
Assim, a mediana será a média dos dois valores centrais, que são: 2420 e 2440.
24302
24402420
MdMediana
Moda
A moda é a observação mais freqüente. Caso não haja observação mais freqüente, a
distribuição é amodal. Podemos ter um conjunto unimodal (com uma moda), bimodal (com
duas modas) ou multimodal (com três ou mais modas). Para ilustrar a identificação da moda,
considere a amostra dos salários iniciais para os graduados em economia, apresentados
anteriormente, nela verifica-se que o salário mensal inicial que ocorre mais de uma vez é 238,
portanto, ele é a moda.
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
23
A moda é uma importante medida de posição para os dados qualitativos.
Exemplo: O conjunto de dados de preferência de refrigerantes resultou na seguinte
distribuição de frequência:
REFRIGERANTES FREQUÊNCIA
Coca-Cola 19
Coca-Cola Light 8
Pepsi-Cola 13
Sprite 5
TOTAL 45
A moda ou o refrigerante mais comprado é a Coca-Cola. Para este tipo de dados não tem
sentido falar em média ou mediana. A moda fornece a informação de interesse, o elemento
que ocorre com maior freqüência.
MEDIDAS DE DISPERSÃO
São valores que representam a variabilidade de um conjunto numérico, isto é, o
afastamento dos dados em relação a medida central.
Quanto maior a dispersão menor poder representativo da medida central (média).
Vários grupos podem ter a mesma média, mas serem muito diferentes na composição
dos seus valores. Por exemplo:
GRUPO VALORES MÉDIA
A 5 5 5 5
B 4 5 6 5
C 1 5 9 5
A média dos três grupos é a mesma (5), mas no grupo “A” não há variação entre os
dados, enquanto no grupo “B” a variação é menor que no grupo “C”.
Verifica se que embora a média seja a mesma, mas os elementos são diferentes em
cada grupo, logo a medida de dispersão pode representar, através de um único valor, as
distâncias entre os elementos e a média dos grupos.
Esses valores são determinados pelas seguintes medidas:
Amplitude total.
Variância.
Desvio padrão.
Coeficiente de Variação.
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
24
Amplitude Total
A amplitude total é a medida de dispersão mais simples. É denotada por At e calculada
pela diferença entre os valores extremos, ou seja:
At = valor máximo – valor mínimo
GRUPO VALORES MÉDIA AMPLITUDE TOTAL
A 5 5 5 5 0
B 4 5 6 5 2
C 1 5 9 5 8
Facilmente observa se a dispersão dos conjuntos através, da amplitude total, maior
dispersão maior valor.
Exemplo: Os seguintes dados foram obtidos para o número de minutos gastos ouvindo
música.
8,3 14,3 24,6 37,0 39,2 50,2 59,2 64,9 81,7 90,3
Assim a amplitude total do conjunto é: At =
Variância
Como a amplitude total é uma medida que não leva em consideração todos os valores
coletados, o cálculo da variância permite que seja usado todos os valores, sendo que sua
medida corresponde a média dos quadrados das diferenças de cada valor com a média do
grupo.
É calculada pelas as expressões abaixo:
Amostra População
1nn
xx
s
2
i2
i2
N
N
xx
2
i2
i2
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
25
Exemplo 1: A amostra apresenta o preço (R$) recomendável para diversas ações comerciais
20 22 14 15 25 18 40
Exemplo 2: Um departamento de produção usa o procedimento de amostragem para testar a
qualidade de seus produtos. O departamento emprega a seguinte regra de decisão em uma
estação de inspeção: se uma amostra de 14 itens tem uma variância maior que 0,005, a linha
de produção precisa ser interrompida para reparos. Para testar a qualidade de seus produtos
coletou-se uma amostra conforme quadro abaixo:
3,43 3,45 3,43 3,48 3,52 3,50 3,39
3,48 3,41 3,38 3,49 3,45 3,51 3,50
A linha de produção deveria ser interrompida?
Desvio – Padrão
O desvio padrão define-se como a raiz quadrada da variância o que possibilita uma
medida na mesma unidade dos dados.
Faz-se uma distinção entre o desvio padrão σ (sigma) do total de uma população, e o
desvio padrão s de um subconjunto em amostra
Amostra População
2ss 2
Exemplo: Considerando os dados do exemplo anterior, tem-se:
2ss =
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
26
Coeficiente de Variação
Para uma variável quantitativa
O coeficiente de variação serve para nos indicar o grau de representatividade da média
dentro de um conjunto de dados, bem como para comparar o comportamento de dois
conjuntos com unidades diferentes, pois trata se de uma medida relativa.
É calculado por:
x
sCV
É uma medida descritiva que indica a magnitude do desvio-padrão em relação à
média.
Por ser uma medida sem a influência das unidades (adimensional), podendo ser
representada na forma percentual, bastando para isso multiplicá-la por 100.
Exemplo: Tomando a média e desvio padrão do Exemplo 1 anterior, o coeficiente de
variação será:
ESTATÍSTICAS VALOR
Média
Desvio padrão
Coeficiente de Variação
Quanto menor o coeficiente de variação maior a representatividade da média.
Exemplo: Em uma semana uma empresa recebeu as seguintes quantidades de pedidos para os
produtos A e B. Determine os coeficientes de variação para cada produto.
PRODUTO A 39 33 25 30 41 36 37
PRODUTO B 50 52 47 49 54 40 43
PRODUTO MÉDIA DESVIO PADRÃO COEFICIENTE DE VARIAÇÃO
A
B
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
27
Para duas variáveis quantitativas
Exemplo para a comparação dos coeficientes de variação entre duas variáveis.
A tabela a seguir apresenta as medidas de tendência central; a dispersão absoluta e
a relativa dos pesos e alturas de funcionários:
PARÂMETROS ALTURA PESO
Média (X) 168 cm 53 kg
Desvio-padrão (s) 30 cm 9,49 Kg
Coeficiente de Variação (C.V) 17,86% 17,90%
Observa-se então, que embora o desvio padrão das alturas, seja aproximadamente,
três vezes maior que o desvio padrão dos pesos, os coeficientes de variação são praticamente
iguais para as duas amostras, isso significa que, embora os desvios padrão sejam discrepantes
e por possuírem unidades diferentes, não podemos fazer esse tipo de comparação diretamente
nos desvios, porém o grau de concentração dos dados em torno da média em cada variável é
aproximadamente igual é o que indicam os coeficientes de variação, onde os resultados não
têm influencia das unidades.
Exemplos:
1) Uma variável contábil, medida em milhares de reais, foi observada em dois grupos de
empresas apresentando os resultados seguintes:
GRUPO MÉDIA DESVIO PADRÃO
A 20 4
B 10 3
Qual produto que apresenta a maior dispersão absoluta e o de maior dispersão relativa?
2) Os dados abaixo representam o volume de vendas de dois vendedores em cinco meses.
MÊS VENDEDOR 1 VENDEDOR 2
Janeiro 20 30
Fevereiro 22 14
Março 18 20
Abril 20 12
Maio 20 24
Verifique qual vendedor tem menor variação nas quantidades vendidas mensalmente.
ATIVIDADE 5 – MEDIDAS DE POSIÇÃO E DISPERSÃO
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
28
MEDIDAS SEPARATRIZES: QUARTIS, DECIS E PERCENTIS
Quartis
Frequentemente é desejável dividir os dados em quatro partes, cada parte contendo
aproximadamente um quarto, ou 25% das observações. A figura abaixo mostra um
conjunto de dados divididos em quatro partes.
25% 25% 25% 25%
Q1 Q2 Q3
Os pontos da divisão são referidos como quartis e estão definidos como:
Q1 = primeiro quartil, separa 25% dos elementos abaixo do seu valor.
Q2 = segundo quartil, separa 50% dos elementos (também mediana).
Q3 = terceiro quartil, separa 75% dos elementos abaixo do seu valor.
Decis
Os decis dividem um conjunto de dados em dez partes iguais.
10% 10% ... 10%... 10% 10%
D1 D2 ... D5 ... D9
onde: D1 = 10 decil, deixa 10% dos elementos abaixo do seu valor.
D2 = 20 decil, deixa 20% dos elementos abaixo do seu valor.
.............................................................
D5 = 50 decil, deixa 50% dos elementos (coincide com a mediana)
............................................................
D9 = 90 decil, deixa 90% dos elementos abaixo do seu valor.
Percentis
Os percentis são as medidas que dividem um conjunto de dados em cem partes iguais.
1% 1% . . . 1 % 1%
P1 P2 P50 . . . P98 P99
onde: P1 = 10 percentil, deixa 1% dos elementos abaixo do seu valor.
P2 = 20 percentil, deixa 2% dos elementos abaixo do seu valor.
.............................................................
P50 = 500 percentil, deixa 50% dos elementos. (coincide com a mediana)
.............................................................
P99 = 990 percentil, deixa 99% dos elementos abaixo do seu valor.
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
29
Exemplo: A tabela representa o tempo de espera para ser atendido.
4,44 4,47 4,48 4,51 4,54 4,54 4,61 4,64 4,66 4,68
4,68 4,69 4,71 4,73 4,76 4,78 4,80 4,81 4,86 4,86
4,87 4,88 490 4,90 4,95 4,95 4,96 4,97 4,98 4,98
4,99 5,00 5,01 5,01 5,01 5,02 5,04 5,05 5,08 5,09
5,09 5,10 5,11 5,11 5,16 5,16 5,18 5,18 5,19 5,24
5,24 5,26 5,27 5,27 5,29 5,32 5,35 5,46 5,50 5,85
Para se determinar o valor correspondente de um percentil, deve se:
1o) Ordenar os dados em rol crescente.
2o) Determinar o indicador de localização (L), dado por:
100
.nkL ,
onde: k é o percentual desejado e n é o número de valores do conjunto de dados.
Se o valor de L for decimal, deve se recorrer a um dos seguintes procedimentos:
1) Interpolação aritmética, que calcula o valor da parte decimal a partir da diferença
com o menor valor do intervalo a qual esta inserido o percentil. Por exemplo, se o
valor do L for igual a 12,6, isso mostra que o valor do percentil pretendido está entre
os valores que ocupam as posições 12a e 13
a, devendo então calcular a diferença de 0,6
a partir do valor que ocupa a 12a através de uma regra de três, ou
2) Arredonda se o seu valor para o maior inteiro mais próximo.
Se o valor de L for inteiro, deve se somar o valor correspondente a L ao valor de L+1
e dividir o resultado por dois.
Exemplo: Calcular o percentil 25, que corresponde ao primeiro quartil, que deixa 25% dos
dados abaixo e 75% dos dados acima do seu valor, usa se:
15100
60.25L
Por se tratar de um número inteiro, deve se usar o 15º e o 16º valor em seu cálculo. Assim:
77,42
78,476,425
P = Q1.
Isto equivale a dizer que 25% das pessoas levaram até 4,77 minutos para serem atendidas.
Para se calcular o percentil 78 (P78), que deixa pelo menos 78% dos dados abaixo do
seu valor, deve se:
Localizar a sua posição na amostra através de: 8,46100
60.78L .
Como o valor de L é decimal, vamos considerar as duas possibilidades:
1) Interpolação aritmética: no valor de L está entre as posições 46a e 47
a, onde estão
os valores 5,16 e 5,18, observa-se que para uma diferença de uma unidade na posição
tem se uma diferença de 0,02 nos valores dos tempos, assim aplicando uma regra de
três para determinar o valor para a diferença de 0,06, logo;
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
30
Posição Tempo
1 → 0,02
0,06 → X
X = 0,0012
Como a diferença 0,06 é com a posição 46a então basta somar o valor 5,16 e o valor de
X, então o valor do P78 é 5,16 +0,0012 = 5,1612. (valor exato)
2) Arredondamento
Sendo 8,46100
60.78L , arredonda se para 47
a posição, assim o valor de P78 será o valor
5,18 (valor aproximado).
Assim, o valor 5,18 é o P78 que representa o tempo máximo gasto para serem
atendidos 78% dos clientes.
Observação: Caso se deseja calcular o quartil ou o decil, devem-se considerar as seguintes
maneiras de determinar a posição do valor procurado.
Para o quartil: 4
.nkL sendo K = 1, 2, ou 3.
Para o decil: 10
.nkL sendo o valor de K um número de 1 a 9.
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
31
BOX PLOT
O box plot introduzido pelo estatístico americano John Tukey em 1977 é a forma de
representar graficamente os dados da distribuição de uma variável quantitativa em função de
seus parâmetros. Os cinco itens ou valores: o menor valor (x1), os quartis (Q1, Q2 e Q3) e o
maior valor (xn), é importante para se ter uma idéia da posição, dispersão e assimetria da
distribuição dos dados. Na sua construção são considerados os quartis e os limites da
distribuição, permitindo uma visualização do posicionamento da distribuição na escala da
variável. Para melhor compreensão deste box plot, a figura abaixo apresenta um esquema
sintetizado:
Figura – Esquema para construção do box plot
A escala de medida da variável encontra-se na linha horizontal do quadro onde está
inserida a figura.
Na caixa retangular da figura são fornecidos os quartis Q1, na parte esquerda, e Q3 na
parte direita da caixa. Entre eles encontra-se a mediana da distribuição. Observe que 50% da
distribuição têm valores dentro da caixa.
As linhas horizontais que saem da caixa terminam nos limites: inferior (LI) e superior
(LS) da distribuição. Esses limites são determinados em função da distância entre os dois
quartis (Q3 e Q1), isto é, do desvio inter-quartílico dado por: DQ = Q3 – Q1 seja o tamanho da
Q1 Md Q3
Ponto Externo
* 0
Ponto Solto
1,5DQ DQ 1,5DQ
Valores LI LS
Valores típicos
3,0DQ
Limite inferior Limite superior
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
32
caixa. Para determinar os limites deve-se primeiramente calcular, o denominaremos de B1 =
1,5. DQ, assim os limites serão:
LI = Q1 – B1 e LS = Q3 + B1
Entre esses limites encontram-se os valores considerados como típicos da distribuição.
Valores com afastamento superior a B1, para cima ou para baixo, são considerados
atípicos, ou possíveis outliers.
Caso detecta a presença desses pontos, deve-se calcular o B2 = 3. DQ, e verificar a
existência de pontos entre B1 e B2, são chamados de pontos soltos, representados por (o).
Valores com afastamento superior a B2 para cima ou para baixo são considerados
como pontos externos, representados na figura por (*).
Quanto maior for o valor do desvio inter-quartílico (DQ), maior a variabilidade da
distribuição.
Exemplo: O objetivo do administrador é lucrar o máximo possível com o capital
investido em sua empresa. Uma medida de bom desempenho é o retorno sobre os
investimentos. A seguir são apresentados os mais recentes retornos em milhares (R$).
2.210 2.255 2.350 2.380 2.380 2.390
2.420 2.440 2.450 2.550 2.630 2.825
Resumo de cinco pontos:
menor valor = 2.210,
quartil 1 = 2.365,
quartil 2 = 2.405,
quartil 3 = = 2.500
e o maior valor = 2.825.
Desvio inter-quartílico (Tamanho da caixa) = DQ = Q3 – Q1 = 2.500 – 2365 = 135 e o
B1 = 1,5..DQ = 1,5. 135 = 202,5, logo os limites serão:
LI = Q1 – B1 = 2365 – 202,5 = 2162,5 e o
LS = Q3 + B1 = 2.500 + 202,5 = 2.702,5.
Verifica-se que do lado esquerdo do conjunto todos os valores são menores que o
limite inferior calculado, assim, a semi reta não deve ultrapassar o menor valor do conjunto,
do lado direito do conjunto existe um ponto fora de B1, então, a semi reta deve atingir o
tamanho de LS, em seguida, deve se calcular o B2,
B2 = 3. DQ = 3. 135 = 405, assim os pontos de referencia para o novo limite do lado
direito é dado por: Q3 + B2 = 2.500 + 405 = 2.905, observa-se que o valor (2825) esta entre B1
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
33
e B2, logo se trata de um ponto solto que deve ser representado por (0). Os dados fora destes
limites são considerados pontos fora da curva. A Figura apresenta um esquema do box plot
com esses resultados:
Figura – Resultados do desempenho de retorno de investimento da empresa
Observações atípicas (outlier)
É muito comum aparecerem entre os dados coletados, observações atípicas (outliers),
isto é, valores muito grandes ou muito pequenos em relação aos demais. Um conjunto de
dados pode apresentar apenas um ou vários outliers.
Observações atípicas alteram enormemente a média e a variabilidade do grupo a que
pertencem e podem até mesmo distorcer as conclusões obtidas através de uma análise
estatística padrão. Portanto, é de fundamental importância detectar e dar um tratamento
adequado a elas.
Causas do aparecimento de outliers
Dentre as possíveis causas do aparecimento de outliers, pode citar as seguintes:
Leitura, anotação ou transição incorreta dos dados.
Erro na execução do experimento ou na tomada da medida.
Mudanças não controláveis nas condições experimentais ou dos pacientes.
Medidas a serem tomadas
Quando um outlier é detectado, duas medidas podem ser tomadas: abandoná-lo ou
conservá-lo. Existem justificativas para cada uma dessas medidas e o tipo de análise pode
variar, dependendo se o outlier foi ou não eliminado.
2.162,5 2.365 2.405 2.500 2.702,5
Ponto fora da curva
2.825 2.210
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
34
Um outlier deve ser eliminado da análise quando houver uma justificativa
convincente, por exemplo, quando a observação é incorreta ou houve erro na execução do
experimento ou na anotação da medida. Após a eliminação do outlier pode-se fazer a análise
estatística usando-se apenas as observações restantes, ou uma análise mais sofisticada, que
foge ao nível deste texto.
Por outro lado, se nenhuma explicação pode ser dada à observação atípica, o outlier
pode refletir uma característica do que está sendo estudado. Neste caso, tal observação deve
ser incluída na análise e um tratamento especial deve ser dado aos dados. Por exemplo, pode-
se usar uma ponderação da influência das observações ou alternativamente uma
transformação ( x , log x, etc.) da variável estudada.
Exemplo:
Considere uma amostra com os seguintes valores dos preços praticados em 13
estabelecimentos comerciais:
3 15 17 18 21 21 22 25 27 30 38 49 68
a) Forneça a regra de cinco itens para os dados.
b) Calcule os limites superior e inferior.
c) Trace o gráfico em caixa
ATIVIDADE 6 – SEPARATRIZES / BOXPLOT
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
35
PROBABILIDADE E AS VARIÁVEIS ALEATÓRIAS DISCRETAS E
CONTÍNUAS
INTRODUÇÃO À PROBABILIDADE
As decisões nos negócios são freqüentemente baseadas na análise de incertezas tais
como as seguintes:
Quais são as chances de as vendas decrescerem se aumentarmos os preços?
Qual é a plausibilidade de um novo método de montagem aumentar a produtividade?
Qual é a probabilidade do projeto terminar no prazo?
Quais são as chances de um novo investimento ser lucrativo?
A probabilidade é uma medida numérica associada a ocorrência de certo fato.
Os valores da probabilidade são sempre atribuídos numa escala de 0 a 1. A
probabilidade próxima de zero indica baixa possibilidade de ocorrência do fato; já próxima de
1 indica a maior facilidade de ocorrência deste fato. Por exemplo, se considerarmos o fato
"chover amanhã", entendemos que quando a previsão do tempo indica 0,05 "uma
probabilidade próxima de zero de chover" significa "quase sem chance de chover". No
entanto, se uma probabilidade 0,90 de chuva é anunciada, sabemos que é muito provável que
chova. Uma probabilidade de 0,50 indica que é tão provável que chova como não. A
probabilidade pode assumir qualquer valor dentro da seguinte escala:
A aplicação da probabilidade está presente em qualquer área de trabalho, até na nossa
vida particular onde nos ajuda desenvolver planejamentos, estratégias nos negócios e nas
atitudes que iremos tomar, como no caso do motorista que anda em alta velocidade, achando
sempre que existe pouca possibilidade de ser apanhado. Nos negócios, as pessoas se sentem
mais estimuladas aplicar seu dinheiro onde houver maior chance de se obter lucro. Assim, a
probabilidade mede a possibilidade de ocorrência de um determinado fato.
Como a probabilidade está associada à ocorrência de um acontecimento, denominado
de experimento, os possíveis resultados desse acontecimento determinam um conjunto
0 0,5 1,0
Chance crescente de ocorrência
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
36
chamado de espaço amostral, e sub grupos associados a esse espaço são chamados de
eventos.
Por exemplo: No caso do lançamento de um dado, todos os resultados possíveis,
compõem o espaço amostral representado por:
S= {1, 2, 3, 4, 5, 6}
Nesse experimento a probabilidade de sair cada um desses valores é 1/6, ou 0,17. O
valor da probabilidade é sempre expresso sem unidade de medida, pois, representa o
relacionamento entre dois conjuntos, ou de um elemento com seu próprio conjunto. Para
melhor entendimento dessa relação, expressa se em porcentagem, logo a probabilidade de
cada elemento no lançamento de um dado é aproximadamente 17%.
Para o experimento do lançamento de um dado sua distribuição de probabilidade é
expressa da seguinte forma:
Número 1 2 3 4 5 6 Soma
Probabilidade 1/6 1/6 1/6 1/6 1/6 1/6 6/6 = 1
Verifica se:
Que os elementos do espaço amostral têm a mesma probabilidade, o que determina um
espaço amostral considerado equiprovável.
Todas as probabilidades são positivas.
A soma das probabilidades é igual a um, ou seja, para todos os espaços amostrais a
probabilidade a será: P(S) = 1.
É importante salientar que:
A probabilidade é igual a zero quando o evento for vazio (), isto é: P() = 0.
Sendo A , o evento complementar do evento A, a sua probabilidade pode ser calculada
através de: P( A ) = 1 - P(A)
No caso de um evento com o seguinte atributo o número ser menor que quatro, o
evento é: A={1, 2, 3}, para o cálculo da probabilidade associada a esse evento,usa se:
amostralespaçodoelementosdeNúmero
AeventodoelementosdeNúmeroAP
)( ou
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
37
possíveiscasosdeNúmero
favoráveiscasosdeNúmeroAP
)(
Assim para o evento A, tem se: %505,06
3)( AP .
Outros exemplos:
1) Num encontro consiste 25 estudantes de administração, 10 de economia, 15 de contábeis a
e 8 de engenharia de produção. Se uma pessoa é selecionada aleatoriamente pelo o instrutor
para responder a uma pergunta, determine a probabilidade de que o estudante escolhido: a)
seja da administração; b) seja da engenharia de produção ou contábeis; c) não seja da
economia.
2) Suponha que em um lote de 12 peças, 4 sejam defeituosas. Duas peças são retiradas
aleatoriamente. Calcule a probabilidade de: a) ambas sejam defeituosas; b) ambas sejam
perfeitas; c) pelo menos uma seja defeituosa.
3) Um grupo de pessoas está numa sala e é constituído por: 5 rapazes de mais de 21 anos, 4
rapazes com menos de 21 anos, 6 moças com mais de 21 anos e 3 moças com menos de 21
anos. Uma pessoa é escolhida ao acaso dentre as 18. Qual a probabilidade de: a) ter mais de
21 anos; b) ser um rapaz; c) ser uma moça; d) ser moça com menos 21 anos.
4) O sistema escolar do país Só alegria fornece acesso a internet a 21.733 escolas do nível
fundamental, 7.286 escolas do nível médio e 10.682 do nível superior. Existem no país 51.745
escolas do nível fundamental, 14.012 do nível médio e 17.229 do nível superior.
a) se você escolher aleatoriamente uma escola do nível fundamental para visitar, qual é a
probabilidade de que ela tenha acesso a internet?
b) se você escolher aleatoriamente uma escola do nível médio para visitar, qual é a
probabilidade de que ela tenha acesso a internet?
c) se você escolher aleatoriamente uma escola para visitar, qual é a probabilidade de que ela
seja do nível fundamental?
d) se você escolher aleatoriamente uma escola para visitar, qual é a probabilidade de que ela
tenha acesso a internet?
ATIVIDADE 7 - PROBABILIDADE
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
38
VARIÁVEIS ALEATÓRIAS
Uma variável aleatória fornece um meio para se descrever os resultados experimentais,
através de valores numéricos, associando um valor numérico a cada resultado do experimento.
Essa variável aleatória se classifica como discreta ou contínua, dependendo dos valores
numéricos que assume.
VARIÁVEIS ALEATÓRIAS DISCRETAS
Uma variável que pode assumir tanto um número finito de valores como infinita
seqüência de valores tais como 0,1,2,3,4,... é denominada variável aleatória discreta.
EXEMPLOS:
EXPERIMENTOS VAR. ALEATÓRIAS
DISCRETAS
POSSÍVEIS VALORES DA
VARIÁVEL
Atender cinco clientes no de clientes que compram 0,1,2,3,4,5
Inspecionar 50 declarações de
Imposto de Renda n
o de declarações com erros 0,1,2,3,...,49,50
Verificar as refeições servidas num
restaurante durante um dia n
o de refeições servidas 0,1,2,3,4,5,...
DISTRIBUIÇÃO DE PROBABILIDADE
Para uma variável aleatória discreta x, a distribuição de probabilidade é definida por
uma função de probabilidade, denotada por f(x). Essa função dá a probabilidade para cada um
dos valores da variável aleatória.
No desenvolvimento de uma função de probabilidade para qualquer variável discreta,
duas condições precisam ser satisfeitas:
p(x) 0 e p(x) = 1
Considere as vendas de automóveis de certa empresa como exemplo de uma variável
aleatória discreta e sua distribuição de probabilidade.
Nos últimos 300 dias de operação, os dados de vendas mostram 54 dias sem vendas de
automóveis, 117 dias com 1 automóvel vendido, 72 dias com 2 automóveis vendidos, 42 dias
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
39
com 3 automóveis vendidos, 12 com 4 automóveis vendidos e 3 dias com 5 automóveis
vendidos. Sendo a variável aleatória de interesse x o número de automóveis vendidos durante
um dia.
E sua distribuição de probabilidade é dada por:
X 0 1 2 3 4 5 Total
p(x) 54/300 117/300 72/300 42/300 12/300 3/300 300/300
A principal vantagem de se definir uma variável aleatória com sua distribuição de
probabilidade é que observando a distribuição das vendas de automóveis desta empresa,
vemos que o número mais provável de automóveis vendidos durante um dia é um com a
probabilidade de 0,39 (117/300). Além disso, outras probabilidades podem ser calculadas,
pois se o gerente quiser saber qual a probabilidade de se vender três automóveis ou mais
durante um dia, p(3) + p(4) + p(5) = 0,14 + 0,04 + 0,01 = 0,19. Essas probabilidades fornecem
informações que possibilitam entender o processo de venda de automóveis da sua empresa.
Uma distribuição de probabilidades de uma variável aleatória discreta apresenta
sempre duas características numéricas que são muito importantes para descrição do
comportamento dessa variável, são os parâmetros das distribuições, que chamamos de
esperança matemática e variância.
ESPERANÇA MATEMÁTICA
Denotada por E(x), que representa a média de uma variável aleatória. O valor esperado
é uma média ponderada dos valores que a variável aleatória pode assumir, onde os pesos são
as probabilidades. A expressão matemática para representar o valor esperado da variável
aleatória x é:
)(.)( xfxxE
Exemplo: Tendo a distribuição de probabilidade do número de automóveis vendidos durante
um dia na SOCAR.
X f(x) x.f(x) x2.f(x)
0 0,18 0 0
1 0,39 0,39 0,39
2 0,24 0,48 0,96
3 0,14 0,42 1,26
4 0,04 0,16 0,64
5 0,01 0,05 0,25
Total 1,5 3,5
)x(f.x)x(E 1,5. Significa que se espera vender em média 1,5 carros por dia.
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
40
VARIÂNCIA
A variância é uma média ponderada dos desvios da variável aleatória em relação a sua
média, elevados ao quadrado, onde os pesos são as probabilidades. A expressão matemática
usada para o seu cálculo está a seguir.
Sendo )x(f.x)x(E 22 = 3,5. Logo a variância é:
2222 )x(E)x(E)x(f.)x()x(V = 3,5 – (1,5)2 = 1,25
DESVIO – PADRÃO
O desvio padrão da variável x é a raiz quadrada da variância, isto é:
)( xV = 12,125,1
DISTRIBUIÇÃO BINOMIAL
Vários tipos de variável aleatória são usados com tanta freqüência que receberam
nomes especiais. Uma distribuição de variável aleatória discreta importante é a chamada
distribuição binomial.
A distribuição binomial se aplica a qualquer situação em que se realizam várias provas
independentes, cada uma das quais comporta apenas um dentre dois resultados possíveis.
Esses dois resultados chamam-se “sucesso” e “fracasso”. Seja X o número de sucessos. Se a
probabilidade de sucesso em cada prova é p e a probabilidade de fracasso é q = 1 – p. Então a
fórmula da função de probabilidade para a variável aleatória binomial é:
xnxx
n qpCxP ..)(
Onde: p = probabilidade do sucesso (o que se está sendo verificado)
q = probabilidade do fracasso, sendo p + q = 1, logo q = 1 – p.
x
nC A combinação de n elementos tomados x a x, dada por: !xn!x
!nC x
n
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
41
Sendo a Esperança (média) dada por: pnxE .)( e a variância qpnxV ..)(
Exemplo 1: Sabendo-se que 80% dos clientes de uma agência bancária são homens, qual a
probabilidade de se encontrar numa amostra de dez clientes:
a) Exatamente sete clientes homens? b) Mais de sete clientes homens?
c) Nenhum cliente homem? d) Calcule a média esperada e o desvio padrão de
clientes do sexo masculino.
Exemplo 2: Uma firma exportadora sabe que 5% das exportações algum problema na
documentação. Se ela realizar negócios com seis clientes, determine a probabilidade de:
a) Exatamente dois apresentarem problemas. b) Ao menos um apresentar problema.
c) No mínimo quatro apresentarem problemas. d) Exatamente cinco não apresentarem
problemas. d) Determine a média esperada e variância que descreve o comportamento deste
negócio de exportação.
Exemplo 3: O departamento de qualidade de uma empresa seleciona, aleatoriamente, alguns
itens que chegam “a empresa e submete-os a testes”. Para avaliar um lote de 150
refrigeradores, o departamento de qualidade selecionou 10 refrigeradores. Ele vai recomendar
a aceitação do lote se não existir item defeituoso na amostra. Supondo que o processo
produtivo desses refrigeradores gera um percentual de 3% de defeituosos, responda: qual a
probabilidade de que o lote venha a ser aceito?
ATIVIDADE 8 - DISTRIBUIÇÃO BINOMIAL
VARIÁVEL ALEATÓRIA CONTÍNUA
Uma variável aleatória que pode assumir qualquer valor numérico em um intervalo ou
uma coleção de intervalos é chamada de variável aleatória contínua. Como exemplo,
podemos considerar os resultados experimentais baseados em medição, ou seja: tempo, peso,
distância, temperatura etc.
EXEMPLOS:
EXPERIMENTOS V. A.
CONTÍNUAS
POSSÍVEIS VALORES V.
A. C.
Anotar o tempo gasto no atendimento de clientes. Tempo x 0
Anotar os volumes em recipientes de refrigerante
(Max =300 ml). Volume 0 x 300 ml
Anotar o tempo gasto nas ligações telefônicas. Tempo x 0
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
42
FUNÇÃO DE DENSIDADE DE PROBABILIDADE
Para as variáveis aleatórias contínuas a sua FUNÇÃO DE DENSIDADE DE
PROBABILIDADE satisfaz as seguintes condições:
a ) p (x) 0 , x R b )
1 )( dxxp
A aplicação da integral em uma função é um cálculo matemático, que às vezes, é
difícil devido ao tipo da função que determina o comportamento da variável, sendo que a
probabilidade é dada pela área determinada através da integral entre dois pontos que
determina o intervalo considerado na função.
DISTRIBUIÇÃO NORMAL
É a mais importante distribuição de probabilidade, sendo aplicada em inúmeros
fenômenos e utilizada para o desenvolvimento teórico da estatística. É também conhecida
como distribuição de Gauss, Laplace ou Laplace-Gauss.
A distribuição normal é um exemplo de distribuição de variável aleatória contínua. Na
verdade há muitas distribuições normais diferentes. Pode-se identificar uma distribuição
normal especificando-se dois números: a média e a variância (ou desvio padrão). A média está
localizada no pico da distribuição. A variância define a forma da distribuição, se ela é muito
dispersa ou se a maior parte da área se concentra na proximidade do pico, ou seja, do valor
médio.
Se X é uma variável aleatória normal com média () e variância (2)
, então sua função
de densidade é dada por:
0
.2
1)(
2
2
1
x
paraexp
x
Onde é a média o seu desvio padrão.
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
43
O gráfico determinado pela função da distribuição normal assemelha-se muito a um
sino, com o pico localizado na média () conforme figura abaixo:
A distribuição normal é especificada pela média e o desvio padrão. A variância (2)
determina a forma da curva; sendo que quanto maior o valor da variância significa maior
dispersão na curva.
Sua probabilidade é determinada pela área sob a curva, através da integral no intervalo
associado aos valores da variável.
As principais características dessa função são:
A curva é simétrica em relação à média ()
A média = mediana = moda
É assintótica em relação ao eixo das abscissas.
DISTRIBUIÇÃO NORMAL PADRONIZADA
Na maioria das vezes em que necessitamos da área sob a curva normal, devemos
recorrer a uma tabela. Seria impossível elaborar uma tabela para cada distribuição normal
com todos os valores possíveis da média e da variância. Felizmente, podemos achar os
resultados para qualquer distribuição normal apelando para uma tabela de distribuição normal
com média = 0 e variância 2 = 1. Essa distribuição normal especial é chamada distribuição
normal padrão.
Na prática, a distribuição normal apresenta um número muito grande de combinações
entre a média e o desvio padrão. No entanto, através da mudança de variável, contornamos
esse problema, fazendo com que todas as inúmeras distribuições normais reduzam-se a apenas
uma, ou seja, à distribuição Z. Além da variável z ser desprovida da unidade de medida (isto
é, constitui um número puro), ela serve para qualquer tipo de variável, independentemente de
sua unidade usando a seguinte fórmula:
x z
Onde z tem distribuição normal reduzida com a seguinte função densidade de probabilidade.
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
44
.e2πσ.
1 = p(x)
2
σ
μx
2
1
Sendo
x z 2
2
.2
1z
ezp
Exemplo 1: Usando a tabela da normal reduzida, calcule as seguintes probabilidades.
a) P (-2,34 < z < 0) b) P (-0,5 < z < 1,48)
c) P (0,86 < z < 2,89) d) P (-1,02 < z < -1,97)
e) P (z > 1,47) f) P (z < 2,05)
g) P (z > -2,63) h) P (z < -0,44)
Exemplo 2: Os salários pagos para os funcionários em determinada empresa seguem uma
distribuição normal com média igual a R$ 1.400,00 e desvio padrão igual a
R$ 227,00. Calcule a probabilidade de um funcionário escolhido ao acaso apresentar salário:
a) maior que R$ 1.680,00
b) menor que R$ 1450,00
c) qual o salário máximo para os 15% que detém os menores salários?
Exemplo 3: O tempo para um sistema computacional execute determinada tarefa é uma
variável aleatória com distribuição normal, com média 320 segundos e desvio padrão de 7
segundos.
a) Qual é a probabilidade de a tarefa ser executada entre 310 a 325 segundos.
b) Qual o tempo mínimo que separa os 10% dos tempos que mais demoram na execução?
Exemplo 4: Seja x a variável aleatória contínua com distribuição normal com um tempo
médio de atendimento de 2 minutos por cliente e desvio padrão 0,04 min. Determine a
probabilidade de um cliente ser atendido:
a) Entre 2 e 2,05 min.
b) Menos de 1,90 min.
ATIVIDADE 9 - DISTRIBUIÇÃO NORMAL
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
45
ATIVIDADE 1 - AMOSTRAGEM / VARIÁVEIS
1) Classifique as seguintes variáveis como quantitativas ou qualitativas: idade, sexo, renda familiar,
religião, cor, tempo de execução de uma tarefa e atividades esportivas.
2) Identifique as situações apresentas abaixo como variável quantitativa discreta ou contínua:
a) cada cigarro ( Ki-Mata) tem 16,1 mg de alcatrão;
b) o altímetro de um avião indica uma altitude de 21359 pés;
c) uma pesquisa efetuada com 1015 pessoas indica que 40 delas são assinantes de um serviço de
computador on-line;
d) o radar indica que Guga executou um saque com 110 Km/h;
e) de 1000 consumidores pesquisados, 930 reconheceram a marca da sopa Ki-delicia;
f) o tempo total gasto anualmente por um motorista de táxi em Nova York ao dar passagem a pedestres
é de 2,4 segundos;
g) ao terminar uma partida de vôlei um atleta pesa 1,4 Kg a menos do início da partida
3) Escreva sobre a forma de obter uma amostra de uma população que se considera organizada
alfabeticamente.
4) Destaque a característica observada na população para aplicação da amostragem estratificada ou por
conglomerado. Escreva os procedimentos que devem ser realizados nessas amostragens.
5) O Laboratório de Teste Produtos para o Consumidor seleciona uma dúzia de pilhas (indicadas como
de nove volts) de cada um dos fabricantes, e testa a capacidade efetiva de cada uma.Que tipo de
amostragem (aleatória, estratificada, sistemática, por conglomerado, de conveniência) está sendo
utilizado?
6) Identifique o tipo de amostragem utilizada: simples ao acaso, sistemática, estratificada, por
conglomerado, por conveniência e por quota:
a) Um assessor de um candidato deseja retirar uma amostra de 200 das 7.964 residências familiares de
um município. Para isto, lhes atribui os números: 0001, 0002, ..., 7964.
b) Um pesquisador da Universidade Estadual de Londrina pesquisa todos os estudantes de uma das
turmas de Economia selecionada aleatoriamente.
c) A empresa Sony seleciona um a cada 100 CDs de sua linha de produção para fazer teste de
qualidade.
d) O Programa de Planejamento Familiar deseja se informar sobre os pontos de vista dos homens e das
mulheres sobre o uso de anticoncepcionais. Para isso entrevista todos os homens e mulheres desta
comunidade.
e) O departamento de compras de uma Empresa deseja verificar a qualidade das peças adquiridas de
seus fornecedores. Para isto, seleciona aleatoriamente uma amostra das peças de cada um de seus
fornecedores.
f) Ao fazer uma pesquisa para o noticiário vespertino, um repórter da TV entrevista 20 pessoas que
saem do auditório do Teatro Cultura.
g) Das pessoas escaladas para um de júri, fez-se um sorteio entre as mulheres e entre os homens.
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
46
ATIVIDADE 2 - TAMANHO DE AMOSTRA
1) Em uma população de 4.780 elementos, qual o tamanho mínimo de uma amostra para que sejam
respeitados os seguintes níveis de probabilidade: de significância de 5% e o erro amostral de 2%?
(Z=1,96)
2) Deve-se extrair uma amostra de tamanho n = 320 de uma população de tamanho N = 2000, que
consiste de quatro estratos de tamanhos N1 = 500, N2 = 1200, N3 = 200 e N4 = 100. Se a alocação deve
ser proporcional, qual o tamanho da amostra a ser extraída de cada um dos quatro estratos.
3) Deseja-se fazer uma pesquisa junto a uma empresa para saber o interesse dos funcionários em
realizar cursos no exterior. Existem 3 mil funcionários, sendo 1,8 mil com mais dez anos de empresa e
1,2 mil com menos. Qual deve ser o tamanho da amostra probabilística sabendo-se que em cursos
semelhantes 5% dos funcionários acima de dez anos e 10% dos com menos de dez anos de empresa
participaram. Considerando 2% para o erro amostral e 90% de segurança. (Z = 1,64)
4) Qual o tamanho da amostra necessária para obter o intervalo de 98% de segurança para uma
proporção populacional se o erro tolerável é 9%?(Z=2,33)
5) Em uma pesquisa recente de mercado, o analista deseja estimar a proporção de pessoas que
compram o sabonete Cremoso e Refrescante. Pede-se: a) que tamanho de amostra devemos escolher se
queremos que, com probabilidade de segurança de 87%, a estimativa não desvie do verdadeiro valor
por mais de 3%? (Z=1,51), b) se tivermos a informação adicional de que a aceitação do sabonete é de
no mínimo 82%, qual deve ser então o tamanho da amostra?(Z=1,51). c) se decidimos por uma
amostra de tamanho 81, qual o erro máximo que cometemos com uma probabilidade 90%, caso nada
saibamos? (Z=1,64)
6) Uma pesquisa de mercado tem como objetivo estimar a proporção de pessoas que consomem o
biscoito Delícia Total. Pede-se: a) que tamanho de amostra devemos colher se queremos que, com
nível de confiança de 92%, a estimativa não desvie do verdadeiro valor por mais de 4%?(Z=1,75), b)
se tivermos a informação adicional de que a proporção de consumo do tal biscoito é no máximo de
35%, qual então deve ser o tamanho da amostra?(Z=1,75), c) decidimos colher uma amostra de
tamanho 130. Qual o erro máximo que cometemos com nível de confiança de 96%? (Z=2,05)
7) Uma empresa de pesquisa eleitoral foi contratada por u, político com o objetivo de investigar a
preferência dos eleitores pelo candidato da situação na próxima eleição. Sabe-se que a empresa e o
partido concordaram em usar um nível de confiança igual a 95% e um erro máximo igual a 4%.
Calcule os tamanhos das amostras necessárias nos seguintes casos.
Município Universo dos eleitores Valor suposto para a incidência
Gigantópolis Muito grande Nenhum
Miracema do Sul 5.000 6%
Bela Morada do Oeste 30.000 Nenhum
8) Um candidato a prefeito gostaria de fazer uma pesquisa eleitoral sobre a intenção de voto na sua
cidade de 45.896 eleitores. Sabe-se que sua popularidade é muito grande e existem boas perspectivas
para o candidato no primeiro turno das eleições. Estima-se que 72% dos eleitores pretendem votar no
candidato. Assumindo um nível de confiança de 91% e um erro amostral de 2%, qual deveria ser o
tamanho da amostra a ser analisada? (Z=1,70)
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
47
ATIVIDADE 3 - REPRESENTAÇÃO TABULAR
1) Numa pesquisa visando analisar os moradores da cidade Morando Bem, um dos pontos recaiu sobre
a renda familiar e o tamanho das famílias dos moradores. Numa amostra de 150 moradores
entrevistados verificou-se que:
-dos 52 moradores de renda baixa, cinco tinham famílias pequenas e 15 famílias médias;
-dentre aqueles de renda média baixa, oito tinham famílias pequenas, 10 famílias médias e 20 famílias
grandes;
-dentre os 45 moradores de renda média, 25 tinham famílias médias e oito famílias grandes;
-dos 12 que representavam os moradores de renda média alta, seis tinham famílias pequenas e apenas
duas de famílias grandes;
-além disso, a amostra continha três moradores de renda alta: dois com famílias pequenas e um com
família média.
De acordo com os dados acima, construa uma tabela que descreva os dados, apresentando as
frequências e porcentagens em relação ao total geral.
2) No ano de 2003, foram atendidos 627 clientes no setor de reclamação no Banco Money. Em 2004
foram atendidos 813 clientes. Em 2003, 595 eram brasileiros, dos quais 185 mulheres, sendo que havia
apenas cinco moças estrangeiras. Em 2004 foram atendidos 50 estrangeiros, dos quais apenas 6 eram
mulheres. Dos brasileiros atendidos nesse ano, haviam 204 mulheres. Represente esses dados na forma
tabular.
3) Uma pesquisa de opinião pública entrevistou 950 pessoas a respeito da fluoração da água da cidade,
dessas 432 mostravam-se favoráveis, 322 eram contrárias, 122 não tinham opinião formada sobre a
questão e as restantes não responderam. Mostre esses dados através de uma representação tabular,
apresentando as frequências e também os percentuais.
4) Construa uma distribuição tabular para mostrar que, de acordo com uma pesquisa desenvolvida pelo
PNAD (Pesquisa Nacional por Amostra de Domicílios), em 1996 havia no Brasil 53,6 milhões de
pessoas com renda familiar mensal até 330 reais (pobres e miseráveis), 58,7 milhões de pessoas com
renda familiar mensal de 330 reais até 1300 reais (emergentes) e 32,2 milhões de pessoas com renda
familiar mensal acima de 1300 reais (classe média e rica), apresentar também em porcentagem.
5) Substituir por uma tabela o trecho do relatório seguinte, retirado de um artigo da revista Veja, de
1987: “Ao contrário do que muitos imaginavam a Lei no 6515/77 não motivou muitos casais. Não
existem estatísticas recente que permitam afirmar-se que hoje, conforme asseguram alguns, os
divórcios têm aumentado. Baseado em dados existentes entre 1982 e 1985, a situação no Rio, São
Paulo e Brasília, é a seguinte: 1982 – Rio: 5.288 separações e 3.840 divórcios; São Paulo: 17.855
separações e 11.585 divórcios; Brasília: 941 separações e 430 divórcios; 1983 – Rio: 6.183 separações
e 4.428 divórcios; São Paulo: 11.549 divórcios e 20.646 separações; Brasília: 739 separações e 228
divórcios; 1984 – Rio: 6.819 separações e 3.854 divórcios; São Paulo: 10.606 divórcios e 23.970
separações; Brasília: 1.000 separações e 354 divórcios; 1985 – Rio: 4.603 divórcios e 8.298
separações; São Paulo: 30.340 separações e 13.257 divórcios; Brasília: 1.317 separações e 557
divórcios”. As informações foram obtidas nas Varas de Família.
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
48
6) Construa uma tabela com os dados abaixo, destacando as marcas, frequências absolutas e as
frequências relativas percentuais e elabora um título para a tabela. Os dados representam as marcas de
refrigerantes comprados no supermercado Barato que Só, em 10 de janeiro de 2010.
Coca-Cola Pepsi-Cola Coca-Cola Light Pepsi-Cola Sprite
Coca-Cola Sprite Coca-Cola Coca-Cola Coca-Cola
Coca-Cola Light Coca-Cola Pepsi-Cola Coca-Cola Light Coca-Cola
Pepsi-Cola Sprite Coca-Cola Sprite Coca-Cola Light
Coca-Cola Pepsi-Cola Coca-Cola Light Coca-Cola Light Coca-Cola
Pepsi-Cola Sprite Coca-Cola Pepsi-Cola S*+- prite
Coca-Cola Coca-Cola Coca-Cola Light Coca-Cola Pepsi-Cola
Pepsi-Cola Coca-Cola Light Coca-Cola Light Coca-Cola Sprite
Coca-Cola Light Pepsi-Cola Sprite Pepsi-Cola Pepsi-Cola
Pepsi-Cola Coca-Cola Light Coca-Cola Coca-Cola Light Coca-Cola
7) A tabela seguinte apresenta a tabulação cruzada de uma pesquisa sobre o fato de um estudante
possuir habilitação ou não. Encontre o que se pede:
a) tamanho da amostra analisada;
b) número de alunos habilitados analisados;
c) número de alunos Economia analisados;
d) o percentual de alunos habilitados do curso de Administração;
e) percentual dos alunos não habilitados que cursam Engenharia.
Distribuição de alunos da Faculdade do Saber, quanto ao curso e a habilitação - 2008
Curso Possui habilitação
Total Sim Não
Administração
fi 3 2 5
% linha 60 40 100
% coluna 30 20 25
% total 15 10 25
Economia
fi 3 6 9
% linha 33,3 66,7 100
% coluna 30 60 45
% total 15 30 45
Engenharia
fi 4 2 6
% linha 66,7 33,3 100
% coluna 40 20 30
% total 20 10 30
Total
fi 10 10 20
% linha 50 50 100
% coluna 100 100 100
% total 50 50 100
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
49
ATIVIDADE 4 - DISTRIBUIÇÃO DE FREQUÊNCIAS
1) O rol abaixo apresenta as idades de uma amostra de executivos da cidade de Londrina em agosto de
2008. Construa uma tabela de distribuição de frequências completa.
28 31 32 35 36 36 36 38 39 39
40 40 40 41 42 42 42 42 42 43
44 44 45 47 47 47 48 48 48 49
49 49 49 50 50 51 51 51 54 54
54 55 56 56 57 57 60 61 61 62
2) Os dados abaixo se referem ao tempo de atendimento de telefone (segundos) da empresa
SÓQUEROVOCÊ. Construa uma tabela de distribuição de frequências completa.
756 587 929 871 378 503 564 1128 693 748
448 670 1023 335 540 853 852 495 666 474
443 325 514 404 820 915 793 778 627 483
861 337 292 1070 625 457 676 494 420 862
991 615 609 723 794 447 704 396 235 552
626 688 506 700 240 363 860 670 396 345
3) O Departamento de Pessoal da Empresa AZ Ltda. fez um levantamento dos salários dos 120
funcionários do setor administrativo, em salários mínimos conforme a tabela:
a) Complete a tabela com as frequências possíveis e os pontos médios.
b) Represente graficamente através do histograma e polígono de frequência.
Salários do setor administrativo da Empresa AZ Ltda. – março/2008
Faixa Salarial (s.m) fi
1 | 3 30
3 | 5 48
5 | 7 24
7 | 9 18
Total
4) Responda as questões considerando a seguinte distribuição de frequências.
Tempo gasto para emissão de notas fiscais da Empresa AKI - fevereiro de 2006
Tempo (min) fi fr%
1 | 3 30 15
3 | 5 40 20
5 | 7 70 35
7 | 9 38 19
9 | 11 13 6,5
11| 13 09 4,5
Total 200 100
a) Quantas notas tiveram um tempo menor que 7 minutos?
b) Qual a porcentagem de notas que demoraram 9 minutos ou mais?
c) Qual o tempo médio para as notas pertencentes à classe de maior frequência?
d) Qual a porcentagem das notas emitidas que demoraram o menor tempo?
5) Tendo a seguinte distribuição de frequências complete as informações.
Distribuição dos salários (R$ mil) dos empregados da Empresa Só Ganha - 2008
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
50
Salários fi fr% Fc Frc%
2,75 | 2,80 5
2,80 | 2,85 13
2,85 | 2,90 32
2,90 | 2,95 8
2,95 | 3,00 47
3,00 | 3,05 3
Total 50 100
6) A tabela a seguir apresenta a distribuição de renda de uma amostra da população de uma cidade do
nordeste do país. Faça uma análise da tabela e descreva o perfil da renda nesta cidade, represente
através do histograma e do polígono de frequência.
Renda de 80 pessoas da cidade Sósofre – março de 2008
Renda (s.m) fi fr% Fc Frc%
1 | 3 58 72,50 58 72,50
3 | 5 10 12,50 68 85,00
5 | 7 7 8,75 75 93,75
Mais que 7 5 6,25 80 100,00
Total 80 100,00
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
51
ATIVIDADE 5 – MEDIDAS DE POSIÇÃO E DISPERSÃO
1) Os dados representam os números de acidentes ocorridos em julho de 2002, em Vila Boa de Morar,
em 18 cruzamentos sem indicação de conversão à esquerda:
2 6 8 10 12 11 14 18 22 24 25 26 28 29 31 32 32 35
Faça uma análise de exploração de dados, calculando as seguintes estatísticas:
a) média; b) mediana; c) moda; d) desvio- padrão; e)coeficiente de variação.
2) Um dos objetivos do aplicador é lucrar o máximo possível com o capital investido. Uma medida do
bom desempenho é retorno deste investimento. A seguir estão apresentados os retornos dos
investimentos de 24 aplicadores (em porcentagem).
5,0 5,1 6,2 8,6 9,0 9,2 9,6 11,2 12,2 12,3 12,8 14,5
14,7 15,8 16,6 17,3 17,3 19,2 19,6 22,9 30,3 31,1 41,6 52,7
Determine as seguintes medidas: média, mediana, moda, desvio padrão e o coeficiente de variação.
3) Uma loja vende cinco produtos básicos A, B, C, D, E. O lucro por unidade comercializada destes
produtos vale respectivamente $200,00; $300,00; $500,00; $1.000,00; $5.000,00. A loja vendeu em
determinado mês 20; 30; 20; 10; 5 unidades respectivamente. Qual foi o lucro médio comercializado
por esta loja?
4) Os dados abaixo informam os minutos gastos para o atendimento no caixa de um determinado
banco. Calcule: média, mediana, moda, desvio padrão e coeficiente de variação.
2,0 2,4 2,7 3,0 3,6 3,9 4,2 4,2 4,2
5,1 5,4 5,7 5,9 6,0 6,0 6,0 6,1 6,2
6,4 6,5 6,8 6,9 6,9 7,2 7,2 7,4 7,5
7,5 7,7 7,8 7,8 7,8 7,8 8,0 8,1 8,1
8,4 8,4 8,7 9 9,1 9,3 9,4 9,5 10,9
10,9 10,9 11,2 11,3 11,8 13,2 13,6 13,8 15,3
5) Um produto é acondicionado em lotes contendo cada um deles 10 unidades. O lote só é aprovado se
apresentar um peso superior a 40 quilos. Se as unidades que compõem determinado lote pesam 3; 4;
3,5; 5; 3,5; 4; 5; 5,5; 4; 5, este lote será aprovado? Qual o peso médio do produto?
6) O transporte público e o automóvel são dois meios que um empregado pode usar para ir ao trabalho
diariamente. Amostras de tempo para cada meio estão registradas a seguir. Os tempos estão em
minutos.
T.Público 28 29 32 37 33 25 29 32 41 34
T.Automóvel 29 31 33 32 34 30 31 32 35 33
a) Calcule o tempo médio da amostra de cada meio de transporte para ir ao trabalho.
b) Calcule o coeficiente de variação para cada meio de transporte.
c) Com base nos resultados (a) e (b), descreva as características de cada meio de transporte?
7) Considerando os resultados das turmas A e B. Compare as turmas quanto à homogeneidade dos
dados calculando o coeficiente de variação.
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
52
TURMA MÉDIA DESVIO-PADRÃO
A 22,5 4,5
B 24,0 5,4
8) Deseja-se comparar a qualidade de um produto produzido por duas fábricas. Essa qualidade é
definida pela uniformidade com que o produto é produzido em cada fábrica. A qualidade das duas
fábricas é a mesma conforme as medidas abaixo?
ESTATÍSTICAS A B
Tamanho 21 117
Média 21,15 21,12
Variância 0,0412 0,1734
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
53
ATIVIDADE 6 – SEPARATRIZES / BOXPLOT
1) Os dados abaixo se referem aos minutos gastos para o atendimento no caixa de um determinado
banco (min). Faça uma analise descritiva completa para os dados abaixo, ou seja, calcule as medidas
de posição, dispersão e construa o gráfico de Box plot.
6 12 12 14 15 15 15 15 16
17 18 18 19 19 19 20 21 21
22 22 22 23 23 23 23 23 23
24 25 25 25 27 27 28 32
2) Um dos objetivos da administração é lucrar o máximo possível com o capital investido em sua
empresa. Uma medida de bom desempenho é o retorno sobre a contrapartida - razão da entrada liquida
pela contrapartida das ações. Mostrados a seguir estão os mais recentes retornos sobre as porcentagens
de contrapartida para 25 empresas.
9,0 19,6 22,9 41,6 11,4 15,8 52,7 17,3 12,3 5,1
17,3 31,1 9,6 8,6 11,2 12,8 12,2 14,5 9,2 16,6
5,0 30,3 14,7 19,2 6,2
a) Forneça a regra de cinco itens para os dados.
b) Calcule os limites inferior e superior.
c) Trace o gráfico em caixa.
3) Os dados abaixo se referem aos resultados obtidos em um teste em um grupo de pessoas:
1,5 1,5 1,8 1,8 1,9 2,0 2,4 2,7 3,0 3,6
3,9 4,2 4,2 4,2 4,2 4,2 4,2 4,5 5,1 5,1
5,4 5,7 5,9 6,0 6,0 6,0 6,0 6,0 6,1 6,2
6,4 6,5 6,8 6,9 6,9 7,2 7,2 7,2 7,4 7,4
7,5 7,5 7,7 7,8 7,8 7,8 7,8 8,0 8,1 8,1
8,1 8,1 8,4 8,4 8,7 9,0 9,1 9,3 9,4 9,5
4)Uma amostra dos salários iniciais pagos aos novos graduados em economia é apresentada a seguir.
Os dados estão em milhares de reais.
2,07 1,98 2,72 1,82 2,42 2,27 2,38 2,07 2,21 2,59
2,53 2,93 2,91 3,00 3,02 2,89 3,04 3,03 2,11 2,06
2,33 3,06 2,23 3,09 3,01 3,05 2,29 3,18 2,53 2,33
a) Quartil 1 e 3
b) Calcule os decis 3 e 6
c) Calcule os percentis 9 e 90
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
54
ATIVIDADE 7 – PROBABILIDADE
1) Numa empresa há 10 homens e 20 mulheres. Metade dos homens e das mulheres é casada. Ao
retirar ao acaso uma pessoa, qual a probabilidade de ser:
a) ser mulher b) ser homem c) ser homem e casado
d) ser mulher e solteira e) sabendo que é mulher de ser casada?
2) Dois dados são lançados simultaneamente. Qual a probabilidade de:
a) a soma ser menor que quatro b) a soma ser nove c) o primeiro resultado ser maior que o segundo
d) os resultados serem iguais.
3) Um estudo de 500 vôos da Voe Alegre selecionados ao acaso mostrou que 430 chegaram no
horário. Qual é a probabilidade de um vôo dessa empresa não chegar no horário?
4) Dentre 400 motoristas selecionados ao acaso na faixa etária de 20 a 24 anos, 136 estiveram
envolvidos em acidentes de carros no ano anterior. Selecionado ao acaso um motorista dessa faixa
etária, qual a probabilidade de ele (ou ela) se envolver em um acidente de carro no próximo?
5) Quanto o antialérgico Tira Tira foi testado clinicamente, 70 pessoas tiveram sonolência e 711 não.
Com essa amostra estime a probabilidade de um usuário desse antialérgico ter sonolência.
6) Numa bolsa tem se cinco moedas de R$ 1,00 e quatro de R$ 0,50. Qual a probabilidade de ao se
retirar duas moedas se obtenha R$ 1,50.
7) Em um lote tem oito peças com pequenos defeitos, 12 com grandes defeitos e 15 perfeitas. Qual a
probabilidade ao se retirar: a) uma peça ao acaso e ela seja perfeita ou tenha pequenos defeitos? b)
quatro peças ao acaso, todas tenham grandes defeitos?
8) Se há seis pneus defeituosos em um lote de quinze, escolhem-se três pneus para uma inspeção, qual
é a probabilidade de que: a) um dos pneus defeituosos seja incluído? b) no mínimo dois tenham
defeitos? c) no máximo dois sejam perfeitos?
9) Uma empresa de seguros oferece quatro níveis de dedução- nenhum, baixo, médio e alto- para os
possuidores de apólices de seguros residenciais e três níveis diferentes (baixo, médio e alto) para os
possuidores de apólices de seguros de automóveis. A tabela a seguir fornece as proporções das
diversas categorias de segurados que possuem ambos os tipos de seguros.
AUTOMÓVEL RESIDENCIAL
Nenhum Baixo Médio Alto
Baixo 0,04 0,06 0,05 0,03
Médio 0,07 0,10 0,20 0,10
Alto 0,02 0,03 0,15 0,15
Suponha que um indivíduo que possua ambos os tipos de apólices seja selecionado aleatoriamente.
a) Qual é a probabilidade de que o indivíduo tenha dedução média de automóvel e alta de residência?
b) Qual é a probabilidade de que o indivíduo tenha dedução Baixa de automóvel? Uma dedução baixa
de residência?
c) Qual é a probabilidade de que o indivíduo esteja na mesma categoria para deduções de automóvel e
residência?
d) Com base na resposta da parte c, qual é a probabilidade de que duas categorias sejam diferentes?
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
55
e) Qual é a probabilidade de que o indivíduo tenha ao menos um nível baixo de dedução?
f) Usando a resposta da parte (e), qual é a probabilidade de que nenhum nível de dedução seja baixo?
10) A tabela abaixo relata a freqüência com que 2000 segurados usaram o hospital.
HOMENS MULHERES TOTAL
Usaram o hospital 100 150
Não usaram o hospital 900 850
TOTAL 1000 1000
Qual a probabilidade de que uma pessoa segurada:
a) tenha usado o hospital dado que ela seja mulher?
b) não tenha usado o hospital?
11) Num grupo de 15 pessoas temos:
HOMENS MULHERES TOTAL
EMPREGADOS 5 3 8
DESEMPREGADOS 5 2 7
TOTAL 10 5 15
Qual a probabilidade de que um indivíduo escolhido aleatoriamente esteja:
a) Desempregado.
b) Empregado.
c) Mulher desempregada?
d) empregado sabendo que é homem?
12) A tabela abaixo mostra as promoções oficiais masculinas e femininas de uma grande força policial
metropolitana.
MASCULINO FEMININO TOTAL
Promovidos 288 36
Não-promovidos 672 204
TOTAL
Qual a probabilidade de um oficial ser promovido dado que é masculino?
13) Em um levantamento com estudantes de MBA, os seguintes dados foram obtidos sobre a razão
principal de ter se ligado à escola que eles se matricularam.
Qualidade Custo/Conveniência Outras TOTAL
Tempo Integral 421 393 76 890
Tempo Parcial 400 593 46 1039
TOTAL 821 986 122 1929
a) Se um estudante é de tempo integral, qual a probabilidade de que a qualidade tenha sido a razão
de sua escolha?
b) Qual a probabilidade de que o custo/conveniência tenha sido a razão da escolha?
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
56
ATIVIDADE 8 – DISTRIBUIÇÃO BINOMIAL
1) Uma pesquisa revelou que 25% dos clientes de certo banco detinham a maior parte de suas
aplicações em ações. Escolhidos ao acaso 15 clientes, qual é a probabilidade de que pelo menos três
deles tenha esse perfil?
2) Cinco por cento dos motoristas de ônibus de certa cidade são mulheres. Suponha que 10 motoristas
são selecionados aleatoriamente para serem entrevistados sobre a qualidade de suas condições de
trabalho.
a) Qual é a probabilidade de que dois dos motoristas sejam mulheres?
b) Qual é a probabilidade de que nenhum seja mulher?
c) Qual é a probabilidade de que pelo menos um será mulher?
3) A probabilidade de uma imobiliária de não receber um aluguel em imóveis de alto padrão é de um
terço. Em seis casas de alto padrão alugadas, qual a probabilidade de:
a) Não receba o aluguel de duas casas?
b) Não receba o aluguel de nenhuma casa?
4) A probabilidade de um presumível cliente, escolhido aleatoriamente, faça uma compra, é de 30%.
Se o vendedor visita cinco clientes, qual a probabilidade que ele realizará:
a) Exatamente três vendas?
b) Quatro ou mais vendas?
c) Menos de duas vendas
5) Um fabricante de mesas de bilhar suspeita que 2% de seus produtos apresentam algum tipo de
defeito. Se tal suspeita é correta, determine a probabilidade de que numa amostra de nove mesas:
a) Não ache nem uma defeituosa
b) Ache ao menos uma defeituosa.
6) Se há três pneus defeituosos em um lote de 20, e se escolhem quatro pneus do lote para uma
inspeção, qual é a probabilidade de que um dos pneus defeituosos seja incluído?
7) Se os registros indicam que 504 dentre 813 lavadoras automáticas de pratos vendidas por uma
grande loja de varejo exigiram reparos dentro da garantia de um ano, qual é a probabilidade de que em
uma amostra de 10 lavadoras, uma dessas não venha a exigir reparo dentro da garantia?
8) Suponha que haja uma probabilidade de 60% de um carro furtado em certa cidade do sul ser
recuperado. Determine a probabilidade de:
a) dois dentre 10 carros furtados serem recuperados;
b) no mínimo nove dentre 10 carros furtados serem recuperados.
9) A probabilidade de um automóvel, trafegando por uma rodovia, ter seus pneus classificados como
adequados é de 70%. Doze carros são detidos para verificação. Determine as probabilidades:
a) de seis terem pneus adequados;
b) pelo menos 10 terem pneus adequados.
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
57
ATIVIDADE 9 – DISTRIBUIÇÃO NORMAL
1) Dado que z é uma variável aleatória normal, encontre a área para cada uma das situações.
a) à direita de 0,44 b) entre –1,57 e 0,49
c) à esquerda de 1,20 d) entre 0,52 e 1,22
e) à direita de –0,23 f) entre –1,74 e –1,04
2) Dado que z é uma variável aleatória normal, encontre z para cada uma das situações.
a) a área à direita de z é 69,15% d ) a área entre –z e z é 90,30%
b) a área à esquerda de z é 21,19% e) a área entre 0 e z é 47,50%
c) a área à esquerda de z é 99,48% f) a área entre –z e z é 20,52%
3) O tempo médio que um assinante gasta lendo o jornal Ki- Notícia é de 49 minutos, com desvio
padrão de 16 minutos e que os tempos sejam distribuídos normalmente.
a) qual é a probabilidade de que um assinante não gastar mais do que 30 minutos lendo o jornal?
b) para que 10% que gastam o maior tempo lendo o jornal, quanto tempo isso representa?
c) qual o tempo máximo gasto pelos 24% dos que gastam menos tempo na leitura?
4) Os depósitos efetuados no Banco da Ribeira durante o mês de janeiro são distribuídos normalmente,
com média de 10.000,00 u.m. e desvio padrão de 1.500 u.m. Um depósito é selecionado
aleatoriamente. Encontre a probabilidade de que o depósito seja:
a) um valor entre 12.000 u.m. a 14000 u.m.;
b) maior do que 15.000 u.m.;
c) qual o valor do depósito que possa separar os 20% dos menores depósitos.
5) As sardinhas processadas por uma indústria de enlatados têm comprimento médio de 11,5 cm, com
desvio padrão de 0,64 cm. Se a distribuição dos comprimentos das sardinhas pode ser aproximada
satisfatoriamente por uma distribuição normal, qual a porcentagem das sardinhas:
a) tem comprimento inferior a 10,2 cm?
b) tem comprimento entre 11,2 e 11,7 cm?
6) Em qualquer distribuição normal, qual a porcentagem da área total que cai:
a) entre -1 e +1
b) entre -2 a +2
c) entre -3 a +3 Na tabela o valor de =1
7) Suponha que a renda média de uma grande comunidade possa ser aproximadamente normal com
média de R$ 1500,00 e desvio padrão de R$ 300,00.
a) que porcentagem da população terá renda superior a R$ 1860,00;
b) numa amostra de 50 assalariados, quantos terão menos de R$ 1050,00 de renda?
8)A distribuição dos pesos de coelhos criados numa granja pode muito bem ser representada por uma
distribuição normal, com média de 3Kg e o desvio padrão de 0,8Kg. Um abatedouro comprará 5.000
coelhos e pretende classificá-los de acordo com o peso, do seguinte modo: 20% dos leves como
pequenos, os 55% seguintes como médios, os 15% seguintes como grandes e os 10% mais pesados
como extras. Quais os limites de peso para cada classe?
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
58
9) Uma máquina automática de encher de garrafas de refrigerantes está regulada para que o volume
médio do líquido em cada garrafa seja de 1.000 cm3 e o desvio padrão de 10 cm
3. Pode-se admitir que
a variável volume tenha distribuição normal, qual a porcentagem de garrafas em que o volume de
líquido é menor que 990 cm3?
10) Uma fábrica de sabonetes sabe que seus produtos pesam, em média, 98 gramas, com desvio
padrão de 7 gramas. Em um mês de produção, são fabricadas 420.000 unidades. Para garantir, com
92% de probabilidade, a produção mensal, quantas toneladas de matéria-prima devem ser adquiridas?
11) Há duas máquinas disponíveis para o corte de rolhas para garrafas de vinho. A primeira produz
rolhas com diâmetros que possuem uma distribuição normal com média 3 cm e desvio padrão 0,1 cm.
A segunda máquina produz rolhas com diâmetros que possuem uma distribuição normal com média
3,04 c e o desvio padrão 0,2 cm. A s rolhas aceitáveis possuem diâmetros entre 2,9 cm e 3,1 cm. Que
máquina tem maior probabilidade de produzir uma rolha aceitável?
Dr. José Carlos Dalmas / Ms. José da Costa Soeiro
Centro de Ciências Exatas (CCE) – Departamento de Estatística (DSTA)
59
ÁREAS DE UMA DISTRIBUIÇÃO NORMAL PADRÃO
Cada casa na tabela dá a proporção sob a curva entre
Z = 0 e um valor positivo Z. As áreas para os valores
de Z negativos são obtidas por simetria.
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2703 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0, 4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
Recommended