Probabilidade e Estatística(4)

Preview:

Citation preview

Probabilidade e Estatística

Caroline Cavatti Vieiracarolinevieira@ceunes.ufes.br

2012/2

Conteúdo Programático

• Distribuições de frequência

• Representação gráfica

• Medidas estatísticas

• Noções de probabilidade

• Variáveis aleatórias

• Principais distribuições discretas e contínuas

• Estimação de parâmetros

• Teste de hipóteses

Bibliografia básica:

• Caroline C. Vieira. Notas de aula

• Mario F. Triola. Introdução à Estatística – 10ª Ed.

• M. N. Magalhães; Antonio C. P. de Lima. Noções deProbabilidade e Estatística – 2002.

1. Introdução

• Definição de Estatística: é um conjunto de técnicasque nos permite, de forma sistemática, coletar,organizar, descrever, analisar e interpretar dadosoriundos de estudos e experimentos.

• Está dividida em duas áreas:

• Estatística Descritiva: é utilizada na etapa inicial daanálise para que possamos nos familiarizar com osdados, e tirarmos conclusões informais e diretas arespeito de características de interesse com base nosdados observados.

• Inferência Estatística: Técnicas que permitemextrapolar para a população, conclusões tiradas desubconjuntos ou amostras desta população.

Conceitos:

• População: é um conjunto de dados / pessoas /objetos / etc. que possuem pelo menos umacaracterística em comum de interesse dopesquisador. Exemplos:

1. a população brasileira.

2. a totalidade dos carros produzidos no Brasil.

3. uma jazida de minério de ferro de determinadamina.

4. o sangue no corpo de uma pessoa.

• Amostra: é um subconjunto desta população obtidade acordo com certas regras (técnicas deamostragem).

1. a população do Paraná.

2. carros produzidos pela Fiat.

3. um testemunho ou porção retirada da mina.

4. uma ampola de sangue colhida para um exame.

Estatística Descritiva

Amostragem

População Amostra

Inferência Estatística

• Dados: Conjuntos de valores, numéricos ou não.Todo dado se refere à determinada característica(variável).

Tipos de Variáveis:

• Qualitativas: quando os possíveis valores queassume representam atributos ou qualidades.

Podem ser:

• Nominais: o conjunto dos possíveis valores nãopossui uma ordenação natural. Ex: Sexo, Raça,Religião, etc.

• Ordinais: é possível ordenar o conjunto dos possíveisvalores. Ex: Classe Social, Escolaridade do chefe dafamília, etc.

• Quantitativas: quando os possíveis valores queassume são de natureza numérica. Podem ser:

• Discretas: em geral são fruto de uma contagem. Oconjunto de possíveis valores é enumerável. Ex:Número de filhos na família, número de pessoaschegando em uma fila, número de caras obtidasem 5 lançamentos de uma moeda etc.

• Contínuas: assumem valores em intervalos dosnúmeros reais. Ex: peso, altura, idade, etc.

2. Estatística descritiva

• Apresentação dos dados: organizar os dados

de maneira prática e racional para o melhor

entendimento do fenômeno que se está

estudando. Pode ser por meio de tabelas e

gráficos.

2.1. Construção de Tabelas

• O conjunto de informações disponíveis apóstabulação de questionário ou pesquisa de campo édenominado tabela de dados brutos.

• Nela são listados individualmente cada elemento dapopulação ou amostra, com os valores de todas asvariáveis estudadas. (Vide anexo 1)

• Apesar de conter muita informação, a tabela dedados brutos não é prática para respondermosrapidamente a questões de interesse.

• Assim, a partir da tabela de dados brutosnormalmente construímos uma nova tabeladenominada tabela de frequência.

• A tabela de frequência mais simples é aquela quelista os valores observados para determinadavariável, e o número de ocorrências (ou frequênciaabsoluta) de cada um destes valores. Exemplos:

Sexo fi

F 37 M 13

total 50

Turma fi

A 25 B 25

total 50

• fi – Freq. absoluta: nº de elementos pertencentes auma classe.

Outras Freqüências:

• Freqüência acumulada (fa):

fa = freq. absoluta da classe + freq. absoluta dasclasses anteriores

• Freqüência relativa (fr):

• Freqüência relativa acumulada (fra):

fra = freq. relativa da classe + freq. relativa das classesanteriores

𝑓𝑟 =𝑓𝑟𝑒𝑞. 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒

𝑓𝑟𝑒𝑞. 𝑡𝑜𝑡𝑎𝑙

Exemplo:

Idade fi fa fr (%) fra (%)

17 9 9 18 18

18 22 31 44 62

19 7 38 14 76

20 4 42 8 84

21 3 45 6 90

22 0 45 0 90

23 2 47 4 94

24 1 48 2 96

25 2 50 4 100

Total 50 100

• No caso da variável discreta assumir muitos

valores e no caso das variáveis contínuas, os

dados serão classificados em grupos,

possuindo diversos valores numa classe.

Exemplo:

Peso PMi fi fa fr fra

44 |- 52 48 11 11 0,22 0,22

52 |- 60 56 19 30 0,38 0,60

60 |- 68 64 7 37 0,14 0,74

68 |- 76 72 7 44 0,14 0,88

76 |- 84 80 1 45 0,02 0,90

84 |- 92 88 4 49 0,08 0,98

92 |- 100 96 1 50 0,02 1,00

Total 50 1

Definições:

• Limite inferior da classe (LI): é o valor mínimo que avariável alcança.

• Limite superior da classe (LS): é o valor máximo que avariável alcança.

• Amplitude da classe (h): é a diferença entre o LS e oLI de uma mesma classe.

• Amplitude total (R): é a diferença entre o maior e omenor valor observado.

• Ponto médio da classe (PM): é obtido somando-se oLI e o LS de uma mesma classe, e dividindo-se oresultado por 2.

2.2. Procedimento para construção detabelas

1. Calcular a amplitude total (R).

2. Estipular o número de classes da tabela (k).Em geral varia de 5 a 20.

• Critério para escolher k: seja n o número de dados

- se 𝑛 ≤ 25 → 𝑘 = 5

- se 𝑛 > 25 → 𝑘 ≈ 𝑛

3. Calcular a amplitude das classes (h), de forma queas classes tenham a mesma amplitude. Para isso,toma-se:

• OBS: h deve ser tomado com número de casadecimais igual ou menor que os dados; e seu valordeve, sempre, ser arredondado para cima.

𝑕 = 𝑅𝑘

• Exemplo: as notas de 32 estudantes de uma classeestão descritas a seguir.

0,0 0,0 1,0 1,5 2,0 2,0 2,5 3,5

3,5 4,0 4,0 4,0 4,5 4,5 4,5 5,0

5,0 5,0 5,0 5,0 5,5 5,5 6,0 6,0

6,0 6,5 6,5 7,0 7,0 7,0 8,0 8,5

1. 𝑅 = 8,5 − 0,0 = 8,5

2. 𝑘 = 32 ≈ 5,66 ≈ 6

3. 𝑕 = 8,5 6 ≈ 1,42 ≈ 1,5

• Construir a tabela de freqüência.

Notas fi fa fr (%) fra (%)

0,0 |- 1,5 3 3 9 9

1,5 |- 3,0 4 7 13 22

3,0 |- 4,5 5 12 16 38

4,5 |- 6,0 10 22 31 69

6,0 |- 7,5 8 30 25 94

7,5 |- 9,0 2 32 6 100

Total 32 100

2.3. Construção de Gráficos

• Gráfico de Barras: Para cada valor da variável,desenha-se no eixo horizontal (ou vertical) uma barracom altura correspondente a sua freq. absoluta (ourelativa).

• Este tipo de gráfico se adapta melhor às variáveisquantitativas discretas ou qualitativas.

• Ex: Gráfico de barras para a variável Idade.

0

5

10

15

20

25

17 18 19 20 21 22 23 24 25

Frq

. A

bso

luta

Idade

• Diagrama circular, disco ou pizza: Tipo de gráficomuito utilizado para representação de variáveisqualitativas.

• Consiste num círculo dividido em setores, cujostamanhos são proporcionais às freq. absolutas ouporcentagens correspondentes.

• É útil quando o número de classes é pequeno.

• Ex: Gráfico de pizza para a variável OpTV.

• Histograma: Este é um gráfico que parte de umatabela de freqüência de dados agrupados.

• Este gráfico consiste de retângulos contíguos cujabase é igual à amplitude da classe correspondente eárea igual à freqüência relativa de cada classe.

• A altura de cada retângulo é chamada de densidadeda classe. A densidade da classe i é o valor dado por:

𝑑𝑖 =𝑓𝑟𝑒𝑞. 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑖

𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑖

• No caso da primeira classe da tabela de freq. davariável peso temos:

𝑑𝑖 = 0,22 8 = 0,0275

• Obs: o histograma pode ainda ser representado porretângulos contíguos cuja base é igual à amplitudeda classe correspondente e altura igual à freqüênciaabsoluta (ou relativa) de cada classe.

• Ex: histograma da variável peso.

0,22

0,38

0,14 0,14

0,02

0,08

0,02

0

0,005

0,01

0,015

0,02

0,025

0,03

0,035

0,04

0,045

0,05

48 56 64 72 80 88 96

De

nsi

da

de

Peso - Ponto Médio

• Polígono de Frequência: Este gráfico é obtidounindo-se os pontos médios de cada classe porsegmentos de reta.

• Este gráfico fornece uma melhor idéia da forma dedistribuição dos dados.

• OBS: Devem-se acrescentar classes com freqüênciazero em ambos os extremos da distribuição para ligaro gráfico ao eixo horizontal.

0

0,005

0,01

0,015

0,02

0,025

0,03

0,035

0,04

0,045

0,05

48 56 64 72 80 88 96

De

nsi

da

de

Peso - Ponto Médio

• Ogiva: Representação gráfica das freqüênciasacumuladas de uma tabela de freqüências de dadosagrupados.

• É uma linha poligonal que parte do eixo horizontal nolimite inferior da 1ª classe e para cada limite superiorindica a freqüência acumulada de sua classe.

0

11

30

37

44 45

49 50

0

10

20

30

40

50

60

44 52 60 68 76 84 92 100

Freq

. acu

mu

lad

a

Pesos

2.4. Medidas

• Medidas são resumos ou sumários da informaçãotrazida pela população (ou amostra) em um úniconúmero.

• Existem diferentes classes de medidas, sendo as maisconhecidas as medidas de posição e dispersão.

Definições:

• Parâmetro: Resumo de uma característica obtido apartir de todos os elementos de uma população. Ex:média populacional (µ), desvio-padrão populacional(σ).

• Estatística: Resumo da característica de interesselevando-se em conta apenas os elementos daamostra. Ex: média amostral ( ), desvio-padrãoamostral (s).

𝑋

2.4.1. Medidas de posição

• Tendem a representar os elementos comuns

da população (ou amostra). Ex: média, moda,

mediana, quartis, etc.

Medidas de posição

Medidas de tendência central

Medidas Separatrizes

Média

Mediana

Moda

Quartis

Percentis

• Média amostral ( ): É um valor que representa ocentro de massa ou ponto de equilíbrio dadistribuição (histograma). É calculado por:

𝑿

X =X1 + X2 + ¢ ¢ ¢+ Xn

n=

Pn

i=1 Xi

n

• Para melhor compreensão do conceito de médiacomo centro de massa, imagine uma amostra com osseguintes valores 8, 9, 5, 5, 4, 3, 6, 4.

• Façamos um Diagrama de pontos, que é um gráficoútil para visualização de pequenas amostras.

• Para tanto simplesmente plotamos um ponto paracada valor da amostra sobre um segmento de quecontenha todos os valores. Se houver repetiçõesplotamos um ponto sobre o outro.

R

• Note que a média pode ser pensada como um centrode massa porque se cada ponto tivesse a mesmamassa, digamos 1kg, o triângulo representando amédia equilibraria exatamente estes pesos.

Média = 5,5

• Se os dados estiverem dispostos em tabela defreqüência como no exemplo abaixo,

Variável fi

X1 f1

X2 f2

... ...

... ...

Xk fk

Total n

fazemos:

𝑋 =𝑋1𝑓1 + 𝑋2𝑓2 + ⋯ + 𝑋𝑘𝑓𝑘

𝑛=

𝑋𝑖𝑓𝑖𝑘𝑖=1

𝑛

• Se conhecermos a freqüência relativa, o cálculo damédia passa a ser:

𝑋 = 𝑋1

𝑓1

𝑛+ ⋯ + 𝑋𝑘

𝑓𝑘

𝑛= 𝑋1𝑓𝑟1 + ⋯ + 𝑋𝑘𝑓𝑟𝑘 = 𝑋𝑖

𝑘

𝑖=1

𝑓𝑟𝑖

• Exemplo: Para calcularmos a média dos dadosabaixo:

X fi fr

1 3 0,3

2 4 0,4

3 2 0,2

5 1 0,1

Total 10 1

• Pelos dados brutos:

𝑋 =1 + 1 + 1 + 2 + 2 + 2 + 2 + 3 + 3 + 5

10=

22

10= 2,2

• Pela freqüência absoluta:

𝑋 =1 × 3 + 2 × 4 + 3 × 2 + 5 × 1

10= 2,2

• Pela freqüência relativa:

𝑋 = 1 × 0,3 + 2 × 0,4 + 3 × 0,2 + 5 × 0,1 = 2,2

• Dados agrupados em classe: Para calcularmos

a média nestes casos devemos inicialmente

calcular o ponto médio de cada classe,

denotando-o por PMi.

• A partir disto calculamos a média utilizando uma dasseguintes expressões:

𝑋 = 𝑃𝑀𝑖𝑓𝑖

𝑘𝑖=1

𝑛 𝑋 = 𝑃𝑀𝑖𝑓𝑟𝑖

𝑘

𝑖=1

• Vamos calcular a nota média dos 32 alunos de

nosso exemplo a partir da tabela de

distribuição de frequências, incluindo o ponto

médio de cada classe.

• Assim, pela freq. absoluta: 𝑋 = 153 32 = 4,78

• Já pela freq. relativa: 𝑋 = 4,77

Notas PMi fi PMi*fi fr PMi*fr

0,0 |- 1,5 0,75 3 2,25 0,09 0,0675

1,5 |- 3,0 2,25 4 9 0,13 0,2925

3,0 |- 4,5 3,75 5 18,75 0,16 0,6

4,5 |- 6,0 5,25 10 52,5 0,31 1,6275

6,0 |- 7,5 6,75 8 54 0,25 1,6875

7,5 |- 9,0 8,25 2 16,5 0,06 0,495

Total 32 153 1 4,77

• Em certas situações, os valores de um conjunto dedados têm graus de importância diferentes, o quenos leva a calcular uma média ponderada.

• Em tais casos, calculamos a média ponderadaatribuindo pesos (w) diferentes aos diversos valores.Assim,

X =w1 x1 + w2 x2 + ¢ ¢ ¢+ wn xn

w1 + w2 + ¢ ¢ ¢+ wn

=

Pni=1 wi xi

Pni=1 wi

• Exemplo: média ponderada de 3 avaliações.

w1 = 1 x1 = 7

w2 = 1 x2 = 8

w3 = 2 x3 = 6

X =1£ 7 + 1£ 8 + 2£ 6

4= 6; 75

Média Global:

• Sejam as médias aritméticas de kconjuntos de elementos, respectivamente.A média aritmética da série formada pelo conjunto dos

elementos é dada por:

X1; X2; : : : ; Xk

n1;n2; : : : ;nk

n1 + n2 + ¢ ¢ ¢+ nk

X =n1X1 + ¢ ¢ ¢+ nkXk

n1 + ¢ ¢ ¢+ nk

=

Pki=1 niX i

Pki=1 ni

• Exemplo: 2 turmas de determinada disciplina.

Turma 1: 40 alunos; média final ( ) = 8,5.

Turma 2: 55 alunos; média final ( ) = 7,0.

Turma 1 + Turma 2 = 95 alunos

X1

X2

X =40£ 8; 5 + 55£ 7; 0

95= 7; 63

Observações:

• A média é uma medida afetada por valoresextremos.

• Se calcularmos o valor médio de uma variável paratoda a população, teremos a média populacional,normalmente designada pela letra grega µ (mi).Onde:

𝜇 = 𝑋𝑖

𝑁𝑖=1

𝑁

• Mediana: É o valor que divide o conjunto de

dados ao meio, de tal forma que 50% dos

valores observados são menores ou iguais à

mediana e 50% são maiores ou iguais a ela.

Notação: md ou Md.

Procedimento para calcular a mediana:

1. Ordenar os dados.

2. Localizar a posição central. Para isto calcula-se:

𝑛 + 1

2

3. Se o número de observações (n) for ímpar, amediana será a observação central; e se n for par, amediana será o ponto médio entre as duasobservações centrais.

Exemplos:

• quando n é par: 1; 1; 1; 3; 3; 5; 3; 3; 2; 2.

1. 1; 1; 1; 2; 2; 3; 3; 3; 3 ;5;

2. (10 + 1) 2 = 11 2 = 5,5

• Os dois candidatos a md são o 2 e o 3. Então,tomamos o ponto médio entre eles como amediana:

𝑚𝑑 =2 + 3

2= 2,5

• quando n é ímpar: 1; 1; 1; 3; 3; 4; 4; 5; 5.

Posição - (9 + 1) 2 = 10 2 = 5

Neste caso, 𝑚𝑑 = 3.

• Observação: a mediana não é afetada por valoresextremos.

Moda:

• A moda de um conjunto de dados é o valorque ocorre com maior freqüência. Notação:mo ou Mo.

• Exemplo: 1; 1; 3; 3; 5; 3; 3; 2. 𝑚𝑜 = 3.

• Em um conjunto de dados pode haver mais de umamoda.

• Exemplo: 1; 1; 1; 1; 3; 3; 3; 3; 5. 𝑚𝑜1 = 1 e 𝑚𝑜2 = 3.

Neste caso se diz que o conjunto é bimodal.

• Se houver mais de duas modas diz-se que o conjuntoé multimodal. Por outro lado se nenhum valor serepete o conjunto não tem moda.

Dados agrupados em classe (Método Czuber)

• Uma das formas de se calcular a moda para dadosagrupados é utilizando o Método de Czuber. Essemétodo consiste nos seguintes passos:

1. Localize a classe de maior freqüência (classeMODAL) e os limites superior (L) e inferior (l) destaclasse.

2. Encontre as seguintes freqüências:

– : freqüência absoluta da classe modal;

– : freqüência absoluta da classe anterior àclasse modal;

– : freqüência absoluta da classe posterior àclasse modal;

fmo

fant

fpos

3. Aplique a fórmula de Czuber:

mo = l + (L¡ l)fmo ¡ fant

2fmo ¡ (fant + fpos)

• O método de Czuber determina a moda porinterpolação usando a hipótese que leva seu nome:

“A moda divide o intervalo da classe modal emdistâncias proporcionais às diferenças entre a freqüênciada classe modal com a freqüência das classesadjacentes".

• A partir daí, utilizando os conceitos de semelhançados triângulos e observando o histograma abaixovemos que:

¢1 = fmo ¡ fant

¢2 = fmo ¡ fpos

X = mo ¡ l

• Resolvendo a equação para X, temos:

• Dessa Forma,

X

h¡X=¢1

¢2

(onde h = L¡ l)

X =¢1

¢1 +¢2

h

mo = l + (L¡ l)fmo ¡ fant

2fmo ¡ (fant + fpos)

• Exemplo: Para acharmos a moda da variável pesofazemos:

Peso fi

44 |- 52 11

52 |- 60 19

60 |- 68 7

68 |- 76 7

76 |- 84 1

84 |- 92 4

92 |- 100 1

Total 50

Cla

sse

Mo

dal

mo = 52 + (60¡ 52)19¡ 11

2£ 19¡ (11 + 7)

mo = 55; 2

fmo = 19 fant = 11 fpos = 7

Medidas de tendência central – Propriedades:

1. Se somarmos uma constante c a todos os valores deum conjunto de dados, a moda, média e medianaficam também acrescidas dessa constante.

2. Se multiplicarmos uma constante c a todos osvalores de um conjunto de dados, a moda, média emediana ficam também multiplicadas dessaconstante.

Percentil (Pα):

• O percentil de ordem α de um conjunto de

dados é um valor Pα% tal que α% dos valores

são inferiores ou iguais a ele e (100 - α)% dos

valores são maiores ou iguais a ele.

Observações:

• A mediana é o percentil de ordem 50.

• Os percentis de ordem 25, 50 e 75 são chamadosrespectivamente de 1º Quartil, 2º Quartil e 3ºQuartil.

Como calcular:

1. Localizar a classe a qual pertence o percentil Pα

observando:

Lα – limite superior da classe do percentil Pα.

lα – limite inferior da classe do percentil Pα.

2. Encontrar a frequência relativa da classe que

contém o percentil Pα. Denote-a por𝑓𝑟𝛼 .

3. Encontrar a frequência relativa acumulada até a

classe anterior à classe do percentil Pα. Denote-a por

𝑓𝑟𝑎𝑎 .

4. Calcule a diferença 𝛼 − 𝑓𝑟𝑎𝑎 . Esta diferença é a

frequência relativa da classe (lα |- Pα).

l® L®

P®®%

fraa%

5. O valor da mediana é obtido resolvendo-se aseguinte regra de três:

𝐿𝛼 − 𝑙𝛼 → 𝑓𝑟𝛼

𝑃𝛼 − 𝑙𝛼 → 𝛼 − 𝑓𝑟𝑎𝑎

𝑃𝛼 = 𝑙𝛼 + (𝐿𝛼 − 𝑙𝛼)(𝛼 − 𝑓𝑟𝑎𝑎 )

𝑓𝑟𝛼

Exemplo: Para acharmos a mediana e o 1º quartil dasnotas dos alunos de nosso exemplo fazemos:

• Mediana (P50):

1. Classe 4,5|- 6,0.

2. 𝑓𝑟50= 0,31.

3. 𝑓𝑟𝑎𝑎 = 0,38.

Assim, 50% dos alunos tiraram notas inferiores a 5,1.

4. 𝛼 − 𝑓𝑟𝑎𝑎 = 0,5 − 0,38 = 0,12.

5. 𝑃50 = 4,5 + 6,0 − 4,5 0,12

0,31≅ 5,1

• 1º quartil (P25):

1. Classe 3,0|- 4,5.

2. 𝑓𝑟25= 0,16.

3. 𝑓𝑟𝑎𝑎 = 0,22.

4. 𝛼 − 𝑓𝑟𝑎𝑎 = 0,25 − 0,22 = 0,03.

5. 𝑃25 = 3,0 + 4,5 − 3,0 0,03

0,16≅ 3,3.

Assim, 25% dos alunos tiraram notas inferiores a 3,3.

2.4.2. Medidas de variabilidade

• Medem o espalhamento ou dispersão dos

dados. Complementam importantes

informações escondidas pelas medidas de

posição.

• Exemplo: Desempenho de dois alunos em 5avaliações:

Aluno 1: 55; 57; 60; 62; 66. 𝑋 = 60 e 𝑚𝑑 = 60.

Aluno 2: 38; 49; 60; 72; 81. 𝑋 = 60 e 𝑚𝑑 = 60.

• Amplitude total (R):

• A amplitude total de um conjunto de dados édefinida como a diferença entre o maior e o menorvalor observado.

Ex: - Aluno 1: 𝑅 = 11.

- Aluno 2: 𝑅 = 43.

• A variância é uma medida de dispersão que leva emconta todas as observações feitas. Ela mede adispersão dos dados em torno da média amostral .

• Considere as observações X1, X2, ... , Xn:

Variância amostral (𝑺𝟐):

• Temos

• Assim define-se a variância amostral como:

𝑆2 = (𝑋𝑖 − 𝑋 )2𝑛

𝑖=1

𝑛 − 1

Ex: - Aluno 1:

𝑆2 = 55 − 60 2 + 57 − 60 2 + ⋯ + 66 − 60 2

𝑛 − 1

𝑆2 =25 + 9 + 0 + 4 + 36

4=

74

4= 18.5

- Aluno 2:

𝑆2 = 38 − 60 2 + 49 − 60 2 + ⋯ + 81 − 60 2

𝑛 − 1

𝑆2 =484 + 121 + 0 + 144 + 441

4=

1190

4= 297.5

• Observação: Se calcularmos a variância de umapopulação de tamanho N, teremos a variânciapopulacional, normalmente designada pela letragrega σ (sigma). Onde:

𝜎2 = 𝑋𝑖 − 𝜇 2𝑁

𝑖=1

𝑁

• Inconvenientes da variância:

1. As unidades de medida da variância amostral são o

quadrado da unidade original da variável (m2 para

altura, kg2 para peso, etc).

• Para evitar-se este desconforto estabeleceu-se odesvio padrão amostral definido por:

que mostra a variabilidade medida na unidadeoriginal da variável analisada.

𝑆 = 𝑆2 = (𝑋𝑖 − 𝑋 )2𝑛

𝑖=1

𝑛 − 1

2. Não permite comparar a variabilidade de dadosmedidos em diferentes unidades de medida oumedidos na mesma unidade mas com médiasdiferentes.

Ex: - Aluno 1: 𝑆 = 18,5 = 4,3.

- Aluno 2: 𝑆 = 297,5 = 17,2.

• Aqui a solução foi a criação de uma medida chamadacoeficiente de variação que não sofre influência nemda média nem da unidade de medida. O coeficientede variação é definido como:

• Amostra –

• População –

𝐶𝑉 = (𝑆 𝑋 ) × 100

𝐶𝑉 = (𝜎 𝜇) × 100

• Exemplo: Em qual grupo há mais variação em tornoda média:

CVa =

p0; 0025

1; 70£ 100 = 2; 9%

CVp =

p2; 25

60£ 100 = 2; 5%

• Fórmula da variância amostral abreviada:

𝑆2 =1

𝑛 − 1 𝑋𝑖

2𝑛

𝑖=1−

𝑋𝑖𝑛𝑖=1 2

𝑛

• Dados agrupados em classes: Para calcular avariância nestes casos, considere o ponto médio decada classe, denotado por PMi e faça

𝑆2 = (𝑃𝑀𝑖 − 𝑋 )2 ∙ 𝑓𝑖

𝑘𝑖=1

𝑛 − 1

ou

𝑆2 =1

𝑛 − 1 𝑃𝑀𝑖

2𝑓𝑖

𝑘

𝑖=1−

𝑃𝑀𝑖𝑘𝑖=1 𝑓𝑖

2

𝑛

• Exemplo:

Freq. cardíaca PMi fi PMi*fi PMi2*fi

60 |- 65 62,5 11 687,5 42968,75

65 |- 70 67,5 35 2362,5 159468,75

70 |- 75 72,5 68 4930 357425

75 |- 80 77,5 20 1550 120125

80 |- 85 82,5 12 990 81675

85 |- 90 87,5 10 875 76562,5

90 |- 95 92,5 1 92,5 8556,25

95 |- 100 97,5 3 292,5 28518,75

Total 160 11780 875300

• Assim,

𝑋 = 11780 160 = 73,6

𝑆2 =1

159 875300 −

11780 2

160 = 50,3

𝑆 = 50,3 = 7,1

• Observação: A variância também é afetada porvalores extremos.

Variância – Propriedades:

1. Se somarmos uma constante c a todos os valores deum conjunto de dados, a variância não sofrealteração.

2. Se multiplicarmos uma constante c a todos osvalores de um conjunto de dados, a variância ficamultiplicada pela constante ao quadrado (c2).

2.5. Assimetria

Definição:

– Uma distribuição é simétrica quando a metadeesquerda da mesma é a imagem-espelho dametade direita.

– Uma distribuição de dados é assimétrica quandoum dos lados da mesma apresenta-se maisprolongado que o outro.

• Distribuição simétrica:

moda = mediana = m¶edia

X = mo =md ¹= Mo = Md

• Tipos de assimetria

– Assimetria à direita ou positiva: a distribuiçãoapresenta uma cauda mais acentuada à direita.

moda ·mediana · m¶edia

– Assimetria à esquerda ou negativa: a distribuiçãoapresenta uma cauda mais acentuada à esquerda.

m¶edia ·mediana ·moda

3. Probabilidade

3.1. Conceitos iniciais

• Probabilidade é a medida de incerteza sobrealgum fenômeno aleatório de interesse.

• Fenômeno Aleatório: é um acontecimento cujo

resultado não pode ser previamente previsto com

certeza. Um experimento aleatório pode fornecer

diferente resultados, mesmo que seja repetido

sempre da mesma maneira. Exemplos:

1. O resultado do seu time no próximo jogo do

Campeonato Brasileiro;

2. A altura de um aluno sorteado ao acaso nesta sala;

3. A taxa de inflação do mês de dezembro de 2011;

4. O resultado do lançamento de um dado.

• Espaço amostral (Ω ou S): é o conjunto de

todos os resultados possíveis de um

fenômeno ou experimento aleatório. Pode ser

finito ou infinito, de acordo com a quantidade

de possíveis resultados.

• O espaço amostral de cada um dos exemplosanteriores é:

1. Ω = derrota, empate, vitória;

2. Ω = 0; 1;

3. Ω = ;

4. Ω = 1, 2, 3, 4, 5, 6.

R

• Evento (A; B; C; ... ;Z): é qualquer subconjunto doespaço amostral (Ω). Exemplos:

1. Seu time não perde – A = empate, vitória;

2. A altura do aluno está entre 1,40 e 1,60 – B = (1,40;1,60);

3. A taxa de inflação de dezembro de 2011 é menor ouigual a 10% – C = (- ; 0,10];

4. Ocorre uma face par – D = 2; 4; 6.

1

• Evento elementar: é um resultado ou evento que nãopode mais ser decomposto em componentes maissimples.

Eventos especiais:

• Evento impossível ( ): é o evento que nunca ocorre.

• Evento certo (Ω): é o evento que sempre ocorre.

• União de eventos (𝑨 ∪ 𝑩): representa a ocorrência de

pelo menos um dos eventos A ou B, ou seja, A ou B ou

ambos.

Ω

EX: Experimento: lançamento de um dado.

• Evento A – ocorre face par.

• Evento B – ocorre face inferior a 4.

𝐴 ∪ 𝐵 = 1, 2, 3, 4, 6

• Interseção de eventos (𝑨 ∩ 𝑩): representa a

ocorrência simultânea de A e B.

Ω

EX: no nosso exemplo anterior.

• Evento A – ocorre face par.

• Evento B – ocorre face inferior a 4.

𝐴 ∩ 𝐵 = 2

• Eventos disjuntos ou mutuamente exclusivos: São

eventos que não podem ocorrer simultaneamente. A

e B são disjuntos se e somente se 𝐴 ∩ 𝐵 = ∅.

Ω

• Eventos complementares (𝑨 ou 𝑨𝒄, ou 𝑨′ ): O evento

𝐴 ocorre se o evento A não ocorre. É formado por

todos os pontos de Ω que não estão em A. A e 𝐴 são

complementares se, e somente se, 𝐴 ∩ 𝐴 = ∅ e

𝐴 ∪ 𝐴 = Ω.

Ω

• Observação: É importante relembrar as leis de

Morgan:

EX: No lançamento de um dado, se A → ocorrer face

par, então B → ocorrer face ímpar é o evento

complementar de A.

(𝐴 ∪ 𝐵) = 𝐴 ∩ 𝐵 e (𝐴 ∩ 𝐵) = 𝐴 ∪ 𝐵

3.2. Interpretações de probabilidade

• Probabilidade é uma função 𝑃(∙) definida do

conjunto de todos os possíveis subconjuntos de Ω em

[0;1]. Esta função atribui chances de ocorrência de

cada evento de Ω.

• Definição clássica de probabilidade: Seja um

experimento aleatório com espaço amostral finito

Ω = 𝜔1 , 𝜔2 , ⋯ , 𝜔𝑛. Se tivermos evidências de que

todos os resultados têm a mesma chance de

acontecer, define-se:

𝑃 𝜔𝑖 =1

𝑛 𝑖 = 1, ⋯ , 𝑛

• Para 𝐴 ⊂ Ω defini-se:

𝑃 𝐴 =# 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒 𝐴

# 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒 Ω=

𝑛(𝐴)

𝑛(Ω)

Neste caso dizemos que os resultados 𝜔𝑖 são

equiprováveis.

Exemplos:

1. Qual e a probabilidade de se extrair um ás de um baralho bem misturado de 52 cartas?

n(A) = 4; n(Ω) = 52

𝑃 𝐴 =4

52=

1

13≅ 0,08

2. Ɛ – lançar duas moedas e observar a configuraçãoobtida. c = cara; k = coroa.

Ω = cc; ck; kc; kk

• Qual a probabilidade de se obter zero caras? E umacara?

A – zero caras → A = kk → 𝑃 𝐴 = 1 4 .

B – uma cara → B = ck; kc → 𝑃 𝐵 = 2 4 .

Aproximação da probabilidade pela freqüênciarelativa.

• Realize (ou observe) um experimento aleatório Ɛ umgrande número de vezes.

• Registre quantas vezes o evento A ( ) ocorreefetivamente.

A½ Ð

• Então, a probabilidade de ocorrência do evento A éestimada como se segue

𝑃 𝐴 =# 𝑜𝑐𝑜𝑟𝑟ê𝑛𝑐𝑖𝑎𝑠 𝑑𝑒 𝐴

# 𝑟𝑒𝑝𝑒𝑡𝑖çõ𝑒𝑠 𝑑𝑜 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑜

• Lei dos Grandes Números: Ao se repetir umexperimento um grande número de vezes, aprobabilidade pela freqüência relativa de um eventotende para a probabilidade teórica.

• A lei dos Grandes Números afirma que aaproximação pela freqüência relativa tende amelhorar quando o número de observaçõesaumenta.

• Formalmente, tem-se que: Considere n repetições“independentes” de um experimento aleatório Ɛ.Seja A um evento qualquer. Defina:

• A probabilidade frequencial de A é então dada por:

𝑃𝑛 𝐴 =# 𝑜𝑐𝑜𝑟𝑟ê𝑛𝑐𝑖𝑎𝑠 𝑑𝑒 𝐴

# 𝑟𝑒𝑝𝑒𝑡𝑖çõ𝑒𝑠 𝑑𝑜 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑜

𝑃 𝐴 = lim𝑛→∞

𝑃𝑛 𝐴

Exemplos:

1. Num lançamento de um dado, a probabilidade deocorrência da face i é dada por:

• Quando o número de lançamentos é muito grande,fri se estabiliza. Daí, toma-se fri como a probabilidadede ocorrência da face i.

𝑓𝑟𝑖 =# 𝑜𝑐𝑜𝑟𝑟ê𝑛𝑐𝑖𝑎𝑠 𝑑𝑎 𝑓𝑎𝑐𝑒 𝑖

# 𝑙𝑎𝑛ç𝑎𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑜 𝑑𝑎𝑑𝑜

2. Suponha que temos uma linha de produção emgrande escala. Retiramos n itens desta linha deprodução, e a cada retirada contamos o número deitens defeituosos (A = item defeituoso)

• Podemos então afirmar que a probabilidade

frequencial de um item defeituoso nesta linha

de produção é 0,05.

3.3. Regras básicas de probabilidade

1. 𝑃 Ω = 1.

2. 𝑃 ∅ = 0.

3. 0 ≤ 𝑃(𝐴) ≤ 1, para qualquer evento A.

4. Regra da adição:

𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃(𝐴 ∩ 𝐵)

Se A e B forem disjuntos, então:

𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵

5. 𝑃 𝐴 = 1 − 𝑃(𝐴).

Como A e 𝐴 são complementares temos 𝐴 ∩ 𝐴 = ∅

e 𝐴 ∪ 𝐴 = Ω. Então, pela regra da adição,

𝑃 Ω = 𝑃 𝐴 ∪ 𝐴 = 𝑃 𝐴 + 𝑃 𝐴 e pela regra 1,

𝑃 𝐴 + 𝑃 𝐴 = 1, logo 𝑃 𝐴 = 1 − 𝑃 𝐴 .

6. Se 𝐴 ⊂ B, então 𝑃(𝐴) ≤ 𝑃(𝐵).

Podemos escrever B como 𝐵 = 𝐴 ∪ (𝐴 ∩ 𝐵). Os

eventos A e 𝐴 ∩ 𝐵 são disjuntos, então pela regra da

adição podemos escrever 𝑃 𝐵 = 𝑃 𝐴 + 𝑃(𝐴 ∩ 𝐵).

Como, pela regra 3, 𝑃(𝐴 ∩ 𝐵) ≥ 0 logo 𝑃(𝐵) ≥ 𝑃(𝐴).

• Exemplo: Distribuição de alunos segundo o sexo e aescolha do curso.

Curso

Sexo

TotalHomens (H) Mulheres (M)

Matemática Pura (P) 70 40 110

Matemática Aplicada (A) 15 15 30

Estatística (E) 10 20 30

Computação (C) 20 10 30

Total 115 85 200

- 𝑃 𝑃 ∪ 𝐸 = 𝑃 𝑃 + 𝑃 𝐸 =110

200+

30

200=

140

200= 0,7

- 𝑃 𝐴 ∪ 𝑀 = 𝑃 𝐴 + 𝑃 𝑀 − 𝑃(𝐴 ∩ 𝑀)

=30

200+

85

200−

15

200=

100

200= 0,5

- 𝑃 𝐶 = 1 − 𝑃 𝐶 = 1 −30

200=

170

200= 0,85

3.4. Probabilidade condicional

• Para dois eventos A e B do espaço amostral

definimos:

Definição: A probabilidade condicional de um evento

A dado um evento B, denotada por 𝑃(𝐴|𝐵), é,

𝑃 𝐴 𝐵 =𝑃(𝐴 ∩ 𝐵)

𝑃(𝐵) 𝑝𝑎𝑟𝑎 𝑃(𝐵) ≠ 0

• A probabilidade condicional de A dado B revela a

incerteza que se tem sobre o evento A supondo

conhecida a verdade sobre o evento B. Podemos

interpretá-la como a chance relativa de A restrita ao

fato de que B ocorreu.

Exemplos:

1. Uma urna contém 2 bolas brancas (B) e 3 bolasvermelhas (V). Suponha que são sorteadas duasbolas ao acaso, sem reposição.

2. As informações abaixo se referem aos candidatosque prestaram vestibular na UFES em 2010:

Homem (H) Mulher (M) Total

Aprovado (A) 8 14 22

Reprovado (R) 4 6 10

Total 12 20 32

• Um aluno é sorteado ao acaso. Qual é aprobabilidade de:

• Ser mulher e ter sido aprovado?

• Se é mulher, ter sido aprovada?

• Ser mulher dado que foi aprovado?

• Soluções:

a. 𝑃 𝑀 ∩ 𝐴 = 14 32 ≅ 0,44

b. 𝑃 𝐴 𝑀 =𝑃(𝐴∩𝑀)

𝑃(𝑀)=

14 32

20 32 =

14

20= 0,70

c. 𝑃 𝑀 𝐴 =𝑃(𝐴∩𝑀)

𝑃(𝐴)=

14 32

22 32 =

14

22≅ 0,64

• Propriedades:

1. 𝑃 Ω|B = 1

2. 𝑃 ∅|B = 0

3. 0 ≤ 𝑃(𝐴|𝐵) ≤ 1, para qualquer evento A.

4. 𝑃 𝐶 ∪ 𝐷|𝐵 = 𝑃 𝐶|𝐵 + 𝑃 𝐷|𝐵 − 𝑃(𝐶 ∩ 𝐷|𝐵)

5. 𝑃 𝐶 ∪ 𝐷|𝐵 = 𝑃 𝐶|𝐵 + 𝑃 𝐷|𝐵 ⇔ 𝐶 ∩ 𝐷 = ∅

6. 𝑃 𝐴 |𝐵 = 1 − 𝑃(𝐴|𝐵)

3.5. Regra da multiplicação

• A definição de probabilidade condicional pode serreescrita para fornecer uma expressão geral para aprobabilidade da interseção de dois eventos:

𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 𝐵 𝑃 𝐵 = 𝑃 𝐵 𝐴 𝑃(𝐴)

Exemplo:

• Acredita-se que na população do ES 20% de seus

habitantes sofrem algum tipo de alergia, sendo

classificados como alérgicos para fins de saúde

pública. Sendo alérgico, a probabilidade de ter

reação a certo antibiótico é de 0,5. Para os não

alérgicos esta probabilidade é de apenas 0,05.

• Escolhendo-se uma pessoa ao acaso da população doES, qual a probabilidade de que ela:

a. Seja do grupo dos alérgicos e tenha alergia aoingerir o antibiótico?

b. Seja do grupo dos não alérgicos e não tenhaalergia ao ingerir o antibiótico?

• Solução: Se fizermos A → ser do grupo dos alérgicos e

B → ter reação, temos:

a. 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐵 𝐴 𝑃 𝐴 = 0,5 × 0,2 = 0,10

b. 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐵 𝐴 𝑃 𝐴 = 0,95 × 0,8 = 0,76

3.6. Regra da probabilidade total

• A regra da multiplicação é útil para

determinarmos a probabilidade de um evento

que depende de outros eventos.

Exemplo:

• Em uma fábrica de parafusos, as máquinas A e B

produzem 2/3 e 1/3 da produção total,

respectivamente. Da produção de cada máquina 2%

e 0,8%, respectivamente, são parafusos defeituosos.

Escolhendo-se aleatoriamente um parafuso, qual a

probabilidade que ele seja defeituoso?

• Claramente a resposta depende de qual máquina

produziu aquele parafuso.

• Se chamarmos A → parafuso produzido pela máquina

A, B → parafuso produzido pela máquina B e D →

parafuso é defeituoso podemos afirmar que:

𝐷 = 𝐷 ∩ 𝐴 ∪ (𝐷 ∩ 𝐵)

Ω

• E como 𝐷 ∩ 𝐴 e (𝐷 ∩ 𝐵) são disjuntos podemos

escrever que:

𝑃 𝐷 = 𝑃 𝐷 ∩ 𝐴 + 𝑃 𝐷 ∩ 𝐵

= 𝑃 𝐷 𝐴 𝑃 𝐴 + 𝑃 𝐷 𝐵 𝑃 𝐵

𝑃 𝐷 = 0,02 × 2 3 + 0,008 × 1 3 = 0,016

• Para generalizarmos o conceito da probabilidadetotal, definimos:

• Definição: Dizemos que os eventos A1; A2; ... ; Anformam uma partição do espaço amostral se:

1. 𝐴𝑖 ∩ 𝐴𝑗 = ∅ 𝑝𝑎𝑟𝑎 𝑖 ≠ 𝑗

2. 𝐴𝑖𝑛𝑖=1 = Ω

• Podemos assim enunciar o Teorema daProbabilidade Total:

• Seja A1; A2; ... ; An uma partição do espaço amostrale seja B um evento qualquer, então,

𝑃 𝐵 = 𝑃 𝐵 ∩ 𝐴1 + 𝑃 𝐵 ∩ 𝐴2 + ⋯ + 𝑃 𝐵 ∩ 𝐴𝑛

𝑃(𝐵) = 𝑃 𝐵 𝐴1 𝑃 𝐴1 + 𝑃 𝐵 𝐴2 𝑃 𝐴2 + ⋯ + 𝑃 𝐵 𝐴𝑛 𝑃 𝐴𝑛

𝑃(𝐵) = 𝑃 𝐵 𝐴𝑖 𝑃 𝐴𝑖 𝑛

𝑖=1

3.7. Independência

• Definição: Dois eventos A e B são independentes se aocorrência de um não afeta a probabilidade deocorrência do outro. Assim, tem-se que:

1. 𝑃 𝐴 𝐵 = 𝑃(𝐴)

2. 𝑃 𝐵 𝐴 = 𝑃(𝐵)

• Dessa forma, para dois eventos independentes aregra da multiplicação reduz-se a:

𝑃 𝐴 ∩ 𝐵 = 𝑃(𝐴) × 𝑃(𝐵)

Exemplos:

1. Urna → 2 bolas brancas (B) e 3 bolas vermelhas (V).

Sorteia-se 2 bolas ao acaso, com reposição.

• Uma empresa produz peças em duas

máquinas (1 e 2). Estas máquinas podem

apresentar desajustes com probabilidade 0,05

e 0,1, respectivamente. Suponha que as

máquinas trabalhem de forma independente.

• No início do dia um teste é realizado e caso a

máquina esteja fora do ajuste a mesma pára de

operar e vai para manutenção. Para que se cumpra o

nível mínimo de produção diária é necessário que

pelo menos uma máquina esteja funcionando. Qual a

probabilidade de que a empresa cumpra a produção

do dia?

• Solução: Se fizermos O1 → máquina 1 está operando e

O2 → máquina 2 está operando, a probabilidade de

que a produção seja cumprida é:

𝑃 𝑂1 ∪ 𝑂2 = 𝑃 𝑂1 + 𝑃 𝑂2 − 𝑃(𝑂1 ∩ 𝑂2)

• Mas pela independência:

𝑃 𝑂1 ∩ 𝑂2 = 𝑃 𝑂1 × 𝑃 𝑂2 = 0,95 × 0,9 = 0,855

∴ 𝑃 𝑂1 ∪ 𝑂2 = 0,95 + 0,9 − 0,855 = 0,995

3.8. Teorema de Bayes

• Partindo da definição de probabilidadecondicional e usando a comutatividade dainterseção podemos escrever:

𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 𝐵 𝑃 𝐵 = 𝑃 𝐵 ∩ 𝐴 = 𝑃 𝐵 𝐴 𝑃(𝐴)

• E agora, usando o segundo e quarto termos daigualdade vem um resultado útil que nos permiteescrever a probabilidade de A dado B em termos daprobabilidade de B dado A:

𝑃 𝐴 𝐵 =𝑃 𝐵 𝐴 𝑃(𝐴)

𝑃 𝐵

• Partindo desta expressão, e escrevendo odenominador usando a regra da probabilidade total,obtemos o Teorema de Bayes:

• Teorema de Bayes: Se A1; A2; ... ; An for umapartição de Ω e B um evento qualquer, então:

𝑃 𝐴𝑖 𝐵 =𝑃 𝐵 𝐴𝑖 𝑃(𝐴𝑖)

𝑃 𝐵 𝐴1 𝑃 𝐴1 + ⋯ + 𝑃 𝐵 𝐴𝑛 𝑃 𝐴𝑛

Exemplos:

1. Suponha que um fabricante de sorvetes recebe 20%de todo o leite que consome da fazenda F1, 30% dafazenda F2 e o restante da F3.

• A vigilância sanitária inspecionou as fazendas desurpresa e observou que 20% do leite produzido nafazenda F1 estava adulterado por adição de água, omesmo ocorrendo com 5% e 2% respectivamentenas fazendas F2 e F3.

• Na indústria de sorvete os galões de leite sãoarmazenados sem identificação das fazendasprodutoras. Um galão é sorteado ao acaso naindústria. Calcule:

a. A probabilidade de que o galão esteja adulterado.

b. A probabilidade do galão estando adulterado ter

vindo da fazenda F1.

• Solução: Seja A → o leite está adulterado e Fi → o

leite veio da fazenda Fi .

a. 𝐴 = 𝐴 ∩ 𝐹1 ∪ 𝐴 ∩ 𝐹2 ∪ 𝐴 ∩ 𝐹3

𝑃 𝐴 = 𝑃 𝐴 ∩ 𝐹1 + 𝑃 𝐴 ∩ 𝐹2 + 𝑃 𝐴 ∩ 𝐹3

𝑃(𝐴) = 𝑃 𝐴 𝐹1 𝑃 𝐹1 + 𝑃 𝐴 𝐹2 𝑃 𝐹2 + 𝑃 𝐴 𝐹3 𝑃 𝐹3

Assim:

𝑃 𝐴 = 0,2 × 0,2 + 0,05 × 0,3 + 0,02 × 0,5 = 0,065

b. Pelo teorema de Bayes, temos:

𝑃 𝐹1 𝐴

=𝑃 𝐴 𝐹1 𝑃(𝐹1)

𝑃 𝐴 𝐹1 𝑃 𝐹1 + 𝑃 𝐴 𝐹2 𝑃 𝐹2 + 𝑃 𝐴 𝐹3 𝑃 𝐹3

𝑃 𝐹1 𝐴 =0,2 × 0,2

0,065≅ 0,615

2. Das pacientes da clínica de Ginecologia com idade

acima de 40 anos, 60% são ou foram casadas e 40%

são solteiras. Sendo solteira, a probabilidade de ter

tido um distúrbio hormonal no último ano é de

10%, enquanto para as demais esta probabilidade

aumenta para 30%.

• Pergunta-se:

a. Qual a probabilidade de uma paciente escolhida aoacaso ter tido um distúrbio hormonal no últimoano?

b. Se a paciente escolhida tiver tido um distúrbio, quala probabilidade dela ser solteira?

c. Escolhemos duas pacientes ao acaso e comreposição, qual a probabilidade de pelo menos umater o distúrbio?

• Solução: Sejam os eventos S → paciente é solteira e

H → paciente teve distúrbio hormonal no último

ano.

a. 𝑃 𝐻 = 𝑃 𝐻 𝑆 𝑃 𝑆 + 𝑃 𝐻 𝑆 𝑃 𝑆

𝑃 𝐻 = 0,1 × 0,4 + 0,3 × 0,6 = 0,22

b. 𝑃 𝑆 𝐻 =𝑃 𝐻 𝑆 𝑃(𝑆)

𝑃 𝐻 =

0,1×0,4

0,22≅ 0,188

c. Seja Hi o evento de que a i-ésima paciente tenha

tido distúrbio hormonal. Daí:

𝑃 𝐻1 ∪ 𝐻2 = 𝑃 𝐻1 + 𝑃 𝐻2 − 𝑃(𝐻1 ∩ 𝐻2)

𝑃 𝐻1 ∪ 𝐻2 = 𝑃 𝐻1 + 𝑃 𝐻2 − 𝑃(𝐻1) × 𝑃(𝐻2)

𝑃 𝐻1 ∪ 𝐻2 = 0,22 + 0,22 − 0,222 ≅ 0,392

4. Variáveis Aleatórias

• Sabe-se que um espaço amostral (Ω ou S) é oconjunto de todos os resultados possíveis de umfenômeno ou experimento aleatório.

• Em muitos casos não estamos interessados nadescrição detalhada de todos os resultados, e é maisinteressante resumirmos o resultado através denúmeros.

• Definição: Uma variável aleatória (v.a.) é uma funçãoque confere um número real a cada resultado noespaço amostral de um experimento aleatório.

• Uma variável aleatória é denotada por uma letramaiúscula (por ex. X) e os valores que ela podeassumir como xi.

Exemplos:

1. E – lançar duas moedas. O espaço amostral destaexperiência é Ω = cc; ck; kc; kk onde c = cara e k =coroa. Uma variável aleatória pode ser “número decaras”, X = 0; 1; 2.

2. E – jogar um dado duas vezes. X = soma das duasfaces obtidas.

Ω = (1; 1) … (1; 6)

⋮ ⋱ ⋮(6; 1) … (6; 6)

Classificação:

• Variável aleatória discreta: assume valores numconjunto finito ou infinito enumerável. EX: n° defilhos, n° de peças defeituosas em um lote, bitstransmitidos que foram recebidos com erros.

• Variável aleatória contínua: seu conjunto de

valores é qualquer intervalo dos números

reais, o que seria um conjunto infinito não

enumerável. EX: peso, altura, corrente

elétrica, pressão, temperatura, tempo.

4.1. Variáveis aleatórias discretas

Alguns modelos de variáveis aleatórias discretas:

1. Um sistema de comunicação por voz de umaempresa possui 48 linhas externas. A cada intervalode tempo o sistema é supervisionado e registra-se onúmero de linhas em uso. Se fizermos X = númerode linhas em uso. Os valores possíveis de X = 0; 1;2; ...; 48.

2. No processo de fabricação de semicondutores ofabricante deve se preocupar com o número departículas contaminantes. Se definirmos a variávelaleatória Y = número de partículas contaminantesem uma pastilha, os valores possíveis de Y = 0; 1;2; ....

• Modelo Probabilístico: Um modelo probabilísticoconsiste em atribuir a cada valor da v.a. X a suaprobabilidade de ocorrência.

• A função que atribui a cada valor xi de X a suaprobabilidade é chamada de função deprobabilidade.

• Assim se X é uma variável aleatória assumindoos valores x1, x2, ... , xn a função deprobabilidade associada a X é:

𝑃 𝑋 = 𝑥𝑖 = 𝑃 𝑥𝑖 = 𝑝𝑖 𝑖 = 1, 2, …

• A distribuição de probabilidades de umavariável aleatória X é uma descrição das

probabilidades associadas com os possíveisvalores de X. Esta descrição pode ser realizadaem forma de tabelas ou gráficos.

• No exemplo da variável aleatória “número de carasnum lançamento de duas moedas” (supondo que asmoedas sejam honestas e os lançamentosindependentes) temos a seguinte distribuição deprobabilidades:

• São propriedades da função de probabilidade:

1. 0 ≤ 𝑝𝑖 ≤ 1

2. 𝑝𝑖𝑖 = 1

• Exemplo: Com os dados do último censo a assistente

social do centro de saúde constatou que na região

20% das famílias não têm filhos, 30% possuem 1

filho, 35% possuem 2 filhos e as demais se dividem

igualmente entre 3, 4 ou 5 filhos. Suponha que uma

família seja escolhida aleatoriamente e defina a v.a.

N como o número de filhos desta família. Construa a

função de probabilidade para N.

• Solução: Se N é o número de filhos na família temosque os valores possíveis de N são: 0; 1; 2; 3; 4; 5.Supondo que todas as famílias têm chances iguais deserem sorteadas:

nº de filhos 0 1 2 3 4 5

pi 0,20 0,30 0,35 0,05 0,05 0,05

4.1.1. Média e variância de uma variável aleatória discreta

• A média ou valor esperado de uma variável aleatóriadiscreta X é dada pela expressão:

𝜇 = 𝐸 𝑋 = 𝑥𝑖𝑝𝑖

𝑖

• A variância de X é dada pela expressão:

𝜎2 = 𝑉 𝑋 = (𝑥𝑖 − 𝜇)2𝑝𝑖 = 𝑥𝑖2𝑝𝑖 − 𝜇2

𝑖𝑖

• O desvio padrão da v.a. X é, então, dado por:

𝜎 = 𝜎2

• Exemplo: Um canal digital transmite dados com certaprobabilidade de erro. Seja X o número de bitsrecebidos com erro nos quatro próximos bitstransmitidos. Os valores possíveis de X são 0; 1; 2; 3;4. Suponha que tenhamos as seguintesprobabilidades:

𝑃 0 = 0,6561; 𝑃 1 = 0,2916; 𝑃 2 = 0,0486;

𝑃 3 = 0,0036; 𝑃 4 = 0,0001.

Calcule a média e a variância da v.a. X.

Solução:

• Cálculo da média

𝜇 = 𝐸 𝑋 = 0𝑃 0 + 1𝑃 1 + 2𝑃 2 + 3𝑃 3 + 4𝑃(4)

𝜇 = 0 0,6561 + 1 0,2916 + 2 0,0486 + 3 0,0036 + 4 0,0001

𝜇 = 0,4

• Cálculo da variância e do desvio padrão

𝑥𝑖2𝑝𝑖

𝑖

= 02𝑃 0 + 12𝑃 1 + 22𝑃 2 + 32𝑃 3 + 42𝑃(4)

𝑥𝑖2𝑝𝑖

𝑖

= 02 0,6561 + 12 0,2916 + 22 0,0486

+32 0,0036 + 42 0,0001 = 0,52

𝜎2 = 𝑉 𝑋 = 0,52 − 0,42 = 0,36

∴ 𝜎 = 0,36 ≅ 0,6

4.2. Distribuições discretas mais comuns

• Estudaremos nesta seção a distribuição deprobabilidade de algumas variáveis aleatórias,

que por possuírem características especiaiscomuns são agrupadas em “famílias”.

4.2.1. Distribuição Bernoulli

Muitos experimentos são tais que os resultadosapresentam ou não uma determinada característica.Por exemplo:

• Uma moeda é lançada: o resultado é cara ou não;

• Uma peça é escolhida ao acaso de um lotecontendo 500 peças: essa peça é defeituosa ounão;

• Em ambos os casos, estamos interessados naocorrência de sucesso ou fracasso.

• OBS: A palavra sucesso como usada aqui é arbitráriae não representa, necessariamente, algo bom

• Definição: Seja X uma variável aleatória que assumeos valores 1 (sucesso) e 0 (fracasso). Diz-se que X temdistribuição Bernoulli com parâmetro p, onde p é aprobabilidade de sucesso.

• Notação: X ~ Bernoulli(p)

• A função de probabilidade de X é:

𝑃 𝑋 = 𝑥 = 𝑝𝑥(1 − 𝑝)1−𝑥 , 𝑥 = 0 𝑜𝑢 1

• Assim temos:

𝐸 𝑋 = 𝑥𝑃 𝑋 = 𝑥 1

𝑥=0= 0𝑃 𝑋 = 0 + 1𝑃 𝑋 = 1

𝐸 𝑋 = 𝑃 𝑋 = 1 = 𝑝

𝑉 𝑋 = 𝑥2𝑃 𝑋 = 𝑥 1

𝑥=0− 𝐸 𝑋 2

𝑉 𝑋 = 02𝑃 𝑋 = 0 + 12𝑃 𝑋 = 1 − 𝑝2

𝑉 𝑋 = 𝑃 𝑋 = 1 − 𝑝2 = 𝑝 − 𝑝2 = 𝑝(1 − 𝑝)

4.2.2. Distribuição Binomial

• Se realizarmos n experimentos de Bernoulli de forma

independente e se cada experimento tem

probabilidade de sucesso igual a p (fixo), então a

variável aleatória que conta o número de sucessos

nestes n experimentos tem distribuição binomial.

Por exemplo:

• Uma moeda é lançada três vezes; qual é aprobabilidade de se obter duas caras?

• Dez peças são extraídas, ao acaso, com reposição, deum lote de 500 peças; qual é a probabilidade de quepelo menos duas sejam defeituosas; sabendo-se que10% das peças do lote são defeituosas?

• Imagine o experimento de Bernoulli (E) em que:

• Vamos realizar n repetições independentes de E,chamando X do número de sucessos nas nrepetições.

𝐸 = 𝑠𝑢𝑐𝑒𝑠𝑠𝑜 → 𝑝

𝑓𝑟𝑎𝑐𝑎𝑠𝑠𝑜 → 1 − 𝑝

O resultado desta experiência é um vetor (𝑥1, ⋯ , 𝑥𝑛)

em que cada resultado pode ser um sucesso (S) ou um

fracasso (F). Se quisermos calcular 𝑃(𝑋 = 𝑘) teremos:

𝑃 𝑆𝑆𝑆𝑆𝑆 ⋯𝑆𝑆𝑆 𝐹𝐹𝐹 ⋯ 𝐹𝐹 = 𝑝𝑘(1 − 𝑝)𝑛−𝑘

k n - k

• Mas quantos vetores de tamanho n com k sucessos e(n – k) fracassos podem ser formados?

• Para responder a essa pergunta, basta calcularmos onúmero de permutações possíveis de n elementoscom k e (n – k) repetições.

• Dessa forma, o número de permutações procuradoé:

𝑛!

𝑘! 𝑛 − 𝑘 !=

𝑛

𝑘

• Agora é intuitivo ver que a probabilidade procuradaé:

𝑃 𝑋 = 𝑘 = 𝑛

𝑘 𝑝𝑘(1 − 𝑝)𝑛−𝑘 .

Definição: Uma distribuição de probabilidade Binomialresulta de um experimento que satisfaz os seguintesrequisitos:

1. O experimento tem um número fixo de tentativas;

2. As tentativas devem ser independentes;

3. Cada tentativa deve ter todos os resultadosclassificados em duas categorias;

4. A probabilidade de um sucesso em cada tentativa,denotada por p, permanece constante.

• A variável aleatória X, correspondente ao número

total de sucessos nas n tentativas do experimento,

tem distribuição Binomial com parâmetros n e p e

função de probabilidade:

𝑃 𝑋 = 𝑥 = 𝑛

𝑥 𝑝𝑥(1 − 𝑝)𝑛−𝑥 , 𝑥 = 0, 1, 2, ⋯ , 𝑛.

• Notação X~Binomial(n; p)

Exemplos:

1. Um professor de Psicologia planeja dar um teste

surpresa que consiste em 4 questões de múltipla

escolha, cada uma com 5 alternativas possíveis (a,

b, c, d, e), uma das quais é correta. Suponhamos

que um aluno despreparado faça adivinhações

aleatórias. Qual é a probabilidade de que este aluno

acerte exatamente três questões?

• Solução: Primeiramente, note que esseprocedimento satisfaz os 4 requisitos para umadistribuição binomial.

Se chamarmos de sucesso o fato da resposta estar

correta, vemos que 𝑃 𝑆 = 15 = 0,2; uma vez que

para cada questão há 5 respostas possíveis (a, b, c, d,

e), uma das quais é correta.

• A variável aleatória X, número de respostas corretasdentre as 4 questões, pode assumir os valores 0, 1,2, 3, 4.

• Dessa forma, X ~ Binomial(4; 0,2).

• Assim, a probabilidade de 3 respostas corretas é:

𝑃 𝑋 = 3 = 4

3 0,23(1 − 0,2)4−3

𝑃 𝑋 = 3 =4!

3! 4 − 3 !× 0,008 × 0,8 ≅ 0,026

2. Uma linha de produção em grande escalaproduz 6% de itens defeituosos. 30 itens da

produção semanal são observados. Calcular aprobabilidade de se observar pelo menos 2itens defeituosos?

• Solução: Seja X = número de itens defeituosos dentreos 30 observados. X = 0, 1, 2, ..., 30.

• X ~ Binomial(30; 0,06)

𝑃 𝑋 ≥ 2 = 1 − 𝑃 𝑋 < 2

Onde,

𝑃 𝑋 < 2 = 𝑃 𝑋 = 0 + 𝑃 𝑋 = 1

𝑃 𝑋 < 2 = 30

0 0,06 0 0,94 30 +

30

1 0,06 1 0,94 29

𝑃 𝑋 < 2 = 0,156256 + 0,299213 = 0,455469

∴ 𝑃 𝑋 ≥ 2 = 1 − 0,455469 ≅ 0,545

• A figura a seguir mostra exemplo de

distribuições binomiais. Para n fixo (no

exemplo n = 20) à medida que p aumenta de 0

a 0,5 a distribuição se torna mais simétrica. O

mesmo acontece se p diminui de 1 a 0,5.

• Média e variância de uma distribuiçãobinomial:

𝐸 𝑋 = 𝑛𝑝

𝑉 𝑋 = 𝑛𝑝(1 − 𝑝)

• Exemplo: No exemplo anterior da linha de produção,tem-se que o número esperado de itens defeituososdentre os 30 observados è:

• A variância e o desvio padrão são respectivamente:

𝐸 𝑋 = 30 × 0,06 = 1,8

𝑉 𝑋 = 30 × 0,06 × 0,94 = 1,692

𝐷𝑃 𝑋 = 1,692 = 1,3

4.2.3. Distribuição de Poisson

• É útil para descrever as probabilidades do

número de ocorrências num campo ou

intervalo contínuo (em geral tempo ou

espaço).

• Por exemplo, a v.a. de interesse pode ser:

– Nº de peças defeituosas substituídas num veículodurante o primeiro ano de vida;

– Nº de erros tipográficos por página, em um materialimpresso;

– Nº de acidentes por mês, em determinada rodovia;

– Número de clientes que chegam ao caixa de umsupermercado por hora;

• A utilização da distribuição de Poisson baseia-se nasseguintes hipóteses:

1. A probabilidade de ocorrência é a mesma para dois

intervalos quaisquer de igual comprimento.

2. A probabilidade de duas ou mais ocorrências

simultâneas é aproximadamente zero.

3. O número de ocorrências em qualquer intervalo é

independente do número de ocorrências em outros

intervalos.

• A função de probabilidade de Poisson édefinida pela seguinte equação:

P (X = x) =e¡¸¸x

x!

Onde,

• - probabilidade de x ocorrências em um

intervalo.

• - base dos logaritmos naturais ( ).

• - taxa de ocorrências no intervalo considerado.

P(X =x)

e e =2;71828

¸

• OBS: o número de ocorrências não tem limitemáximo. Ela é uma v.a. discreta que pode assumiruma sequência infinita de valores (X = 0, 1, 2, ...).

• Média e variância de uma distribuição de Poisson

𝐸 𝑋 = 𝜆

𝑉 𝑋 = 𝜆

Exemplos:

1. Suponha que estejamos interessados no número decarros que chegam a um caixa automático drive-thru de um banco durante um período de 15minutos nas manhãs de fins de semana.

• Considere que a análise dos dados históricos mostreque o número médio de carros que chegam noperíodo considerado é igual a 10.

• Determine a probabilidade de:

a) Exatamente 5 carros chegarem em 15 min.?

X = nº de carros que chegam em um período de 15 min qualquer.

P (X = 5) =e¡10105

5!= 0; 0378

b) Um carro chegar em um período de 3 mim.?

Y = nº de carros que chegam em um período de 3 minqualquer.

Número esperado de carros que chegam em um período de 3 min

¸= 3£10

15= 2 =)

• Portanto,

2. Suponha que os defeitos em fios para tear possamser aproximados por um modelo de Poisson commédia de 0,2 defeitos por metro. Inspecionando-sepedaços de fio de 6 metros de comprimento,determine a probabilidade de se encontrar menosde 2 defeitos.

P (Y = 1) =e¡221

1!= 0; 2707

¸= 6£0;2 = 1;2

P (X · 1) = P (X = 0) + P (X = 1)

=e¡1;21; 20

0!+

e¡1;21; 2

1!

= 0; 301 + 0; 3612 = 0; 6622

4.3. Variáveis aleatórias contínuas

• Vimos que uma v.a. contínua é uma função X,definida sobre o espaço amostral Ω, que assumevalores num intervalo dos números reais.

• Ex: tempo de vida de uma lâmpada, nível decolesterol no soro sanguíneo, tempo de espera deum cliente para ser atendido num banco, duração deuma chamada telefônica, etc.

• Distribuições de probabilidade contínuas: Dado que

uma v.a. contínua X assume um conjunto infinito não

enumerável de valores, torna-se impraticável a idéia

de atribuir uma probabilidade a cada possível valor

de X, como era feito no caso de uma v.a. discreta.

• Agora, o procedimento para a obtenção de

probabilidades levará em conta intervalos de valores

e usará o histograma.

• Considere uma distribuição de freqüências com 9classes:

Peso fi fr

x0 |- x1 f1 fr1

x1 |- x2 f2 fr2

x2 |- x3 f3 fr3

x7 |- x8 f8 fr8

x8 |- x9 f9 fr9

Total n

• Lembre-se que na construção de um histograma, aaltura correspondente a cada retângulo equivaledensidade da classe, onde . Dessa forma, aárea de cada retângulo é igual a freq. relativa daclasse.

• Assim, dado que a soma das freq. relativas é igual a1, a área total do histograma e do polígono defreqüências também é 1.

𝑑𝑖 = 𝑓𝑟/𝑕

di

• Considere o intervalo (x1,x2). Temos que a

probabilidade de um ponto qualquer cair

entre x1 e x2 será aproximadamente igual a

área do retângulo hachurado.

• Se diminuirmos a amplitude dos intervalos,

(aumentando, assim, o número de intervalos)

tornando a mesma infinitamente pequena, o

polígono de freqüências passará a ser uma

curva.

𝑃 𝑎 ≤ 𝑋 ≤ 𝑏 = á𝑟𝑒𝑎 𝑕𝑎𝑐𝑕𝑢𝑟𝑎𝑑𝑎

di

Essa curva é a representação gráfica de uma função da

v.a. X, denotada por 𝑓(𝑥) e chamada função de

densidade de probabilidade. Esta função deve

satisfazer as seguintes propriedades:

1. 𝑓(𝑥) ≥ 0, para todo 𝑥 ∈ −∞, ∞ ;

2. A área definida por 𝑓(𝑥) tem que ser igual a 1.

• Uma vez que, para v.a. contínuas, as probabilidades

são definidas para intervalos de valores e são obtidas

como áreas sob a curva 𝑓(𝑥), temos que:

𝑃 𝑋 = 𝑥 = 𝑃 𝑥 = 0;

Uma vez que só temos uma linha, cuja área é zero.

4.3.1. Média e variância de uma variável aleatória contínua

• A média ou valor esperado de uma variável aleatóriadiscreta X é dada pela expressão:

¹ = E(X) =

Z 1

¡1

x f(x) dx

• A variância de X é dada pela expressão:

• O desvio padrão da v.a. X é, então, dado por:

𝜎 = 𝜎2

¾2 = V (X) =

Z 1

¡1

(x¡ ¹)2 f(x) dx

¾2 = V (X) =

Z 1

¡1

x2 f(x) dx¡ ¹2

• Exemplo: Arqueólogos estudaram certa região eestabeleceram um modelo teórico para a variável C,comprimento de fósseis na região (em cm). Suponhaque C é uma variável aleatória contínua com aseguinte função densidade de probabilidade:

Calcule a média e a variância da v.a. C.

f(c) =

8<

:

140

¡c10

+ 1¢; se 0 · c · 20

0 caso contr¶ario

Solução:

• Cálculo da média

𝜇 = 𝑐1

40

𝑐

10+ 1 𝑑𝑐

20

0

= 1

400

𝑐3

3

0

20

+ 1

40

𝑐2

2

0

20

=35

3

• Cálculo da variância e do desvio padrão

𝑐2𝑓(𝑐)𝑑𝑐20

0

= 𝑐21

40

𝑐

10+ 1 𝑑𝑐

20

0

𝑐2𝑓(𝑐)𝑑𝑐20

0

= 1

400

𝑐4

4

0

20

+ 1

40

𝑐3

3

0

20

=500

3

𝜎2 =500

3−

35

3

2

= 30,56 𝑐𝑚2

∴ 𝜎 = 30,56 = 5,53 𝑐𝑚

• Propriedades da média:

1. 𝐸 𝑐 = 𝑐

2. 𝐸 𝑐𝑋 = 𝑐𝐸(𝑋)

3. 𝐸 𝑐𝑋 + 𝑏 = 𝑐𝐸 𝑋 + 𝑏

4. 𝐸 𝑋 + 𝑌 = 𝐸 𝑋 + 𝐸(𝑌)

• Propriedades da variância:

1. 𝑉 𝑐 = 0

2. 𝑉 𝑐𝑋 = 𝑐2𝑉(𝑋)

3. 𝑉 𝑐𝑋 + 𝑏 = 𝑐2𝑉(𝑋)

4. 𝑉 −𝑋 = 𝑉(𝑋)

4.4. Distribuições contínuas mais comuns

4.4.1. Distribuição Uniforme

• Definição: Uma v.a. contínua tem umadistribuição uniforme se todos os valores queassume são igualmente prováveis.

• Uma v.a. X tem distribuição Uniforme Contínua nointervalo [a, b], a < b, se sua função densidade deprobabilidade é dada por:

𝑓 𝑥 =

1

(𝑏 − 𝑎) , 𝑠𝑒 𝑎 ≤ 𝑥 ≤ 𝑏

0 , 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜

• Notação: X ~ Uniforme[a, b]

• Exemplo: Uma professora planeja a aula tão

cuidadosamente, que a duração de suas aulas é

distribuída uniformemente entre 50 e 52 minutos.

Isto é, qualquer tempo entre 50 e 52 minutos é

possível, e todos esses valores possíveis são

igualmente prováveis.

• Se selecionarmos aleatoriamente uma aula edesignarmos X a v.a. representativa do tempo deaula, então, X tem uma distribuição definida pelafunção densidade

𝑓 𝑥 =

1

2 , 𝑠𝑒 50 ≤ 𝑥 ≤ 52

0 , 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜

• Ache a probabilidade de uma aula durar mais de 51,5minutos.

𝑃 𝑋 > 51,5 = á𝑟𝑒𝑎 𝑑𝑎 𝑟𝑒𝑔𝑖ã𝑜 𝑠𝑜𝑚𝑏𝑟𝑒𝑎𝑑𝑎

𝑃 𝑋 > 51,5 = 0,5 × 0,5 = 0,25

• Média e variância de uma distribuição UniformeContínua

𝐸 𝑋 = 𝑎 + 𝑏 2

𝑉 𝑋 = 𝑏 − 𝑎 2 12

• Exemplo: No exemplo anterior relacionado à duração

de aula de uma determinada professora, designou-se

X a v.a. representativa do tempo de aula (em min.),

onde X seguia uma distribuição Uniforme[50, 52].

Dessa forma, o tempo esperado de aula é:

𝐸 𝑋 =52 + 50

2= 51

• A variância e o desvio padrão são respectivamente:

𝑉 𝑋 =(52 − 50)2

12=

4

12≅ 0,333

𝐷𝑃 𝑋 = 0,333 ≅ 0,578

4.4.2. Distribuição Exponencial

• Uma v.a. contínua X, assumindo valores não

negativos, segue o modelo Exponencial com

parâmetro 𝛼 > 0 se sua densidade é:

𝑓 𝑥 = 𝛼𝑒−𝛼𝑥 , 𝑠𝑒 𝑥 ≥ 0

0 , 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜

• Notação: X ~ Exp(α).

• Para calcular probabilidades com a exponencial,precisamos resolver a integral correspondente aointervalo de interesse. Assim,

𝑃 𝑎 ≤ 𝑋 ≤ 𝑏 = 𝛼𝑒−𝛼𝑥 𝑑𝑥𝑏

𝑎

= − 𝑒−𝛼𝑥 𝑎𝑏 = 𝑒−𝛼𝑎 − 𝑒−𝛼𝑏

• Esta distribuição tem sido amplamente utilizada nasáreas de física, engenharia, computação e biologia.

• Variáveis como a vida útil de equipamentos, temposde falha, tempos de sobrevivência de espécies eintervalos entre solicitações de recursos são algumasdas quantidades que têm sido modeladas pelaexponencial.

• Média e variância de uma distribuiçãoExponencial

𝐸 𝑋 = 1 𝛼

𝑉 𝑋 = 1 𝛼2

• Exemplo: Uma indústria fabrica lâmpadas especiais

que ficam em operação continuamente. A empresa

oferece a seus clientes a garantia de reposição, caso a

lâmpada dure menos de 50 horas. A vida útil dessas

lâmpadas é modelada através da distribuição

Exponencial com parâmetro 1 8000 . Determine a

proporção de trocas por defeito de fabricação.

Solução: Representemos pela v.a. T, o tempo de vida da

lâmpada, e assim T ~ Exp(1 8000 ). A probabilidade

desejada será:

𝑃 𝑇 < 50 = 1

8000𝑒−

18000

𝑡 𝑑𝑡50

0

𝑃 𝑇 < 50 = − 𝑒−1

8000𝑡

0

50

= 𝑒−1

8000×0 − 𝑒−

18000

×50

𝑃 𝑇 < 50 = 1 − 𝑒−50

8000 ≅ 0,006

• Dessa forma, a proporção de trocas por defeito defabricação será de aproximadamente 0,6%.

• Esse número é relativamente pequeno, o que não é

surpresa, tendo em vista que, como o parâmetro é

𝛼 = 1 8000 , a duração média das lâmpadas é

𝐸 𝑇 = 1 𝛼 = 8000 horas.

4.4.3. Distribuição Normal

• Dizemos que uma variável aleatória contínua X temdistribuição Normal com parâmetros e 2, se suafunção densidade é dada por:

𝑓 𝑥 =1

𝜎 2𝜋𝑒𝑥𝑝 −

1

2𝜎2(𝑥 − 𝜇)2 , 𝑝𝑎𝑟𝑎 − ∞ < 𝑥 < ∞

• Notação: X ~ N(𝜇, 𝜎2).

• Propriedades da Normal:

1. 𝑓 𝑥 é simétrica em relação a .

2. 𝑓 𝑥 → 0 quando 𝑥 → ±∞.

3. O valor máximo de 𝑓 𝑥 ocorre quando 𝑥 = 𝜇.

• A distribuição Normal é completamente especificadapela média μ e pela variância σ2 (parâmetros dadistribuição). A figura a seguir mostra exemplo dedistribuições Normais.

• Como calcular Probabilidades para distribuiçãoNormal ?

Z ~ N(0,1) – distribuição Normal Padrão.

𝑃(𝑍 ≤ 𝑧1) são tabeladas (valores de z entre -3 e 3)

• Exemplos: Termômetros Científicos – livro:Introdução à Estatística – Mário F. Triola.

z1

Procedimento para achar escores z a partir de áreasconhecidas.

1. Desenhe uma curva em forma de sino e identifiquea região sob a curva que corresponde àprobabilidade dada. Se esta região não for umaregião acumulada à esquerda, trabalhe com regiõesconhecidas que sejam acumuladas à esquerda.

• Usando a área acumulada à esquerda, localize aprobabilidade mais próxima no corpo da tabela dadistribuição Normal e identifique o escore zcorrespondente.

• Exemplos: Termômetros Científicos – livro:Introdução à Estatística – Mário F. Triola.

• Como calcular probabilidades para uma N(μ,σ2)?

• A fim de que possamos calcular probabilidades para

distribuições Normais não-padronizadas, iremos

transformar uma v.a. X ~ N(𝜇, 𝜎2) em uma v.a. com

distribuição Normal padrão (Z ~ N(0,1)).

A padronização de x é feita usando-se a fórmula:

𝑍 =𝑋 − 𝜇

𝜎

• Qual a distribuição de X - μ?

• Qual a distribuição de Z = (X-μ)/σ?

• Resultado Importante: Se X ~ N(𝜇, 𝜎2), então:

𝑍 =𝑋 − 𝜇

𝜎 ~ 𝑁(0, 1)

e

𝑃 𝑋 ≤ 𝑥 = 𝑃 𝑍 ≤𝑥 − 𝜇

𝜎

• Exemplo: Doentes sofrendo de certa moléstia sãosubmetidos a um tratamento intensivo cujo tempode cura foi modelado por uma densidade Normal, demédia 15 e desvio padrão 2 (em dias).

• Seja X a v.a. que denota o tempo de cura, temos queX ~ N(15, 4).

• Calcule a probabilidade do tempo de cura:

a. Ser superior a 17 dias?

b. Ser inferior a 20 dias?

c. Estar entre 14 e 17 dias?

• Solução:

a. 𝑃 𝑋 > 17 = 𝑃 𝑍 >17−15

2 = 𝑃 𝑍 > 1

= 1 − 𝑃 𝑍 ≤ 1 = 1 − 0,8413 = 0,1587

b. 𝑃 𝑋 < 20 = 𝑃 𝑍 <20−15

2 = 𝑃 𝑍 < 2,5 = 0,9938

c. 𝑃 14 < 𝑋 < 17 = 𝑃 14−15

2< 𝑍 <

17−15

2

= 𝑃 −0,5 < 𝑍 < 1

= 𝑃 𝑍 < 1 − 𝑃(𝑍 < −0,5)

∴ 𝑃 14 < 𝑋 < 17 = 0,8413 − 0,3085 = 0,5328

• Uma questão interessante seria saber o tempomáximo necessário para a recuperação de 25% dospacientes, ou seja,

𝑃 𝑋 < 𝑥 = 0,25

𝑃 𝑋 ≤ 𝑥 = 𝑃 𝑍 ≤𝑥 − 15

2 = 0,25

• A partir da tabela da Normal padrão obtemos:

𝑥 − 15

2= −0,67 ⇒ 𝑥 = 13,66

Assim, 25% dos pacientes ficarão curados antes de 14

dias, aproximadamente.

Dessa forma, 𝑥 = 𝜇 + (𝑧𝜎).

4.5. Distribuições amostrais

4.5.1. Distribuição de médias amostrais.

• Considere uma população com parâmetros µ (média)e σ2 (variância).

• Se tirarmos uma amostra aleatória de tamanho n ecalcularmos sua média, teremos um valor para .𝑋

• Se retirarmos outras amostras de tamanho n da mesma

população, obteremos outros valores para 𝑋 que serão

diferentes do primeiro.

Logo 𝑋 é uma variável que muda de valor de amostra

para amostra.

• Se associarmos a cada valor de 𝑋 a probabilidade da

amostra que lhe corresponde, 𝑋 passa a ser uma

variável aleatória.

Assim, 𝑋 tem uma distribuição de probabilidade que

recebe o nome de distribuição amostral de 𝑋 .

• Exemplo: Selecionamos todas as possíveis amostrasde tamanho 2, com reposição, da população 1, 3, 5,5, 7. Existem 5x5 = 25 possibilidades:

1 e 1 1 e 3 1 e 5 1 e 5 1 e 7

3 e 1 3 e 3 3 e 5 3 e 5 3 e 7

5 e 1 5 e 3 5 e 5 5 e 5 5 e 7

5 e 1 5 e 3 5 e 5 5 e 5 5 e 7

7 e 1 7 e 3 7 e 5 7 e 5 7 e 7

• E suas médias são: 1, 2, 3, 3, 4, 2, 3, 4, 4, 5, 3, 4, 5, 5,6, 3, 4, 5, 5, 6, 4, 5, 6, 6 e 7, respectivamente.

• Como cada amostra tem probabilidade de ocorrênciaigual a 1/25, a distribuição amostral de é dada por:

𝑋 1 2 3 4 5 6 7

𝑃(𝑋 = 𝑥 ) 1

25 225 5

25 625 6

25 425 1

25

• Note que a média e variância populacionais são,respectivamente:

𝜇𝑋 = 𝐸 𝑋 = 𝑥 𝑖𝑝𝑖 = 4,2𝑖

𝜎𝑋 2 = 𝑉 𝑋 = 𝑥 𝑖

2𝑝𝑖 − 𝜇𝑋 2 = 2,08

𝑖

𝜇 = 𝐸 𝑋 = 4,2 e 𝜎2 = 𝑉(𝑋) = 4,16,

• Verificamos, aqui, dois fatos:

– primeiro, a média das médias amostrais (𝜇𝑋 )

coincide com a média populacional (𝜇);

– segundo, a variância de 𝑋 é igual à variância de X,

dividida por n = 2.

Esses dois fatos não são casos isolados. Na realidade,

temos o seguinte resultado.

• Teorema: Seja X uma v.a. com média 𝜇 e variância 𝜎2,

e seja 𝑋1, ⋯ , 𝑋𝑛 uma amostra aleatória de X.

Então,

𝜇𝑋 = 𝐸 𝑋 = 𝜇 e 𝜎𝑋 2 = 𝑉 𝑋 = 𝜎2

𝑛

OBS: O desvio padrão de 𝑋 é comumente chamado de

erro padrão de 𝑋 e denotado por 𝜎𝑋 .

Teorema Central do Limite (TCL)

• Dado:

1. A v.a. X tem uma distribuição (que pode ou não

ser normal) com média 𝜇 e desvio padrão 𝜎.

2. Amostras aleatórias, todas de tamanho n, são

selecionadas da população. (As amostras são

selecionadas de modo que todas as possíveis

amostras de tamanho n têm a mesma chance de

serem escolhidas).

• Conclusão:

A distribuição das médias amostrais (𝑋 ) irá se

aproximar de uma distribuição normal à medida que n

aumentar. Ou seja,

𝑋 ~N 𝜇, 𝜎2

𝑛 .

Regras práticas comumente utilizadas:

1. Se a população não for normalmente

distribuída, eis uma diretriz em comum: para

amostras de tamanho n maior que 30, a

distribuição de 𝑋 pode ser razoavelmente bem

aproximada pela distribuição normal. A

aproximação se torna melhor à medida que o

tamanho amostral n aumenta.

• OBS: Populações com distribuições muitoassimétricas, requerem tamanhos de amostra muitomaiores que 30.

2. Se a população for normalmente distribuída, então

𝑋 será normalmente distribuída para qualquer

tamanho amostral n.

• Exemplo: Em uma certa cidade, a duração de

conversas telefônicas em minutos, originárias de

telefones públicos, segue um modelo Exponencial

com parâmetro 1/3. Observando-se uma amostra

aleatória de 50 dessas chamadas, qual será a

probabilidade delas, em média, não ultrapassarem 4

minutos?

• Solução: Representando por X a duração das

chamadas, temos que X ~ Exp(1/3). Dessa forma,

tem-se que: 𝐸 𝑋 = 3 e 𝑉 𝑋 = 9.

Admitindo uma amostra suficientemente grande, pelo

TCL temos que: 𝑋 ~N(3; 9/50).

• Dessa forma, podemos calcular a probabilidadedesejada da seguinte forma:

• Tendo em vista o alto valor de probabilidadeencontrado, podemos dizer que é praticamente certoque a media amostral estará abaixo de 4 min.

𝑃 𝑋 ≤ 4 = 𝑃 𝑍 ≤4 − 3

9 50 = 𝑃 𝑍 ≤ 2,36 = 0,9909

4.5.2. Distribuição de proporções amostrais

• Uma aplicação do TCL relaciona-se coma distribuiçãoda proporção amostral. Recorde que a proporçãoamostral é definida como a fração de indivíduos comuma dada característica em uma amostra detamanho n, isto é,

𝑝 =𝑛° 𝑑𝑒 𝑖𝑛𝑑í𝑣. 𝑛𝑎 𝑎𝑚𝑜𝑠𝑡𝑟𝑎 𝑐𝑜𝑚 𝑑𝑎𝑑𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎

𝑛

• Se construirmos para o i-ésimo indivíduo uma v.a.

𝑌𝑖 tal que

𝑌𝑖 = 1, 𝑠𝑒 𝑜 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜 𝑎𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎 𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎

0, 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜

Podemos reescrever a proporção amostral como

𝑝 =𝑌1 + 𝑌2 + ⋯ + 𝑌𝑛

𝑛=

𝑌𝑖𝑛𝑖=1

𝑛= 𝑌.

• Logo, a proporção amostral nada mais é do que a média

de v.a.’s convenientemente definidas.

Assumindo que a proporção de indivíduos com a dada

característica na população é p e que os indivíduos são

selecionados aleatoriamente, temos que 𝑌1 , ⋯ , 𝑌𝑛

formam uma seqüência de v.a.’s independentes com

distribuição de Bernoulli.

Assim, 𝐸 𝑌𝑖 = 𝑝 e 𝑉 𝑌𝑖 = 𝑝(1 − 𝑝). Logo,

𝐸 𝑝 = 𝐸 𝑌𝑖

𝑛𝑖=1

𝑛 = 𝑝

𝑉 𝑝 = 𝑉 𝑌𝑖

𝑛𝑖=1

𝑛 =

𝑝(1 − 𝑝)

𝑛

• Tendo em vista o TCL temos que para n

suficientemente grande,

𝑌 ~ N 𝑝,𝑝(1−𝑝)

𝑛

e dessa forma,

𝑌 − 𝐸(𝑌 )

𝑉 𝑌 =

𝑝 − 𝑝

𝑝(1 − 𝑝) 𝑛

𝑛→∞ 𝑁(0, 1).

• Exemplo: Suponha que a proporção de peças fora deespecificação em um lote é de 40%. Tomada umaamostra de tamanho 30, a probabilidade de estaamostra fornecer uma proporção de peçasdefeituosas menor que 0,50 pode ser calculada deforma exata pela Binomial e aproximada pelo modeloNormal.

• Solução: Seja X a v.a. representando o número depeças defeituosas na amostra. Claramente, X ~Binomial(30; 0,40). Logo, se representa a proporçãoamostral de peças defeituosas, temos que

𝑃 𝑝 < 0,50 = 𝑃 𝑋 30 < 0,50 = 𝑃(𝑋 < 15)

= 30

𝑖 0,40𝑖 0,6030−𝑖

14

𝑖=0= 0,825.

• Considerando agora a aproximação pelanormal, temos, como conseqüência do TCL

𝑝 ~𝑁 0,40; 0,40 × 0,60

30

• Assim,

• Temos, então, mesmo para uma amostra não muitogrande, uma proximidade razoável entre as duasrespostas.

𝑃 𝑝 < 0,50 ≅ 𝑃 𝑍 <0,50 − 0,40

0,40 × 0,60 30

𝑃 𝑝 < 0,50 ≅ 𝑃 𝑍 < 1,12 = 0,8686;

Recommended