65
1 APOSTILA DE TEORIA DA PROBABILIDADE LEONARDO MACRINI UFRRJ - 2013

Apostila de Probabilidade Versao 0

Embed Size (px)

Citation preview

Page 1: Apostila de Probabilidade Versao 0

1

APOSTILA DE TEORIA DA PROBABILIDADE

LEONARDO MACRINI

UFRRJ - 2013

Page 2: Apostila de Probabilidade Versao 0

2

=======================================================================

Alguns esclarecimentos antes da leitura desta apostila

A presente apostila não apresenta nada, ou quase nada, de original. Ela é constituída de trechos de algumas obras* de forma a contemplar as ementas dos cursos de Economia e Administração do ITR/UFRRJ. Muitos tópicos da teoria, como por exemplo, em variáveis aleatórias contínuas, foram omitidas propositalmente para atender as referidas ementas. Qualquer contribuição, crítica, etc, será muito bem vinda. Em futuro próximo esperamos acrescentar os tópicos faltantes de forma que esta apostila sirva a outros cursos de graduação.

*

Inferência Estatística – Casella, G. & Berger, R. – Cengage Leraning – 2010.

Probability and Statistical Inference – Hogg, R. V. & Tanis, E. A. – Prentice Hall – 2010

A First Course in Probability – Ross, S. - Prentice Hall – 2010

Introduction to the Theory of Statistics – Mood, A. M. & Graybill, F.A. – McGraw-Hill - 1974

Probabilidade e Variáveis Aleatórias – Magalhães, M. N. – São Paulo IME-USP - 2004

Probabilidade – Meyer, L. M. – Livros Técnicos e Científicos – 1980.

Estatística Básica – Morettin, L. G. – Makron Books – 1999

Notas de Inferência estatística – Barros, M. PUC-Rio – 1999

Estatística Básica – Bussab & Morettin – Ed. Saraiva – 2010

Introduction to Probability Theory and Statistical Inference – Larson, H. J. – John Wiley & Sons - 1982

=======================================================================

“As questões mais importantes da vida são, em grande parte, nada mais do que problemas de probabilidade.”

“A teoria da probabilidade nada mais é do que o cálculo do bom senso.” Pierre-Simon Laplace (1749 – 1827)

O objetivo da teoria da probabilidade é modelar matematicamente conceitos como incerteza, risco, chance, possibilidade, verossimilhança, perspectivas e, até mesmo, sorte. Considere as seguintes frases do nosso dia-a-dia:

A probabilidade de uma moeda lançada “dar” coroa é de 50%;

A previsão do tempo é de 40% de probabilidade de chuva amanhã;

A radiografia indica uma moderada probabilidade de Trombo embolia Pulmonar;

O Copom afirma que aumentou a probabilidade da convergência da inflação para a trajetória de metas;

Page 3: Apostila de Probabilidade Versao 0

3

Depois da rodada de ontem, a probabilidade do Flamengo ser rebaixado aumentou.

Quase todos nos temos ao menos uma intuição do que estas frases significam. No entanto, encontre a sua resposta para a seguinte pergunta: o que exatamente significa a palavra probabilidade?

A Teoria da Probabilidade é apenas um modelo. Modelos não são “A REALIDADE” ou “A VERDADE”. Modelos são úteis exatamente porque simplificam a realidade para que possamos entendê-los (Num mapa de metrô, as estações aparecem alinhadas; o mapa não mostra todas as ruas, nem os jardins, nem a topografia da cidade. O mapa esta errado? Não, o mapa é um modelo; ele é perfeito para a sua função (saber se a próxima estação é onde eu tenho que descer ou não), mas, se usado além de suas limitações (para planejar uma caminhada, por exemplo), ele falha miserávelmente.)

No fundo, todo modelo é ruim, alguns são úteis.

Como lidamos com nossa própria incerteza e ignorância desde que nascemos, o conceito de probabilidade até que não é tão misterioso assim.

O entendimento da natureza das coisas pela experimentação, ao contrario do conhecimento especulativo da tradição medieval, tornou-se o caminho para as conquistas que poderiam proporcionar ao gênero humano o melhoramento de suas condições de existência.

Charles Darwin reconheceu na variação biológica um dos aspectos fundamentais da vida e dela fez a base de sua teoria da sobrevivência do mais apto. Foi contudo seu colega inglês Karl Pearson quem primeiro observou a natureza subjacente dos modelos estatísticos e como eles ofereciam algo diferente da visão determinista da ciência do século XIX.

As demandas geradas, pela astronomia e pela física experimental fizeram com que boa parte do trabalho dos matemáticos do fim do século XVIII e inicio do século XIX consistisse em compreender e quantificar os erros aleatórios. Tais esforços levaram a uma nova área, a estatística matemática, que gerou uma serie de ferramentas para a interpretação dos dados surgidos da observação e da experimentação.

A distribuição dos erros de determinar a posição de Júpiter na noite de Natal ou o peso de um pedaço de pão com passas recém saído da linha de montagem será a mesma. A idéia de que a distribuição dos erros segue uma lei universal, por vezes chamada de Lei dos Erros, é o preceito central no qual se baseia a teoria da medição. Isso não significa que os erros aleatórios sejam o único tipo de erro capaz de afetar a medição.

Laplace, em 1820, descreveu a primeira distribuição de probabilidade, a distribuição do erro, considerando erro, os desvios entre os valores observados e previstos.

APLICAÇÕES:

Na medicina usam modelos matemáticos para determinar possíveis efeitos nos tratamentos sobre a sobrevivência a longo prazo.

Sociólogos e Economistas empregam distribuições matemáticas para descrever o comportamento da sociedade humana.

Em mecânica quântica, os físicos utilizam as distribuições matemáticas para descrever as partículas subatômicas.

Page 4: Apostila de Probabilidade Versao 0

4

William Sealy Gosset: Trabalhou na Guinness, cerveja Irlandesa, e foi como matemático que deu sua primeira contribuição importante à arte de fazer cerveja, que dizia respeito à quantidade de levedura (organismos vivos) a serem misturadas ao malte moído. Gosset observou os dados e verificou que a contagem de células de levedura poderia ser modelada com uma distribuição probabilística conhecida como a “distribuição de Poisson”. A partir desse procedimento a Guinness passou a fabricar um produto mais consistente. Como a política da empresa não permitia que seus funcionários publicassem seus “achados”, essa primeira descoberta foi publicada usando o pseudônimo de Student.

Series Temporais: Tem sido usada para examinar a freqüência de ondas nas costas do Pacífico, nos Estados Unidos, e assim identificar tempestades no oceano Índico.

Distribuição dos Extremos: Ao sabermos como a distribuição de valores extremos se relaciona com a distribuição de valores ordinários, podemos manter um registro da altura das enchentes anuais e prever a altura mais provável do dilúvio de 100 anos (distribuição de Tippett). Pode-se determinar a altura dos diques a construir os navios e permite a Agência de Proteção Ambiental estabelecer padrões para emissões que controlarão os valores extremos de súbitas nuvens de gases que saem das chaminés industriais.

Kolmogorov, matemático soviético, compreendeu que encontrar a probabilidade de um evento era exatamente igual a encontrar a área de uma figura irregular. Adotou a recém surgida matemática da teoria da medição para os cálculos de probabilidades e com essas ferramentas foi capaz de identificar um pequeno conjunto de axiomas sobre os quais pode construir todo o corpo da teoria da probabilidade.

Os matemáticos dão um nome pomposo a situação em que dois problemas são iguais, embora pareçam diferentes: isomorfismo. Ex: Jogar uma moeda (cara e coroa) e nascimento de um filho (menina e menino).

Os conceitos fundamentais para o cálculo e para o trabalho de Bernoulli eram a seqüência, série e limite. Para o matemático, o termo seqüência significa essencialmente o mesmo que para todo mundo: uma sucessão ordenada de elementos, como pontos ou números. Uma série é simplesmente a soma de uma seqüência de números, e, em termos gerais, se os elementos de uma seqüência parecem estar se encaminhando a algum lugar – em direção a um ponto final, ou a um numero especifico -, isso é então chamado de limite da seqüência.

Diferença fundamental entre probabilidade e estatística: a primeira trata de previsões baseadas em probabilidades fixas, a segunda, de como inferir essas probabilidades com base nos dados observados.

Ao se medir o tempo de vida dos soberanos e clérigos verifica-se que o tempo de vida é semelhante aos das pessoas com outras profissões, o que leva-nos a concluir que a prece não apresenta nenhum beneficio.

O trabalho de Einstein de 1905 sobre a física estatística tinha o objetivo de explicar um fenômeno chamado movimento browniano. Einstein empregou a nascente teoria para explicar, com grande detalhamento numérico, o mecanismo preciso do movimento browniano. A necessidade de uma abordagem estatística para a física jamais seria questionada novamente, e a idéia de que a matéria é feita de átomos e moléculas se tornariam a base de maior parte da tecnologia moderna e uma das idéias mais importantes na história da física.

Finalmente: Depois da onça morta todo mundo é caçador.

Page 5: Apostila de Probabilidade Versao 0

5

Vamos enfim ao que interessa!!!

Teoria da Probabilidade

A teoria da probabilidade é a base sobre a qual a estatística é desenvolvida, fornecendo um meio para modelar populações, experimentos ou, praticamente, qualquer outra coisa que possa ser considerada como um fenômeno aleatório.

Assim como a estatística é desenvolvida com base na teoria da probabilidade, esta, por sua vez, é fundamentada na teoria dos conjuntos, que é por onde começamos.

Definição: O conjunto S de todos os possíveis resultados de um experimento é chamado de espaço amostral do experimento.

Ex: lançamento de uma moeda -> S={Ca, Co}

Definição: Um evento é qualquer conjunto de possíveis resultados de um experimento, ou seja, qualquer subconjunto de S (incluindo o próprio S).

Vamos definir as duas seguintes relações:

BxAxBA (contenção)

BxAxBA (igualdade)

Exemplo: Suponha-se que S = Todos os números reais, }032|{ 2 xxxA ,

}0)32)(1(|{ 2 xxxxB e }2,1,3|{ xxC . Então .CBeBA

Considerando dois conjuntos quaisquer (ou conjuntos) A e B, temos as seguintes operações elementares com conjuntos:

União: a união de A e B, escrita como AB, é o conjunto dos elementos que pertence a A ou B, ou a ambos:

}:{ BxouAxxBA

Interseção: a interseção de A e B, escrita como AB, é o conjunto dos elementos que pertencem tanto a A como a B:

}:{ BxeAxxBA

Complementação: o complemento de A, escrito como Ac, é o conjunto de todos os elementos que não estão em A:

}:{ AxxAc

Podemos agora estabelecer as seguintes propriedades úteis das operações com conjuntos.

a. Comutatividade ABBA

ABBA

b. Associatividade CBACBA )()(

CBACBA )()(

c. Leis Distributivas )()()( CABACBA

)()()( CABACBA

Page 6: Apostila de Probabilidade Versao 0

6

d. Leis DeMorgan ccc BABA )(

ccc BABA )(

Vamos provar a Lei Distributivas: )()()( CABACBA

Temos então )}(:{)( CBxeAxSxCBA

)}()(:{)()( CAxouBAxSxCABA

Vamos supor que ))(( CBAx . Pela definição de interseção, deve ocorrer que

)( CBx , ou seja, ou .CxouBx Como x também deve estar em A, temos

que );()( CAxouBAx portanto,

))()(( CABAx ,

E a contenção esta estabelecida.

Agora assuma que ))()(( CABAx . Isto implica que

)()( CAxouBAx . Se ,)( BAx então x esta em A e B.

Como ,Bx )( CBx , portanto, ))(( CBAx . Se, por outro lado,

)( CAx , o argumento é similar e, novamente, concluímos que

))(( CBAx . Deste modo, estabelecemos que

),()()( CBACABA mostrando a contenção na oura direção e,

assim, provando a lei distributiva.

As operações de união e interseção também podem ser ampliadas para seqüência infinitas de conjuntos. Se A1, A2, A3, ......... é uma seqüência de conjuntos, todos eles definidos em um espaço amostral S, então

1

}lg:{i

ii iumaparaAxSxA

}:{1

itodoparaAxSxA i

i

i

Definição: Dois eventos A e B são disjuntos (ou mutuamente exclusivos) se

BA . Os eventos A1, A2, A3, ......... são disjuntos dois a dois (ou mutuamente

exclusivos) se ji AA para todo i≠j.

Definição: Se A1, A2, A3, ......... são disjuntos dois a dois e

1i

i SA , então a

seqüência A1, A2, A3, ......... formam uma partição de S.

Exemplo: Suponha que S, o espaço amostral, seja formado pelos inteiros positivos de 1

a 10. Sejam },4,3,2{A }5,4,3{B e }.7,6,5{C Enumere os elementos dos

seguintes conjuntos:

(a) BA (b) BA (c) BA (d) )( CBA (e) )( CBA

Page 7: Apostila de Probabilidade Versao 0

7

(a) }5{}10,9,8,7,6,5,1{ BAA

(b) }10,9,8,7,6,5,4,3,1{}10,9,8,7,6,5,1{ BAA

(c) }10,9,8,7,6,1{}10,9,8,7,6,2,1{;}10,9,8,7,6,5,1{ BABA

}5,4,3,2{BA

(d) }10,9,8,7,6,4,3,2,1{)(}5{)( CBCB

}10,9,8,7,6,5,1{)(}4,3,2{)( CBACBA

(e) }10,9,8,7,6,5,2,1{)(}4,3{)(}7,6,5,4,3{)( CBACBACB

Exercícios:

Suponha que }.20|{ xxS Sejam os conjuntos A e B definidos da forma

seguinte: .}2/34/1|{}12/1|{ xxBexxA Descreva os seguintes

conjuntos:

(a) BA (b) BA (c) BA (d) BA

Princípios Básicos da Teoria da Probabilidade

Quando um experimento é realizado, o resultado é um elemento do espaço amostral. Se o experimento for realizado algumas vezes, poderão ocorrer diferentes resultados a cada vez ou alguns resultados podem se repetir. Esta “freqüência de ocorrências” de um resultado pode ser considerada como uma probabilidade. Resultados mais prováveis ocorrem com maior freqüência.

Seja A um evento associado ao Espaço Amostral S. Então definimos:

Sempossiveiscasosdenumero

AafavoraveiscasosdenumeroAP )(

Esta é a definição clássica de probabilidade quando S é finito, e baseia-se no conceito de resultados equiprováveis.

Considere o exemplo escolher um ponto do circulo unitário centrado na origem. Nesse caso diremos que os eventos serão equiprováveis se eles tem a mesma área. Essa

interpretação conduz a definição, para A S,

Adearea

Sdearea

AdeareaAP )(

Esta probabilidade é chamada de Geométrica.

Acontece que nem todo subconjunto de S tem uma área bem definida. Dessa forma só iremos atribuir probabilidade aos eventos cuja área estiver bem definida.

Oura possível interpretação é a considerada subjetiva, pela qual, em vez de pensar na probabilidade como freqüência, pensamos como se fosse uma crença na possibilidade de ocorrência de um evento.

Page 8: Apostila de Probabilidade Versao 0

8

Fundamentos Axiomáticos

Para cada evento A no espaço amostral S queremos associar a A um número entre zero e um que será chamado de probabilidade de A, denotado por P(A).

Definição: Uma família de subconjuntos de S é chamada de sigma álgebra (-álgebra ou campo de Borel), denotada por , se satisfizer as três seguintes propriedades:

a. (o conjunto vazio é um elemento de ).

b. A , então Ac ( é fechado, sob complementação).

c. Se A1, A2, ...... então

1i

iA ( é fechado, sob uniões contáveis).

O conjunto vazio é um subconjunto de qualquer conjunto. Portanto, S. A propriedade (a) estabelece que este subconjunto esta sempre em uma sigma álgebra.

Como S = c, as propriedades (a) e (b) implicam que S também está sempre em . Além disso, a partir das Leis DeMorgan, segue que é fechado sob interseções

contáveis. Se A1, A2, ...... , então ,...., 21

cc AA pela propriedade (b) e, portanto,

1i

c

iA . Entretanto, utilizando a Lei DeMorgan, temos

11 i

i

c

i

c

i AA

Assim, novamente pela propriedade (b),

1i

iA .

Exemplo: Se S tem n elementos, existem 2n conjuntos em ɞ. Seja: S = {1, 2, 3}, então é a seguinte seqüência de 23 = 8 conjuntos:

ɞ 3,2,1,3,2,3,1,2,1,3,2,1,

Exemplo: Seja: S = (-∞, ∞) a reta real, então ɞ é escolhido para conter todos os conjuntos da forma [a,b], (a,b], [a,b) e (a,b) para todos os números reais a e b. Podemos deduzir que ɞ contem todos os conjuntos que podem ser formados ao se considerarem uniões e interseções de conjuntos das variáveis acima.

Agora estamos em condições de definir uma função de probabilidade.

Definição: Levando em conta um espaço amostral S e uma sigma álgebra associada , uma função de probabilidade é uma função P com domínio que satisfaz

1. P(A) ≥ 0 para todo A .

2. P(S) = 1.

3. Se A1, A2, ...... forem disjuntos dois a dois, então

11 i

i

i

i AAP .

Page 9: Apostila de Probabilidade Versao 0

9

As três propriedades desta definição são, geralmente, chamadas de Axiomas de Probabilidade ( ou Axiomas de Kolmogorov, em homenagem a A. Kolmogorov, um dos pais da teoria da probabilidade).

Teorema: Seja S={s1,......,sn} um conjunto finito. Seja qualquer sigma álgebra de subconjuntos de S. Sejam p1,.....,pn números não negativos que soma 1. Para qualquer

A , definimos P(A) por

};{

)(Asi

i

i

pAP

Axioma da Aditividade Finita: Se A e B são disjuntos, então

)()()( BPAPBAP

Teorema: Se P é uma função de probabilidade e A é qualquer conjunto em , então

a. vazioconjuntooéondeP ,0)(

b. 1)( AP

c. )(1)( APAP c

Prova:

É mais fácil provar (c) em primeiro lugar. Os conjuntos A e Ac formam uma partição do

espaço amostral, isto é cAAS . Portanto,

1)()( SPAAP c

Além disso, A e Ac são disjuntos, portanto,

)()()( cc APAPAAP

E combinando estes resultados temos )(1)()()(1 APAPAPAP cc

Como P(Ac) ≥ 0 temos que P(A) ≤ 1.

Sabemos que SS e temos que disjuntossãoeS , então

)()()()(1 PSPSPSP

E, portanto, 0)( P

Teorema: Se P é uma função de probabilidade e A e B são quaisquer conjuntos em , então

a. )()()( BAPBPABP c

b. )()()()( BAPBPAPBAP

c. )()(, BPAPentãoBASe

Prova:

Page 10: Apostila de Probabilidade Versao 0

10

Para quaisquer conjuntos A e B temos

)()( cABABB

E, portanto, para )()( cABeAB disjuntos, temos

)()()()()()( ABPBPABPABPABPBP cc

Comprovando (a).

Para estabelecer (b), utilizamos a identidade

)( cABABA

E, portanto, para )( cABeA disjuntos, temos

)()()()()()( BAPBPAPABPAPBAP c

A partir de (a).

Por fim, se ., ABAentãoBA Portanto, utilizando (a), temos

)()()()()()()(0 APBPAPBPBAPBPABP c

Estabelecendo (c).

A fórmula )()()()( BAPBPAPBAP resulta em uma desigualdade útil

para a probabilidade de uma interseção. Como 1)( BAP , temos depois de fazer

alguns rearranjos,

1)()()( BPAPBAP

Esta desigualdade é um caso especial daquilo que é conhecido como Desigualdade de Bonferroni, permitindo limitar a probabilidade de um evento simultâneo (interseção) em termos das probabilidades dos eventos individuais.

Exemplo: A desigualdade de Bonferroni é particularmente útil quando é difícil (ou mesmo impossível) calcular a probabilidade de interseção, mas é importante ter alguma idéia do tamanho desta probabilidade. Suponha que A e B sejam dois eventos e que cada um tenha probabilidade de 0,95. Então, a probabilidade que ocorrerá é limitada inferiormente por

90,0195,095,01)()()( BPAPBAP

Teorema: Se P é uma função de probabilidade, então

a. ,.......,)()( 211CCpartiçãoqualquerparaCAPAP ii

b. ,.......,)( 2111AAconjuntosquaisquerparaAPAP iii i

(Desigualdade de Boole)

Prova: Como C1, C2,....... formam uma partição, sabemos que ji CC para todo i

≠ j, e .1 ii

CS

Assim,

11)(

i ii i CACASAA

Page 11: Apostila de Probabilidade Versao 0

11

Onde a ultima igualdade segue a partir da Lei Distributiva. Portanto, temos

1)()(

i iCAPAP

Agora, uma vez que Ci são disjuntos, os conjuntos iCA também o são, e a partir

das propriedades de uma função de probabilidade, temos

)()(11 iii i CAPCAP

estabelecendo (a).

Para estabelecer (b) , primeiramente criamos uma seqüência disjunta ,....., *

2

*

1 AA ,

com a propriedade iiiiAA

1

*

1. Definimos *

iA por

,....3,2,,1

1

*

1

*

1

iAAAAA j

i

jii

onde a notação A|B denota a parte de A que não intersecta com B. Em símbolos mais

familiares, cBABA | . Será fácil perceber que iiiiAA

1

*

1e, portanto,

temos

)( *

11

*

1 iii ii i APAPAP

onde a última igualdade segue, uma vez que *

iA são disjuntos. Para verificar isto,

escrevemos

)(|| *1

1

1

1

**

i

k

j jk

i

j jiki AdedefiniçãoAAAAAA

)|""(1

1

1

1dedefiniçãoAAAA

ck

j jk

ci

j ji

)(1

1

1

1DeMorhganLeisAAAA c

j

k

jk

c

j

i

ji

Agora, se i > k, a primeira interseção, acima, estará contida no conjunto c

kA , que terá

uma interseção vazia com Ak. Se k > i, o argumento é similar. Além disso, pela

construção ii AA * , portanto, temosAPAP ii ),()( *

)()(1

*

1 iiiiAPAP

estabelecendo (b).

Contagem

A contagem de problemas, em geral, parece complicada, e frequentemente precisamos manter nossa contagem sujeita a muitas restrições. O meio de resolver esses problemas é dividi-los em uma série de tarefas simples, que são fáceis de serem contadas, e empregar regras conhecidas de combinação de tarefas. O teorema a seguir é a primeira etapa neste processo e, algumas vezes, é conhecido como Teorema Fundamental da Contagem.

Page 12: Apostila de Probabilidade Versao 0

12

Teorema: Se um trabalho consiste em k tarefas separadas, a i-ésima delas pode ser realizada de ni maneiras, i= 1, 2,...., k, então o trabalho todo pode ser realizado de n1 x n2 x .... x nk modos. Exemplo: Considere uma loteria de 44 números onde iremos escolher os 2 primeiros números sorteados. Desta forma o primeiro número pode ser escolhido de 44 maneiras, e o segundo número, de 43 maneiras, perfazendo um total de 44 x 43 =1892 modos de escolher os dois números. Contudo se uma pessoa pode escolher o mesmo número duas vezes, teremos 44 x 44 = 1935 maneiras. Definição: Para um número inteiro positivo n, n! (leia-se n fatorial) é o produto de todos os números inteiros positivos menores ou iguais a n. Isto é: n! = n x (n-1) x (n-2) x .....x 3 x 2 x 1 Além disso, definimos 0! = 1. Considere o exemplo anterior da loteria de 44 números onde iremos sortear seis números. 1. Ordenados, sem reposição – Pelo Teorema Fundamental da Contagem, o primeiro

pode ser selecionado de 44 maneiras, o segundo de 43 maneiras , etc. Assim, existem

440.517.082.5!38

!44394041424344 xxxxx

possíveis bilhetes.

2. Ordenados, com reposição – Uma vez que cada número pode ser selecionado de 44 maneiras, existem

856.313.256.744444444444444 6 xxxxx possíveis bilhetes.

3. Não ordenados, sem reposição – Conhecemos o número de possíveis bilhetes,

com a ordenação sendo levada em conta, de modo que devemos dividir as ordenações redundantes. Mais uma vez, a partir do Teorema Fundamental da Contagem, seis números podem ser arranjados de 6 x 5 x 4 x 3 x 2 x 1 maneiras de modo que o número total de bilhetes não ordenados é

052.059.7!38!6

!44

123456

394041424344

xxxxx

xxxxx

possíveis bilhetes. Resumo dos possíveis ordenações de tamanho r de n objetos

Sem Reposição Com Reposição

Ordenado

)!(

!

rn

n

rn

Não Ordenado

)!(!

!

rnr

n

r

n

r

rn 1

Page 13: Apostila de Probabilidade Versao 0

13

Probabilidade Condicional e Independência

Definição: Se A e B são eventos em S e P(B) > 0, então a probabilidade condicional de A

dado B, escrita como )|( BAP , é

)(

)()|(

BP

BAPBAP

Observe que o que acontece no cálculo da probabilidade condicional é que B se torna

o espaço amostral: .1)|( BBP A intuição é de que o nosso espaço amostral original,

S, foi atualizado para B. Reexpressar a fórmula anterior resulta em uma forma útil de calcular probabilidades de interseção,

)()|()( BPBAPBAP

utilizando a simetria da fórmula podemos escrever

)()|()( APABPBAP

e, da mesma forma, igualando os dois lados dessas equações podemos obter

)(

)()|()|(

BP

APABPBAP

A equação acima geralmente é chamada de Regra de Bayes, em homenagem ao seu descobridor, Sir Thomas Bayes. Regra de Bayes Suponhamos que A1, A2,..... seja uma partição do especo amostral, e que B seja um conjunto qualquer. Então, para cada i=1,2,.......,

)()|(

)()|()|(

1

jj

j

iii

APABP

APABPBAP

Exemplo: Quando mensagens codificadas são enviadas, algumas vezes ocorrem erros de transmissão. Em particular, o código Morse utiliza “pontos” e “traços”, que, como se sabe, ocorrem na proporção de 3:4. Isto significa que para qualquer símbolo dado,

7

3)( enviadopontoP e

7

4)( enviadotraçoP

Suponha que exista uma interferência na linha de transmissão, e com uma probabilidade 1/8, um ponto, é erroneamente, recebido como um traço e vice-versa. Se recebemos um ponto, podemos ter certeza de que realmente foi enviado um ponto? Utilizando a regra de Bayes, podemos escrever

)(

)()|(

)|(

recebidopontoP

enviadopontoPenviadopontorecebidopontoP

recebidopontoenviadopontoP

Page 14: Apostila de Probabilidade Versao 0

14

Agora, a partir da informação dada, sabemos que

7

3)( enviadopontoP e

8

7)|( enviadopontorecebidopontoP

Além disso, também podemos escrever

)(

)()(

enviadopontorecebidopontoP

enviadopontorecebidopontoPrecebidopontoP

)()(

)()|(

enviadotraçoPenviadotraçorecebidopontoP

enviadopontoPenviadopontorecebidopontoP

56

25

7

4.

8

1

7

3.

8

7

Combinando esses resultados, temos que a probabilidade de receber corretamente um ponto é

25

21)|(

56/25

7/38/7recebidopontoenviadopontoP

Definição: Dois eventos, A e B, são estatísticamente independentes se

)()()( BPAPBAP

A independência de A e B implica também a independência dos complementos. Teorema: Se A e B são eventos independentes, então, os seguintes pares também são independentes:

a. A e Bc b. Ac e B c. Ac e Bc

Prova:

a. )()())(1)((

)()()()()()(

c

c

BPAPBPAP

BPAPAPBAPAPBAP

O restante, (b) e (c), podem ser resolvidos como exercícios. Definição: Uma seqüência de eventos A1,......An é mutuamente independente se para

qualquer subseqüência kii AA .,,.........

1tivermos

k

j i

k

j i jjAPAP

11)(

Exemplo: Lançamento de dois dados

Page 15: Apostila de Probabilidade Versao 0

15

Um experimento consiste em lançar dois dados. Para esse experimento o espaço amostral é

)};6,6(),.......,1,6(,),........6,1(),.....,2,1(),1,1{(S

Ou seja, S consiste nos 36 pares ordenados formados a partir dos números de 1 a 6. Defina os seguintes eventos:

)},6,6(),5,5(),4,4(),3,3(),2,2(),1,1{(}{ duplosocorremA

},107{ eentreestasomaaB

}.872{ ououésomaaC

As probabilidades podem ser calculadas pela contagem entre os 36 resultados possíveis. Temos P(A)=1/6, P(B)=1/2 e P(C)=1/3. Além disso,

)()()(3

1.

2

1.

6

1

36

1}4,8{)(

CPBPAP

sduplosdecompostaésomaaCBAP

Contudo )()(36

11}87{)( CPBPouaIgualésomaaCBP

De modo similar, pode ser de mostrado que )()()( BPAPBAP ; portanto a

exigência )()()()( CPBPAPCBAP não é uma condição suficientemente

forte para assegurar a independências duas a duas. Exemplo: A probabilidade de fechamento de cada relé do circuito apresentado na figura abaixo é dada por p. Se todos os relés funcionarem independentemente, qual será a probabilidade de que haja corrente entre os terminais L e R?

Seja Ai o evento {o relé i esta fechado}, i=1,2,3,4. Represente por E o evento {a

corrente passa de L para R}. Em conseqüência, ).()( 4321 AAAAE Observe

que )()( 4321 AAeAA não são mutuamente excludentes. Portanto,

)()()()( 43214321 AAAAPAAPAAPEP

42422 2 ppppp

Exemplo: Suponha que, numa família com duas crianças, a probabilidade do filho estar gripado é 40% (P(H)=0,40) e a probabilidade da filha estar gripada é 60% (P(M)=0,60). É possível calcular a probabilidade de ambos estarem gripados? Se supusermos que estes dois eventos são independentes, então é simples:

24,0)60,0)(40,0()()()( MPHPMHP = 24%. Mas será que esta suposição

é razoável? Afinal, se um deles estiver gripado, imagina-se que a probabilidade do outro estar gripado aumenta. Matematicamente falando, acreditamos que

%,40)()|( HPMHP e a probabilidade condicional é que teria de ser usada:

)()|()( MPMHPMHP

Sem mais dados não é possível resolver o problema.

Page 16: Apostila de Probabilidade Versao 0

16

Exemplo: Por outro lado, se no problema anterior forem dados

3,0)(6,0)(,4,0)( MHPeMPHP , é possível verificar se os eventos H e

M são independentes. Outras maneiras de chegar a mesma conclusão:

)(4,05,06,0

3,0)|( HPMHP

)(6,075,04,0

3,0)|( MPHMP

Neste caso, diz-se que o evento H atrai o evento M ou que os eventos são positivamente associados. Exemplo: Professor Ronaldo (Matemática) esta na RURAL 70% do horário comercial, enquanto o Professor Macrini (Estatística) esta na RURAL 20% do horário comercial. Sabe-se também que, em 20% do horário comercial , nenhum dos dois esta presente na RURAL. Os eventos “Professor Ronaldo esta na RURAL” e “Professor Macrini esta na RURAL” são independentes? Podemos montar a seguinte tabela com os dados do problema:

R Rc Total

M 0,20

Mc 0,20

Total 0,70 1,0

Completando a tabela a la Sudoku temos:

R Rc Total

M 0,10 0,10 0,20

Mc 0,60 0,20 0,8

Total 0,70 0,30 1,0

Como 5,020,0

10,0)|(70,0)( MRPRP os eventos não são independentes.

Exemplo: Quantas vezes, no mínimo, se deve lançar um dado para que a probabilidade de obter algum seis seja superior a 90%? Seja n o número de lançamentos. A probabilidade de não obter nenhum seis é:

n

6

5

Queremos 629.12

6

5ln

)1.0(ln1.0

6

5

n

n

Ou seja, devemos lançar a dado 13 vezes. Variáveis Aleatórias Ao descrever o espaço amostral de um experimento, não especificamos que um resultado individual necessáriamente seja um número. De fato, apresentamos

Page 17: Apostila de Probabilidade Versao 0

17

alguns exemplos nos quais os resultados do experimento não eram uma quantidade numérica. Por exemplo, ao descrever uma peça manufaturada, podemos empregar apenas as categorias “defeituosa” e “não defeituosa”. Também, ao observar a temperatura durante o período de 24 horas, podemos simplesmente registrar a curva traçada pelo tomógrafo. Contudo, em muitas situações experimentais, estaremos interessados na mensuração de alguma coisa e no seu registro como número. Mesmo nos casos mencionados acima, poderemos atribuir um número a cada resultado (não numérico) do experimento. Por exemplo, poderemos atribuir o valor um as peças perfeitas e o valor zero as peças defeituosas. Poderemos registrar a temperatura máxima do dia, ou a temperatura mínima, ou a média das temperaturas máxima e mínima.

Definição: Sejam um experimento e S um espaço amostral associado ao

experimento. Uma função X, que associe a cada elemento s S um número real, X(s), é denominada variável aleatória. Exemplo: Considere o experimento de lançar uma moeda equilibrada três vezes. Defina a variável aleatória X como sendo o número de vezes que saiu cara nos três lançamentos. Uma enumeração completa do valor de X para cada ponto no espaço amostral é:

s CaCaCa CaCaCo CaCoCa CoCaCa CoCoCa CoCaCo CaCoCo CoCoCo

X(s) 3 2 2 2 1 1 1 0

O conjunto de valores para a variável aleatória X é }.3,2,1,0{ Assumindo que

todos os oito pontos em S tem a probabilidade de 1/8, simplesmente fazendo a contagem, no diagrama anterior, vemos que a função de probabilidade induzida em é dada por

x 0 1 2 3

P(X=x) 1/8 3/8 3/8 1/8

Por exemplo, .8/3}),,({)1( CoCoCaCoCaCoCaCoCoPXP

Funções de Distribuição Definição: A função de distribuição acumulada, ou fda, de uma variável aleatória X, denotada por F(x), é definida por

),()( xXPxF para todo x.

Exemplo: Considere o experimento de lançar uma moeda equilibrada três vezes. Defina a variável aleatória X como sendo o número de vezes que saiu cara nos três lançamentos. A fda de X é:

xse

xse

xse

xse

xse

xF

31

328/7

218/4

108/1

00

)(

Page 18: Apostila de Probabilidade Versao 0

18

A função escada F(x) é representada na figura abaixo.

Existem vários pontos a ser observados na figura acima. F(x) é definido para todos os

valores de x, não somente para aqueles em }.3,2,1,0{ Desse modo, por

exemplo,

8/7)21,0()5,2()5,2( ouXPXPF

Observe que F(x) tem saltos nos valores de ix e que o tamanho do salto em xi é

igual a P(X=xi). Além disso, F(x)=0 para x<0, uma vez que X, nesse caso, não pode ser negativo, e F(x)=1 para x≥3, uma vez que x certamente é menor ou igual a esse valor, neste caso. Teorema: Uma função F(x) é uma fda se, e somente se, forem obedecidas as três seguintes condições:

a. .1)(lim0)(lim xFexF xx

b. F(x) é uma função não decrescente de x. c. F(x) é contínua à direita; isto é, para cada número x0,

).()(lim 00xFxFxx

Exemplo: Lançamento de moeda até obter cara Suponha que façamos um experimento que consiste em lançar uma moeda até que o resultado seja cara. Digamos que p = probabilidade de obter cara em qualquer lançamento, e definimos uma variável aleatória X = número de lançamentos requeridos para se obter uma cara. Então. Para qualquer x = 1,2,.......

,)1()( 1 ppxXP x

Uma vez que obtemos x-1 coroas seguidas por uma cara para que o evento ocorra e todas as tentativas são independentes. A partir da expressão anterior calculamos, para qualquer número inteiro positivo x,

,)1()()( 1

11

ppiXPxXP ix

i

x

i

Sabemos que a soma parcial da série geométrica é dada por

,1,1

1

1

1

tt

tt

nn

k

k

Logo, teremos

,....2,1,)1(1)1(1

)1(1)()(

xpp

p

pxXPxF x

x

Page 19: Apostila de Probabilidade Versao 0

19

A fda F(x) é constante entre números inteiros não negativos. É fácil de mostrar que se 0 < p < 1, então F(x) satisfaz as condições do teorema anterior. Primeiro,

0)(lim

xFx

Uma vez que F(x) = 0 para todo x < 0, e

,1)1(1lim)(lim

x

xxpxF

Onde x assume apenas valores inteiros quando este limite é definido. Para verificar a propriedade (b) do teorema, simplesmente observe que a soma contém mais termos positivos a medida que x aumenta. Por fim, para verificar a propriedade (c) do

teorema, observe que, para quaisquer x, 0)()( sexFxF for

suficientemente pequeno. Portanto,

),()(lim0

xFxF

De modo que F(x) é contínuo a direita. Definição: Uma variável aleatória X é contínua se F(x) for uma função contínua de x. Uma variável aleatória X é discreta se F(x) for uma função escada de x. Definição: As variáveis aleatórias X e Y são identicamente distribuídas se, para cada

conjunto ,A ).()( AYPAXP

Observe que duas variáveis aleatórias que são identicamente distribuídas não são necessariamente iguais. Isto é, a definição anterior não diz que X = Y. Exemplo: Variáveis aleatórias identicamente distribuídas Considere o experimento de lançar uma moeda equilibrada três vezes. Defina s variáveis aleatórias X e Y por X = número de caras observado e Y = número de coroas observado A distribuição de X e Y são exatamente a mesma. Isto é, para cada k=0, 1, 2, 3, temos P(X = k) = P(Y = k). Portanto X e Y são identicamente distribuídas. Contudo, em nenhum dos pontos amostrais temos X(s) = Y(s). Funções Densidades e de Probabilidade Associado com uma variável aleatória X e sua fda F(x) existe uma outra função, chamada de função densidade de probabilidade (f.d.p.) ou função de probabilidade (f.p.). Os termos f.d.p. e f.p. se referem, respectivamente, aos casos contínuos e discretos. Definição: A função de probabilidade (f.p.) de uma variável aleatória discreta X é dada por

.)()( xtodoparaxXPxf

Exemplo: Vimos que para o experimento lançamento de moeda até obter cara temos a f.p.

contráriocaso

xparappxXPxf

x

0

,...2,1)1()()(

Page 20: Apostila de Probabilidade Versao 0

20

Podemos utilizar a f.p. para calcular probabilidades. Uma vez que agora podemos medir a probabilidade de um ponto único, precisamos somente somá-las em todos os pontos do evento apropriado. Portanto, para números inteiros positivos a e b, com a ≤ b, temos

.)1()()( 1 ppkfbXaP kb

ak

b

ak

No caso discreto, podemos somar os valores da f.p. para obter a fda. O procedimento análogo no caso contínuo é substituir as somas por integrais, e obtemos

x

dttfxFxXP )()()(

Utilizando o Teorema Fundamental do Cálculo, se f(x) for contínua, temos a seguinte relação

).()( xfxFdx

d

Definição: A função densidade de probabilidade ou f.d.p., f(x), de uma variável aleatória contínua X é a função que satisfaz

x

xtodoparadttfxF .)()(

No caso contínuo, podemos ser mais diretos sobre a especificação das probabilidades de intervalos. Como P(X = x) = 0 se X é uma variável aleatória contínua,

)()()()( bXaPbXaPbXaPbXaP

Exemplo: Considere a seguinte função de distribuição acumulada dada por

0,1

1)(

x

exF

x

E, portanto,

.)1(

)()(2x

x

e

exF

dx

dxf

Na verdade, existem somente duas exigências para uma f.d.p. (ou f.p.), e ambas são conseqüências imediatas da definição. Teorema: Uma função f(x) é uma f.d.p. (ou f.p.) de uma variável aleatória X se, e somente se,

a. xtodoparaxf 0)(

b. )(1)()(1)( fdpdxxfoufpxfx

Valores Esperados O valor esperado, ou a expectância, de uma variável aleatória é meramente seu valor médio, em que nos referimos a um valor “médio” como aquele que é avaliado de acordo com a distribuição de probabilidade. O valor esperado pode ser entendido como uma medida central, assim como pensamos em médias como sendo valores

Page 21: Apostila de Probabilidade Versao 0

21

médios. Ponderando os valores da variável aleatória de acordo com a distribuição de probabilidade, esperamos obter um número que possa resumir um valor típico ou esperado de uma observação da variável aleatória. Definição: O valor esperado ou média de uma variável aleatória g(X), denotado por Eg(X), é:

discretoforXsexXPxgxfxg

contínuoforXsedxxfxg

XEg

XxXx

)()()()(

)()(

)(

Exemplo: Seja X uma variável aleatória com função de probabilidade dada por:

nxppx

nxXPxf xnx ,....2,1,0,)1()()(

Onde n é um número inteiro positivo, 0 ≤ p ≤ 1, e para cada par fixo n e p a f.p. soma 1. O valor esperado desta variável aleatória é dado por:

xnxn

x

xnxn

xpp

x

nxpp

x

nxEX

)1()1(

10

(em x = 0 o termo é 0). Utilizando a identidade

1

1

x

nn

x

nx , temos

xnxn

xpp

x

nnEX )1(

1

1

1

)1(11

0)1(

1ynyn

ypp

y

nn (substitua y = x – 1)

ynyn

ypp

y

nnnp 11

0)1(

1

uma vez que a última soma deve ser 1, sendo a soma de todos os valores possíveis de uma função de probabilidade. Propriedades do valor esperado:

a. .tan,)( teconsumaksendokkE

kkxpkxkpkE i

n

xi

n

x

1.)()()(11

b. .tan),()( teconsumaksendoXkEkXE

)(.)()()(11

XEkxpxkxpkxkXE ii

n

xii

n

x

c. .tan,)()( tesconsbeasendobXaEbaXE

Definição: Para cada número inteiro n, o n-ésimo momento de X, '

n , é

).(' n

n XE

O n-ésimo momento central de X, n , é

.)( n

n XE

Page 22: Apostila de Probabilidade Versao 0

22

Definição: A variância de uma variável aleatória X é seu segundo momento central,

.)()( 2EXXEXV A raiz quadrada positiva de V(X) é o desvio padrão de X.

Deduzindo a fórmula acima podemos escrever:

))()(2())(()( 222 XEXXEXEXEXEXV

)()(2)()()()(2)( 22222 XEXEXEXEXEXEXE

)()( 22 XEXE

A variância da uma medida do grau de dispersão de uma distribuição ao redor de sua média. O desvio padrão é mais fácil de ser interpretado, no sentido de que a unidade de medida no desvio padrão é a mesma que para a variável original X. A unidade de mediada na variância é o quadrado da unidade original. Definição: A covariância mede o grau de dependência entre duas variáveis aleatórias X e Y.

)(.)(),( YEYXEXEYXCOV

)()()()( YEXEXYEYXEXYE

)()()()()()()( YEXEXEYEYEXEXYE

)()()( YEXEXYE

Se X e Y forem independentes temos )()()( YEXEXYE então

0)()()()()()()(),( YEXEYEXEYEXEXYEYXCOV

Propriedades da Variância:

1. V(k) = 0, sendo k uma constante

0)()(22 kkEkEkEkV

2. ),()( 2 XVkkXV sendo k uma constante

22

)()()( XkEkXEkXEkXEkXV

)()()( 22222 XVkXEXEkXEXkE

3. ),(2)()()( YXCOVYVXVYXV

2)]()[()( YXEYXEYXV

2))](())([( YEYXEXE

)]()(((2))(())([( 22 YEYXEXYEYXEXE

)]()([2))(())(( 22 YEXEXYEYEYEXEXE

)]()()([2))(())(( 22 YEXEXYEYEYEXEXE

),(2)()( YXCOVYVXV

2)]()[()( YXEYXEYXV

2))](())([( YEYXEXE

)]()(((2))(())([( 22 YEYXEXYEYXEXE

)]()([2))(())(( 22 YEXEXYEYEYEXEXE

Page 23: Apostila de Probabilidade Versao 0

23

)]()()([2))(())(( 22 YEXEXYEYEYEXEXE

),(2)()( YXCOVYVXV

4. ),(2)()()( 22 YXabCOVYVbXVabYaXV

a e b sendo constantes. Como exercício demonstre a propriedade.

Sabemos que se X e Y são independentes então COV(X,Y) = 0. Logo,

)()(),(2)()()( YVXVYXCOVYVXVYXVind

)()(),(2)()()( YVXVYXCOVYVXVYXVind

Exemplo: Uma pessoa vende colhedeiras de milho. Visita semanalmente uma, duas ou três propriedades rurais com probabilidades 0.2, 5.5 e 0.3, respectivamente. De cada contato pode conseguir a venda de uma colhedeira por R$ 120.000,00, com probabilidade 0.3, ou nenhuma venda com probabilidade 0.7. Determinar o valor total esperado (médio) das vendas semanais.

0,3 V (0,2))0,3)(120.000) = 7.200 1 0,7 NV 0,2 0,5 0,3 V (0,5))0,3)(120.000) = 36.000 2 0,7 NV 0,3 0,3 V (0,3))0,3)(120.000) = 32.400 3 0,7 NV E(X) = 7200 + 36000 + 32400 = 75.600

Exemplo: Seja X: renda familiar em R$ 1000,00 e Y: número de carros da família. Considere o quadro:

X 2 3 4 2 3 3 4 2 2 3

Y 1 2 2 2 1 3 3 1 2 2

Calcular:

a) E(2X – 3Y) b) COV(X,Y) c) V(5X – 3Y)

Page 24: Apostila de Probabilidade Versao 0

24

9,1)(8,2)( YEXE

49,061,31,4)(56,084,74,8)( YVXV

a) 1,0)(3)(2)32( YEXEYXE

b) 28,0)()()()( YEXEXYEXYCOV

c) 01,10),()3)(5(2)(9)(25)35( YXCOVYVXVYXV

Variáveis Aleatórias Múltiplas

Definição: Um vetor aleatório n-dimensional é uma função de um espaço amostral S

em n, o espaço euclidiano n-dimensional. Definição: Seja (X,Y) um vetor aleatório discreto bivariado. Então, a função f(x,y) de

2 em definida por f(x,y) = P(X = x, Y = y) é chamada função de probabilidade

conjunta ou f.p. conjunta de (X,Y). A f.p. conjunta para qualquer vetor aleatório discreto bivariado (X,Y) deve ter determinadas propriedades. Para qualquer (x,y), f(x,y) ≥ 0, uma vez que f(x,y) é uma probabilidade. Além disso, devemos ter:

2),(

2 1)),((),(yx

YXPyxf

A f.p. conjunta pode ser utilizada para calcular a probabilidade de qualquer evento

definido em termos de (X,Y). Seja A qualquer subconjunto de 2. Então

Ayx

yxfAYXP),(

),()),((

Valores esperados (expectância) de funções de vetores aleatórios são calculados do mesmo modo que as variáveis aleatórias univariadas. Seja g(x,y) uma função de real valor, definida para todos os possíveis valores (x,y) do vetor aleatório discreto (X,Y). Então g(X,Y) é, ela própria, uma variável aleatória, e seu valor esperado E(g(x,y)) é dado por

2),(

),(),()),((yx

yxfyxgyxgE

Obs X X2 Y Y2 X Y

1 2 4 1 1 2

2 3 9 2 4 6

3 4 16 2 4 8

4 2 4 2 4 4

5 3 9 1 1 3

6 3 9 3 9 9

7 4 16 3 9 12

8 2 4 1 1 2

9 2 4 2 4 4

10 3 9 2 4 6

Total 28 84 19 41 56

Page 25: Apostila de Probabilidade Versao 0

25

Todas as propriedades válidas para o caso univariado também são válidas no caso n-dimensional.

Exemplo: Considere a f.p. conjunta da tabela abaixo. Qual o valor médio de XY? Assumindo que g(x,y) = xy, calculamos E(XY) = E(g(x,y)) calculando xyf(x,y) para todos os pontos da tabela. Deste modo

X

y

2 3 4 5 6 7 8 9 10 11 12

0 1/36 1/36 1/36 1/36 1/36 1/36

1 1/18 1/18 1/18 1/18 1/18

2 1/18 1/18 1/18 1/18

3 1/18 1/18 1/18

4 1/18 1/18

5 1/18

18

1113

18

1)5)(7(

18

1)4)(8(....

36

1)0)(4(

36

1)0)(2()()),(( XYEyxgE

Teorema: Seja (X,Y) um vetor aleatório discreto bivariado, com f.p. conjunta f(x,y). Então, as funções de probabilidade marginais de X e Y, f(x) = P(X = x) e f(y) = P(Y = y), são dadas por

n

j

jii

y

miyYxXPxXPouyxfxf1

,...,2,1),,()(),()(

n

j

ji

m

i

m

i

i

y

yYxXPxXPxf111

1),()()(

m

i

jij

x

njyYxXPyYPouyxfyf1

,...,2,1),,()(),()(

n

j

ji

m

i

n

j

j

x

yYxXPjYPyf111

1),()()(

Exemplo: Podemos calcular as distribuições marginais para X e Y a partir da distribuição conjunta dada na tabela anterior:

6

1)0,12()0,10()0,8()0,6()0,4()0,2()0( fffffff

18

5)1,11()1,9()1,7()1,5()1,3()1( ffffff

e de maneira similar,obtemos:

18

1)5(,

9

1)4(,

6

1)3(,

9

2)2( ffff

E observe que 1)5()4()3()2()1()0( ffffff , como deveria ser, uma

vez que estes são os únicos seis possíveis valores de Y.

Page 26: Apostila de Probabilidade Versao 0

26

O mesmo raciocínio pode ser empregado na distribuição marginal de X. Faça como exercício. Distribuições Condicionais e Independência Frequentemente, quando duas variáveis aleatórias, (X,Y), são observadas, os valores das duas variáveis estão relacionadas. Por exemplo, suponha que, ao fazer a amostragem de uma população humana, X denote a altura de uma pessoa e Y denote o seu peso. Conhecer o valor de X nos dá algumas informações sobre o valor de Y, mesmo se não soubermos exatamente o valor de Y. Probabilidades condicionais referentes a Y, dado que sabemos o valor de X, podem ser calculadas utilizando a distribuição conjunta de (X,Y). Definição: Seja (X,Y) um vetor aleatório bivariado discreto, com f.p. conjunta f(x,y) e f.p.s marginais f(x) e f(y). Para qualquer x de modo que P(X = x) = f(x) > 0, a f.p. condicional de Y dado que X = x é a função de y denotada por f(y|x) e definida por

)(

),()|()|(

xf

yxfxXyYPxyf

Para qualquer y de modo que P(Y = y) = f(y) > 0, a f.p. condicional de X dado que Y = y é a função de x denotada por f(x|y) e definida por

)(

),()|()|(

yf

yxfyYxXPyxf

Uma vez que chamamos (y|x) de f.p., deveríamos verificar se esta função de y na verdade define uma f.p. para uma variável aleatória. Primeiro, f(y|x) ≥ 0 para cada y uma vez que f(x,y) ≥ 0 e f(x) ≥ 0. Segundo,

1)(

)(

)(

),(

)|(

xf

xf

xf

yxf

xyfy

y

Portanto, f(y|x) é,na verdade, uma f.p. e pode ser utilizada da maneira usual para calcular probabilidades envolvendo Y, uma vez que sabemos que X = x ocorreu. Exemplo: Considere a f.p. conjunta de (X,Y) dada na tabela abaixo:

X

Y

10 20 30

0 2/18 2/18

1 3/18 4/18 3/18

2 4/18

As f.p. marginal de X é dada por:

18

40

18

2

18

2)30,0()20,0()10,0()0( ffff

18

10

18

3

18

4

18

3)30,1()20,1()10,1()1( ffff

18

4

18

400)30,2()20,2()10,2()2( ffff

Logo 118

4

18

10

18

4)( xf

As f.p. marginal de Y é dada por:

Page 27: Apostila de Probabilidade Versao 0

27

18

50

18

3

18

2)2,10()1,10()0,10()10( ffff

18

60

18

4

18

2)2,20()1,20()0,20()20( ffff

18

7

18

4

18

30)2,30()1,30()0,30()30( ffff

Logo 118

7

18

6

18

5)( yf

Para x = 0, as distribuições condicionais podem ser obtidas como:

)0(

),0()0|(

f

yYXfyf

, então

2

1

4

2

18/4

18/2

)0(

)10,0()0|10(

f

YXff

2

1

4

2

18/4

18/2

)0(

)20,0()0|20(

f

YXff

018/4

0

)0(

)30,0()0|30(

f

YXff

Logo, 102

1

2

1)0|( yf

y

, logo f(y|0) é uma função de probabilidade.

O mesmo raciocínio pode ser empregado no cálculo das outras probabilidades condicionais. Definição: Seja (X,Y) um vetor aleatório bivariado, com f.d.p. ou f.p. conjunta f(x,y) e f.d.p. ou f.p. marginais, f(x) e f(y). Então, X e Y são chamadas de variáveis aleatórias

independentes se, para cada x e y ,

).()(),( yfxfyxf

Se X e Y são independentes, a f.d.p. condicional de Y, dado que X = x, é

),()(

)()(

)(

),()|( yf

xf

yfxf

xf

yxfxyf

independe do valor de x. Ou seja, X = x não fornece nenhuma informação a mais sobre Y. Exemplo: Considere o seguinte vetor aleatório (X,Y), com distribuição conjunta dada por:

X Y-> 1 2 3

10 1/10 2/10 2/10

20 1/10 1/10 3/10

As f.p.s marginais são facilmente calculadas:

Page 28: Apostila de Probabilidade Versao 0

28

.2/1)20()10( XX ff e .2/1)3(10/3)2(,5/1)1( YYY feff

As variáveis Aleatórias X e Y não são independentes porque a definição de independência não é verdadeira para todo x e y. Por exemplo,

).3()10(4

1

2

1

2

1

10

2)3,10( fff

A definição de independência deve ser mantida para todas as escolhas de x e y se X e Y

tiverem de ser independentes. Note que ).3()10(5

1

2

1

10

1)1,10( YX fff Isto é,

se a definição for verdadeira para alguns valores de x e y isto não garante que X e Y são independentes. Todos os valores devem ser verificados. Teorema: Se X e Y forem duas variáveis aleatórias quaisquer, então:

)),|(()( YXEEXE desde que as esperanças existam.

Teorema: Para duas variáveis aleatórias quaisquer X e Y,

)),|((())|(()( YXEVYXVEXV desde que as esperanças

existam. Covariância e Correlação Anteriormente discutimos a ausência ou presença de uma relação entre duas variáveis aleatórias, independência ou não independência. Mas se houve uma relação, esta poderá ser forte ou fraca. Uma das medidas para medir este grau de dependência é a covariância, como já definimos anteriormente. Uma outra medida, mais utilizada, e de melhor interpretação, pode ser obtida através do Coeficiente de Correlação. Definição: A correlação (Coeficiente de Correlação ) de X e Y é o número definido por

YX

XY

YXCOV

),(

A correlação é sempre entre -1 e 1, com os valores -1 e 1 indicando uma perfeita

relação linear entre X e Y, isto é, 10 XY .

a. Quando 0XY , COV(X,Y) > 0. O diagrama de dispersão é .1XY

b. Quando 0XY , COV(X,Y) < 0. O diagrama de dispersão é .1XY

Page 29: Apostila de Probabilidade Versao 0

29

c. Quando 0XY , COV(X,Y) = 0 O diagrama de dispersão é

Exemplo: Dada a distribuição conjunta bidimensional (X,Y) representada pela tabela abaixo, determinar o coeficiente de correlação entre X e Y.

Precisamos então encontrar a COV(X,Y), :YX e

2/1)4/4(4/6)()()( 222 XEXEXV

2/1)4/4(4/6)()()( 222 YEYEYV

)4/1)(2)(0()0)(1)(0()0)(0)(0(),()( YXxyPXYEyx

)0)(2)(1()4/2)(1)(1()0)(0)(1(

2/1)0)(2)(2()0)(1)(2()4/1)(0)(2(

2/1)1)(1(2/1)()()(),( YEXEXYEYXCOV

E finalmente teremos:

12/12/1

2/1),(

YX

XY

YXCOV

Observamos então que o coeficiente de correlação sendo -1 indica um grau de dependência alto entre as variáveis X e Y em sentido inverso.

X Y-> 0 1 2

0 0 0 1/4

1 0 2/4 0

2 1/4 0 0

X Y-> 0 1 2 P(X=x) XP(X=x) X2P(X=x)

0 0 0 1/4 1/4 0 0

1 0 2/4 0 2/4 2/4 2/4

2 1/4 0 0 1/4 2/4 4/4

P(Y=y) 1/4 2/4 1/4

y P(Y=y) 0 2/4 2/4

Y2 P(Y=y) 0 2/4 4/4

Page 30: Apostila de Probabilidade Versao 0

30

Famílias comuns de distribuições Distribuições estatísticas são utilizadas para modelar populações; deste modo, geralmente lidamos com uma família de distribuições em vez de uma única. Esta família é indexada por um ou mais parâmetros, o que nos permite variar certas características da distribuição, ao mesmo tempo em que permanece com uma forma funcional. Por exemplo, podemos especificar que a distribuição normal é uma opção razoável para modelar uma população em particular, mas não podemos especificar precisamente a média. Então, lidamos com uma família paramétrica de distribuições

normais com média µ, onde µ é um parâmetro não especificado, -<µ<. Distribuições Discretas Uma variável aleatória é considerada como tendo uma distribuição discreta se o conjunto de valores de X, o espaço amostral, for contável. Na maioria das situações, a variável aleatória tem como resultados números inteiros. Distribuição Uniforme Discreta Uma variável aleatória X tem distribuição uniforme discreta (1,N) se

NxN

NxXP ,.....,2,1,1

)|(

onde N é um número inteiro especificado. Para calcular a média e a variância de X, lembre-se das identidades (prováveis pela indução)

.6

)12)(1(

2

)1(

1

2

1

kkkie

kki

k

i

k

i

Então, temos

2

11)()(

11

N

NxxXxPXE

N

x

N

x

e

,6

)12)(1(1)()(

1

2

1

22

NN

NxxXPxXE

N

x

N

x

e, assim,

12

)1)(1(

2

1

6

)12)(1()()()(

2

22

NNNNNXEXEXV

Distribuição Hipergeométrica A distribuição hipergeométrica tem muitas aplicações em amostragem de população finita e é bem mais compreendida por meio do exemplo clássico do modelo de urna. Suponha que temos uma grande urna preenchida com N bolas que são idênticas em todos os aspectos, exceto pelo fato de que M são vermelhas e N-M são verdes. Abrimos a urna com os olhos vendados e selecionamos K aleatoriamente (as K bolas são coletadas todas de uma vez; um caso de amostragem sem reposição). Qual é a probabilidade de que exatamente x das bolas sejam vermelhas?

Page 31: Apostila de Probabilidade Versao 0

31

O número total de amostras de tamanho K, que podem ser retiradas das N

bolas é .

K

N É exigido que x das bolas sejam vermelhas, e isso pode ser obtido de

x

Mmaneiras, deixando

xK

MNmaneiras de completar a amostra K-x bolas

verdes. Assim, se considerarmos que X denota o número de bolas vermelhas em uma amostra de tamanho K, então K tem uma distribuição hipergeométrica dada por

.,....,2,1,0,)( Kx

K

N

xK

MN

x

M

xXP

Observe que existe, implicitamente na expressão anterior, outra suposição sobre a

variabilidade de X. Coeficientes binomiais da forma

r

n são definidos se n ≥ r e, assim,

o conjunto de valores de X é também restringido pelo par de desigualdades

xKMNexM

Que pode ser combinado como

MxKNM )( .

Não é muito comum, e simples, verificar que:

.1)(00

K

N

xK

MN

x

M

xXPK

x

K

x

A distribuição hipergeométrica ilustra o fato de que, estatisticamente, lidar com populações finitas (N finito) é uma tarefa difícil. A média da distribuição hipergeométrica é dada por

.)(10

K

N

xK

MN

x

M

x

K

N

xK

MN

x

M

xXEK

x

K

x

(soma zero em x = 0)

Para avaliar esta expressão, utilizamos as seguintes identidades:

1

1

1

1

K

N

K

N

K

Ne

x

MM

x

Mx

E obtemos

.

1

1

1

1

1

1

1

1

)(11

K

N

xK

MN

x

M

N

KM

K

N

K

N

xK

MN

x

MM

XEK

x

K

x

Page 32: Apostila de Probabilidade Versao 0

32

Agora, poderemos reconhecer a segunda soma como a soma das probabilidades para outra distribuição hipergeométrica com base nos valores de parâmetros N - 1, M - 1 e K - 1. Isto pode ser visto claramente definindo y = x – 1 e escrevendo

1)(

1

1

1

)1()1(1

1

1

1

1

1

0

1

01

yYP

K

N

yK

MN

y

M

K

N

xK

MN

x

M

K

y

K

y

K

x

Onde Y é uma variável aleatória hipergeométrica com parâmetros N - 1, M - 1 e K - 1. Portanto, para a distribuição hipergeométrica,

N

KMXE )( .

Para de mostrar a variância de uma distribuição hipergeométrica utilizamos do seguinte artifício:

K

N

xK

MN

x

M

xxXXEK

x 0

)1()]1([

2

2

2

2

)1(

)1()1(

2

K

N

xK

MN

x

M

NN

MMkk

K

x

2

2

2

222

)1(

)1()1(

2

0

K

N

yK

MN

y

M

NN

MMkk

K

y

)1(

)1()1(

NN

MMkk

E dessa forma teremos:

)()()]1([)()()( 222 XEXEXXEXEXEXV

2

22

)1(

)1()1(

N

MK

N

KM

NN

MMkk

N

KM

N

Mk

N

KM1

)1(

)1()1(

)1(

))((

NN

KNMN

N

KM

Page 33: Apostila de Probabilidade Versao 0

33

Exemplo: Suponha que uma loja varejista compre mercadorias em lotes e que cada item possa ser considerado aceitável ou com defeito. Seja

N = de itens de um lote,

M = de produtos com defeito em um lote. Então, calculamos a probabilidade de que uma amostra de tamanho K contenha x mercadorias com defeito. Para sermos específicos, suponha que um lote de 25 peças de máquinas sejam entregues e que uma peça é considerada aceitável somente se estiver dentro do limite de tolerância. Selecionamos 10 peças e descobrimos que nove não apresentam nenhum defeito (todas as nove estão dentro do limite de tolerância). Qual é a probabilidade deste evento se houver 6 peças com defeito no lote de 25 peças? Aplicando a distribuição hipergeométrica com N = 25, M = 6 e K = 10, temos

,028.0

10

25

10

19

0

6

)0(

XP

Mostrando que nosso evento observado é bastante improvável se houver 6 (ou mais!) peças com defeito no lote. Exemplo: Uma firma compra lâmpadas por centenas. Examina sempre uma amostra de 15 lâmpadas para verificar se estão boas. Se uma centena inclui 12 lâmpadas queimadas, qual a probabilidade de se escolher uma amostra com pelo menos uma lâmpada queimada? X : número de lâmpadas queimadas na amostra.

8747.0

15

100

15

88

0

12

1)0(1)1(1)1(

XPXPXP

Distribuição Binomial A distribuição binomial, uma das mais úteis distribuições discretas, é baseada na idéia de uma Prova de Bernoulli (em homenagem a James Bernoulli, um dos criadores da teoria da probabilidade), um experimento com dois, e somente dois, resultados possíveis. Uma variável aleatória X tem distribuição de Bernoulli(p) se

padeprobabilidcom

padeprobabilidcomX

10

1 10; p

O valor X = 1 geralmente é identificado como um “sucesso” e p é chamado de probabilidade de sucesso. O valor X = 0 é identificado como “fracasso”. Nessas condições a sua função de probabilidade é dada por:

10;)1()( 1 ouxppxXP xx

A média e a variância de uma variável aleatória de Bernoulli(p) são facilmente determinadas como sendo

pppppxXPxXEx

1110101

0

)1(1)1(0)()(

Page 34: Apostila de Probabilidade Versao 0

34

pppXEou )1(01)(

Para o cálculo da variância fazemos

pppppxXPxXEx

111201021

0

22 )1(1)1(0)()(

logo

)1()()()( 222 ppppXEXEXV

Muitos experimentos podem ser modelados como uma seqüência de provas de Bernoulli, sendo a mais simples o lançamento repetido de uma moeda; p = probabilidade de sair cara, X = 1 se a moeda mostrar cara. Outros exemplos incluem jogos de apostas (por exemplo, em uma roleta, seja X = 1 se os dados caírem no vermelho, portanto, p = probabilidade de ocorrer vermelho), pesquisas eleitorais (X = 1 se o candidato A receber um voto), e a incidência de uma doença ( p = probabilidade de que uma pessoa, aleatoriamente, seja infectada). Se n idênticas provas de bernoulli forem realizadas, defina os eventos

nitentativaésimainaXAi ,...,2,1,1

Se assumirmos que os eventos A1,.....,An são uma seqüência de eventos independentes (como no caso de um lançamento de uma moeda), então é fácil derivar a distribuição do número total de sucesso em n provas. Defina uma variável aleatória Y por Y = número total de sucessos em n tentativas O evento {Y = y} ocorrerá somente se, de todos os eventos A1,.....,An exatamente y deles ocorrer e necessariamente n – y deles não ocorrer. Um resultado em particular (uma determinada ordenação de ocorrências e não ocorrências) das n provas de

Bernoulli pode ser c

nn

c AAAAA 1321 ....... . Isto tem a probabilidade de

ocorrência

,)1(

)1().....1().......( 1321

yny

c

nn

c

pp

pppppAAAAAP

Onde utilizamos a independência dos sAi neste cálculo. Observe que o cálculo não

depende de qual conjunto y sAi ocorre, mas somente de que algum conjunto de y

ocorra. Além disso, o evento {Y = y} ocorrerá, não importando qual conjunto de y

sAi ocorra. Considerando tudo isto, vemos que uma seqüência em particular de n

provas com exatamente y sucessos tem probabilidade yny pp )1( de ocorrer. Uma

vez que existem

y

ndessas seqüência ( o número de ordenações de y 1s e n – y 0s,

temos

nyppy

nyYP yny ,...,2,1,0;)1()(

e Y é chamada de uma variável aleatória binomial(n,p). A variável aleatória Y pode ser, de forma alternativa e equivalente, definida da seguinte maneira: em uma seqüência de n provas de Bernoulli idênticas e

Page 35: Apostila de Probabilidade Versao 0

35

independentes, cada uma delas com probabilidade de sucesso p, defina as variáveis aleatórias X1,...Xn por

padeprobabilidcom

padeprobabilidcomX i

10

1

A variável aleatória

i

n

i

XY

1

Tem a distribuição binomial(n,p). Teorema: Para quaisquer números reais x e y e inteiros n ≥ 0,

inin

i

n yxi

nyx

0

)(

Em particular, se x = 1 – y, então

inin

i

yxi

n

0

1

O valor esperado de uma distribuição binomial(n,p) é dado por

ynyn

y

ynyn

y

ppyny

nypp

y

nyYE

)1(

)!(!

!)1()(

10

ynyn

y

ppyny

nnp

)1(

)!()!1(

)!1( 1

1

1;)1(1

11

0

yjppj

nnp jnj

n

j

npqpnp n 1)(

Para encontrar a variância de uma distribuição binomial (n,p) precisamos achar

ynyn

y

ynyn

y

ppy

nyyypp

y

nyYE

)1(])1([)1()(

1

2

0

2

np

ynyn

y

ynyn

y

ppy

nypp

y

nyy

)1()1()1(

12

npppyny

nyy yny

n

y

)1()!(!

!)1(

2

npppyny

n ynyn

y

)1()!()!2(

!

2

npppyny

nnn yny

n

y

)1()!()!2(

)!2()1(

2

npppxnx

nnnyxfazendo xnx

n

y

22

2

)1()!2(!

)!2()1(;1

Page 36: Apostila de Probabilidade Versao 0

36

npppx

npnn xnx

n

x

1

22

0

2 )1(2

)1(

nppnn 2)1(

logo 22222 )1()()()( pnnppnnXEXEXV

)1(222222 pnpnpnppnnpnppn

Exemplo: Uma prova tipo teste tem 50 questões independentes. Cada questão tem 5 alternativas. Apenas uma das alternativas é a correta. Se um aluno resolve a prova respondendo a esmo as questões, qual a probabilidade de tirar nota 5? Seja X = { números de acertos nas 50 questões]; x = 0,1,2,....,50 p = probabilidade de acerto em cada questão = 1/5 logo X ~ Bin(50,1/5) e dessa forma queremos

000002,05

4

5

1

25

50)25(

2525

XP

Exemplo: Suponha que um determinado traço (como a cor do olho ou a habilidade com a mão esquerda) de uma pessoa seja classificada com base em par de genes, e suponha também que d represente um gene dominante e r um gene recessivo. Assim, uma pessoa com dd genes é puramente dominante, uma com rr é puramente recessiva e uma com rd é híbrida. Os indivíduos puramente dominantes e os indivíduos híbridos tem a mesma aparência. Filhos recebem 1 gene de cada pai. Se, com respeito a um traço em particular, e pais híbridos tem um total de 4 filhos, qual é a probabilidade de que 3 dos 4 filhos tenham a aparência do gene dominante? Se considerarmos a hipótese de que cada filho tem a mesma probabilidade de herdar um dos 2 genes de cada pai, as probabilidades de que 2 pais híbridos tenham dd, rr e rd pares de genes são, respectivamente, de 1/4, 1/4 e 1/2. Com isso, como um filho terá a aparência externa do gene dominante se seu par de genes for dd ou rd, tem-se que o número de filhos com essas características é distribuído binomialmente com parâmetros (4, 3/4). Assim, a probabilidade desejada é

0,4264

27

4

1

4

3

3

4)3(

13

XP

Exemplo: 20% dos refrigeradores produzidos por uma empresa são defeituosos. Os aparelhos são vendidos em lotes de 50 unidades. Um comprador adotou o seguinte procedimento: de cada lote ele testa 20 aparelhos e se houver pelo menos 2 defeituosos o lote é rejeitado. Admitindo-se que o comprador tenha aceitado o lote, qual a probabilidade de ter observado exatamente um aparelho defeituoso? X = { número de defeituosos no lote de 20 aparelhos } ; x = 0,1,2,...,20 p = probabilidade de aparelho defeituoso = 0,20 X ~ Bin(20; 0,20)

Page 37: Apostila de Probabilidade Versao 0

37

Queremos )|1( loteoAceitouXP , então

)1()0()2()( XPXPXPloteoAceitarP

069175,08,02,01

208,02,0

0

20 191200

0,833333069175,0

0,057646

)(

)1()|1(

loteoAceitarP

XPloteoAceitarXP

Exemplo: Seja X ~ Bin(20; 0,3). Encontre a média e a variância da variável aleatória Y = 3 X + 2.

6)3,0)(20()( npXE

2,4)7,0)(3,0)(20()1()( pnpXV

logo, 202)6)(3(2)(3)23()( XEXEYE

e 8,37)2,4)(9()(9)23()( XVXVYV

Distribuição de Poisson A distribuição de Poisson foi introduzida por Siméon Denis Poisson em um livro que escreveu a respeito da aplicação da teoria da probabilidade a processos, julgamento criminais e similares. O titulo do livro, publicado em 1837, era Recherches sur la probabilité de jugements en matière criminelle et en matière civile (Investigações sobre a probabilidade de veredictos em matérias criminal e civil). Esta é uma distribuição discreta podendo ser amplamente aplicada para uma série de diferentes tipos de experimentos. Por exemplo, se estivermos modelando um fenômeno no qual esperamos por uma ocorrência (assim como esperamos um ônibus, ou clientes que chegam em um banco, etc), o número de ocorrências em um determinado intervalo de tempo pode, algumas vezes, ser modelado pela distribuição de Poisson. Uma das suposições básicas sobre a qual esta distribuição é desenvolvida é a de que, para pequenos intervalos de tempo, a probabilidade de uma chegada é proporcional ao tempo de espera. Outra área de aplicação é a das distribuições espaciais, onde, por exemplo, a distribuição de Poisson pode ser utilizada para modelar a distribuição de uma bomba que atinge uma área ou a distribuição de peixes em um lago.

A distribuição de Poisson tem um único parâmetro , as vezes chamado de parâmetro de intensidade. Uma variável aleatória X, assumindo valores nos números inteiros não

negativos, tem uma Distribuição de Poisson() se

...,.........2,1,0;!

)(

xx

exXP

x

Para verificar que ,1)(0

xXP

xlembre-se da expansão em série, de Taylor, de

ey,

.!0 i

ye

i

i

y

Assim,

Page 38: Apostila de Probabilidade Versao 0

38

.1!

)(0

0

ee

xexXP

x

xx

A média de X é facilmente verificada como sendo

!!

)(10 x

ex

x

exXE

x

x

x

x

!)!1( 0

1

1 ye

xe

y

y

x

x

(substituir y = x – 1)

ee

Um cálculo similar mostrará que

!

)]1([!

)(1

2

0

2

xxxe

x

exXE

x

x

x

x

!!

)1(01 x

xex

xxex

x

x

x

)!2()!2(

2

2

2

2 xe

xe

x

x

x

x

fazendo y = x – 2

22

0

2

!ee

ye

y

y

sendo assim, teremos

2222 )()()( XEXEXV

Exemplo: Considere um operador de telemarketing que, em média, atende cinco chamadas a cada três minutos. Qual é a probabilidade de que não ocorrerão chamadas no minuto seguinte? E, pelo menos, duas chamadas? Se considerarmos que X = {número de chamadas em um minuto}, então X tem

uma distribuição de Poisson com E(X) = = 5/3. Desse modo

;189,0!0

)3/5()0( 3/5

03/5

ee

XP

e, no caso de pelo menos duas chamadas no minuto seguinte

)]1()0([1)2(1)2( XPXPXPXP

.496,0]!1

)3/5(

!0

)3/5([1

13/503/5

ee

Aproximação da Distribuição Binomial pela Distribuição de Poisson A aproximação é válida quando n é grande (n > 30) e p é pequeno (p < 0,10), que é exatamente quando é mais útil, pois nos libera de calcular coeficientes binomiais e potências para grandes n. Seja X ~ Bin(n, p), então

xnx ppx

nxXP

)1()(

Page 39: Apostila de Probabilidade Versao 0

39

xnx

xnx px

pxnnnpp

xnx

n

)1(!

)1)....(1()1()!(!

!

Fazendo = n p então p = / n e quando n

xnx

parcelasktemosn nxn

xnnnnxXP

1!

1)1)....(2)(1()( lim

1

11!

111......

21

111lim

x

e

n

x

n nnxn

x

nn

!

1!

1.1.....1.1.1

x

ee

x

xx

Logo,

!

)(x

exXP

x que é chamada Distribuição de Poiss().

Exemplo: Um tipógrafo, em média, comete um erro a cada 500 palavras impressas. Uma página típica contém 300 palavras. Qual é a probabilidade de que não ocorram mais que dois erros em cinco páginas?

Se assumirmos que a impressão de uma palavra é uma prova de Bernoulli com probabilidade de sucesso p = 1/500 (observe que estamos identificando um erro como sendo um “sucesso”) e que as provas são independentes, então X = {número de erros em cinco páginas (1500 palavras) é binomial(1500; 1/500). Portanto,

4230,0500

499

500

11500)2()(

15002

0

xx

x xXPerrosdoisquemaisnãoP

que é um cálculo bastante complicado. Se utilizarmos a aproximação de Poisson com

= 1500 (1/500) = 3, temos

4232,02

93

!

3)2(

333

32

0

e

eex

eXP

x

x

Processo de Poisson Considere uma seqüência de eventos que ocorrem ao longo do tempo, como o número de carros vermelhos que param num sinal, o número de chamadas telefônicas que chegam numa estação durante um certo intervalo de tempo, a ocorrência de um terremoto, o inicio de uma guerra, etc. Seja Xt o número de ocorrências no intervalo de tempo [0,t]. Claramente Xt é uma variável aleatória discreta com valores possíveis 0, 1, 2, ........... Para derivar a densidade de Xt partimos das seguintes premissas:

Seja t um intervalo de tempo pequeno. Então:

1) A probabilidade de exatamente uma ocorrência em um intervalo de tempo t é

aproximadamente k. t.

Page 40: Apostila de Probabilidade Versao 0

40

2) A probabilidade de exatamente zero ocorrências em um intervalo de tempo t é

aproximadamente 1-k. t.

3) A probabilidade de duas ou mais ocorrências em um intervalo de tempo t é igual

a um certo o(t), onde o(t)/ t tende a zero a medida que t tende a zero. Em outras palavras, a probabilidade de duas ou mais ocorrências em um intervalo de

tempo t é um valor muito pequeno, e este valor decresce a zero mais

rapidamente que o comprimento do intervalo t.

Estas três premissas definem o tipo de processo que pode ser chamado de um processo de Poisson. O parâmetro k acima é um número real > 0, chamado de taxa média de ocorrência. Para cada instante t > 0 seja:

,......2,1,0)()( xondetpxXP t

Fixando um instante qualquer t e aplicando a segunda premissa nos dá:

)(]1[)( 00 tptkttp

Subtraindo p0(t) de ambos os lados e dividindo o resultado por t leva a:

)()()(

000 tkp

t

tpttp

Tomando-se o limite desta última expressão quando t tende a zero encontramos, do lado esquerdo, a derivada de p0(t). Isto nos dá a equação diferencial:

)()( 0

'

0 tkptp

Para x > 0 pode-se provar que as premissas resultam no seguinte sistema de equações diferenciais:

,.........3,2,1)()()( 1

' xondetkptkptp xxx

A solução deste sistema é:

...,.........2,1,0;!

)()(

xx

ktetp

xkt

x

Para qualquer intervalo [0,t], se fixarmos t e fizermos = k.t a equação acima reduz-se a:

...,.........2,1,0;!

)()(

xx

exfxXP

x

Ou seja, X tem distribuição de Poisson com parâmetro . Uma distribuição de Poisson modela bem eventos “raros”, isto é, que não acontecem com grande freqüência para qualquer intervalo de tempo fixo. Por exemplo, o número de automóveis Corsa que entram num estacionamento no Rio de Janeiro num intervalo de tempo de 1 hora certamente não é uma variável de Poisson, mas o número de Ferraris que entram no estacionamento no mesmo período de tempo deve ser Poisson.

Page 41: Apostila de Probabilidade Versao 0

41

Exemplo: Queremos um modelo para o número de gols por partida no campeonato brasileiro X. Suponha que sabemos que há 3 gols por jogo na média (isto é, 2 gols por hora). Podemos tentar:

Modelo 1: Divida o jogo em 3 blocos de 30 minutos cada. Em cada bloco há um gol. Neste caso, X = 3, com 100% de chance (tecnicamente X ~ Bin(3; 1)). A média esta correta, mas o modelo não nos parece muito bom.

Modelo 2: Divida o jogo em 6 blocos de 15 minutos cada. Em cada bloco há um gol com probabilidade 50%. Neste caso X ~ Bin(6; 0,5). A média será de 3 gols por jogo, e cada jogo poderá ter de 0 a 6 gols. O modelo nos parece melhor, mas jamais gerará um daqueles raros 7 x 2 (como o Atlético PR vs Vasco de 2005).

Modelo 3: Divida o jogo em 90 blocos de 1 minuto cada. Em cada bloco haverá um gol com probabilidade 1/30. Assim, X ~ Bin(90; 1/30) tem o valor esperado correto, e até os raros jogos com mais de 8 gols (até 90 gols!) podem aparecer.

Modelo N: Divida o jogo em N blocos, pode haver um gol por bloco com probabilidade 3/N. Então X ~ Bin(N; 3/N).

O que acontece se tomarmos então N ? As distribuições binomiais de probabilidade se aproximam de uma nova distribuição, chamada distribuição de Poisson. Neste caso, dizemos que X ~ Poiss(3). Distribuição Binomial Negativa ou Distribuição de Pascal A distribuição binomial conta o número fixo de sucessos em um número fixo de provas de Bernoulli. Suponha que, em vez disso, contamos o número de provas de Bernoulli necessários para obter um número fixo de sucessos. Esta última formulação leva a distribuição binomial negativa. Em uma seqüência de provas de Bernoulli independentes (p), seja a variável aleatória X denotando a prova no qual o r-ésimo sucesso ocorre, onde r é um número inteiro fixo. Então

...,.........2,1,,)1(1

1)(

rrrxpp

r

xxXP rxr

e dizemos que X tem uma distribuição binomial(r,p)negativa. Temos,

rxrr

rx

k ppr

xxXE

)1(

1

1][

r

xr

r

xxquejápp

r

xx

p

r rxrr

rx 1

1)1(11

1)1(1

)1( )1(11

1

xmsefazendoppr

mm

p

r rmrr

rm

])1[( 1 kYEp

r

onde Y é uma variável alegoria binomial negativa com parâmetros r+1, p.

Page 42: Apostila de Probabilidade Versao 0

42

Fazendo k = 1 na equação anterior, obtemos:

p

rXE ][ que é a média de uma distribuição binomial negativa(r,p)

Fazendo k = 2 na equação anterior e usando a formula para o valor esperado de uma variável aleatória binomial negativa, obtemos:

1

1]1[][ 2

p

r

p

rYE

p

rXE

Portanto,

22

222 )1(

11

)()()(p

pr

p

r

p

r

p

rXEXEXV

Exemplo: A probabilidade de que um sinal de trânsito esteja aberto numa esquina é 0,20. Qual a probabilidade de que seja necessário passar pelo local 10 vezes para encontrá-lo aberto pela 4ª vez? X ={número de passagens pela esquina para encontrar o sinal aberto pela 4ª vez} r = 4; p = 0,20 X ~ Binomial Negativa(4; 0,20)

035232,0)80,0()20,0(3

9)10( 64

XP

Exemplo: Uma técnica conhecida como amostragem binomial negativa é útil na amostragem de populações biológicas. Se a proporção de indivíduos que apresentam uma determinada característica é p e fazemos a amostragem até obcecarmos r desses indivíduos, então, o número de indivíduos amostrados é uma variável aleatória binomial negativa. Por exemplo, suponhamos que em uma população de moscas-da-fruta estamos interessados na proporção que tem asas vestigiais, e decidimos fazer a amostragem até encontrarmos 100 dessas moscas. A probabilidade de que teremos de examinar pelo menos N moscas é

100100 )1(99

1)(

x

Nx

ppx

NXP

1001001

100

)1(99

11

x

N

x

ppx

Para determinarmos p e N, podemos avaliar esta expressão a fim de determinar para quantas moscas-da-fruta provavelmente estaremos olhando. Exemplo: O presidente de uma empresa toma decisões sobre a empresa com base num jogo de golfe na sua sala. A probabilidade do presidente acertar uma tacada é 0,6 e suponha que todas as suas tacadas são independentes e com a mesma probabilidade. A regra de decisão é simples: o presidente continua a jogar até acertar 3 tacadas. Se as 3 tacadas certas são obtidas em 5 ou menos jogadas, o presidente aceita a proposta que lhe foi submetida. Do contrário ( se ele demora mais do que 5 jogadas para acertar 3 tacadas), o presidente fica de mau humor e rejeita a proposta. A secretária entra na sala e entrega uma proposta para a construção de uma nova fábrica. Qual a probabilidade da proposta ser aceita?

Page 43: Apostila de Probabilidade Versao 0

43

O evento de interesse é: “ 3 tacadas certas em 5 ou menos jogadas”. Ou seja, o terceiro sucesso é encontrado na 3ª , 4ª ou na 5ª jogada. Logo, devemos calcular como probabilidade de aceitação da proposta P(X ≤ 5)=P(X = 3)+P(X = 4)+P(X = 5) onde X indica a tentativa onde o terceiro sucesso ocorre. Note que X ~ Nbin(r=3; p=0,60) e assim:

335

3

)1(1

1)5(

x

x

ppr

xXP

231303 )40,0()60,0(

2

4)40,0()60,0(

2

3)40,0()60,0(

2

2

6826,02074,02592,02160,0

Exemplo: Lança-se um dado justo até a obtenção do terceiro “seis”. Seja X o número de lançamentos efetuados. Qual a distribuição de X? Qual é a probabilidade de fazermos exatamente 6 lançamentos? Menos de 6? Mais de 6? Calcule E(X) e V(X). A distribuição de X é binomial negativa, X ~ Nbin(3; 1/6). Então

026792,0)6/5()6/1(2

5)6( 33

XP

)3()4()5()6( XPXPXPXP

035494,0)6/5()6/1(2

2)6/5()6/1(

2

3)6/5()6/1(

2

4031323

9377,0035494,01)6(1)6( XPXP

90)6/1(

)6/5(3)1()(18

6/1

3)(

22

p

prXVe

p

rXE

Na média deveríamos jogar o dado 18 vezes para obtermos o terceiro seis. Distribuição Geométrica A distribuição geométrica é a mais simples das distribuições de tempo de espera e é um caso especial da distribuição binomial negativa. Se definirmos r = 1 na função de probabilidade da distribuição binomial negativa teremos

.........,2,1,)1()( 1 xppxXP x

O que define a função de probabilidade de uma variável aleatória geométrica X com probabilidade de sucesso p. X pode ser interpretado com a prova no qual ocorre o primeiro sucesso, de modo que estamos “esperando por um sucesso”.

1

1

1

11

)1()1()( x

x

x

xx

ppppxXP

].......)1()1()1(1[

11lim

32

1

prazãoeaondeitadaiPG

pppp

1)1(1

1

p

p

pp

Page 44: Apostila de Probabilidade Versao 0

44

Exemplo: A probabilidade de que um sinal de trânsito esteja aberto numa esquina é 0,20. Qual a probabilidade de que seja necessário passar pelo local 5 vezes para encontrá-lo aberto pela 1ª vez? X ={número de passagens pela esquina para encontrar o sinal aberto pela 1ª vez} p = 0,20 X ~ Geom( 0,20)

08192,0)80,0)(20,0()5( 4 XP

O valor esperado pode ser encontrado como

x

x

x

x

x

x

ppd

dppxppxpXE )1(

)1()1()1()(

1

1

1

1

1

ppp

p

p

pd

dpp

pd

dp x

x

111

)1()1(

)1( 21

E para o cálculo da variância temos:

1

1

12

1

12

1

2 )1]()1([)1()1()(

x

x

x

x

x

x

pxxxppxpppxXE

1

1

1

1

)1()1)](1([

x

x

x

x

pxppxxp

pp

pd

dpp

ppxxpp x

x

x

x

1)1(

)1()1(

1)1)](1([)1(

2

2

1

2

1

pp

p

pd

dpp

pp

pd

dpp x

x

11

)1()1(

1)1(

)1()1(

2

2

12

2

233

)1(21)1(21

)1(

2)1(

p

pp

pp

pp

pppp

logo, a variância de X será

p

p

pp

ppXEXEXV

11)1(2)()()(

2

2

22

Exemplo: Se a probabilidade de que um certo ensaio dê reação “positiva” for igual a 0.4, qual será a probabilidade de que 5 reações “negativas” ocorram antes da primeira positiva? Chamando de Y o número de reações negativas antes da primeira positiva, teremos

,.....3,2,1,0),4.0()6.0()( kkYP k

Daí

92.0)4.0()6.0()5(4

0

k

k

YP

Page 45: Apostila de Probabilidade Versao 0

45

Exemplo: O custo de realização de uma experiência é de R$ 1000. Se a experiência falhar existe um custo adicional de R$ 300. A probabilidade de sucesso em cada realização da experiência é 0.2, e as tentativas são independentes. Supõe-se que a experiência é repetida indefinidamente até encontrarmos o primeiro sucesso. Qual o custo esperado do procedimento completo? Suponha que o custo máximo que a empresa está disposta a pagar até que a experiência seja completada é de R$ 8000. Qual é a probabilidade de que a experiência custe mais do que isso? Seja C a variável aleatória que representa o custo da experiência, e defina X como sendo o número de repetições necessárias até encontrar o primeiro sucesso. Então:

3001300)1(3001000 XXXC

Pela linearidade do valor esperado:

300)(1300)( XECE

Mas, X ~ Geom(p=0.2) e assim E(X) = 1/0.2 = 5. Logo o custo esperado da experiência é:

.6200300)5(1300)( CE

E, finalmente

)30080001300()80003001300()8000( XPXPCP

)6()92.5()1300/8300( XPXPXP

)5(...)2()1(1)6(1 XPXPXPXP

472.0)8.0()8.0()8.0()8.0(12.01 432

A distribuição geométrica tem uma propriedade interessante, conhecida como a propriedade “sem memória”. Para números inteiros s > t quaisquer, tem-se

)()|( tsXPtXsXP

isto é, a distribuição geométrica “se esquece” do que ocorreu. A probabilidade de ocorrer outros fracassos s-t, depois de já terem sido observados t fracassos, é a mesma que probabilidade de observar s-t fracassos no início da seqüência. Em outras palavras, a probabilidade de se obter uma seqüência de fracassos depende somente do tamanho da seqüência, não de sua posição. A prova do teorema se da através da definição de probabilidade condicional e da soma

dos termos de uma Progressão Geométrica ilimitada de razão q

q

aSn

1

1 .

Primeiramente notamos que para qualquer número inteiro n,

nptentativasnemsucessossemPnXP )1()()(

e, assim,

)(

)(

)(

)()|(

tXP

sXP

tXP

tXsXPtXsXP

Page 46: Apostila de Probabilidade Versao 0

46

)1(1

)1(

)1(1

)1(

.......)1()1()1(

.......)1()1()1(1

1

321

321

p

p

p

p

ppp

pppt

s

PG

ttt

sss

ts

t

s

t

s

pp

p

pp

pp

)1(

)1(

)1(

)1)(1(

)1)(1(

).( tsXP

Exemplo: Algumas vezes, a distribuição geométrica é utilizada para modelar “tempo de vida” ou “tempo até a ocorrência da falha” de componentes. Por exemplo, se a probabilidade é de 0.001 de que uma lâmpada irá queimar em determinado dia, então a probabilidade de que ela irá durar pelo menos 30 dias é

970.0)999.0()001.01(001.0)30( 301

31

x

x

XP

A propriedade sem memória da distribuição geométrica descreve uma propriedade de “ausência de envelhecimento” muito especial, que indica que a distribuição geométrica não é aplicável a modelagem de tempo de vida para o qual se espera que a probabilidade de falha aumente com o decorrer do tempo. Existem outras distribuições utilizadas para modelar vários tipos de envelhecimento; veja, por exemplo, Barlow, R. e Proscan, E. Statistical Theory of Life Testing. Nova York: Holt, Rinehart and Winston, 1975. Distribuições Contínuas Como já salientamos anteriormente, em muitos problemas se torna matematicamente mais simples considerar um espaço amostral “idealizado” para uma variável aleatória X, no qual todos os números reais possíveis (em algum intervalo especificado ou conjunto de intervalos) possam ser considerados como resultados possíveis. Dois exemplos são a hora de chegada de um trem em uma determinada estação e o tempo de vida de um chip. Desta maneira, seremos levados as variáveis aleatórias contínuas. Dizemos que X é uma variável aleatória contínua se existir uma função não negativa f,

definida para todo real x(-, ), que tenha a propriedade de que, para qualquer conjunto B de números reais,

B

dxxfBXP )()(

A função f é chamada de função de densidade de probabilidade (f.d.p.) da variável aleatória X. Colocando em palavras, a equação anterior diz que a probabilidade de que X esteja em B pode ser obtida integrando-se a função densidade de probabilidade ao longo do conjunto B. Como X deve assumir algum valor, f deve satisfazer

dxxfXP )(),(1

Tudo o que se deseja saber sobre X pode ser respondido em termos de f. Por exemplo, fazendo B=[a, b], obtemos

dxxfbXaPBXPb

a)()()(

Page 47: Apostila de Probabilidade Versao 0

47

Se fizermos a=b, obtemos

0)()( dxxfaXPa

a

Colocando em palavras, essa equação diz que a probabilidade de que uma variável aleatória contínua assuma qualquer valor específico é zero. Portanto, para uma variável aleatória contínua,

dxxfaFaXPaXPa

)()()()(

Distribuição Normal A distribuição normal foi introduzida pelo matemático francês Abraham DeMoivre em 1733, que a utilizou para obter aproximações probabilísticas associadas as variáveis aleatórias binomiais com parâmetro n grande. Esse resultado foi mais tarde estendido por Laplace e outros e hoje esta incorporado em um teorema probabilístico conhecido como o teorema do limite central. A distribuição normal (algumas vezes chamada de distribuição Gaussiana) representa um papel central em um grande conjunto de estatísticas. Existem três principais razões para isto. Primeiro, a distribuição normal e associadas a ela são muito tratáveis analiticamente (embora isto talvez não seja percebido a primeira vista). Segundo, a distribuição normal tem o familiar formato de um sino, cuja simetria a transforma em uma escolha atrativa para muitos modelos de populações. Embora existam muitas outras distribuições que também tem formato de sino, a maior parte delas não tem a tratabilidade analítica da distribuição normal. Terceiro, existe o Teorema do Limite Central (TLC), o que mostra que, em condições moderadas, a distribuição normal pode ser utilizada para aproximar uma grande variedade de distribuições em grandes amostras.

A distribuição normal tem dois parâmetros, geralmente denotados por µ e 2, que são

sua média e sua variância. A f.d.p. da distribuição normal com média µ e variância 2

(geralmente denotada por N(µ, 2)) é dada por

.,2

1)(),|(

2

2

2

)(

2

xexfxf

x

Para provar que f(x) é de fato uma densidade de probabilidade, precisamos mostrar que

12

1 2

2

2

)(

dxe

x

Fazendo a substituição

)(

xy , acarretando dydx , e resultando

dyedxe

yx

22

)( 2

2

2

2

1

2

1

Com isso, precisamos mostrar que

Page 48: Apostila de Probabilidade Versao 0

48

22

2

dye

y

Com esse objetivo, considere .2

2

dyeI

y

Então,

dsedyeIsy

222

22

.

dydseI

sy

2

)(

2

22

Avaliamos agora a integral dupla por meio de uma mudança de variáveis para

coordenadas polares (isto é, s = r cos , y = r sen , e dy ds = r d dr). Assim,

drdredrrdeIrr

2

0

2

0

22

00

2

22

222

0

22

0

2

22

rr

edrreI

Com isso, 2I e o resultado esta demonstrado.

Considere X normalmente distribuída com parâmetros .2 e Então

),1,0(~)(

NX

Z

isto é, Z é normalmente distribuída com parâmetros 0 e

.12 Tal variável aleatória é chamada de variável aleatória normal padrão ou unitária.

0)()][()(

)(

XEXEXEZE

1)()][()(

)(2

2

22

XVXVXVZV

Essa variável aleatória é extremamente útil pois os valores desta distribuição estão tabelados, dispensando o cálculo da integral.

Pode-se demonstrar também que se X ~ N(µ, 2) então Y = aX + b terá também

distribuição normal tal que Y ~ N(aµ+b, a22). A distribuição normal é, de certo modo, especial, no sentido de que seus dois

parâmetros, µ (a média) e 2 (a variância), nos fornecem informações completas sobre o formato e a localização exatos da distribuição. O cálculo direto mostra que a f.d.p. normal tem seu máximo em x = µ e a pontos de

inflexão (onde a curva se modifica de côncava para convexa) em µ . Além disso, o conteúdo de probabilidade dentro de 1, 2 ou 3 desvios padrão da média é

6826.0)1|(|)|)(| ZPXP

9544.0)2|(|)2|)(| ZPXP

9974.0)3|(|)3|)(| ZPXP

Page 49: Apostila de Probabilidade Versao 0

49

onde X ~ N(µ, 2) e Z ~ N(0,1). Exemplo: Uma fábrica de carros sabe que os motores de sua fabricação tem duração com distribuição aproximadamente normal com média de 150.000 km e desvio padrão de 5.000 km. Qual a probabilidade de que um carro, escolhido ao acaso, dos fabricados por essa firma, tenha um motor que dure:

a) Menos de 170.000 km? b) Entre 140.000 km e 165.000 km? c) Se a fábrica substitui o motor que apresenta duração inferior a garantia,

qual deve ser esta garantia para que a porcentagem de motores substituídos seja inferior a 0.2%?

Seja X = {duração do motor em km} onde X ~ N(150.000; (5.000)2)

Temos então )1,0(~000.5

000.150)(N

XXZ

a) 1)4()000.5

000.150000.170()000.170(

ZPZPXP

b) )000.165000.140( XP

)000.5

000.150000.165

000.5

000.150000.140( ZP

97590.0)32( ZP

c) 002.0)( XXP

Para que a probabilidade seja 0.002 precisamos procurar no corpo da

tabela o valor de Z correspondente, onde encontramos Z = -2.87

Logo, 650.135000.5

000.15087.2

XX

, isto é, a garantia deve

ser de 135.600 km. Exemplo: Um perito utilizado em julgamento de paternidade testifica que a extensão (em dias) da gestação humana é normalmente distribuída com parâmetros µ = 270 e

X

Z

Page 50: Apostila de Probabilidade Versao 0

50

2 = 100. O réu é capaz de provar que estava fora do país durante um período que

começou 290 dias antes do nascimento da criança e terminou 240 dias depois do nascimento.

Seja X a extensão da gestação e suponha que o réu é o pai. Então a probabilidade de que o nascimento pudesse ocorrer dentro do período indicado é

)240()290()240290( XPXPXouXP

)10

270240()

10

270290( ZPZP

0241.0)3()2( ZPZP

Exemplo: Um fabricante de baterias sabe, por experiência passada, que baterias de sua fabricação tem vida média de 600 dias e desvio padrão de 100 dias, sendo que a duração tem aproximadamente distribuição normal. Oferece uma garantia de 312 dias, isto é, troca as baterias que apresentarem falhas nesse período. Fabrica 10.000 baterias mensalmente. Quantas deverá trocar pelo uso da garantia, mensalmente?

Seja X = {duração da bateria} onde X ~ N(600; (100)2)

Temos então )1,0(~100

600)(N

XXZ

001988.0)88.2()100

600312()312(

ZPZPXP

que é a probabilidade de uma bateria durar menos de 312 dias. Como a fabrica produz 10.000 baterias por mês, o valor esperado de uma distribuição

binomial é np, logo, deveremos substituir mensalmente: 10.000*0.001988 20 baterias. A Aproximação Normal para a Distribuição Binomial Um importante resultado na teoria da probabilidade, conhecido como o teorema limite de DeMoivre-Laplace, diz que, quando n é grande, uma variável aleatória binomial com parâmetros n e p tem aproximadamente a mesma distribuição que uma variável aleatória normal com média e variância iguais aquelas da distribuição binomial. Esse resultado foi provado originalmente por DeMoivre em 1733 para o caso especial em que p = ½ e foi depois estendido por Laplace em 1812 para o caso de p qualquer. O teorema diz formalmente que se “padronizarmos” a distribuição binomial primeiramente subtraindo desta distribuição sua média np e então dividindo

o resultado por seu desvio padrão )1( pnp , então a função distribuição dessa

variável aleatória padronizada (que tem média 0 e variância 1) convergirá para a

função distribuição normal a medida que n . Teorema Limite de DeMoivre e Laplace Se Sn representa o número de sucessos que ocorrem quando n tentativas independentes, cada uma com probabilidade p, são realizadas, então, para qualquer a < b,

)()()1(

abbpnp

npSaP n

a medida que n , sendo ~ N(0,1).

Page 51: Apostila de Probabilidade Versao 0

51

O teorema anterior é apenas um caso especial do teorema do limite central, que iremos discutir a seguir, não vamos apresentar sua demonstração. Nota: Para empregarmos a aproximação normal, note que, como a variável aleatória binomial é uma variável aleatória discreta inteira, enquanto que a variável aleatória normal é uma variável contínua, é melhor escrevermos P[X = i] como sendo P[i – ½ < X < i + ½] antes de aplicarmos a aproximação normal (isso é chamado de correção de continuidade). Exemplo: O tamanho ideal de uma turma de primeiro ano em uma faculdade particular é de 150 alunos. A faculdade, sabendo de experiências anteriores que, em média, apenas 30% dos alunos aceitos vão de fato seguir o curso, usa a prática de aprovar os pedidos de matrícula de 450 estudantes. Calcule a probabilidade de que mais de 150 estudantes de primeiro ano freqüente as aulas nesta faculdade. Se X representa o número de estudantes que seguem o curso, então X é uma variável aleatória binomial com parâmetros n = 450 e p = 0,3. Usando a correção de continuidade, vemos que a aproximação normal resulta em

)7.0)(3.0)(450(

)3.0)(450(5,150

)7.0)(3.0)(450(

)3.0)(450(5,150

XPXP

0559.0)59.1( ZP

Com isso, menos de 6% das vezes mais de 150 dos 450 estudantes aceitos vão de fato seguir o curso. Exemplo: Um sistema é formado por 100 componentes, cada um dos quais com confiabilidade de 0.95 (probabilidade de funcionamento do componente durante um certo período de tempo). Se esses componentes funcionam independente um do outro e se o sistema completo funciona adequadamente quando pelo menos 80 componentes funcionam, qual a confiabilidade d sistema? Seja X ={número de componentes que funcionam}, então X ~ Bin(100; 0.95) Queremos então P(80 ≤ X ≤ 100)

Aproximando pela distribuição normal e usando a correção de continuidade temos

µ = np = (100)(0.95) = 95

2 = np(1-p) = (100)(0.95)(0.05) = 4.75 = 2.18

993132.0)52.211.7(5,1005.79 ZPXP

Teorema Central do Limite

Sejam X1, X2, ......, Xn variáveis aleatórias independentes tais que iiXE )( e 2)( iiXV , ambas finitas. Seja Y = X1+ X2+ ......+ Xn . Então, sob condições bastante

gerais podemos afirmar que:

n

i

i

n

i

iY

Z

1

2

1

Page 52: Apostila de Probabilidade Versao 0

52

tem aproximadamente uma distribuição N(0,1). Esta aproximação torna-se cada vez melhor a medida que n (o tamanho da amostra) cresce. Teorema Central do Limite (versão i.i.d.) Sejam X1, X2, ......, Xn variáveis aleatórias independentes e identicamente distribuídas

(i.i.d.) tais que )( iXE e 2)( iXV , ambas finitas. Seja Y = X1+ X2+ ......+ Xn .

Então, sob condições bastante gerais podemos afirmar que:

2

n

nYZ

tem aproximadamente uma distribuição N(0,1). Esta aproximação torna-se cada vez melhor a medida que n (o tamanho da amostra) cresce. Teorema Central do Limite (versão i.i.d. em termos da média amostral) Sejam X1, X2, ......, Xn variáveis aleatórias independentes e identicamente distribuídas

(i.i.d.) tais que )( iXE e 2)( iXV , ambas finitas. Seja i

n

i

Xn

X

1

1a

média amostral. Então, sob condições bastante gerais podemos afirmar que:

Xn

n

XZ

/2

tem aproximadamente uma distribuição N(0,1). Esta aproximação torna-se cada vez melhor a medida que n (o tamanho da amostra) cresce.

Teorema: Seja X uma variável aleatória com média µ e variância 2 , e seja X1, ......, Xn uma amostra aleatória de tamanho n de X. Então,

n

XVeXE2

)()(

n

nXEXE

nXE

nXE n

n

i

i )}(...)({1

)(1

)( 1

1

2

2

2

2

121

2)}(...)({

1)(

1)(

nn

nXVXV

nXV

nXV n

n

i

i

Exemplo: O peso de um saco de café é uma variável aleatória que tem distribuição normal com média de 65 kg e desvio padrão de 4 kg. Um caminhão é carregado com 120 sacos. Pergunta-se qual a probabilidade de a carga do caminhão pesar

a) Entre 7893 kg e 7910 kg? b) Mais de 7722 kg?

Xi = {peso de um saco de café} Xi ~ N(65; 16); i=1,2,3,....,120

X = {peso da carga do caminhão} i

i

XX

120

1

Assim,

192016)(780065)(120

1

120

1

ii

XVeXE

Page 53: Apostila de Probabilidade Versao 0

53

logo, )1920;7800(~ NX

a)

1920

78007910

1920

78007893)79107893( ZPXP

010966,0)51,212,2( ZP

b) 962462,0)78,1(1920

78007722)7722(

ZPZPXP

Exemplo: Suponha que X represente o peso real de pacotes de café, enchidos automaticamente por uma máquina. Considere X ~ N(500,100) isto é, X pode ser

representada por uma normal, com parâmetros µ=500 e 2 =100. Colhendo-se uma

amostra de n = 100 pacotes e pesando-os, X terá uma distribuição normal com média 500 e variância 100/100=1. Considerando que a máquina esteja regulada, qual a probabilidade de encontrarmos a média de 100 pacotes diferindo de 500g de menos de 2 gramas?

)502498()2|500(| XPXP

95.0)22()1

500502

1

500498(

ZPZP

Distribuição Qui-Quadrado Uma variável aleatória Y, com valores positivos, tem uma distribuição qui-quadrado

com v graus de liberdade (denotada por 2(v)), se sua densidade for dada por

0,2)2/(

1)( 2

12

2/

yeyv

yf

yv

v

onde 0,)( 1

dxxe x

o é a função gama, importante em muitas áreas da

matemática. Pode-se mostrar que )1()1()( e que se n for um

inteiro positivo, )!1()( nn e que .)2/1(,1)1(

Chamamos de Graus de liberdade o número de determinações independentes (dimensão da amostra) menos o número de parâmetros estatísticos a serem avaliados na população. Pode-se mostrar também que E(Y) = v e V(Y) = 2v. Da mesma forma que na distribuição normal, os valores da distribuição qui-quadrado encontram-se tabelados.

A tabela da distribuição qui-quadrado fornece valores de 2

tais que

)( 22P , para alguns valores de e de v conforme ilustrado no gráfico

abaixo.

Exemplos:

Page 54: Apostila de Probabilidade Versao 0

54

Usando a tabela da distribuição qui-quadrado para v =10 observe que P(Y > 2.558) = 0,99, ao passo que P(Y > 18,307) = 0,005. Para o caso em que se queira P(Y < 15,987) = 1 – P(Y >15,987) = 1 – 0.1 = 0.9. Para o caso em que se queira P(Y > 14,150) podemos observar que este valor não existe na tabela. Com o auxilio de algum software estatístico, ou até mesmo do Excel,

podemos verificar que o valor para P(Y > 14,150) 0,1663. Por outro, a tabela fornece

que P(Y > 9,342) = 0,5 e P(Y > 15,987) = 0,1. Como 14,150 (9,342; 15,987) pode-se, através de um “chute educado”, estimar para P(Y > 14,150) qualquer valor dentro deste intervalo.

Observações: 1- Para v > 30 podemos usar uma aproximação normal a distribuição qui-quadrado.

Especificamente, temos o seguinte resultado: se Y tiver distribuição qui-quadrado com v graus de liberdade, então a variável aleatória

)1,0(~122 NvYZ

Por exemplo, consultando a tabela da distribuição qui-quadrado para v = 30, P(Y > 40,256) = 0,10, Enquanto que, usando a expressão acima, temos que

292,11)30(2)256,40(2 Z

e P(Z > 1,292) 0,099, que resulta em uma boa aproximação. 2- Considere Z ~ N(0,1) e considere a variável aleatória Y = Z2. Pode-se mostrar que

)1(~ 2Y , ou seja, o quadrado de uma variável aleatória com distribuição normal

padrão é uma variável aleatória com distribuição 2(1). De um modo mais geral,

uma variável aleatória 2(v) pode ser vista como a soma de v normais padrões ao quadrado, independentes.

Distribuição t de Student O químico e estatístico inglês William Sealy Gosset (1876 – 1937) trabalhava na cervejaria Guiness em Dublin e aplicava seus métodos estatísticos (que frequentemente se utilizavam em amostras “pequenas”) para selecionar as melhores variedades de cevada. Como a cervejaria proibia que seus funcionários publicassem artigos científicos para proteger seus segredos industriais, Gosset publicou seus resultados sob o pseudônimo “Student”. Um de seus resultados foi a determinação da distribuição t (que ficou conhecida com “t de Student”), publicada em 1908.

Se X1, X2, ......., Xn são amostras aleatórias de uma N(µ , 2), sabemos que a quantidade

n

X

/

é distribuída como uma variável aleatória N(0,1). Se conhecermos o valor de e

medirmos X (a média amostral), então poderemos utilizar a expressão acima como uma base sobre a inferência de µ (a média populacional), uma vez que µ seria então a

única quantidade desconhecida. Na maior parte das vezes, no entanto, é desconhecido. Student fez o óbvio – ele considerou a distribuição

ns

X

/

Page 55: Apostila de Probabilidade Versao 0

55

uma quantidade que poderia ser utilizada como base para a inferência sobre µ quando

era desconhecido.

A distribuição acima é fácil de derivar, desde que primeiro observemos algumas

manobras de simplificação. Multiplique a expressão acima por / e rearranje de algum modo para obter

22 /

)/)((

/

s

nX

ns

X

O numerador é a variável aleatória N(0,1), e o denominador é )1/(2

1 nn ,

independente do numerador. Assim, a distribuição ns

X

/

nos dá a distribuição t-

Student.

Definição: Sejam X1, X2, ......., Xn uma amostra aleatória de uma distribuição N(µ , 2).

A quantidade ns

X

/

tem a distribuição t-Student, com n-1 graus de liberdade. De

modo equivalente, uma variável aleatória T tem a distribuição t-student com p graus de liberdade, e escrevemos T ~ tp se sua f.d.p. for:

xptpp

p

tfp

,/1

11

2

2

1

)(2/)1(22/1

Pode-se provar que 1,0)( psetE e que 2,2

)(

psep

ptV

O gráfico da densidade de t aproxima-se de uma N(0,1) quando v (graus de liberdade) é “grande”, como é mostrado abaixo:

Como esta distribuição é bastante utilizada na prática, existem diversas tabelas fornecendo probabilidades relativas a ela.

Exemplos:

Page 56: Apostila de Probabilidade Versao 0

56

1- Seja uma distribuição de Student com seis graus de liberdade (v = 6). Encontre P(t(6) > 2,447).

Se olharmos na tabela ao final desta apostila podemos verificar que a mesma

nos fornece valores para P(t > t ) = , logo, a probabilidade de P(t(6) > 2,447) = 0.025.

2- Qual seria a probabilidade para P(-1,943 < t(6) < 1,943)?

Devemos observar que a tabela unilateral e é simétrica. Pela tabela temos que P(t(6) > 1,943) = 0,05. Logo, pela simetria, P(t(6) < -1,943) = 0,05. Dessa forma,

P(-1,943 < t(6) < 1,943) = 1-(0,05+0,05) = 0,90.

3- Considere agora uma distribuição de Student com oito graus de liberdade (v = 8). Encontre P(t(8) > 1,654).

Podemos observar que para este grau de liberdade não existe este valor na tabela. Com o auxilio de algum software estatístico, ou até mesmo do Excel, podemos

verificar que o valor para P(t(8) > 1,654) 0,0683. Por outro, a tabela fornece que

P(t(8)> 1,397) = 0,1 e P(t(8) > 1,860) = 0,05. Como 1,654 (1,397; 1,860) pode-se, através de um “chute educado”, estimar para P(Y > 1,654) qualquer valor dentro deste intervalo.

4- Seja X ~ N(µ, 2). Tome uma amostra aleatória de X com n = 8. Calcule e compare

a) )2/( XP com b) )2/( sXP

a. Como )1,0(~8/

NX

Z

temos

07927,0)2(2

8

8/)2/(

ZP

XPXP

b. Como )7(~8/

ts

Xt

, temos

0,09810)2)7((2

8

8/)2/(

tP

s

XPsXP

Podemos notar que as duas probabilidades são significativamente diferentes.

No entanto, se é desconhecido, é impossível verificar se o evento em (a) acontece

ou não – enquanto o evento em (b) não depende de para absolutamente nada!

Distribuição F de Snedecor O nome desta distribuição vem de George W. Snedecor (1881 – 1974), um matemático e físico americano especialmente interessado em experimentos biológicos e agrícolas.

Definição: Sejam X1, X2, ......., Xn uma amostra aleatória de uma população

),( 2

xxN , e que Y1, Y2, ......., Ym seja uma amostra aleatória de uma população

independente ),( 2

yyN . A variável aleatória 22

22

/

/

yy

xx

s

s

tem distribuição F de Snedecor

Page 57: Apostila de Probabilidade Versao 0

57

com n-1 e m-1 graus de liberdade. De forma equivalente, a variável aleatória F tem a distribuição F com p e q graus de liberdade se sua f.d.p. for

xqp

x

q

p

qp

qp

xfqp

pp

,)]/(1[

22

2)(

2/)(

1)2/(2/

A derivação da f.d.p. de F, começando a partir de distribuições normais, é similar a derivação de t-student. Na verdade, em algum caso especial, a F é a transformada de t.

Teoremas:

a. Se X ~ F.p.,q, então 1/X ~ Fq,p; isto é, a recíproca de uma variável aleatória F novamente é uma variável aleatória F.

b. Se X ~ tq, então X2 ~ F1,q.

Pode-se provar que 2

)(

q

qFE e que

)4()2(

)2(2)(

2

2

qqp

qpqFV

O formato da distribuição F(m, n) varia com m e n. A maioria da tabelas para a

densidade F é unicaudal para diversos valores de significância . Pode-se representar a distribuição F na figura abaixo:

Ao final desta apostila apresentamos a tabela da distribuição F para = 5% e = 2.5%.

Exemplos:

a. Considere a variável aleatória W ~F(5, 7). Consultando a tabela para = 5% temos P(F > 3.97) = 0.05 e P(F < 3.97) = 0.95.

Digamos agora que queremos encontrar o valor f0 tal que

.05.0)( 0 fFP Podemos então escrever:

);1

)5,7(()5,7(

1))7,5((05.0

0

00f

FPfF

PfFP

Na tabela para F(7, 5) encontramos o valor 4,.88. Logo

.205,088.41

0

0

ff

b. Seja X uma variável aleatória com densidade F(4, 10). Ache os pontos a e b tais que P(a < X < b) = 0,95.

Page 58: Apostila de Probabilidade Versao 0

58

A probabilidade de X estar fora do intervalo é 5%, e escolhemos a e b tais que, a probabilidade de X estar abaixo de a é 2,5%, e a probabilidade de X estar acima de b também é 2,5%.

Assim, b é encontrado fazendo-se:

47,4025,0))10,4((025,0)( bbFPbXP

De maneira semelhante, a é tal que:

025,0)11

(025,0)(aX

PaXP

025,0)1

)4,10((025,0)1

(a

FPa

YP

84,8)4,10(025,0)1

)4,10((1 Fa

FP

0,11384,8/184,81

aa

Assim: P( 0,113 < X < 4,47) = 0,95 onde X ~ F(4, 10).

Page 59: Apostila de Probabilidade Versao 0

59

Page 60: Apostila de Probabilidade Versao 0

60

Page 61: Apostila de Probabilidade Versao 0

61

Page 62: Apostila de Probabilidade Versao 0

62

Distribuição Qui-Quadrado

O corpo da Tabela que fornece valores c tais que P(n>c)=p, onde n é o número de graus de liberdade

Page 63: Apostila de Probabilidade Versao 0

63

Page 64: Apostila de Probabilidade Versao 0

64

Page 65: Apostila de Probabilidade Versao 0

65