View
222
Download
0
Category
Preview:
Citation preview
Notas sobre Probabilidade Discreta
por
Roberto Imbuzeiro M. F. de Oliveira
IMPA
i
Indice
1 Introducao 11.1 Andamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 20 de marco de 2007 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2 Definicoes basicas do caso discreto 22.1 Conceitos basicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22.2 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.3 Probabilidades condicionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.4 Particoes e probabilidades condicionais . . . . . . . . . . . . . . . . . . . . . . . 82.5 Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3 Variaveis aleatorias 113.1 Definicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.2 Distribuicao de uma variavel aleatoria . . . . . . . . . . . . . . . . . . . . . . . 113.3 Distribuicoes novas a partir de antigas . . . . . . . . . . . . . . . . . . . . . . . 123.4 Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.5 Somas de variaveis aleatorias independentes . . . . . . . . . . . . . . . . . . . . 14
4 Valores esperados, momentos e desigualdades 164.1 Valores esperados e momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.1.1 A desigualdade de Jansen e as normas Lp . . . . . . . . . . . . . . . . . 184.2 Variancia e covariancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194.3 A desigualdade de Chebyshev e concentracao . . . . . . . . . . . . . . . . . . . 214.4 Aplicacao a aproximacoes por polinomios . . . . . . . . . . . . . . . . . . . . . 23
5 Interpretacao das probabilidades condicionais 255.1 Probabilidades e esperancas condicionais . . . . . . . . . . . . . . . . . . . . . . 25
5.1.1 Informacao e aproximacao: definindo probabilidades condicionais . . . . 255.1.2 Informacao e aproximacao: o caso geral . . . . . . . . . . . . . . . . . . 27
ii
Capıtulo 1: Introducao
Muitos dos conceitos relevantes em Probabilidade e ja sao interessantes no caso discreto,em que as tecnicalicades de Teoria da Medida sao desnecessarias e as ideias envolvidas setornam transparentes. Alem disso, as distribuicoes discretas sao frequentemente encontradasem aplicacoes de Probabilidade.
Estas duas razoes sugerem que um curso introdutorio de Probabilidade dispense especialatencao a este caso particular da teoria. No entanto, a duracao do curso de mestrado emProbabilidade do IMPA exige que se cumpra a parte ”dif’ıcil”do programa sem muita demora.Estas notas sucintas se propoem a complementar este curso atraves de um estudo paraleloda Probabilidade discreta atraves de exercıcios. Apresentaremos uma boa parte do cursoneste caso particular, indicaremos a correspondencia natural que existe entre conceitos deProbabilidade discreta e de Medida e, por fim, exibiremos as limitacoes do caso discreto e aforma pela qual elas sao superadas pela teoria axiomatica de Kolmogorov.
Sugestoes e correcoes devem ser enviadas para rimfo@impa.br.
1.1 Andamento
Estas notas sao um trabalho em andamento que sera constantemente atualizado. Manter-emos aqui uma lista das modificacoes mais relevantes e das secoes ja prontas.
1.1.1 20 de marco de 2007
So os Capıtulos 2 e 3 estao razoavelmente prontos (mas ainda nao revistos). O Capıtulo 4ja esta algo legıvel e pode ser estudado preliminarmente. O Capıtulo 5 ainda esta totalmentecaotico.
1.2 Referencias
As principais referencias destas notas sao:
1. Kai Lai Chung, ”A Course in Probability Theory Revised”;
2. William Feller, ”An Introduction to Probability Theory and Its Applications, Volume1”;
3. Barry James. ”Probabilidade: um curso em nıvel intermediario”.
1
Capıtulo 2: Definicoes basicas do caso discreto
2.1 Conceitos basicos
Aproximadamente um sexto dos lancamentos de um dado resulta no numero 4. Asbrasileiras tem em media 2, 5 filhos. Ha uma chance de 22% de que a economia chilena crescamais do que a indiana no ano de 2007. Cada uma destas afirmacoes pode ser vagamenteinterpretada de uma das seguintes duas maneiras:
• Avaliacao de risco: Ha um conjunto de possibilidades para o que pode vir a acontecer.A cada possibilidade atribui-se uma medida numerica do risco de sua ocorrencia.
• Frequencia: Olhamos para uma serie de circunstancias repetidas. Para cada repeticao,observamos a ocorrencia de um dado evento e calculamos a fracao de vezes em que oevento acontece.
Grosso modo, a definicao de probabilidade que veremos a seguir captura a primeira inter-pretacao acima. Um teorema fundamental chamado de Lei dos Grandes Numeros nos permi-tira dizer que, ao menos em alguma situacoes, podemos recuperar a segunda interpretacao deforma precisa.
Nossa definicao (provisoria) de probabilidade tem dois ingredientes.
Definicao 2.1. Um espaco de probabilidade discreto e um par (Ω, P) cujos dois elementossao:
1. Um espaco amostral Ω, que e o conjunto de possıveis “acontecimentos”Ω, e que e umconjunto finito ou enumeravel.
2. Uma medida de probabilidade (ou distribuicao) P (·), que atribui a cada elemento ω ∈ Ωuma probabilidade (“valor de risco”) P (ω) ∈ [0, 1]. Exigiremos sempre que a soma dasprobabilidades seja 1, isto e: ∑
ω∈Ω
P (ω) = 1.
Hipotese 2.2. Todos os espacos de probabilidade neste capıtulo sao espacos discretos.
A definicao acima induz uma funcao sobre os subconjuntos de Ω (isto e, o conjunto P(Ω)das partes de Ω). Esta nova funcao tambem sera chamada de P.
(2.1)P : P(Ω) → [0, 1]
A 7→ P (A) =∑
ω∈A P (ω)
Note que, com esta definicao, P (ω) e o valor de P (ω) definido anteriormente.
Exercıcio 2.1. Prove que a funcao P sobre P(Ω) satisfaz as seguintes propriedades:
1. P (∅) = 0
2. P (Ω) = 1
2
3. se A1, A2, · · · ⊂ Ω sao conjuntos disjuntos 2 a 2, P(∪+∞
n=1An
)=∑+∞
n=1 P (An). (Aprobabilidade da uniao de conjuntos disjuntos e a soma das probabilidades dos conjuntosindividuais.)
Mostre a seguinte recıproca: se P : P(Ω) → [0, 1] satisfaz estas tres propriedades, entaoP (ω) = P (ω) e uma medida de probabilidade no sentido da Definicao 2.1.
Observacao 2.3. Os elementos A ∈ P(Ω) sao ocasionalmente chamados de eventos.
Exercıcio 2.2. Prove tambem as seguintes propriedades.
1. Se A ⊂ B ⊂ Ω, P (A) ≤ P (B);
2. Se A1, A2 ⊂ Ω, P (A1) = P (A1 ∩A2) + P (A1\A2);
3. para todo A ∈ P(Ω), P (Ac) = 1− P (A), onde Ac e o complementar de A em Ω.
4. Inclusao-exclusao: Para quaisquer conjuntos A1, A2 ⊂ Ω:
P (A1 ∪A2) = P (A1) + P (A2)− P (A1 ∩A2) .
5. Inclusao-exclusao generalizada: Para quaisquer conjuntos A1, A2, . . . , An ⊂ Ω:
P (∪ni=1Ai) =
n∑k=1
(−1)k+1∑
S⊂1,...,n:|S|=k
P (∩i∈SAi) ,
onde |S| e a cardinalidade de S. [Este e um item mais difıcil. Uma estrategia pararesolve-lo e usar inducao em n. O caso n = 2 e o item anterior. Para n ≥ 3, considereP (Bn−1 ∪An) onde Bn−1 = ∪n−1
i=1 Ai. Note que pelo item anterior:
P (Bn−1 ∪An) = P (An) + P (Bn−1)− P(B′
n−1
),
onde B′n−1 = ∪n−1
i=1 (Ai ∩An). Agora aplique a hipotese indutiva.]
2.2 Exemplos
Alguns exemplos basicos de espacos de probabilidade sao apresentados a seguir. O leitordeve certificar-se de que cada um corresponde de fato a um espaco de probabilidade.
Exercıcio 2.3 (Espacos produto). Para 1 ≤ i ≤ n, sejam (Ωi, Pi) espacos de probabilidade(discretos). Defina um novo espaco (Ω, P) mediante o produto cartesiano
Ω = Ω1 × Ω2 × . . .Ωn
e tomando
(2.2) P (ω) = P1 (ω1) P1 (ω2) . . . Pn (ωn) , ω = (ω1, . . . , ωn) ∈ Ω.
Mostre que (Ω, P) e um espaco de probabilidade (o espaco produto) e que (2.2) e equivalentea
P (A1 × · · · ×An) = P1 (A1) P1 (A2) . . . Pn (An) , A1, . . . , An ⊂ Ω.
3
Exemplo 2.4 (Bernoulli). Neste caso Ω = 0, 1 correspondendo ao cara/coroa de umamoeda. Fixamos um numero p ∈ [0, 1] e dizemos que P (1) = p, P (0) = 1−p. Esta distribuicaoe chamada de Bernoulli com parametro p (Bep)
Exercıcio 2.4 (Produto de Bernoullis). Escolha p ∈ [0, 1] e n ∈ N. Seja Ω = 0, 1n eP (ω) = p|ω|(1 − p)n−|ω|, onde |ω| =
∑ni=1 ωi. Mostre que este espaco e o produto de n
espacos Ωi = 0, 1 com medida Pi = Bep.
Exemplo 2.5 (Um dado). Neste caso Ω = 1, 2, 3, 4, 5, 6 correspondendo as faces de umdado. Definimos P (ω) = 1/6 para cada ω ∈ Ω.
Exemplo 2.6 (Distribuicao uniforme). Generalizando o exemplo anterior, Ω e um conjuntodiscreto dado e P (ω) = 1/|Ω| para cada ω ∈ Ω, onde |Ω| e a cardinalidade do conjunto Ω.Esta e a distribuicao uniforme sobre Ω (UnifΩ)
Exercıcio 2.5. Mostre que neste caso ∀A ⊂ Ω, P (A) = |A|/|Ω|.
Exercıcio 2.6 (Produtos de distribuicoes uniformes sao uniformes). O produto de n espacosfinitos (Ωi, Pi = UnifΩi) e (Ω, P = UnifΩ).
Exemplo 2.7 (Distribuicao geometrica). A tecnica de datacao por carbono 14 e baseada nochamado decaimento: cada atomo transforma-se espontaneamente em outro tipo de atomoao longo do tempo1. Nosso espaco Ω correspondera ao numero de segundos que um atomoescolhido de carbono 14 demora para decair: Ω = N = 1, 2, 3, . . . . A probabilidade P tera aforma de “decaimento exponencial discreto”determinada pela seguinte formula:
(2.3) P (k, k + 1, k + 2, . . . ) = (1− p)k−1,
onde p ∈ [0, 1) e um parametro que depende das propriedades do carbono-14 2. De modo geral,a distribuicao determinada pela formual acima e chamada de geometrica com parametro p(Geop).
Exercıcio 2.7. Mostre que ha uma unica funcao P : Ω → [0, 1] compatıvel com (2.3) e queela e dada por P (ω) = p(1−p)ω−1. Calcule tambem a meia-vida H, isto e, o menor k tal que
P (k, k + 1, k + 2, . . . ) ≤ 1/2.
Exemplo 2.8 (Binomial). Recordamos a definicao do coeficiente binomial(nk
):(
n
k
)≡ n!
k!(n− k)!(k, n ∈ N, 0 ≤ k ≤ n).
A distribuicao binomial com parametros n ∈ N, p ∈ [0, 1] (Binn,p) e a probabilidade sobreΩ = 0, 1, 2, . . . , n dada por (
n
k
)pk(1− p)n−k, k ∈ Ω.
1Ver http://en.wikipedia.org/wiki/Carbon-14.2Por que nao podemos tomar p ≥ 1?
4
Exercıcio 2.8 (Produto de Bernoullis e Binomial.). Volte ao Exercıcio 2.4. Considere oseventos Ek ≡ ω : |ω| = k. Prove que cada Ek e a uniao disjunta de
(nk
)eventos
FS ≡ ω : ∀1 ≤ i ≤ k, ωi = 1 se i ∈ S ou 0 se i 6∈ S.
Mostre que P (FS) = pk(1−p)n−k e que P (Ek) = Binn,p(k). Esta conexao entre o produto deBernoullis e a distribuicao Binomial sera elucidada quando falarmos de variaveis aleatorias.
Exercıcio 2.9 (Apresentando a distribuicao Poisson). Fixe λ > 0 e considere (para n ≥ λ) adistribuicao Pn = Binn,pn , com pn = λ/n. Note que Pn (k) esta definido para todo 0 ≤ k ≤ ninteiro. Prove o seguinte limite para todo k ∈ N
limn→+∞
Pn (k) ≡ Poλ(k) = e−λ λk
k!.
Poλ e uma probabilidade sobre N conhecida como Poisson com parametro λ > 0. Este ex-ercıcio mostra que “binomiais convergem para Poisson”; um resultado mais forte sera provadobem mais adiante.
Exemplo 2.9 (Retirando bolas de urnas com ou sem reposicao). Imagine uma urna combolas numeradas de 1 a n das quais k ≤ n bolas a1, . . . , ak sao retiradas sucessivamente.
Para definirmos as distribuicoes abaixo, seja [b] = 1, dots, b (b natural). SR e o conjuntode funcoes de S em R e SR
inj e o subconjunto de funcoes injetivas. Descrevemos duas situacoespossıveis.
1. Cada bola retirada e reposta. Se definimos ω : [k] → [n] via ω(i) = ai, entao ω e umelemento do espaco Ω = [n][k]. Se P = Unif[n][k] , este caso e conhecido como retiradade bolas com reposicao.
2. Cada vez que uma bola e retirada, ela nao e reposta na urna, de modo que na ı-esimaretirada restam na urna as bolas 1, . . . , n\a1, . . . , ai−1. Se definimos ω : [k] → [n]via ω(i) = ai, entao ω e um elemento do espaco Ω = [n][k]
inj Se P = Unif[n]
[k]inj
, temos oque se chama de retirada de bolas com reposicao.
Exercıcio 2.10. Prove que [n][k] e [n]k tem uma bijecao natural onde cada ω ∈ [n][k] corre-sponde ao vetor (ω(1), . . . , ω(n)). Logo Unif[n][k] corresponde naturalmente a medida produtosobre [n]k (Exercıcio 2.6).
Exercıcio 2.11. Considere o caso de uma urna com n bolas da qual k = n bolas sao tiradassem reposicao. Mostre que neste caso Ω = Sn, o conjunto das permutacoes de [n]. Agoraconsidere o conjunto das permutacoes com pontos fixos, isto e, que mapeiam algum i ∈ [n]nele mesmo.
Fn = ω ∈ Sn : ∀i ∈ [n], ω(i) = i.
Seja Pn = UnifΩ. Seguindo os passos abaixo, provaremos que
Pn (Fn) =n∑
k=1
(−1)k+1
k!→ 1− e−1.
1. Defina Ei = ω ∈ Sn : ω(i) = i. Mostre que Fn = ∪iEi.
5
2. Mostre que para todos 1 ≤ i1 < · · · < ik ≤ n P (Ei1 ∩ · · · ∩ Eik) = (n− k)!/n! = 1/k!
(nk
)[Dica: seja σ uma permutacao de [n]\i1, . . . , ik (que tem n − k elementos). Definaω = ωσ com a permutaca com ω(ij) = ij e ω(u) = σ(u) para u ∈ [n]\i1, . . . , ik. Proveque a cada ω ∈ Ei1 ∩ · · · ∩Eik
corresponde um σ como acima e vice-versa. Isto permitecontar os elementos da interseccao.]
3. Aplique a formula da Inclusao-Exclusao Generalizada aos Ei’s.
2.3 Probabilidades condicionais
Suponha que temos um espaco de probabilidade (Ω, P) correspondendo por exemplo a umacarta de um baralho com disribuicao uniforme. Estas cartas estao particionadas em quatroconjuntos correspondendo aos naipes e queremos saber se a carta ω ∈ Ω escolhida e de copas. De inıcio, tudo o que podemos dizer e que, se C e o evento copas,
P (C) =14.
Equivalentemente, o ”risco”atribuıdo a C e de 25%. Suponha, no entanto, que recebemos ainformacao de que a carta ω escolhida e preta, isto e, ω ∈ P . Neste caso, e necessario atualizarnossa medida de risco: como todas as cartas de copas sao vermelhas, devemos passar a atribuirrisco 0 ao dado evento. Isto e, cndicionado ao evento P , o evento C em probabilidade 0. Poroutro lado, se descobrimos que ω e vermelha (ω ∈ V = P c), entao continua existindo umrisco de que ω ∈ C; como metade das cartas vermelhas pertence a V , parece natural dizerque condicionado a V , a probabilidade de ω ∈ C e 1/2.
A probabilidade condicional pode ser vista como uma formalizacao da ideia de que proba-bilidades devem ser atualizadas cada vez que informacao nova e recebida. Mostraremos maisadiante que as formulas abaixo representam uma atualizacao otima das medidas de risco deacordo com uma certa medida natural de qualidade. Segue que as formulas abaixo nao saoarbitrarias; pelo contrario, sua escolha e bem motivada.
Definicao 2.10. Seja (Ω, P) um espaco de probabilidade discreto e A ⊂ Ω um evento comP (A) > 0. A probabilidade condicional de ω ∈ Ω dado A e definida pela formula.
(2.4) P (ω | A) =
P(ω)P(A) , ω ∈ A;0, ω ∈ Ac.
Observacao 2.11. Note que para todo evento B, P (B | A) = P (B ∪A) /P (A) [Exercıcio].Ocasionalmente falaremos de P (B | A) para P (A) = 0; neste caso, a probabilidade condicionalpode ser definida de maneira arbitraria, pois seu valor quase nunca fara diferenca.
Exercıcio 2.12. Formalize o problema do baralho descrito acima e mostre que P (C | P ) = 0,P (C | V ) = 1/2.
Exercıcio 2.13 (Regra da probabilidade total.). Se A1, A2, . . . e uma particao de Ω,
∀B ⊂ Ω, P (B) =∑
i
P (B | Ai) .
6
Exercıcio 2.14 (Regra de Bayes.). Se P (A) , P (B) > 0,
P (A | B) =P (B | A) P (A)
P (B).
Exercıcio 2.15. Considere Ω = [n] = 1, . . . , n com a medida uniforme. Suponha que n edivisıvel por 4. Seja P ⊂ [n] o sub-conjunto dos pares e I = P c o sub-conjunto dos ımpares eQ o sub-conjunto dos numeros divisıveis por 4. Calcule P (Q) , P (Q | P ) , P (Q | I) , P (P | Q).
Exercıcio 2.16 (Falta de memoria da distribuicao geometrica). Consideramos agora (Ω, P) =(N, Geop) como no Exemplo 2.7. Considere um evento Mk ≡ k, k + 1, k + 2, . . . . Mostreque a distribuicao condicional de P (· | Mk) e dada por
P (i + k − 1 | Mk) = p(1− p)i−1, i ∈ N e P (j | Mk) = 0, j < k.
Em particular, mostre que a meia-vida da distribuicao condicional e k − 1 + H, onde H e ameia-vida de Geop. Intuitivamente, isto quer dizer que se o atomo nao decaiu ate o tempok, o tempo que falta para o decaimento tem a mesma distribuicao que tinha originalmente: oatomo nao se lembra de quanto tempo ja passou.
Em muitos casos usa-se probabilidades condicionais para definir uma medida P implicita-mente. Abaixo vemos alguns exemplos.
Exemplo 2.12. Tem-se um saco com n moedas. Uma moeda e escolhida aleatoriamentee joga-se cara/coroa com ela, obtendo 1 ou 0. Nosso espaco amostral sera dado por Ω =[n]×0, 1, correspondendo ao par moeda/resultado, e cada elemento de Ω e um par ω = (k, b).
Considere os eventos Ek = k × 0, 1 correspondentes a escolha da k-esima moeda.Sejam Fb = [n] × b os eventos correspondentes ao valor cara/coroa. Nossa regra paradefinir probabilidades em Ω e a seguinte.
1. P (Ek) = 1/n para cada k ∈ [n] (ou seja, as moedas sao equiprovaveis);
2. P (F1 | Ek) = 1− P (F0 | K = k) = pk, onde pk ∈ (0, 1) (a k-esima moeda tem probabil-idade pk de dar cara).
Isto define unicamente uma medida sobre Ω dada por
P ((k, b)) =pkb + (1− pk)(1− b)
n.
[Exercıcio.]
Exercıcio 2.17. Suponha que p1 > · · · > pn. Calcule P (Fb) e P (Ek | Fb) e mostre que
P (Ek | F1) decresce com k.
Ou seja: se o resultado do lancamento e cara, as moedas com proabilidade alta de cara saoas mais provaveis (segundo a probabilidade condicional).
Exemplo 2.13. Voltamos ao cenario do Exemplo 2.7. Agora temos dois tipos de atomo eobservamos o decaimento de um deles. Formalmente,
Ω = 0, 1 × N
correspondendo a pares ”(atomo,tempo do atomo)”. Se Ab = b × N e Dk ≡ 0, 1 × k,definimos:
7
1. P (Ai) = 1/2 (os atomos sao equiprovaveis);
2. P (Dk | Ai) = pi(1 − pi)k−1, onde pi ∈ (0, 1) (o decamento do i-esimo atomo tem dis-tribuicao Geopi
).
Isto tambem define uma probabilidade sobre Ω [Exercıcio].
Exercıcio 2.18. Calcule P (Dk) e P (Ai | Dk). Se p1 = 1/2 e p0 = 1/3, para quais k aprobabilidade de A0 condicionada a Dk e maior (isto e, quando o atomo 0 tem probabilidadecondicional maior)?
[Outros exercıcios: os das secoes 1.1 e 1.2 do Barry James que nao envolvem explicitamenteσ-algebras ou conjuntos nao discretos.]
2.4 Particoes e probabilidades condicionais
Acima falamos que probabilidades condicionais podem ser vistas como uma forma geral deatualizar a medida de risco de acordo com alguma informacao nova recebida. De modo geral,receber informacao sobre ω ∈ Ω significa saber que ω esta em algum subconjunto A ⊂ Ω.Se F = A1, . . . , An e uma particao de Ω, podemos imaginar que a informacao recebida eF(ω) = Ai a que ω pertence. Isto leva a uma definicao de probabilidade condicionada a Fcomo uma funcao.
Definicao 2.14. Se Ω e um conjunto com particao F e P e uma distribuicao sobre Ω,
P (· | F) : (ω, B) ∈ Ω×F 7→ P (B | F(ω))
e a probabilidade condicional sobre F . Aqui F(ω) e o (unico) elemento de F a que ω pertence.
A funcao P (· | F) ”condensa”todas as probabilidades condicionais P (B | Ai) em um unicoobjeto. Veremos mais adiante de que forma isto e util.
Exercıcio 2.19. Reformule a regra no Exercıcio 2.13 como P (B) =∑
ω P (ω) P (B | F(ω)).
Exercıcio 2.20. Se F = A,Ac, P (B | F) (ω) = P (B | A) se ω ∈ A e P (B | Ac) em casocontrario.
2.5 Independencia
Se probabilidades condicionais representam atualizacoes na avaliacao de risco, independenciasignifica que saber se A ocorreu nao altera a avaliacao de risco de B. Isto sugere que Ae B sao independentes quando P (B | A) = P (B), o que equivale pela regra de Bayes aP (A | B) = P (A) quando P (B) , P (A) > 0. Para evitar esta ulima condicao, toma-se emgeral uma definicao ligeiramente diferente (porem equivalente).
Definicao 2.15. Dizemos que eventos A,B sao independentes quanto P (A ∩B) = P (A) P (B).Em geral, n ≥ 2 eventos A1, . . . , An sao ditos independentes se para todas as escolhas de1 ≤ i1 < i2 < · · · < ik ≤ n,
P (Ai1 ∩ · · · ∩Aik) = P (Ai1) . . . P (Aik
) .
8
Exercıcio 2.21. A1, . . . , An sao independentes sse B1, . . . , Bn o sao, onde cada Bi e Ai ouAc
i .
Uma definicao um pouco mais geral e dada por
Definicao 2.16. Dizemos que n ≥ 2 particoes F1, . . . ,Fn sao independentes se para todaescolha de Fi ∈ Fi,
P (F1 ∩ · · · ∩ Fn) = P (F1) . . . P (Fn) .
Exercıcio 2.22. Se cada Fi = Ai, Aci, a definicao acima equivale a independencia de
A1, . . . , An.
Exercıcio 2.23. Qualquer subconjunto de uma famılia de eventos/particoes independentes eele proprio independente.
Exercıcio 2.24. F1 e F2 sao independentes sse P (F2 | F1) (ω) ≡ P (F2) para todo F2 ∈ F2
e ω ∈ Ω com P (ω) > 0.
Exercıcio 2.25. Os Fi sao independentes sse o seguinte ocorre: sempre que Ai e a uniao deeventos em Fi para cada i, entao A1, . . . , An sao independentes. Mostre que isto implica quese G1 e outra particao de Ω e F1 refina G1
3, entao G1,F2, . . . ,Fn sao independentes. [Dica:cada G ∈ sG1 e a uniao de elementos de F1.]
Exercıcio 2.26. Seja Fi,j : 1 ≤ i ≤ n, 1 ≤ j ≤ mi uma famılia de particoes independentes.Defina
∧mij=1Fi,j ≡ Fi,1 ∩ . . . Fi,mi : ∀1 ≤ j ≤ mi Fi,j ∈ Fi,j (1 ≤ i ≤ n).
Mostre que as ∧mij=1Fi,j’s tambem sao particoes independentes.
O exemplo mais simples de particoes independentes e o dado por espacos produto (Ex-ercıcio 2.3). Seja Ω = Ω1× . . .Ωn com uma medida produto P. Para cada 1 ≤ i ≤ n, considerea particao Fi de Ω onde elementos sao separados pela i-esima coordenada.
Fi ≡ Fi,ηi≡ ω = (ωj)n
j=1 ∈ Ω : ωi = ηi : ηi ∈ Ωi.
As particoes assim construıdas sao independentes [Exercıcio]. Grosso modo, qualquer outrafamılia de particoes independentes tem comportamento semelhante a este exemplo. Ressalta-mos, no entanto, que nem sempre eventos independentes vem de espacos produto. Veja porexemplo o exercıcio a seguir.
Exercıcio 2.27. Tome Ω = [n] com medida P = Unif[n]. Determine os valores de n para osquais os seguintes eventos sao independentes:
P = k ∈ [n] : k par,
M = k ∈ [n] : k ≥ n/2.
O exercıcio seguinte faz outra ressalva importante.3Isto e, todo F ∈ F1 esta contido em algum G ∈ G1.
9
Exercıcio 2.28. Sejam Ω = Ω1 × Ω2 × Ω3 com Ωi = 0, 1. Seja P dada por
P ((ω1, ω2, ω3)) =
14 , ω3 = ω1 + ω2 mod 2;0 ω3 6= ω1 + ω2 mod 2
Cheque que isto e de fato uma medida de probabilidade. Agora construa F1,F2,F3 como nocaso de espacos produto. Prove que F1,F2,F3 nao sao independentes, mas que qualquer pardelas e. Isto mostra que a independencia de tres eventos nao e consequencia da independenciadois-a-dois.
Exercıcio 2.29. Sejam A1, A2 ⊂ Ω independentes com probabilidades p1, p2 (resp.). Proveque P (A1 ∪A2) = p1+p2−p1p2. Generalize este resultado via Inclusao-Exclusao generalizadapara A1, . . . , An independentes.
Exercıcio 2.30. Seja Ω = 0, 1n com a medida produto Bep (Exercıcio 2.4). Use o exercıcioacima para calcular a probabilidade dos ω ∈ Ω com exatamente uma coordenada igual a 1.[Resposta: np(1− p)n−1.]
10
Capıtulo 3: Variaveis aleatorias
3.1 Definicao
Quase todos os problemas interessantes em Probabilidade envolvem o conceito de variavelaleatoria.
Definicao 3.1. Seja (Ω, P) um espaco de probabilidade discreto. Uma funcao X : Ω → Θ(onde Θ e algum outro conjunto) e chamada de variavel aleatoria (ou v.a.).
Intuitivamente1, uma variavel aleatoria corresponde a algum tipo de informacao obtidoou desejado sobre o elemento ω ∈ Ω. Se por exemplo (Ω, P) corresponde aos valores de acoesnuma bolsa de valores – ou seja, cada ω ∈ Ω e um vetor com precos de acoes diferentes emmomentos diferentes – X = X(ω) pode ser o preco das acoes de uma dada empresa ao finaldo pregao de um dia fixo. Podemos imaginar duas situacoes: ou queremos estimar X, oupretendemos usar X como base para estimar uma outra quantidade Y = Y (ω) (por exemplo,o preco da mesma acao em outro dia).
A maior parte dos exemplos de variaveis aleatorias que consideraremos tera valores em N,Z, R ou Rd; neste ultimo caso, elas tambem serao chamadas de vetores aleatorios.
3.2 Distribuicao de uma variavel aleatoria
Note que a definicao de v.a. nao envolve a medida de probabilidade P. A probabilidadeentra em cena quando percebemos que P e X induzem uma medida de probabilidade nocontradomınio Θ.
Definicao 3.2. Sejam (Ω, P) e X como acima. Considere o conjunto (enumeravel) dado por
X(Ω) ≡ X(ω) : ω ∈ Ω ⊂ Θ.
A distribuicao de X e a probabilidade PX sobre X(Ω) dada por
PX (θ) ≡ P(X−1(θ)
)(θ ∈ Θ).
Os conjuntos X−1(θ) e X−1(A) (A ⊂ X(Ω)) sao normalmente representados pelas expressoesX = θ e X ∈ A, respectivamente. A probabilidade PX pode ser estendida para todo E ⊂ Θpela formula
PX (E) = P (X ∈ E) ≡ P (X ∈ X(Ω) ∩ E) =∑
ω:X(ω)∈E
P (ω) .
A ultima parte da definicao e um abuso da definicao de proabilidade discreta, ja que Θpode nao ser enumeravel. No entanto, como X(Ω) e sempre enumera vel, isto nao causaraproblemas.
1Esta intuicao sera esclarecida na Secao ??
11
Exercıcio 3.1. Seja Θ um conjunto finito ou enumeravel e µ uma medida de probabilidadesobre Θ. Prove que existe uma v.a. X : Ω → Θ e uma distribuicao P sobre Ω tal que PX = µ.[Dica: o exercıcio e trivial!]
Observacao 3.3. Podemos definir distribuicoes condicionais: PY (y | A) = P (Y = y | A).
Exercıcio 3.2 (Falta de memoria de v.a.’s geometricas). Reformule o Exercıcio 2.16 daseguinte maneira: se X tem distribuicao Geop, entao para todo k a distribuicao de X − k + 1condicionada a X ≥ k tambem e Geop. Em outras palavras:
P (X = x + k − 1 | X ≥ k) = p(1− p)x−1.
3.3 Distribuicoes novas a partir de antigas
Apresentaremos agora alguns resultados gerais e especıficos sobre distribuicoes de v.a.’s.Como em muitos problemas trataremos de variaveis aleatorias definidas a partir de outrasv.a.’s, e conveniente comecar por um resultado para esta situacao.
Exercıcio 3.3. Seja X : Ω → Θ1 uma v.a. e f : Θ1 → Θ2 uma funcao. Defina a composicaof(X) ≡ f X. Mostre que f(X) e uma v.a. e que
∀A ⊂ Θ2, Pf(X) (A) = PX
(f−1(A)
).
Um caso particular especialmente importante e o de soma de variaveis aleatorias.
Exercıcio 3.4 (Soma de variaveis aleatorias). Seja X = (X1, X2, . . . , Xn) uma v.a. comvalores em Rd e defina f(x1, x2, . . . , xn) =
∑ni=1 xi. Mostre que Sn ≡ f(X) = X1 + X2 +
· · ·+ Xn e deduza do exercıcio anterior que
P (Sn = z) = P
⋃(z1,z2,...,zn)∈X(Ω) : z1+···+zn=z
(X1 = z1 ∩ X2 = z2 ∩ · · · ∩ Xn = zn)
.
Mostre que os eventos nesta uniao sao disjuntos e deduza:
P (Sn = z) =∑
(z1,z2,...,zn)∈X(Ω) : z1+···+zn=z
P
(n⋂
i=1
Xi = zi
).
Os proximos exercıcios consideram outras situacoes que nao as de soma.
Exercıcio 3.5. Suponha que (Ω, P) e um espaco finito com P uniforme (Exemplo 2.6). SejaX : Ω → Θ tal que para um certo inteiro s, todo θ ∈ Θ tem exatamente s pre-imagens por X.Prove que PX = UnifΘ.
Exercıcio 3.6. Seja [n] = 1, . . . , n. Definamos a quantidade(nk
)como o numero de sub-
conjuntos de [n] com cardinalidade k. Definamos tambem n! como o numero de permutacoesde [n]. Nosso objetivo e provar sem usar as formulas de
(nk
)e n! que
∀0 ≤ k ≤ n,
(n
k
)=
n!(n− k)!k!
.
Para isso devemos seguir os seguintes passos.
12
1. Seja Ω = Sn o conjunto de permutacoes de [n] e Θ = S ∈ P([n]) : |S| = k.
2. Ponha medida P = UnifSnsobre Sn.
3. Defina a v.a. X : π ∈ Sn 7→ π(1), . . . , π(k).
4. Fixe S ∈ Θ. Escolha π ∈ X−1(S). Prove que qualquer outro η ∈ X−1(S) e da forma
η = σ1 σ2 π,
onde σ1 e permutacao de [k] (estendida a i > k via σ1(i) = i) e σ2 e permutacao de[n]\[k] (estendida a j ≤ k via σ2(j) = j).
5. Prove agora que para cada par (σ1, σ2) deste tipo ha exatamente um η como acima.Mostre que ha k!(n− k)! destes pares e deduza que
P (X = S) =k!(n− k)!
n!.
6. Por outro lado, use o exercıcio anterior para mostrar que P (X = S) = 1/|Θ| e concluaa prova.
Exercıcio 3.7. Dados 1 ≤ k ≤ n, considere Ω = [n]× [n− 1]× · · · × [n− k + 2]× [n− k + 1]com a medida uniforme. Defina X1(ω) = ω1 e para cada 2 ≤ i ≤ k:
Xi(ω) = o ωi-esimo elemento de [n]\X1(ω), . . . , Xi−1(ω).
Tome P = UnifΩ, considere a ”funcao aleatoria”X : Ω → [n][k] que para cada ω ∈ Ω e dadapor
X(ω) : [k] → [n]t 7→ Xt(ω) .
Mostre que X tem a distribuicao de ”k bolas retiradas sem reposicao de uma urna com n
bolas”(Exemplo 2.9), isto e, X e uniformemente distribuıda sobre as funcoes injetivas [n][k]inj.
[Dica: use o Exercıcio 2.6 para mostrar que P e uma distribuicao produto.]
Exercıcio 3.8. Considere novamente ”k bolas retiradas sem reposicao de uma urna com n
bolas”(Exemplo 2.9), isto e: Ω = [n][k]inj e P = UnifΩ. Seja S ⊂ [k] um conjunto com s
elementos e tome X como a restricao a S:
X : ω ∈ [n][k]inj 7→
′′ ω |S : i ∈ S 7→ ω(i)”.
Mostre que PX = Unif[n]Sinj. Este fato tem a seguinte interpretacao: se so olhamos para s
das k bolas retiradas , a distribuicao observada e a mesma de s bolas tiradas sem reposicaode uma urna com n bolas.
3.4 Independencia
Grosso modo, eventos sao independentes quando qualquer subgrupo deles nao da in-formacao alguma a respeito dos eventos restantes. A definicao de independencia de variaveisaleatorias significa algo semelhante e de fato e equivalente a independencia das particoescorrespodentes a cada v.a., conforme o exercıcio abaixo.
13
Exercıcio 3.9. Cada v.a. X : Ω → Θ gera uma particao FX de Ω:
FX = X−1(x) : x ∈ X(Ω).
Por outro lado, se F e uma particao, existe uma v.a. X com FX = F .
Definicao 3.4. Sejam Xi : Ω → Θi, 1 ≤ i ≤ n v.a.’s. Elas sao independentes se alguma dasseguintes condicoes equivalentes e satisfeita:
1. A distribuicao do vetor (X1, . . . , Xn) sobre Θ = ×ni=1Xi(Ωi) e uma medida produto.
2. Para todos xi ∈ Xi(Ωi),
P(X1,...,Xn) ((x1, . . . , xn)) = P (∩iXi = xi) =n∏
i=1
PXi(xi) =
n∏i=1
P (Xi = xi) ;
3. Para todos Ai ∈ P(Xi(Ωi)),
P(X1,...,Xn) (A1 × · · · ×An) =n∏
i=1
PXi (Ai) ;
4. As particoes FXisao independentes.
Exercıcio 3.10. Prove a equivaencia.
Os dois proximos exercıcios podem ou ser resolvidos diretamente, ou via os resultadossobre particoes independentes (p. ex. Exercıcio 2.25,Exercıcio 2.26).
Exercıcio 3.11 (Agrupar v.a.’s nao destroi a independencia). Sejam Xi,j : 1 ≤ i ≤ n, 1 ≤j ≤ mi v.a.’s independentes. Considere os vetores Yi = (Xi,j)mi
j=1. Mostre que eles tambemsao independentes. [Dica/obs: na notacao do Exercıcio 2.26, FYi
= ∧mij=1FXi,j
.]
Exercıcio 3.12 (Tomar funcoes das v.a.’s nao destroi a independencia). Sejam Xi : Ω → Θi,1 ≤ i ≤ n v.a.’s independentes e fi funcoes definidas nos espacos apropriados. Entao as v.a.’sYi = fi(Xi) sao independentes.[Dica/obs: na notacao do Exercıcio 2.25, cada FYi
e refinadapor FXi
.]
3.5 Somas de variaveis aleatorias independentes
Exercıcio 3.13 (Somas de v.a.’s produto; convolucoes discretas). Se as Xi : Ω → Rd (1 ≤i ≤ n) sao independentes,
∀x = (x1, . . . , xn) ∈ (Rd)n P(X1,...,Xn) (x) =n∏
i=1
PXi(xi) .
Aplique este resultado junto com o Exercıcio 3.4para mostrar que neste caso:
P (Sn = z) =∑
(z1,z2,...,zn)∈ : z1+···+zn=z
P (X1 = z1) P (X2 = z2) . . . P (Xn = zn) .
14
Em particular, se X1, X2, . . . , Xn tomam valores em Z:
∀z ∈ Z, P (Sn = z) =∑
(z1,z2,...,zn−1)∈Zn−1
(P (X1 = z1)× P (X2 = z2)× · · · ×
×P (Xn−1 = zn−1)× P (Zn = z − z1 − z2 − · · · − zn−1)).
No caso n = 2, a operacao que leva os vetores infinitos (P (Xi = zi))zi∈Z em (P (S2 = z))z∈Ze chamada de convolucao discreta. Para n > 2, temos convoluc oes iteradas.
Exercıcio 3.14 (A soma de Bernoullis produto e Binomial). Considere o espaco-produtode Bep’s discutido no Exercıcio 2.4: isto e, Ω = 0, 1n e P (ω) = p|ω|(1 − p)n−|ω|, onde|ω| =
∑i ωi. Defina Πi : ω 7→ ωi como a funcao que leva ω na sua i-esima coordenada. Note
que a soma das Πi’s e
S(ω) =n∑
i=1
Πi(ω) = |ω|.
Use o resultado anterior para mostrar que
PS (z) = P (S = z) = (
nk
)pk(1− p)n−k, k ∈ 0, . . . , n;
0 caso contrario.
Isto e, S tem distribuicao Binn,p (Exemplo 2.8). [Obs: de que forma isto elucida o Ex-ercıcio 2.8.]
Exercıcio 3.15 (A soma de Poissons produto e Poisson). Considere Ω1,Ω2, . . . ,Ωn = N ondecada Ωi recebe medida Poλi
. Construa o produto (Ω, P), defina Πi como no exercıcio anteriore considere Sj =
∑i≤j Πi. Mostre por inducao que cada Sj tem distribuicao PoP
i≤j λi.
15
Capıtulo 4: Valores esperados, momentos e desigualdades
4.1 Valores esperados e momentos
Nesta secao definiremos o valor esperado de uma variavel aleatoria com valores reais ealgumas outras quantidades daı derivadas. Primeiro comecamos com v.a.’s especialmentesimples.
Definicao 4.1. Seja X : Ω → R uma v.a. . Dizemos que X e a funcao indicadora (oucaracterıstica) de A ⊂ Ω se X(ω) = 1 quando ω ∈ A e X(ω) = 0 quando ω ∈ Ac. Neste casoescreveremos X como X = IA.
Exercıcio 4.1. Se X : Ω → R, PX = Bep para algum p ∈ [0, 1] (cf. Exemplo 2.4) se esomente se existe A ⊂ Ω com P (X = IA) = 1. Neste caso, p = P (A).
Exercıcio 4.2. Mostre que toda X : Ω → R ∪ ±∞ e uma combinacao linear de funcoessimples. Mais exatamente,
X =∑
x∈X(Ω)
x IX−1(x).
A definicao de valor esperado E [X] pode ser escrita da seguinte maneira: se X = IA,E [X] = P (A); para outras X, a definicao se estende por linearidade:
X =+∞∑j=1
cjIAj⇒ E [X] =
+∞∑j=1
cjP (Aj) .
No entanto, esta extensao pode apresentar problemas de convergencia quando Ω e infinito.Evitamos esta dificuldade com uma definicao em duas partes. Comecamos com v.a.’s comvalores nao-negativos.
Definicao 4.2. Seja X : Ω → [0,+∞] uma v.a. com valores nao negativos. O valor esperado(ou esperanca) de X, simbolizado por E [X], e dado por
E [X] ≡∑ω∈Ω
X(ω)P (ω) ,
com a convencao de que “0.∞ = 0”. O valor esperado tambem pertence a [0,+∞]. Ocasion-almente representaremos E [X] como uma integral:
E [X] =∫
Ω
X dP.
Observacao 4.3. Suponha que Ω = 0, 1, P = Bep (cf. Exemplo 2.4) e X = +∞. I1, i.e.X(0) = 0 e X(1) = +∞. Entao E [X] = 0 se p = 0 e E [X] = +∞ em caso contrario.
Observacao 4.4. Se Ω e finito e X ≥ 0, E [X] < +∞ se e somente se P (X = +∞) = 0.Quando Ω e infinito ainda e verdade que E [X] < +∞ ⇒ P (X = +∞) = 0, mas a recıprocae falsa (ex: Ω = N, PX = Geo1/2 como em Exemplo 2.7 e X(ω) = 3ω para ω ∈ N).
16
Exercıcio 4.3. Mostre que, na situacao acima:
E [X] =∑
x∈X(Ω)
x P (X = x) =∑
x∈X(Ω)
x PX (x) .
Deduza que se (Θ, Q) e outro espaco de probabilidade discreto e Y : Θ → [0,+∞] com QY =PX (isto e, X e Y tem a mesma distribuicao), entao E [X] = E [Y ].
Exercıcio 4.4. Se X, Y : Ω → R ∪ ±∞ e X ≤ Y sempre, E [X] ≤ E [Y ].
Agora definiremos E [X] para X qualquer.
Definicao 4.5. Seja X : Ω → [−∞,+∞] uma v.a. com valores reais (possivelmente diver-gentes). X e dita integravel se E [|X|] < +∞ segundo a Definicao 4.2. Se X e integravel, ovalor esperado (ou esperanca) de X, simbolizado por E [X], e dado por
E [X] ≡ E [maxX, 0]− E [max−X, 0] ,
onde os dois valores esperados do lado direito sao definidos como antes.
Exercıcio 4.5. Use o Exercıcio 4.4 para mostrar que E [|X|] < +∞ implica que E [maxX, 0] <+∞, E [max−X, 0] < +∞. Mais ainda, mostre que neste caso
E [X] =∑ω∈Ω
X(ω)P (ω)
onde a serie e absolutamente convergente. Por fim, prove que os fatos no Exercıcio 4.3pernamecem validos sob a definicao geral sempre que X for integravel (o que e equivalente aY integravel).
Exercıcio 4.6. Se X toma valores em N ∪ 0, E [X] =∑+∞
n=1 P (X ≥ n).
Exercıcio 4.7. Mostre que
1. PX = Bep (cf. Exemplo 2.4) ⇒ E [X] = p;
2. PX = Geop (cf. Exemplo 2.7) ⇒ E [X] = 1/p;
3. PX = Binn,p (cf. Exemplo 2.8) ⇒ E [X] = pn [Dica: Escreva
G(a, b) = (a + b)n =n∑
k=0
(n
k
)akbn−k.
Derivando termo a termo em a, mostre que
E [X] = a∂G
∂a(a, b)
](a,b)=(p,1−p)
e calcule E [X] daı.];
4. PX = Poλ (cf. Exercıcio 2.9)⇒ E [X] = λ.
17
Exercıcio 4.8. Seja L1 = L1(Ω, P) o espaco vetorial cujos elementos sao as v.a.s integraveisX : Ω → R. Mostre que E [·] e um operador linear sobre este espaco. Isto e, se α ∈ R e X,Y ∈ L1, entao αX + Y ∈ L1 e E [αX + Y ] = αE [X] + E [Y ]. [Se X, Y, α ≥ 0, o requerimentode estar em L1 pode ser eliminado.]
Observacao 4.6. Todas as definicoes acima tem analogos para X = (X1, . . . , Xd) : Ω →Rd. E [X] e o vetor cujas coordenadas sao os E [Xi] (se estes valores estao definidos). SeE [|Xi|] < +∞ para cada i, dizemos que X e integravel.
Definiremos agora os momentos de X.
Definicao 4.7. Para p ∈ [0,+∞) com E [|X|q] < +∞, o q-esimo momento de X e dado porE [Xq]. Se p ∈ [1,+∞), a “norma” Lp de X e ‖X‖p ≡ (E [|X|p])1/p.
Exercıcio 4.9. Mostre que ‖X‖p = 0 sse P (X = 0) = 1.
4.1.1 A desigualdade de Jansen e as normas Lp
Definicao 4.8. Seja K ⊂ Rd convexo. Dizemos que a funcao Ψ : K → R e convexa se paratodos x, y ∈ K e α ∈ [0, 1]:
Ψ(αx + (1− α)y) ≤ αΨ(x) + (1− α)Ψ(y).
Lema 4.9 (Desigualdade de Jansen). Se K ⊂ Rd e convexo, X : Ω → K e integravel eΨ : K → R e convexa e contınua,
Ψ(E [X]) ≤ E [Ψ(X)] .
Prova: [Esboco.] O primeiro passo e provar que ∀n ∈ N, ∀x1, . . . , xn ∈ K e ∀α1, . . . , αn ∈[0,+∞) com
∑ni=1 αi = 1,
Ψ(n∑
i=1
αixi) ≤n∑
i=1
αiΨ(xi).
De fato, se tomamos x = xn, y =Pn−1
i=1 αixiPn−1i=1 αi
e α = αn, deduzimos que
Ψ
(n∑
i=1
αixi
)= Ψ(αx + (1− α)y)
≤ αΨ(x) + (1− α)Ψ(y)
= αnΨ(xn) +
(n−1∑i=1
αi
)Ψ
(∑n−1i=1 αixi∑n−1i=1 αi
)
e o resto do resultado segue por inducao. Suponha agora que a imagem de X : Ω → Rd
contem finitos pontos x1, . . . , xn, isto e
X =n∑
i=1
xi IX=xi.
18
Aplicando o resultado de convexidade acima com αi = P (X = xi), deduzimos que
Ψ(E [X]) = Ψ(n∑
i=1
xi P (X = xi))
≤n∑
i=1
P (X = xi) Ψ(xi)
= E [Ψ(X)] .
Em geral, a imagem de X e um conjunto enumeravel xi+∞i=1 . Mas este caso e um limite doprimeiro [Exercıcio.] 2
Exercıcio 4.10. Aplicando Jansen a Ψ(x) = |x| (norma euclideana), mostre que para todaX : Ω → Rd |E [X] | ≤ E [|X|].
Exercıcio 4.11. Sejam q > p > 0. Aplicando Jansen a Ψ(x) = xq/p (x ≥ 0), mostre quepara toda X : Ω → R ‖X‖p ≤ ‖X‖q. Em particular, E
[X2]≥ (E [|X|])2 ≥ (E [X])2.
Exercıcio 4.12. O exercıcio anterior mostra que ‖X‖p e funcao crescente de p. Em partic-ular, existe o limite
‖X‖∞ ≡ limp→+∞
‖X‖p ∈ [0,+∞].
Prove que‖X‖∞ = sup|X(ω)| : ω ∈ Ω, P (ω) > 0.
Observacao 4.10. A chamada desigualdade de Holder implica que, se X e Y sao v.a.’s sobreo mesmo espaco Ω e 1 ≤ p, q ≤ +∞ satisfazem p−1 + q−1 = 1,
‖XY ‖1 ≤ ‖X‖p‖Y ‖q.
Em particular, se p = q = 2 temos a desigualdade de Cauchy-Schwartz:
‖XY ‖1 ≤ ‖X‖2‖Y ‖2
.
4.2 Variancia e covariancia
Apresentamos agora duas quantidades essenciais: a variancia e a covariancia.
Definicao 4.11. Seja X : Ω → R dada com X2 integravel (logo, pelo Exercıcio 4.11 X eintegravel). A quantidade
V (X) ≡ E[(X − E [X])2
]e chamada a variancia de X. Ela pode ser equivalentemente escrita como V (X) = E
[X2]−
(E [X])2 [Exercıcio.].
Observacao 4.12. A variancia e sempre nao negativa (Exercıcio 4.11). V (X) = 0 sseX = E [X] com probabilidade 1 (Exercıcio 4.9).
19
Definicao 4.13. Sejam X, Y : Ω → R com X2, Y 2 integraveis. A covariancia de X e Y e aquantidade dada por:
C (X, Y ) ≡ E [(X − E [X])(Y − E [Y ])] .
Equivalentemente, C (X, Y ) = E [XY ]− E [X] E [Y ] [Exercıcio].
Observacao 4.14. V (X) = C (X, X).
Exercıcio 4.13. Usando os resultados do Exercıcio 4.7, mostre que:
1. PX = Bep (cf. Exemplo 2.4) ⇒ V (X) = p(1− p);
2. PX = Geop (cf. Exemplo 2.7) ⇒ V (X) = 1/p2 − 1/p [Dica: calcule ∆ = E [X(X − 1)]e determine V (X) a partir de ∆. Note que
∆ = p
+∞∑k=2
k(k − 1)(1− p)k−1
= p(1− p)d2
dp2
(+∞∑k=0
(1− p)k
)
= p(1− p)d2
dp2
(1p
)=
2− 2p
p2.
];
3. PX = Binn,p (cf. Exemplo 2.8) ⇒ V (X) = p(1 − p)n [Dica: Como antes, e melhorcalcular ∆ = E [X(X − 1)] antes. Escreva
G(a, b) = (a + b)n =n∑
k=0
(n
k
)akbn−k.
Derivando termo a termo em a, mostre que
E [X(X − 1)] = a2 ∂2G
∂a2(a, b)
](a,b)=(p,1−p)
e calcule ∆ = E [X(X − 1)] daı.];
4. PX = Poλ (cf. Exercıcio 2.9)⇒ V (X) = λ [Dica: mais uma vez vale a pena comecarcalculando ∆ = E [X(X − 1)]. Neste caso,
∆ =∑k≥0
e−λk(k − 1)λk
k!= λ2
∑k≥2
e−λ λk−2
(k − 2)!.
.]
Exercıcio 4.14. V (X) = V (X − c) para qualquer c ∈ R. Se E [X] = 0 V (X) = E[X2]. Do
mesmo modo, C (X, Y ) = C (X − cX , Y − cY ) e C (X, Y ) = E [XY ] se E [X] = E [Y ] = 0
20
4.3 A desigualdade de Chebyshev e concentracao
Variancias sao frequentemente mais faceis de se calcular do que probabilidades exatas deeventos. A desigualdade abaixo mostra que em alguns casos importantes, pode-se estimarprobabilidades a partir de variancias:
Proposicao 4.15 (Desigualdade de Chebyshev). Se E[|X|2
]< +∞,
∀λ > 0, P (|X − E [X]| ≥ λ) ≤ V (X)λ2
.
Prova: Suponha sem preda de generalidade que V (X) > 0. Seja A ≡ |X − E [X]| ≥ λ. SeΨ : R → [0,+∞) e uma funcao crescente com Ψ(λ) > 0, temos que
∀ω ∈ Ω, |X(ω)− E [X]| ≥ λ ⇔ Ψ(|X − E [X]|) ≥ Ψ(λ) ⇔ Ψ(|X − E [X]|)Ψ(λ)
≥ 1.
Tomando Ψ(x) = x2, podemos reescrever:
(4.1) A ≡ (X(ω)− E [X])2
λ2≥ 1.
Mas entao temos:
∀ω ∈ Ω,(X(ω)− E [X])2
λ2≥ IA(ω).
De fato, a desigualdade vale para ω ∈ A por conta de (4.1) e para ω ∈ Ac porque lado esquerdoe sempre ≥ 0. Tomando valores esperados, vemos que:
V (X)λ2
=∫ (
(X(ω)− E [X])2
λ2
)dP (ω) ≥
∫IA(ω) dP (ω) = P (A) .
2
De que forma se utiliza este resultado? Consideremos o caso em que PX = Binn,p. Nestecaso, vimos acima que E [X] = np, V (X) = p(1 − p)n. Suponha que queremos estimar umaprobabilidade do tipo
Binn,p(k : |k − np| ≥ εnp) = P (|X − np| ≥ εnp) .
Usando Chebyshev com λ = εnp, temos
(4.2) Binn,p(k : |k − np| ≥ εnp) ≤ p(1− p)nε2n2p2
≤ 1ε2pn
.
Equivalentemente,Binn,p(k : |k − np| < εnp) ≥ 1− (ε2pn)−2.
Isto quer dizer que se pn e “grande”, a maior parte da “massa”da distribuicao Binn,p seconcentra no intervalo ((1 − ε)np, (1 + ε)np). Em outras palavras, Yn ≡ X/np − 1 estaquase sempre no intervalo (−ε, ε). Esta propriedade e um exemplo simples do que se chamade concentracao de medida: a distribuicao PYn
esta quase toda concentrada num pequenointervalo ao redor de um valor determinıstico 0 cujo tamanho tende a 0 quando n → +∞.Um resultado semelhante vale sempre que V (X) E [X]2:
21
Definicao 4.16 (Concentracao). Considere uma sequencia de distribuicoes µn sobre Rd1.Dizemos que µn se concentra em c ∈ Rd se para toda bola aberta B centrada em c temos
limn→+∞
µn(B) = 1.
Uma sequencia de v.a.’s se concentra em c quando suas distribuicoes se concentram em c.
Exercıcio 4.15. Se pn ∈ [0, 1] satisfaz pnn → +∞, e PXn ≡ Binn,pn , entao Yn = Xn/pn−1se concentra em 0. Se λn → +∞ e PXn ≡ Poλn , Yn = Xn/λn se concentra em 1.
Uma pergunta importante e: quando as condicoes de concentracao acima descritas saosatisfeitas? Um caso particular e dado por variaveis aleatorias sem covariancia, que discutimosa seguir.
Definicao 4.17. Xn : Ω → R+∞n=1 sao v.a.’s sem covariancia se para todos i, j ∈ N distintosC (Xi, Xj) = 0.
Proposicao 4.18. Para quaisquer v.a.’s X1, . . . , Xn,
V
(n∑
i=1
Xi
)=
n∑i=1
V (Xi) + 2∑
1≤i<j≤n
C (Xi, Xj) .
Em particular, se as Xi’s nao tem covariancia, a variancia da soma e a soma das variancias.
Prova: [Exercıcio.] 2
Teorema 4.19 (Lei fraca dos grandes numeros.). Seja Xn : Ω → R+∞n=1 uma sequencia dev.a.’s sem covariancia e cujas variancias sao limitadas por σ2 < +∞ e tais que Entao asmedias empıricas centradas:
Cn ≡∑n
i=1(Xi − E [Xi])n
se concentram ao redor de 0. De fato,
P (|Cn| ≥ ε) ≤ σ2
ε2n.
Prova: Basta aplicar a Desigualdade de Chebyshev a nCn: como nao ha correlacoes entre os(Xi − E [Xi])’s
V (nCn) =n∑
i=1
V ((Xi − E [Xi])) =n∑
i=1
V (Xi) ≤ σ2n.
Logo
P (|Cn| ≥ ε) = P (|nCn − E [nCn] | ≥ nε) ≤ σ2n
ε2n2
e a concentracao segue do fato que o lado direito tende a 0 quando n → +∞ para todo ε fixo.2
1Mais exatamente, existe Sn ⊂ Rd finito ou enumeravel tal que µn e medida sobre Sn. Neste caso,estendemos µn a todo A ⊂ Rd como fizemos no caso de v.a.’s (Definicao 3.2): µn(A) ≡
Pω∈A∩Sn
µn(ω).
22
Exercıcio 4.16. No teorema acima, se µ ≡ limn→+∞∑n
i=1 E [Xi] /n existe, entao as mediasFn ≡
∑i≤n Xi/n se concentram ao redor de µ.
No caso Xi = IAipara uma sequencia Ai de eventos, podemos interpretar a Lei Fraca
da seguinte forma (cf. a introducao do capıtulo). As probabilidades P (Ai) oferecem nossaavaliacao dos “riscos”de cada evento Ai. Supondo-se que
(4.3) C(IAi , IAj
)= P (Ai ∪Aj)− P (Ai) P (Aj) = 0
para todo par i 6= j, vemos temos σ2 ≤ 1 e que portanto a Lei Fraca dos Grandes Numerosnos diz que
para n grande,∑n
i=1 IAi
n≈∑n
i=1 P (Ai)n
com probabilidade ≈ 1.
Em outras palavras: sob a hipotese (4.3), ha um baixo “risco”de que as frequencias com queos Ai’s ocorrem se desvie muito do valor esperado, quando olhamos para um numero grandede eventos.
A condicao (4.3) e chamada de independencia. O capıtulo seguinte contem muitos exem-plos de independencia; por hora, notamos apenas o seguinte resultado.
Definicao 4.20. Dois eventos A,B ⊂ Ω sao ditos independentes quando P (A ∩B) = P (A) P (B).
Corolario 4.21 (Lei Fraca dos Grandes Numeros para Eventos Independentes). Seja Ai+∞i=1
uma sequencia de evento independentes dois-a-dois. Considere
Cn ≡∑n
i=1(IAi− P (Ai))
n.
Entao Cn se concentra em 0 quando n → +∞. Mais exatamente,
∀ε > 0, P
(ω ∈ Ω :
∣∣∣∣∣n∑
i=1
IAi(ω)−
n∑i=1
P (Ai)
∣∣∣∣∣ > εn
)≤ 1
ε2n.
4.4 Aplicacao a aproximacoes por polinomios
Concluımos esta secao com um “bonus”: uma prova probabilıstica do conhecido Teoremade Weierstrass sobre aproximacoes por polinomios.
Teorema 4.22 (Weierstrass). Para toda funcao contınua f : [0, 1] → R, existe uma sequenciaPn[f ] de polinomios tas que limn→+∞(supx∈[0,1] |f(x)− Pn[f ](x)|) = 0.
A prova que daremos da uma expressao explıcita para cada Pn[f ] e uma cota de aprox-imacao para cada n finito (como veremos num Exercıcio). A demonstracao se baseia em duasobservacoes simples:
1. Binn,p se concentra quando n → +∞ (cf. (4.2)); e
2. para qualquer f : [0, 1] → R,
Pn[f ](x) =∫
f(k/n) dBinn,x(k) =n∑
k=0
(n
k
)f(k/n)xk(1− x)n−k
e um polinomio na variavel x [Exercıcio].
23
Prova: [Bernstein] Seja f : [0, 1] → R contınua. E sabido que qualquer f deste tipo e uni-formemente contınua, isto e, o modulo de continuidade
m(δ) ≡ sup|f(x)− f(y)| : x, y ∈ [0, 1], |x− y| ≤ δ (δ > 0)
satisfaz limδ→0 m(δ) = 0. Sabemos tambem que ‖f‖∞ = supx∈[0,1] |f(x)| < +∞. A desigual-dade de Jansen implica que
|f(x)− Pn[f ](x)| ≤∫|f(k/n)− f(x)| dBinn,x(k).
Fixamos um δ > 0 e dividimos a integral do lado direito em dois termos.∫|f(k/n)− f(x)| dBinn,x(k) =
∫k : |k−nx|≤δn
|f(k/n)− f(x)| dBinn,x(k)
+∫
s : |s−nx|>δn
|f(s/n)− f(x)| dBinn,x(s).
Na primeira integral, |k/n− x| ≤ δ, logo |f(k/n)− f(x)| ≤ m(δ). Na segunda usamos a cotamais fraca (e sempre valida) |f(s/n)− f(x)| ≤ 2 supt∈[0,1] |f(t)| = 2‖f‖∞. Deduzimos que
|f(x)− Pn[f ](x)| ≤∫
k : |k−nx|≤δn
m(δ) dBinn,x(k)
+∫
s : |s−nx|>δx
2‖f‖∞ dBinn,x(k)
≤ m(δ) + 2‖f‖∞Binn,xs : |s− nx| > δn
((4.2) com p = x, ε = δ/x) ≤ m(δ) +2‖f‖∞x(1− x)
δ2n
(∀0 ≤ x ≤ 1, x(1− x) ≤ 1/4) ≤ m(δ) +‖f‖∞2δ2n
.
Esta ultima cota e uniforme em x e vale para δ > 0 arbitrario, logo
∀δ > 0, ‖f − Pn[f ]‖∞ ≤ m(δ) +‖f‖∞2δ2n
.
A prova se encerra tomando limites em n → +∞ e δ → 0 (nesta ordem!). 2
Exercıcio 4.17. A prova acima da uma cota quantitativa para a qualidade da aproximacaopor Pn[f ]. Quanto menor o modulo de continuidade m(δ), melhor a cota. Mostre que se f eLipschitz com constante ‖f‖Lip,
‖f − Pn[f ]‖∞ ≤ ‖f‖Lipδ +‖f‖∞2δ2n
e otimize a escolha de δ = δn para obter uma cota explıcita para cada n ∈ N.
24
Capıtulo 5: Interpretacao das probabilidades condicionais
5.1 Probabilidades e esperancas condicionais
Dissemos no inıcio do capıtulo que uma medida de probabilidade corresponde a umaavaliacao de risco. Tambem foi dito que uma variavel aleatoria corresponde a informacaorecebida a respeito de um dado espaco amostral. Nesta secao discutiremos de que maneira ainformacao recebida nos permite calibrar a nossa medida de risco de modo a fazer previsoesmais precisas. Isto nos levara a deduzir as regras das chamadas probabilidades condicionais.
5.1.1 Informacao e aproximacao: definindo probabilidades condicionais
Nosso problema nesta secao e prever o valor de uma variavel aleatoria X : Ω → R quesuporemos satisfazer E
[|X|2
]< +∞, com base em alguma informacao I : Ω → Θ que
dispomos sobre ω ∈ Ω. Para isto, escolheremos uma funcao f : Θ → R de modo a minimizaro erro medio quadratico:
∆(X, f(I)) ≡ E[(X − f(I))2
].
No caso trivial I =constante; a informacao que obtemos e inutil. e nosso problem e equivalentea achar c ∈ R tal que
E[(X − c)2
]= min
x∈RE[(X − c)2
].
Proposicao 5.1. Para qualquer x ∈ R temos
E[(X − x)2
]= V (X) + (E [X]− x)2.
Logo o problema acima tem uma unica solucao c = E [X].
Prova:
E[(X − x)2
]= E
[X2 + x2 − 2xX
]= E
[X2]+ x2 − 2xE [X]
= E[X2]+ (x− E [X])2 − E [X]2
= V (X) + (x− E [X])2.
2
Consideraremos a seguir o caso I = IA para algum A ⊂ Ω. Isto e, toda a informacao quetemos sobre ω ∈ Ω e se ω ∈ A ou nao. Suporemos que 0 < P (A) < 1, de modo que A nao enem “impossıvel”nem “certo”1. Procuramos entao uma func ao f : 0, 1 → R tal que
(5.1) E[(X − f(I))2
]= inf
g:0,1→RE[(X − g(I))2
].
Este e um problema geomeetrico no espaco L2 = L2(Ω, P). Este espaco e Hilbert com oproduto interno 〈U, V 〉 ≡ E [UV ], ao menos quando identificamos quaisquer U,U ′ ∈ L2 comP (U = U ′) = 1 [Exercıcio]. De agora em diante faremos esta identificacao tacitamente.
1Intuitivamente, se um evento sempre ocorre (ou nunca ocorre), ele nao nos da informacao alguma sobre asituacao em questao.
25
Lema 5.2. O subconjuntoEI ≡ g(I) : g : 0, 1 → R
e o subespaco linear de L2 gerado por IA, IAc.
Prova: De fato,g(I) = g(0)IA + g(1)IAc
sempre esta neste espaco, e inversamente qualquer v.a.
U = a1IA + a0IAc ∈ spanIA, IAc
e dada por g(I) com g(0) = a0, g(1) = a1. 2
Segue-se que queremos achar α, β ∈ R que minimizem
E[(X − αIA − βIAc)2
]= E
[(X − α)2IA + (X − β)2IAc
].
Afirmamos que ha uma unica escolha possıvel para α e β:
α = E [X | A] ≡ E [XIA]P (A)
β = E [X | Ac] ≡ E [XIA]P (Ac)
.
De fato, temos o seguinte resultado:
Proposicao 5.3. Para qualquer α ∈ R temos
E[(X − α)2IA
]= P (A) E
[(X − E [X | A])2
]+ P (A) (E [X | A]− x)2
e analogamente para Ac.
Prova: Basta seguir os passos da prova de Proposicao 5.1. 2
Exercıcio 5.1 (Apresentando a probabilidade condicional). Mostre que E [X | A] como definidoacima satisfaz
E [X | A] =∫
Ω
X(ω) dP (ω | A) ,
onde para todo E ⊂ Ω
P (E | A) = E [IE | A] =P (E | A)
P (A)ou equivalentemente
P (ω | A) =P (ω) IA(ω)
P (A)(ω ∈ Ω).
A distribuicao P (· | A) e a distribuicao condicionada a A. P (E | A) e a probabilidade condi-cional de E dado A.
Juntando todos os resultados anteriores, vemos ha uma unica funcao f : 0, 1 → R quesatisfaz
E[(X − f(I))2
]= inf
g:0,1→RE[(X − g(I))2
].
e ela e dada por
f(x) ≡
E [X | A] , x = 1;E [X | Ac] , x = 0.
26
5.1.2 Informacao e aproximacao: o caso geral
Suponha agora que I : Ω → Θ e geral. Provaremos que existe uma f : Θ → R tal que
(5.2) E[(X − f(I))2
]= inf
g:Θ→RE[(X − g(I))2
].
Primeiro notamos o seguinte resultado.
Proposicao 5.4. Considere a particao PI de Ω induzida pelas imagens inversas dos valoresde I:
PI ≡ I−1(θ) : θ ∈ I(Ω).
Entao para toda Y : Ω → R, Y = f(I) para algum f : Θ → R se e somente se
Y =∑
E∈PI
cEIE ,
com cE ∈ R para cada E ∈ PI . Alem disso, para cada particao P de Ω existe um conjunto Θe uma funcao I : Ω → Θ tal que P = PI
Prova: Exercıcio. Para a ultima afirmacao, basta tomar Θ = P e I(ω) = E ∈ P tal queω ∈ E. 2
Esta proposicao mostra que particoes e v.a.’s sao em certo sentido equivalentes. Podemosverificar que isto faz sentido quando notamos que a informacao que i = I(ω) da a respeitode ω e justamente que ω ∈ I−1(i). Optamos por lidar com particoes a seguir. Se P e umaparticao e
L2(Ω,P, P) = spanIE : E ∈ P,
entao a otimizacao descrita em (5.2) se torna a busca por U ∈ L2(Ω,P, P) tal que
(5.3) E[(X − U)2
]= inf
V ∈L2(Ω,P,P)E[(X − V )2
].
Provaremos o seguinte teorema geral:
Teorema 5.5. Sejam X : Ω → R com E[X2]
< +∞ e P uma particao de Ω. Entao ha umasolucao U ∈ L2(Ω,P, P) que e equivalentemente descrita pelas seguintes propriedades:
1. U e solucao de (5.3);
2. para todo E ∈ P, E [UIE ] = E [XIE ].
U e a unica solucao de cada um destes dois problemas, no sentido de que qualquer outrasolucao V satisfaz P (U = V ) = 1.
27
Recommended