Transcript

PROBABILIDADE & PROCESSOS ESTOCÁSTICOS

H. Magalhães de Oliveira, docteur

Programa de pós-graduação em Engenharia Elétrica

DINTER UEA-UFPE

E-mail [email protected] URL http://www2.ee.ufpe.br/codec/deOliveira.html

SUMÁRIO DA PARTE I

Conceitos de Probabilidade

limsup e liminf, classes monotonicas Álgebra e σ-álgebra

Continuidade Independência e probabilidade condicional

Funções mensuráveis e variáveis aleatórias Bernoulli, Binomial, geométrica, Poisson, uniforme, exponencial, gama, beta, normal, chi2, Weilbull... Variáveis conjuntas Transformação de variáveis aleatórias .................................. Vetores aleatórios: Jacobiano Desigualdades: .................................. Jensen, Minkowski, Liapunov, Cr Função característica e suas propriedades .................................. Geradora de momentos

Cotas sobre probabilidades .................................. Chebyshev .................................. Markov .................................. Chernoff Seqüências de variáveis aleatórias Critérios de convergência .................................. em média quadrática .................................. em probabilidade .................................. com probabilidade 1 .................................. em distribuição

Lei dos grandes números .................................. Teorema de Bernoulli .................................. Teorema da Kolmogorov .................................. Teorema de Borel Teorema central do limite .................................. (Lindenberg-Lévy, Lyapunov, etc.) [Médias estatísticas e momentos .................................. Correlações, propriedades...] Estimação e predição: Amostragem

SUMÁRIO DA PARTE II

Processos Estocásticos (contínuos e discretos) Definições e classificação Estacionaridade (sentido amplo e restrito) Passeio aleatório Processo de Wiener-Lévy (movimento Browniano) Onda telegráfica aleatória

Densidade espectral, teorema de Wiener-Kinchine Ergodicidade Processos estocásticos através de Sistemas Lineares .................................. Análise espectral Preditores lineares: Filtragem ótima de Wiener Processos Estocásticos Gaussianos .................................. Normal e log-normal .................................. Vetores gaussianos .................................. Processo banda-estreita

Processo de Poisson .................................. Processo de contagem .................................. Tempo entre chegadas .................................. Tempo de espera .................................. Processo filtrado Cadeias de Markov .................................. Equações de Chapman-Komogorov .................................. Classificação de estados .................................. Probabilidades limites .................................. Teoria das filas .................................. M/G/1, G/M/1, M/M/k ...

REFERÊNCIAS RECOMENDADAS Probability, Random Variables ans Stochastic Processes, A. Papoulis, McGraw-Hill, 1965. Probabilidade, Variáveis Aleatórias e Processos Estocásticos, J. Albuquerque, J.P. Fortes, W. Finamore, Interciencia, 2008.

Introduction to Probability Models, 9th ed. S.M. Ross, Academic Press, 2007. A First Course in Stochastic Processes, S. Karlin & H. Taylor, Academic Press, 1975.

Random Processes: An Introduction for Applied Scientists and Engineers, Davenport Jr, W.B., McGraw-Hill, 1970. Sistemas Probabilisticos, F.M. Campello de Souza, Vade Mecum, Recife, 2006. An introduction to the Theory of Random Signals and Noise, Davenport Jr, W.B. and Root, W.L, McGraw-Hill, 1958.

Probability Theory, M. Loève, Van Nostrand, 1963.

<<Incerteza é a marca indelével do universo.>>

Dennis Poisson. Assim um evento terá, pela sua própria natureza, uma chance, maior ou menor, conhecida ou desconhecida, e sua probabilidade será relativa aos nossos conhecimentos naquilo que lhe diz respeito.” Poisson, 1837. (Sceaux, França)

Probabilitas

PROBABILIDADES ALEATÓRIAS

Modelam o acaso em fenômenos empíricos

PROBABILIDADES ESPISTÊMICAS

Descrevem graus de crença parcial lógicos de pessoa/sistema intencional

Matemática determinismo Aleatório: Taboo Teorema de Gödel e o fim da “certeza matemática”

AXIOMAS 2 (lógica) = Resultados (Proposições) Mundo “real” Explicar resposta ao POR QUÊ?

TELEOLÓGICA (finalista) ESTATÍSTICA (probabilística) GENÉTICA (histórica) NOMOLÓGICA (dedudiva) ** científica

Deus ex-machina, anjos,...

???? Qual a finalidade? Tudo tem uma razão. Qual a utilidade? Por que fazer? Visão pessoal: (interrogações postas no inicio das questões, discordante).

BREVE HISTÓRICO

1654 Pascal-Fermat (Paris-Toulouse)

1812 Laplace - escola deterministica (o demônio laplaciano)

Russos : Markov, Chebyshev, Liapunov, Kinchine, Kolmogoroff..

TEORIAS

i) Definição a priori como razão entre casos favoráveis para

total de casos possíveis.

ii) Freqüência relativa (Von Mises)

iii) Axiomática

iv) Medida de crença

TRATAMENTO AXIOMÁTICO

URL: http://www2.ufpe.br/codec/deOliveira.html

Exercício.

Se A e B são eventos certos, i.e., P(A)=P(B)=1, avaliar, usando

apenas os axiomas de Kolmogorov:

P(A∪B) e P(A∩B).

Dicas: problemas 5 e 6.

UNIÕES FINITAS DISJUNTAS

Dados eventos A1, A2, A3..., An todos disjuntos par-a-par, então:

∑==

=n

k

k

n

k

k APAP11

)()(U .

Por indução finita:

P2. P(A1∪A2)=P(A1)+P(A2) (verdade via AX4)

Pn. Admita verdadeira Pn. ∑==

=n

k

k

n

k

k APAP11

)()(U .

Mostrar que Pn ⇒ Pn+1

)()( 11

1

1+

=

+

=

∪= n

n

k

k

n

k

k AAPAP UU ⇒T2 )()()( 1

1

1

1+

=

+

=

+= n

n

k

k

n

k

k APAPAP UU

⇒(via Pn) ∑+

=

+

=

=1

1

1

1

)()(n

k

k

n

k

k APAP U i.e. Pn+1 é verdadeira! Q.E.D.

APLICAÇÕES RECENTES DA TEORIA

• Inteligência artificial • Mecânica Quântica • Algoritmos probabilísticos (e algoritmos genéticos) • Lógica nebulosa • Teoria de informação • Controle estocástico • Redes neuronais • Teoria da evolução e seleção natural • Genética • Otimização • Predição, teoria da decisão, teoria dos jogos…

Etc. etc.

TEORIA DOS CONJUNTOS

Coleção arbitrária de elementos

Conjunto vazio – por abuso, aquele que não contém elementos.

CLASSE: conjuntos cujos elementos são conjuntos.

CONJUNTO DE INDICES = T

At, t ∈T.

Conjunto das partes (é uma classe)

A=w1, w2

℘ (A)= w1, w2, A, ∅

2n

Conjunto finito=

tem um número finito de elementos.

Conjunto enumerável =

se é finito ou

pode ser posto em correspondência biunívoca com .

CARDINALIDADE

|| ||= || ||=ℵ0

cardinalidade 2c (do continuum)

||A||=2c se e só se ∃ f:A → biunívoca.

1,2,3,..., ℵ0 (?) 2c

Paul Cohen (1934-2007), Medalha Fields

Não pode ser deduzido da teoria de conjuntos. ∃?=sim ou não.

Considere uma rede com diferentes caminhos entre os nós 1,2,3,4.

Os caminhos são indicados por letras. Escreva o evento K13, há

uma ligação (caminho fechado) entre o nó 1 e 3, em termos dos

caminhos A, B, C, D, E.

Aplique leis distributivas para mostrar que

K13=A∩ [B ∪C (C∩E)] ∪ D ∩ [E ∪ (B ∩C)].

DEFINIÇÃO. Dada uma classe Att∈T

UTt

tt AA

Tt∈

=

sup

ITt

tt AA

Tt∈

=

inf

LEIS DE “DE MORGAN”

=

c

Tt

tAU

∈I

Tt

c

tA

=

c

Tt

tAI

∈U

Tt

c

tA

Conseqüência

=

c

tA

Tt

sup c

tA

Tt ∈

inf

=

c

tA

Tt

inf c

tA

Tt ∈

sup

CAMPO (ALGEBRA) ℑℑℑℑ

É uma classe fechada quando efetuamos um número finito

(arbitrário) de operações entre seus elementos.

i) A,B ∈ ℑ ⇒ A∪B∈ℑ

ii) A,B ∈ ℑ ⇒ A∩B∈ ℑ

iii) A ∈ ℑ ⇒ Ac ∈ ℑ

A,B∈ ℑ Ac,Bc∈ ℑ ⇒ Ac∪Bc∈ ℑ ⇒ [Ac∪B

c]c ∈ ℑ ⇔ A∩B∈ ℑ

Exercício.

Determinar uma álgebra em ΩΩΩΩ contendo A,B∈∈∈∈ΩΩΩΩ.

Use apenas ∪ e (.)c

Mostremos que

ℑ =∅,A, B, Ac, Bc, A∪B, (A∪B)c, A∩B, (A∩B)c, (B-A), (B-A)c,

(A-B), (A-B)c, A∆B, (A∆B)c

DEF. LIMITE INFERIOR

O conjunto de pontos que pertencem a quase todos os elementos Ak

de uma classe (exceto possivelment em um número finito delas) é

chamado de LIMITE INFERIOR de Att∈T

UI∞

=

=

=1

:inflimn nk

kk AA

montar tais uniões e interpretar...

DEF. LIMITE SUPERIOR

O conjunto de pontos que pertencem a um número infinito de

elementos Ak de uma classe é chamado de LIMITE SUPERIOR de

Att∈T

IU∞

=

=

=1

:suplimn nk

kk AA

montar as uniões e interpretar...

Obs-

kAinflim ⊆ kAsuplim

Exemplo (trivia).

Seja w∈Ak se k é ímpar

w∉Ak se k é par.

w∉ kAinflim e w∈ kAsuplim

CONVERGÊNCIA EM CLASSES

Seja Akk=1 uma classe de cardinalidade enumerável.

Dizemos que Ak é uma seqüência convergente e que existe um

limite na classe quando

kAinflim AAk == suplim

Escreve-se AAk =lim .

CLASSES MONOTÔNICAS

• Classe não-decrescente: A1⊆ A2 ⊆ A3 ⊆ A4 ...

notação An↑

• Classe não-crescente: A1⊇ A2 ⊇ A3 ⊇ A4 ...

notação An↓

Classes monotônicas são convergentes! Vejamos.

An↑ U∞

=

==1

suplimlimn

nkn AAA

An↓ I∞

=

==1

inflimlimn

nkn AAA

Se nB é uma seqüência qualquer, então:

I∞

= ≥=

nk

k

k

B

nkB

inf

↑ faça diagramas de Venn...

k

nk

k

B

nkB

≥==

=

supU

↓ faça diagramas de Venn...

Verificação:

I∞

+=+ =

11

nk

kn BD, I 1+= nnn DBD ⇒ 1+⊂ nn DD

U∞

+=+ =

11

nk

kn BE, U 1+= nnn EBE ⇒ 1+⊃ nn EE .

Examinar o tipo e a convergência nas seguintes classes: Ω=[0,1]

≤<+

= 11

1|: x

nxAn e

<<=

nxxBn

10|:

σ-álgebra Álgebra de Borel

Uma σ-álgebra é uma classe não vazia fechada sobre todas as

operações enumeráveis com conjuntos.

Obs- toda σ-álgebra é uma álgebra, mas o inverso não é válido.

Obs- o conjunto das partes ℘(Ω) sempre uma σ-álgebra.

Seja C uma classe. Para que ela seja uma σ-álgebra é necessário e

suficiente que

∈∀ nA C,

1) ∈c

nA C

2) ∈

=U

1n

nAC

Paralelo com o fechamento a.b e a+b

EXEMPLOS TRIVIAIS

ℑ := [0,0.5], (0.5,1), ∅, [0,1] é álgebra e σ-álgebra.

ℑ := [ ], [ ), ( ], ( ), ∅, [0,1] não é σ-álgebra.

Α Α Α Α álgebra de BOREAL na reta real

É a álgebra que contém uma determinada classe de intervalos na

reta real: os intervalos abertos.

Notas:

1) Por causa da regra de dualidade, fechamento sob

complementação e intersecções finitas (enumeráveis)

implica em fechamento sob uniões finitas (enumeráveis).

Podemos então trocar também, nestas propriedades,

intersecções e uniões.

2) A maior σ-álgebra para uma dada classe é o conjunto das

partes desta classe.

PROPOSIÇÃO.

A menor σ-álgebra passível de construção é ∅,Ω.

PROVA.

Se G é uma σ-álgebra e A∈ G, então F definição de σ-álgebra,

Ω,Ac e ∅ ∈ G e, portanto, F ⊂ G. Mas F é uma σ-álgebra, pois se

tomamos complementos ou uniões de conjuntos de F,

invariavelmente obtemos elementos de F. Segue-se que F é uma

σ-álgebra que está contida em qualquer outra σ-álgebra G que

contenha A, daí o resultado.

Classes monotônicas.

1) Ej∈

Ej ⊂Ej+1 e U∞

=

=1

limj

jn EE ∈

2) Ej∈

Ej ⊃Ej+1 e j

j

n EE I∞

=

=1

lim ∈

σσσσ-álgebra mínima

Está contida em qualquer σ-álgebra definida sobre a class.

É única. Fmin=∩F.

TEOREMA.

Toda σ-álgebra é uma álgebra monotônica e vice-versa.

TEOREMA.

A σ-álgebra mínima sobre uma classe e a classe monotônica

mínima sobre a mesma classe coincidem.

Α σΑ σΑ σΑ σ-álgebra de BOREAL

É a σ-álgebra mínima que contém uma determinada classe de

intervalos na reta real: os intervalos abertos.

FUNÇÕES DE CONJUNTO

Seja C uma classe. Considere uma aplicação de C em .

ϕ: C →

)(AA ϕa .

1. Funções de conjunto aditivas

Se C =Aj é uma classe disjunta e ∑==

=

n

j

j

n

j

j AA11

)(ϕϕ U , a função é

dita ser uma função de conjunto aditiva.

Notação: A∪B=A+B se A∩B=∅

Generalizando, tem-se ∑==

=n

j

j

n

j

j AA11

U , se Aj é disjunta.

2. Funções de conjunto σ-aditivas

Se C =Aj é uma classe disjunta e ∑∞

=

=

=

11

)(j

j

j

j AA ϕϕ U , a função é

dita ser uma função de conjunto σ-aditiva.

• Se ∀j, |ϕ(Aj)|<+∞ , então a função de conjunto é dita σ-finita.

Nota. Toda função aditiva (ou σ-aditiva) exige que ϕ(∅)=0.

Prova. A=A+∅ ⇒ ϕ(A)= ϕ(A)+ ϕ(∅), daí o resultado.

TEOREMA.

Seja ϕ uma função de conjunto σ-aditiva tal que +∞<

=U

1

)(j

jAϕ.

Então ∑j

jA )(ϕ converge absolutamente.

Nota.

+∞<∑j

jA )(ϕ (~⇒) +∞<∑j

jA )(ϕ

+∞<∑j

jA )(ϕ (⇐) +∞<∑j

jA )(ϕ .

Separando:

=+jA Aj ou ∅, se 0)( ≥jAϕ

=−jA Aj ou ∅, se 0)( ≤jAϕ .

∑∑∑ −+ += )()()( jj

j

j AAA ϕϕϕ

O primeiro termo converge por hipótese: ∑+ )( jAϕ

O segundo termo exclui -∞.

Sub-σσσσ-aditividade.

TEOREMA

Seja ϕ uma função de conjunto não-negativa, ϕ≥0, e aditiva.

Então:

i) ∀A | ϕ(A)<+∞ (σ-finita), se A⊃B ⇒ ϕ(B)≤ ϕ(A)<+∞

(monotonicidade)

ii) ∑==

n

j

j

n

j

j AA11

)(ϕϕ U (sub-σ-aditividade).

Prova.

i A⊃B

A=B+(A-B) e B∩(A-B)=∅. (i.e. B∩(Bc∩A)).

Pela hipótese de aditividade, ϕ(A)= ϕ(B)+ ϕ(A-B). Mas como a

função é não-negativa, ϕ(A-B)≥0, e a monotonicidade segue.

ii U∞

=

+−−+−+=1

123121 ...)()(j

j AAAAAAA

ou seja, U∞

=

+∩∩+∩+=1

321211 ...)()(j

ccc

j AAAAAAA

Mas jj

c

i AAA ⊆∩ e pela monotonicidade (item i), segue-se:

U∞

=

+++≤1

321 ...)()()()(j

j AAAA ϕϕϕϕ, provando assim a sub-σ-

aditividade.

CONTINUIDADE DE FUNÇÕES DE CONJUNTO

ϕ é contínua por baixo se e só se ∀An↑

)(limlim nn A

n

A

n

ϕϕ

∞→=

∞→

ϕ é contínua por cima se e só se ∀An↓

)(limlim nn A

n

A

n

ϕϕ

∞→=

∞→

DEFINIÇÃO. ϕ é contínua se e só se ela é contínua por baixo e

contínua por cima.

Um exemplo. Seja A=[0,1].

dxeA x

∫−=

1

0

2/2

2

1)(

πµ (integral de Riemman)

Medida An⊂A .

Considere An↑ não decrescente A1⊆ A2 ⊆ A3 ⊆ A4 ... ∞

=

+−≤≤

+∈=

11

11

1

1|:

n

nn

xn

RxA

An →A

dxeA n

n

x

n ∫ +−

+

−= 1

11

1

12/2

2

1)(

πµ

Se µ é contínua, então )()(lim)(lim AAA nn µµµ == .

Mas i) )()(lim AAn µµ =

ii) )(

2

1

2

1lim)(lim

1

0

2/1

11

1

12/ 22

AeeA xn

n

x

n µππ

µ === ∫∫−+

+

µ parece ser contínua (de fato, ela o é). Porém, verificar

continuidade pela definição, já era!

Mostraremos a continuidade da função Probabilidade.

Probabilidade (Kolmogorov) é uma função de conjunto σ-aditiva

definida na classe de eventos de um espaço amostral. (rigor, escola

formal).

σσσσ-aditividade ⇔⇔⇔⇔ Continuidade.

Nota histórica.

Axiomas: Kolmogorov usou continuidade, ao invés de A5 (dá no

mesmo, são equivalentes). Hoje, usa-se formalmente a σ-

aditividade.

TEOREMA DA CONTINUIDADE DA MEDIDA DE

PROBABILIDADE (siga também Davenport Jr)

Prop(i) Toda função de conjunto σ-aditiva é aditiva e contínua.

Prop(ii) Se uma função de conjunto é aditiva, contínua por baixo,

finita e contínua em ∅, então ela é σ-aditiva.

Nota. Nem é preciso continuidade (por baixo e por cima), porém

leia-se em termos práticos:

i) σ-aditiva ⇒ aditiva e contínua

ii) aditiva e contínua ⇒ σ-aditiva.

PROVA.

(⇒)

Seja An ↑ uma seqüência não-decrescente (arbitrária).

U∞

=

=1

limn

nn AA

...)()(lim 23121 +−+−+= AAAAAAn

∑∞

=−−=

11 )(lim

n

nnn AAA se A0:=∅.

∑=

−−∞→

=n

k

kkn AAn

A1

1)(lim

lim

Aplicado a função de conjunto aos dois membros,

))(lim

()(lim1

1∑=

−−∞→

=n

k

kkn AAn

A ϕϕ. Pela σ-aditividade,

∑=

−−∞→

=n

k

kkn AAn

A1

1)(lim

)(lim ϕϕ.

Mas

)()()(..)()()()()(

)(

123121

11

nnn

n

k

kk

AAAAAAAA

AA

ϕϕϕϕϕϕϕϕ

ϕ

=−++−+−+

=−

=−∑

Então )(

lim)(lim nn A

nA ϕϕ

∞→=

é contínua por baixo.

Seja An ↓ uma seqüência não-crescente (arbitrária).

I∞

=

=1

limn

nn AA

Construa uma seqüência (An0-An) ↑ n≥n0, (não-decrescente),

com +∞<)( 0nAϕ . Aplicando a parte anterior da demonstração,

vem:

( ) )(lim)lim( 00 nnnn AAAA −=− ϕϕ

Ou seja, ( ) )(lim)(lim 00 nnnn AAAA ϕϕϕ −=− e finalmente,

( ) )(lim)((lim) 00 nnnn AAAA ϕϕϕϕ −=−

donde a continuidade por cima.

Se ϕ é contínua por baixo e por cima, então ela é contínua.

(⇐)

Parte A ∑ ∑=

+=

=

+=

n

k nk

kk

n

n AAA1 11

)( ϕϕϕ U .

Mas quando n→+∞, 0)(lim1

=∅=

+=

ϕϕnk

kA (use hipótese)

(é claro que assumimos a classse An disjunta, pois queremos

provar a σ-aditividade).

Assim, ∑∞

=

=

=

11

)(k

k

n

n AA ϕϕ U

Outra demonstração.

=

=

∑∑

=

=

=

n

k

k

k

k

n

n AAA111

limϕϕϕ U . Pela continuidade por baixo, se

Bn ↑ então )(lim)(lim nn BB ϕϕ =

A seqüência construída é ∑=

=n

k

kn AB1

:↑ e segue-se

)(lim)(lim11∑∑

==

=n

k

n

n

k

n AA ϕϕ e, portanto,

∑∑∑∞

==

=

==111

)()(lim)(k

n

n

k

n

k

n AAA ϕϕϕ Q.E.D.

TEOREMA (compacticidade).

Se ϕ é contínua, então ∃ C, D tais que

ϕϕ sup)( =C e ϕϕ inf)( =D .

Prova. Tomemos ϕ<∞.

An com An →A.

Cada An escrito como uniões disjuntas de In

k

kA1

'

=, sendo kk AA ='

ou

kk AAA −='.

São 2n subconjuntos. Caso n=2

A1∩A2 (A-A1)∩A2 A1∩(A-A2) (A-A1)∩(A-A2)

Exemplo. Caso n=2 reescrever A2

A2=(A1∩A2)+A2∩(A-A1) = Azul + Cinza

Exemplo. Caso n=3 reescrever A3

A3=

A1∩A2∩A3+(A-A1)∩A2∩A3+(A-A1)∩(A-A2)∩A3+A1∩(A-A2)∩A3.

Vermelho + Cinza + Verde + Azul

Seja U nmn AB =:, Bn=∅ quando 0)( <nmAϕ

Observação: mnmn AA ,'' ⊆ para n’>n.

=∪∪∪∪≤≤

=++ U

nk

knnnnnn BBBBBBA ϕϕϕϕ )...()()( '21

ϕ contínua.

Defina U∞

=

=nk

kBC lim:

n→+∞, )(sup Cϕϕ ≤ , mas )(sup Cϕϕ ≥ (senão não seria sup).

Assim

).(sup Cϕϕ =

Prova nas mesmas linhas para a existência do inf.

Q.E.D.

Resolvendo a questão 11.

⊆kAinflim kAsuplim

An com conjuntos disjuntos para a par, Ai∩Aj=∅.

Calcularemos o lim sup Ak.

IU∞

=

=

=1

suplimn nk

kk AA

...suplim4321UUUU∞

=

=

=

=

∩∩∩=k

k

k

k

k

k

k

kk AAAAA

ou seja,

...)()(suplim 3211

211

111

++−∩

+−∩

−∩=

=

=

=

=

AAAAAAAAAAAk

k

k

k

k

k

k

kk UUUU

Escrevendo em termos de eventos complementares:

...)()(

suplim

3211

211

111

++∩∩

+∩∩

∩∩

=

∑∑∑∑∞

=

=

=

=

c

k

k

c

k

k

c

k

k

k

k

k

AAAAAAAAAA

A

Usando de Morgan,

...)()(

suplim

3211

211

111

∩∩∩∩

∩∩∩

∩∩

=

∑∑∑∑∞

=

=

=

=

ccc

k

k

cc

k

k

c

k

k

k

k

k

AAAAAAAAAA

A

ou seja,

=

∩=

∩= ∑∑∑

=

=

=

=

c

k

k

k

k

k

c

k

k

kk AAAAA1111

suplim I ∅.

Como ⊆kAinflim kAsuplim , então =kAinflim ∅.

De lim inf Ak=lim sup Ak, segue-se que o limite existe e vale ∅.

PROBABILIDADE CONDICIONAL

Dados A,B, com P(A)>0, define-se

)(

)(:)|(

AP

BAPABP

∩= .

Implicações

Se A∩B=∅ P(A∩B)=0 ⇒ P(B|A)=0.

Se A⊂B A∩B=A ⇒ P(B|A)=1

Se A⊃B A∩B=B ⇒ P(B|A)= P(B)/P(A)≥P(B).

Caso limite

P(B|A) com P(A)=0.

Como definir? Abordagem menos comum nos textos básicos.

Tome uma seqüência monotônica An ↓ que converge para A.

Defina então

)(

)(lim

:)|(n

n

AP

ABP

nABP

∞→=

caso o limite exista e independa da escolha da seqüência An.

Probabilidade Total (lei das probabilidades totais)

Seja Bj uma partição de Ω.

∑=

∩=n

j

jBAPAP1

)()(

REGRA DE BAYES

Seja Bj uma partição de Ω, P(Bj)>0 (∀j).

A∈ Ω, P(A)>0.

∑=

=n

k

kk

jj

j

BAPBP

BAPBPABP

1

)|()(

)|()()|(

INDEPENDENCIA ENTRE EVENTOS

P(B|A) = P(B)

P(A|B) = P(A)

P(A∩B)=P(A).P(B)

Equivalentes!

Nota. A e B mutuamente exclusivos são dependentes.

A∩B=∅ P(A∩B)=0

P(B|A)=0 ≠ P(B) ⇒ não são independentes.

Independência estatística entre eventos

n

kA 1 estatisticamente independentes se e só se para qualquer

subcoleção arbitrária:

Ij

i

j

i

kk iiAPAP

1 1

)()(= =

∏=.

PROVAS DE IGUALDADE ENTRE CONJUNTOS

A guia é estabelecer que

i) Se x∈A ⇒ x∈B. ii) Se x∈B ⇒ x∈A.

A função indicadora de conjunto. Para um conjunto A,

Aw

AwwI A ∉

=0

1)( .

Álgebra de funções indicadoras- operações.

BABA III +=+ se A∩B=∅.

BABA III .=∩

2mod)( BABA III +=∆

Uma seqüência An converge para A

lim An=A ⇔ AA IIn

→ .

Funções mensuráveis e medidas Considerando a reta real . Classe: conjunto das partes de , ℘( ).

Gera-se uma álgebra A na reta que consiste em todos os intervalos

abertos I∈A, I⊂ . Os intervalos são do tipo I=(a,b) ou combinações

(finitas) deles.

A MEDIDA DE RIEMMAN (integral de Riemman)

A medida m de conjuntos na álgebra A é naturalmente (uma função de

conjunto) expressa pelo comprimento do intervalo, i.e.,

m(I):=l(I)=b-a.

(quantos centímetros há em uma régua, no intervalo entre as marcações 4 cm e

7 cm? Naturalmente l(I)=7-4=3 cm. Sabemos medir outros “conjuntos”?).

A extensão natural é passar de uma álgebra A para uma σ-álgebra

B⊂℘( ).

A σ-álgebra de Borel na reta real é aquela que contém todos os intervalos

abertos na reta (B é uma extensão de A, i.e. B ⊃A).

Como estender a medida m para os conjuntos em B? uma medida de extensão

(medida externa) foi utilizada.

A medida de Lebesgue: a caminho de variáveis aleatórias. Dado um conjunto A⊂ , define-se a medida

∑∪⊂

=)(inf

:)( n

n

Il

IAAµ .

Note que esta medida funciona como uma extensão: o caso particular de

conjuntos do tipo intervalos, A=I, e a medida usada não requer uma cobertura

Un

nI e a medida vale l(I)=b-a, coincidindo com a medida de Riemman.

NOTA-A medida de Lebesgue não é uma medida de probabilidade, pois

µ( )≠1 e, portanto, não obedece AX3 (normalização).

VARIÁVEIS ALEATÓRIAS Considere os mapeamentos X (denominados variáveis aleatórias)

)(

:

wXw

RX

a

→Ω

A cada ponto do espaço amostral, atribui-se um número na reta real. Isto

corresponde a transformar o objeto de estudo de um plano abstrato

(espaço amostral) em valores numéricos. Agora saberemos “fazer

contas”.

Conjuntos serão mapeados em intervalos (que são mensuráveis usando

as medidas – Riemman ou Lebesgue).

A variável aleatória é uma “função” (mapeamento): X(w)=x.

As transformações são entre dois sistemas – espaços de probabilidade triplas

(Ω,A,P’) ⇒ ( ,B,P)

Lembre o exemplo trivial: lançamento de um dado

No espaço amostral, há “face do dado caiu exibindo 1”, “face do dado

caiu exibindo 2”,..., “face do dado caiu exibindo 6”. Estes eventos são

mapeados via v.a. nos números reais 1, 2, 3, 4, 5 e 6.

Vejamos a medida de probabilidade: uma função de conjunto

P:AAAA→→→→[0,1]

Para cada subconjunto B na álgebra B

B∈B ⇒ P(B):=P(X-1(B)) se X-1(B)∈A.

Os conjuntos da σ-álgebra de Borel podem ser mensuráveis.

Funções mensuráveis

Dada f função real, contínua Qualquer conjunto do tipo x | f(x)>α α∈ é mensurável. Veja que conjuntos x | f(x)≥α são mensuráveis:

−>=≥+∞

=U

1

1)(|)(|

n nxfxxfx αα

Se x | f(x) ≥α é mensurável, seu complemento também o é: x | f(x) ≥αc= -x | f(x) ≥α = x | f(x)<α. Se x | f(x)<α é mensurável, x | f(x)≤α também o é, pois

+<=≤+∞

=U

1

1)(|)(|

n nxfxxfx αα

Assim, basta considerar conjuntos de um dos tipos: Seja a seleção x | f(x)≤α.

No contexto de variáveis aleatórias, consideram-se:

w ← x X ← f

w | X(w)≤α:=FX(α).

ISTO É a função distribuição da variável aleatória X!

Conhecido FX(.), tem-se informação para calcular a probabilidade de eventos

que representem quaisquer eventos que são meapados em conjuntos da álgebra

de Borel.

NOTAÇÃO

P(B):=Pw∈Ω | w∈X-1(B)⊂A

FX(α):=w | X(w)≤α

Usaremos simplificadamente FX(x)= Pr(X<x)

F é contínua à esquerda.

(observação: definindo-se F(x):=Pr(X≤x), F é contínua à direita).

EXEMPLOS (ilustração do comportamento de FX)

Variável discreta

Variável contínua

NOTAS (DE RODAPÉ) SIMPLES

FX(x1)=P(w∈Ω | X(w)<x1)

FX(x2)=P(w∈Ω | X(w)<x2)

Se x1<x2 ⇒ F(x1) ≤ F(x2).

F(-∞)=P(w∈Ω | X(w)<-∞)=P(∅)=0.

F(+∞)=P(w∈Ω | X(w)<+∞)=P(Ω)=1.

Função densidade de Probabilidade

f(x) associada com a função distribuição de probabilidades F(x).

∫ ∞−=

x

dfxF ξξ )()( .

Como F(x) é não decrescente (monotonicidade), 0)(

)( ≥=dx

xdFxf .

Distribuições contínuas e diferenciáveis. Para os demais casos (discretas e

mistas), usam-se impulsos de Dirac.

Interpretando: ∆x suficientemente pequeno

xxfxxXxP ∆≅∆+≤≤ ).()( ou x

xxXxP

xxf ∆

∆+≤≤

→∆=

)(

0

lim)(

Discretas

Assumindo valores x1, x2, x3,... com probabilidade P(xi)

)()()( ∑ −==i

ii xxuxXPxF

Derivando aparecem impulsos. No caso de distribuições mistas:

∑ −=+=i

ii xXxXPdx

xdCxf )()(

)()( δ .

EXPERIMENTOS DE BERNOULLI

(ensaios de Bernoulli)

Um dos experimentos largamente usados é quando ao invés de lidar com

resultados de UM ÚNICO experimento, considera-se o caso e realização

repetida de um mesmo experimento.

Em particular, interessa a probabilidade de o evento ocorrer k vezes nas n

(n>k) realizações do mesmo.

(este é essencialmente o problema de obter k caras em n lançamentos de uma

moeda. O número de repetições do evento “jogar a moeda” é n.)

Se p denota a probabilidade de ocorrer o evento, 1-p é a probabilidade dele não

ocorrer (conseqüência imediata dos axiomas).

A probabilidade de ocorrência de k caras em n jogadas é (experimentos

independentes)

P(A1∩A2∩A3∩...∩An)=P(A1).P(A2).P(A3)...P(An)

p.p.p...p.(1-p).(1-p)....(1-p)

k vezes n-k vezes (total n)

Como os eventos da ocorrência de k caras em n lançamentos são mutuamente

exclusivos e ocorrem em número

k

n

, via AX4 tem-se:

P(k ocorrências em n eventos repetidos)=knk pp

k

n −−

)1(

Note que só podem ocorrer k=0, k=1, k=2, k=3, ou... k=n ocorrências.

MUTUAMENTE EXCLUSIVAS

P(Ω)= knk

n

k

ppk

n −

=

∑ )1(

0=[p+(1-p)]n=1 (vale AX3).

A probabilidade de haver a ocorrência entre k1 e k2 vezes o evento nos n

ensaios é dada por:

knkk

kk

ppk

n −

=

∑ )1(

2

1.

HIPÓTESES: Variável aleatória binária, n eventos, independencia entre eles.

TEOREMAS ASSINTÓTICOS.

Dá um “trabalhão” calcular estas expressões quando n é grande!

TEOREMA DE “DE MOIVRE-LAPLACE”

Assumindo que n é grande e também de modo que n.p.(1-p)>>1, então

Vale uma aproximação Gaussiana para a Binomial:

)1(2

)( 2

)1(2

1)1( pnp

npk

kke

pnppp

k

n −

−−

−≅−

π

Assim, o cálculo da probabilidade da ocorrência entre k1 e k2 vezes o evento

nos n ensaios pode ser estimado por:

dxepnp

ppk

n k

k

pnp

npx

kkk

kk∫∑ −

−−

= −≅−

2

1

2

2

1

)1(2

)(

)1(2

1)1(

π

Integral Gaussiana – Tabelada. Função Q(.) ou erfc(.).

−−

−≅−

=∑

)1.(.)1.(.)1( 12

2

1ppn

npkerf

ppn

npkerfpp

k

nknk

k

kk

(tirar pirulito de criança!)

Aproximação II. n→∞

A aproximação proposta por De Moivre requer n.p>>1.

Nos casos em que n.p≈1, isto não é válido. Considera-se agora:

TEOREMA DE POISSON n→∞

!

)()1(

k

npepp

k

n knpknk −− ≅−

Se n→∞ e p→0, mas com a relação n.p→a, tem-se

!

)()1(

k

aepp

k

n kaknk −− ≅−

.

Isto definirá a variável aleatória de Poisson e o processo de Poisson.

VARIÁVEIS ALEATÓRIAS USUAIS

Discretas Bernoulli, Binomial, Poisson

Contínuas Gaussiana, exponencial, Cauchy, Laplace,

Uniforme, beta, χ2

Mistas

GAUSSIANA UNIFORME

2

2

2

)(

22

1)( σ

πσ

mx

exf

−−

= contrário caso 0

1)(

bxaabxf

<<

−=

EXPONENCIAL chi2

)(.)( TueaTf aT−= )()2/(2

2)(

22 2/12/

xuexn

xfxn

nn

σ

σ−−

Γ=

BETA

Função fatorial generalizado (função gama de Euler) ∫+∞ − ==Γ

0!:)( xdex x ζζ ζ

Função beta )(

)().(:),(

ba

babaB

ΓΓ=

11 )1.(),()( ++ −= βαβα xxBxfX

phibeta t α, β, ( )M α β, ( )

T α β, ( )α β+ 1−

t a α β, ( )−( )α 1−

b α β, ( ) t−( )β 1−

⋅ ⋅:=

Limitada à direita e a esquerda. Pode ser simétrica ou assimétrica. A simetria é controlada pelos parâmetros. MAXWELL

)(21

)(22 2/2

2xuexxf

x

X

σ

πσ−=

VETORES ALEATÓRIOS

O conceito de variável aleatória pode ser estendido para mapeamento no

espaço euclidiano n-dimensional.

X: Ω → n

exemplo: mapeamento em 3.

Um vetor aleatório é um mapeamento vetorial tal que

1) ∀x∈ n, o conjunto no espaço amostral X:=w∈ Ω |X≤x corresponde

a um evento.

O vetor de x:=(x1,x2,x3,...,xn) e

X≤x ⇔ (X1(w) ≤x1, X2(w) ≤x2, X3(w) ≤x3,…, Xn(w) ≤xn)

2) P(X1(w) ≤x1, X2(w) ≤x2, …,Xi(w)=∞,…, Xn(w) ≤xn)=0 (∀i)

3) P(X1(w) ≤x1, X2(w) ≤x2, …,Xi(w)=-∞,…, Xn(w) ≤xn)=0 (∀i).

FUNÇÃO DISTRIBUIÇÃO DE UM VETOR ALEATÓRIO

A função distribuição de um vetor aleatório é descrita por

FX: n →

x →FX(x).

Lembrete: o resultado é sempre um número real.

FX(x)=P(X≤x)=P(X1(w) ≤x1, X2(w) ≤x2, X3(w) ≤x3,…, Xn(w) ≤xn)

A notação mais usual é: ),...,,( 21,...,, 21 nXnXX xxxF .

PROPRIEDADES DA FUNÇÃO DISTRIBUIÇÃO DE UM VETOR

ALEATÓRIO

i) 0),...,...,,( 21,...,, 21=−∞ nXnXX xxxF

ii) 1),...,,...,,(,...,, 21=∞∞∞∞XnXXF (normalização AX3)

iii) F é monótona não-decrescente em cada argumento.

iv) F é contínua pela direita em cada argumento.

v) ∀i )(),...,,...,,(,...,,...,, 21 iXiXnXXX xFxFii

=∞∞∞ .

O caso usual de (v) é a reobtenção das distribuições marginais em cada

dimensão:

Partindo de ),(, yxF YX :

)(),(, xFxF XYX =∞

)(),(, yFyF YYX =∞ .

A função densidade de um vetor aleatório também pode ser definida por

extensão:

),...,,(...

:)( 21,...,,21

21 nXXX

n

n

X xxxFxxx

xfn∂∂∂

∂=

.

PROPRIEDADES DAS DENSIDADES DE VETORES

∫ ∫ ∫∞− ∞− ∞−=

1 2

2121...),...,(...),...,,( 2121...21...

x x x

nnXXXnXXX

n

nndddfxxxF ξξξξξξ

1) Normalização:

1...),...,(... 2121...21=∫ ∫ ∫

+∞

∞−

+∞

∞−

+∞

∞− nnXXX dddfn

ξξξξξξ

2) Não-negatividade:

0),...,,( 21,...,, 21≥nXXX xxxf

n

3) Distribuição Marginal:

∫ ∫ ∫∫+∞

∞−

+∞

∞−

+∞

∞−∞−= nnXXX

x

iX dddfxFn

i

iξξξξξξ ...),...,(......)( 2121...21

4) Densidade Marginal (caso usual):

∫+∞

∞−= dyyxfxf XYX ),()( e ∫

+∞

∞−= dxyxfyf XYY ),()(

Há que se estudar e ler detalhadamente definição e propriedades de

densidades de probabilidade condicionadas.

Relação entre densidades e INDEPENDÊNCIA ESTATÍSTICA

Independência entre duas v.a.’s X e Y. (desacoplamento)

X e Y Independentes ⇔ )().(),( yFxFyxF YXXY =

De modo equivalente:

Independência entre duas v.a.’s X e Y. (desacoplamento)

X e Y independentes ⇔⇔⇔⇔ )().(),( yfxfyxf YXXY = .

Do ponto de vista de densidades condicionais, a independência implica

em:

)()(| xfxf XyYX == e )()(| yfyf YxXY == .

Def. VETORES ALEATÓRIOS INDEPENDENTES.

No caso mais geral de vetores aleatórios, a independência é definida

quando

∏=

=n

i

iXnXXX xFxxxFin

121... )(),...,,(

21

Independência simplifica substancialmente as coisas! ...

VALOR ESPERADO E MOMENTOS

Uma variável assume valore REAIS. Assim, é possível realizar cálculos,

médias, modas, desvios...

O valor esperado de uma variável aleatória X é definido por

i

n

k

i xxXPXE )(:)(1∑

=

== CASO DISCRETO

∫+∞

∞−= dxxxfXE X )(:)( CASO CONTINUO

Interprete como médias “ponderadas” pela probabilidade de ocorrência.

Isto permite definir uma série de médias (MOMENTOS) de uma v.a.

E(X), E(X2), E(X3),..., E(Xn)

E os respectivos momentos centrais, relativos à média m=E(X)

(funcionam com o cálculo do centro de massa, momentos de inércia

etc.)

E(X-m), E((X-m)2), E((X-m)3),..., E((X-m)n).

Os momentos relevantes são sempre os primeiros, de ordem mais baixa:

E(X), média (m) E(X2), 2º momento

E(X-m)=0 (sem uso), E((X-m)2), variância (σ2)

Primeiro (medida do comportamento médio) Segundo (medida de espalhamento e variação, daí o nome)

O desvio padrão é também largamente usado, expressando idéia similar

à variância, mas com interpretação física atrativa

)(: 22mXE −== σσ

CASO DE DUAS VARIÁVEIS

X, Y

E(XnY

m)

E(X-mX)n(Y-mY)m.

Se n ou m são nulos, os momentos são marginais, não cruzados. Para

momentos “cruzados”, requer-se n,m≠0. Os momentos de menor ordem

deste tipo são

CORRELAÇÃO E(XY):= corr(X,Y)=RX,Y ou

COVARIÂNCIA E(X-mX)(Y-mY):=cov(X,Y)=KX,Y.

Observe o nome co-variância (variância, 2º momento, co=entre

variáveis).

Significado como medida de dependência.

(relação linear => correlação)

INDEPENDÊNCIA E MOMENTOS

X e Y independentes (usando o desacoplamento entre densidades)

E(XnY

m)=E(Xn).E(Ym) ∀n,m

Existem os dois tipos de momentos (cruzados) de 2ª ordem

E(XY)

E(X-mX).(Y-mY)=E(XY)-mXmY.

Cov e corr são relacionados.

Teste preliminar:

Se E(XY)=E(X)E(Y), então há um “desacoplamento parcial”, de 2ª

ordem.

Neste caso, cov(X,Y)=corr(X,Y)-E(X).E(Y)=0

ISTO É REFERIDO (por abuso) como correlação nula.

O coeficiente dito coeficiente de correlação normalizado (deveria ser de

covariância!) é

YX

XYXY

K

σσρ =:

Mostra-se que -1≤ ρ ≤+1.

O caso ρρρρ=0 é definido na literatura como correlação nula.

(não covariacionados, termos mais correto, soa estranho e nunca é usado!)

TRANSFORMAÇÕES DE VARIÁVEIS ALEATÓRIAS

Se existe uma função determinista em cuja entrada é aplicada uma

variável aleatória, a saída TAMBÉM será uma variável aleatória.

Exemplo.

X é v.a.

Uma função quadrática y=x2. (função)

A variável Y=X2 é aleatória. => transformação da v.a. X

Como determinar a distribuição de probabilidades da nova variável

(transformada) Y em termos da distribuição da entrada X, conhecida?

Vejamos. Y=g(X), (em termos de f.D.p)

FX(x)=P(X≤x) FY(y)=P(Y≤y)=P(g(X) ≤y).

[Y≤y] => [X≤x1 ou x2≤X≤x3 ou x4≤X≤x5] disjuntos (P é aditiva)

FY(y)=P(X≤x1)+P(x2≤X≤x3)+P(x4≤X≤x5).

Escrevendo agora em termos de integrais:

dxxfyF X

x

x

x

x

x

Y )()(5

4

3

2

1

++= ∫∫∫ ∞−

Ora, )(11 ygxi

−= (imagem inversa)

EXEMPLO

)()( xuexfx

X

−= . Seja a transformação Y=X2, quem é fY? y>0:

yy

xy

XY edxedxxfyF−− −=== ∫∫ 1)()(

00

u(y)eyFy

Y

−−= 1)( . (deriva-se e obtém-se a densidade).

GENERALIZAÇÃO

dxxfyF X

x

x x

x

x

x

Yn

)(...)(5

4

3

2

1

++++= ∫ ∫∫∫

+∞

∞−

Para a determinação da densidade de probabilidade, usa-se a REGRA

DE LEIBNITZ

( ) ( ) ∫∫ ∂∂

+−=)(

)(

)(

)(),(

)(),(

)(),(),(

α

α

α

αα

ααα

αααα

αααα

a

b

a

bdxxf

d

dbbf

d

daafdxxf

d

d

Aplicando-a na expressão de FY

dy

dxxf

dy

dxxf

dy

dxxf

dy

dxxf

dy

dxxf

dy

dxxf

y

yFyf n

nXXXXXXY

Y )(...)()()()()()(

)( 44

55

22

33

11 −−+−+=

∂=

dy

dxxfyf i

iX

i

Y )()( ∑=

)(

1

1

))((yg

iiX

ii

dy

dxygf

−∑.

JACOBIANO da transformação

No caso de vetores aleatórios,

)(

111

||||))(()(yg

iX

i

Yi

Jygfyf−

−−∑=

Funções biunívocas e diferenciáveis:

Y=g(X), Y=(g1(X), g2(X),..., gn(X)).

∂∂

=

n

n

n

n

n

n

n

n

x

g

x

g

x

g

x

g

x

g

x

g

x

g

x

g

x

g

XJ

K

MMKM

K

K

2

2

2

1

2

1

2

1

1

1

)( use |det(J(X))|.

Exemplo resolvido.

A transformação de um vetor bidimensional gaussiano em coordenadas

polares, X e Y independentes.

(X,Y) →(r,θ).

Qual a distribuição conjunta da amplitude e da fase, frθ( r,θ)?

Sejam 22 yxr += ;

= −

x

ytg 1θ

O jacobiano da transformação é 2222

2222

yx

x

yx

y

yx

y

yx

x

yx

y

r

x

r

J

++−

++−

=

∂∂

= θθ

ryxJJ

11det||

22=

+== .

Assim, 2

2

2

22

22

22 22||

),(),( σσ

θ πσπσθ

ryx

XYr e

re

r

J

yxfrf

−+

===

Como θ não aparece em frθ, fθ(θ) deve ser constante (v.a. uniforme).

Como a variável fase é distribuida entre (0,2π):

)().(.2

1),(

2

2

22

θσπ

θ θσ

θ frfer

rf r

r

r ==−

As variáveis transformadas são indendentes:

amplitude Rayleigh e fase uniforme.

DESIGUALDADES CLÁSSICAS

“Jensen” CONVEXIDADE

A desigualdade de Jensen estabelece que

∫∫ΩΩ

µµ dgfgdf )( o

f é convexa em (a,b) e g∈L1(µ),

a≤g(x)≤b e µ(Ω)=1.

g é Lebesgue-integrável, i.e., +∞≤∫Ω

µgd

Observação: Se +∞≤

∫Ω

p

p dg

/1

|| µ diz-se que g∈Lp(µ).

DEFINIÇÃO (convexidade)

),(: baf → é dita ser uma função convexa se

∀x<y [ ] )()()1()1( yfxfyxf λλλλ +−≤+− ∀0≤λ≤1.

Ilustração:

Observação.

butsa <<<<∀ tu

tfuf

st

sftf

−≤

− )()()()( é uma condição equivalente.

• A derivada, se existir, é monotonicamente não-decrescente.

• A 2ª derivada, se existir, é sempre positiva (concavidade)

• ( )bax ,, ∈∀ ζ então )).((')()( ζζζ −+> xffxf

TEOREMA.

Se f é convexa em (a,b), então f é contínua em (a,b).

Exemplo de função convexa: f(x)=ex.

TEOREMA DE JENSEN

Seja µ uma medida em uma álgebra A definida no espaço Ω tal que

µ(Ω)=1. Se g é uma função real em L1(µ), com a<g(x)<b para todo x em

Ω, e se f é uma função convexa em (a,b), então:

∫∫ΩΩ

µµ dgfgdf )( o

.

Observação.

Este teorema não exclui os casos limites a=-∞, b=+∞.

PROVA.

Seja ∫Ω= µgdt : a<t<b.

Tome agora

st

sftf

−=

)()(sup:β ( st

sftf

−−

≥)()(

β , pois é o sup).

Concluímos que )()()( tstfsf −+≥ β (a<s<b), em particular, s=g(x),

obtemos

0)()())(( ≥+−− txgtfxgf ββ .

Integrando agora a expressão anterior, chega-se a:

( ) ( ) 0≥+−− ∫∫∫ ∫∫ ΩΩΩ ΩΩµβµβµµµ dtgddgdfdgf o .

Daí ( ) ( ) 0≥+−−∫ ∫∫Ω ΩΩttdgdfdgf ββµµµo donde

( ) ( ) 0≥−∫ ∫∫Ω ΩΩµµµ dgdfdgf o , concluindo a demonstração.

CONSEQUÊNCIAS

1) Se g(x)=x, obtemos a desigualdade:

( ) )(xfEXEf ≤

2) Se f(x)=ex ⇒ ∫∫ ΩΩ≤ µµ degd

gexp .

Suponha agora que Ω=p1,p2,...,pn e que µ(pi)=1/n (equiprováveis) e

tome g(pi)=xi∈ . Então:

( ) ( )nxxxx

n eeeen

xxxn

+++≤

+++ ...

1...

1exp 321

21

Fazendo yi=exp(xi), obtém-se

( ) ( )n

n

n yyyn

yyy +++≤ ...1

..... 21/1

21 importante!

média geométrica × média aritmética.

3) ∫∫ ΩΩ≤ µµ hdhdlogexp (tomando g=log h)

média geométrica média aritmética

Se 0:)( >= iip αµ , ∑ =i

i 1α (distribuição discreta arbitrária)

Chega-se a

nnn yyyyyy n αααααα +++≤ ........ 22112121

Generalização da relação entre médias harmônica & geométrica.

3) Sejam p e q expoentes conjugados, i.e,

111

=+qp ; 1<p<+∞

(ou seja, p+q=p.q)

TEOREMA- DESIGUALDADES BÁSICAS

Sejam p, q expoentes conjugados, 1<p<+∞. Seja X um espaço de

medida, com medida µ. Sejam f e g funções mensuráveis em X, com

valores na faixa [0, +∞]. Então:

(i) Desigualdade de Hölder Otto Hölder

∫ ∫∫≤X

q

X

qp

X

pdgdfgdf

/1/1

.. µµµ

(ii) Desigualdade de Minkowsky Hermann Minkowski

p

X

pp

X

pp

X

p dgdfdgf/1/1/1

)( ∫∫∫ +≤+ µµµ .

Hölder (PROVA)

∫ ∫∫≤X

q

X

qp

X

pdgdfgdf

/1/1

.. µµµ

:=A :=B

(p e q são expoentes conjugados, f≥0, g≥0 mensuráveis)

Sejam A

fF =: e B

gG =: funções

(casos A=0 ou B=0; A=+∞ ou B=+∞ Triviais)

Vejamos que

1=∫XpdF µ e 1=∫X

qdG µ .

substituindo,

11

=⇒=

∫∫∫

X

p

X

p

X

p

pX p

p

df

dfdf

Ad

A

f

µ

µµµ

;

11

=⇒=

∫∫∫

X

q

X

q

X

q

qX q

q

dg

dgdg

Bd

B

g

µ

µµµ

.

Dado x, ∃ s, t | psexF /)( = e qtexG /)( = .

tsqtps eqepe 11// −−+ +≤

eg é convexa, q

t

p

s+ =p

-1s+q

-1t é uma combinação convexa

ts eqepxGxF 11)()( −− +≤

Daí segue-se:

)()()()( 11 xGqxFpxGxF ts −− +≤ ,

pois sp exF =)( e tq exG =)( .

Integrando ambos os membros, deduz-se a desigualdade

∫∫∫−− +≤

X

q

X

p

XdGqdFpdxGxF µµµ 11)()(

Pela normalização, o 2º membro torna-se p-1+q-1. Como os expoentes

são conjugados (por escolha inicial), chega-se a

1)()( ≤∫X dxGxF µ .

Substituindo as expressões de F e G em termos de f e g,

1)()(

≤∫X dB

xg

A

xfµ ∴ BAdxgxf

X.)().( ≤∫ µ

e a demonstração é concluída! Q.E.D.

Para p=q=2, a desigualdade reduz-se à conhecida

DESIGUALDADE DE SCHWARTZ (Hölder p=q=2)

. ∫∫∫ ≤+

XXXdgdfdgf µµµ 22

22 .)(

Aplicação direta para variáveis aleatórias:

HÖLDER PARA V.A.s

Sejam f:=|X| e g:=|Y|

qqpp YEXEXYE ||.|||| /1/1≤ .

Minkowsky (PROVA)

p

X

pp

X

pp

X

pdgdfdgf

/1/1/1

)( ∫∫∫ +≤+ µµµ

Pode ser reescrita de modo compacto como ppp gfgf |||||||||||| +≤+

Partindo de

(f+g)p=f(f+g)p-1+g(f+g)p-1 [**]

Aplicando Hölder a cada das funções do 2º membro:

q

X

qpp

X

p

X

p dgfdfdgff/1)1(/11 )(.)( µµµ ∫∫∫

−− +≤+ (1ª função)

q

X

qpp

X

p

X

p dgfdgdgfg/1)1(/11 )(.)( µµµ ∫∫∫

−− +≤+ (2ª função)

Somando agora as desigualdades membro a membro, usando [**] no

1º membro, tem-se

[ ] [ ] qqpq

X

p

X

pp

X

p

X

p dgfdgdfdgf/1/1/1

)(.)(

++≤+

∫∫∫∫ µµµµ .

Dividindo adequadamente, chega-se a

[ ] [ ] p

X

pp

X

p

qp

X

X

p

dgdf

dgf

dgf /1/1

/1

)(

)(∫∫

∫+≤

+

+µµ

µ

µ

e a prova conclui. Q.E.D.

Casos particulares da desigualdade de Minkowsky:

2/12

2/12

2/12)( ∫∫∫ +≤+

XXXdgdfdgf µµµ

DESIGUALDADE Cr

Estabelece que r

r

r

r

r YECXECYXE |||||| +≤+

em que

≥=

1

1

1

2:

1

r

rC

r

r

Prova.

Considere f(λ)=λr+(1-λ)r.

Um esboço de f

Segue a cota:

1

1

1

2)(

1

≥−

r

r

se

sef

r

λ.

Conclusão: 1)( ≥λfCr , ∀r. (1)

Tome agora ||||

||

YX

X

+=λ e daí ||||

||1

YX

Y

+=− λ

Substituindo em (1), obtemos:

( ) ( )1

||||

||

||||

||≥

++

+ r

r

rr

r

rYX

YC

YX

XC .

⇒ ( )rr

r

r

r YXYCXC |||||||| +≥+ .

Tomando o valor esperado:

( )rr

r

r

r YXEYECXEC |||||||| +≥+

Usando finalmente a desigualdade triangular, chega-se a:

( )rr

r

r

r YXEYECXEC |||||| +≥+ ,

Completando a prova. Q.E.D.

DESIGUALDADE DE LYAPUNOV

Teorema. Vale a desigualdade rrssXEXE |||| /1/1 ≤ para r≥≥≥≥s>0.

Isto significa que Lr⊇Ls.

PROVA.

Defina a função tUEtf ||log:)( = , t≥0, função convexa.

Seja 2||:ht

UX

+

= e 2||:ht

UY

= , (∀h).

Da desigualdade de Cauchy-Schwartz, tem-se:

222 ||.|||| YEXEXYE ≤

Substituindo as variáveis X e Y em termos de U,

hthtt UEUEUE −+≤ ||.||||2

Tomando log(.) em ambos os membros, chega-se a

)(2

1)(

2

1)( htfhtftf −++≤ ∀∀∀∀h.

Observação. Se f é contínua e a desigualdade anterior se verifica, então f

é convexa.

f(0)=0

t

tf )( declividade, monótona crescente. (antilog=exp)

De t

tf )(↑ , antilog t

tf )(=antilog

ttt

UEt

UE||

||log /1= ↑

Da relação tt UE ||/1 ↑ segue a prova. Q.E.D.

SIMULAÇÃO MONTE CARLO

Estimativa de algibeira para o número de simulações necessárias

para estimar a freqüência relativa de evento de probabilidade p

(p desconhecida).

Suponha que você deseja simular um sistema e avaliar uma taxa de erros

ou taxa de acertos (e.g. de peças em uma linha de montagem, de uma

transmissão digital, taxa de colisão de partículas etc.).

A cada simulação, efetuam-se n repetições do evento e obtendo um

resultado diferente cada vez que a simulação for realizada. O valor

médio é um estimador da probabilidade p (vide anexo).

Embora p<<1 seja desconhecida (típico), deve simular de modo a

garantir um espalhamento pequeno em trono da média, digamos 10%

(ou 1%).

=0,1 (critério 10%)

EXEMPLO. Ao estimar em computador a probabilidade de um evento

que você “desconfia” em uma estimativa grosseira ter probabilidade da

ordem de 10-4, (querendo simular para encontrar uma estimativa

probabilisticamente confiável), use:

N.B. Se o valor da estimativa for , por exemplo, bem inferior

a sua estimativa inicial, refaça as contas sobre n e refaça a simulação...

O método clássico de simulação, chamado MONTE CARLO,

certamente não é indicado para avaliar a taxa de eventos com

probabilidades muito pequenas, e.g., 10-9. (see importance sampling)

ANEXO. Para um experimento de Bernoulli, k sendo o número de sucessos e n o número de repetições do experimento, k é uma variável aleatória com distribuição binomial.

E(k)=np e var(k)=σ2(k)=np(1-p).

Seja a estimativa de freqüência relativa para a probabilidade p do evento estudado (e repetido): . Como

k é uma variável aleatória, também o é.

1. , o estimador é não enviezado.

(o valor médio das diversas simulações tende a fornecer o valor de p)

2. de modo que o espalhamento relativo à média vale .

(p pequeno)

Integração Monte Carlo Hit or miss technique

0≤g(x)≤c em a≤x≤b. Deseja-se avaliar ∫=b

adxxgS )(:

Seja o espaço amostral 0,),(: cybxayx ≤≤≤≤∋=Ω

E uma distribuição 2D-uniforme contrário

yx

caso

seabcyxf YX

Ω∈

−=),(

0)(

1:),(,

)(:

Ω=

area

Sp N realizações aleatória.

estimador de freqüência relativa N

np hits=:ˆ

Convergências – pp =ˆ plim e pp =ˆ l.i.m. (ver-se-á após). ALGORITMO.

1. Gere 2N números aleatórias uniformes Uj 2. Arrange-os em N pares (U1,U’1), ..., (UN,U’N)

3. Calcule )( abUaX ii −+= e )( iXg i=1,2,...,N. 4. Conte o número de casos n hits para os quais g(Xi)>cU’i

5. Estime a integral por N

abcppzpabc

)()1.(ˆ)(

−−±− α

J. Von Neumann (EUA, imigrante Húngaro)

A Função Característica de uma variável aleatória Def. Dada uma v.a. de distribuição FX(.), define-se:

∫∫+∞

∞−

+∞

∞−== dxxfexdFejM X

xj

X

xj

X )()(:)( ννν .

Notações usuais: MX(.) ou (.)Xφ

Isto corresponde a transformada inversa de Fourier da densidade de

probabilidade da variável aleatória: )()( xfjM XX ↔ν .

Nota: MX poderia ter sido mais “naturalmente” definida como a TF da

densidade de probabilidade fX da v.a. X

Exemplo.

1) Variável uniforme X~ UUUU(a,b).

[ ]ajbjb

a

xj

X

xj

X eeabj

dxab

edxxfejM νννν

νν −

−=

−== ∫∫

∞+

∞− )(

11)()( .

A função característica é [ ]ajbj

X eeabj

jMνν

νν −

−=

)(

1)(

2) Variável exponencial . X~EEEE(λλλλ),

∫∫∞+∞

∞−==

0)()( dxeedxxfejM

xjx

X

xj

X

νλν λν .

νλλ

νj

jM X −=)( .

Exemplo: O caso Gaussiano.

1) Para uma v.a. de distribuição Gaussiana normalizada, X~NNNN(0,1)

2/2

2

1)( x

X exf −=π . Tem-se imediatamente

2/2

)( νν −= ejM X .

2) Uma variável gaussiana sob transformação afim,

22 2/)(

2

1)( σµ

σπ−−= x

X exf resulta em

2/22

)( σννµν −= eejMj

X .

3) variável de Poisson

∫ ∑∞+

∞−

=

−= dxixi

eejM

i

ixj

X

0

)(!

)( δλ

νλ

ν ( )∑

=

−=0 !i

ij

i

ee

νλ λ

)1()(νλν

je

X ejM −−= .

Propriedades da função característica. (10 propriedades)

i) Para todo ∈ν )0(1|)(| XX MjM =≤ν .

Claro que

∫+∞

∞−= )()0( xdFM XX e ∫∫

+∞

∞−

+∞

∞−=≤= 1)(|||)(||)(| dxxfexdFejM X

xj

X

xj

X

ννν .

ii) =− )( νjM X )(* νjM X óbvio.

iii) MX é uniformemente contínua em .

∫ ∫+∞

∞−

+∞

∞−

+ −=−+ )()()()(| )(xdFexdFejMhjM X

xj

X

xhj

XX

νννν

Mas [ ]∫∫ ∫+∞

∞−

++∞

∞−

+∞

∞−

+ −=− )()()( )()(xdFeexdFexdFe X

xjxhj

X

xj

X

xhj νννν

e

[ ] [ ]∫∫+∞

∞−

+∞

∞−−≤−=−+ )(1)(1)()(| xdFeexdFeejMhjM X

jhxxj

X

jhxxj

XX

νννν

de onde:

0)(1)(1|||)()(| →−=−≤−+ ∫∫+∞

∞−

+∞

∞−xdFexdFeejMhjM X

jhx

X

jhxxj

XX

ννν se h→0.

Assim, ενν ≤−+ |)()(| jMhjM XX h<δ

||.||)(||)()(11 XEhxdFxhxdFhxxdFjhx XXX ===−+= ∫∫∫+∞

∞−

+∞

∞−

+∞

∞−ε

||||

XE

εδ < .

iv) Transformação afim

=− )( νjM X )(* νjM X e =+ )( νjM baX

bj

X ejaM νν ).(

v) Geradora de momentos:

0

)()(=

∂−=

ν

νν

jMjXE Xn

nnn

vi) Fórmula de inversão:

∫∞+

∞−

−= ννπ

ν djMexf X

xj

X )(2

1)(

vii) De )()()Pr( −+ −== xFxFxX XX ,

∫−→==

n

nX

xj djMen

xX ννπν

ν )(2

1

0

lim)Pr( .

viii) MX(.) é semidefinida positiva:

[ ]∑∈

≥−Svu

X uhvhuvjM,

0)(*)()( , ⊂S , finito, h: → qualquer.

ix) iX v.a.’s independentes, e ∑=i

iXY : e a variável soma, então

∏=i

XY jMjMi

)()( νν .

x) Sequências de funções (Gnedenko 1962):

Se ∞

=1)(

nX jMn

ν é uma sequência de funções características, então:

∑ =≥ 1|0 nn λλ ⇒ ∑n

Xn jMn

)(. νλ é também uma função característica.

Teorema da unicidade. Se duas funções distribuição de probabilidade têm

a mesma função característica, então elas são iguais. decorre de Fourier

(as funções características são especialmente úteis nos teoremas limites).

Teorema (convergência de seqüências de distribuições).

(a) Seja nF uma sequência de funções distribuição com funções

características respectivas nM . Se Fn → F, então Mn → M, sendo a

convergência uniforme com respeito a x em qualquer intervalo finito

a<x<b.

(b) Suponhamos que

i) Mn converge em e define a função limite M;

ii) M é contínua na origem. Então:

Fn → F, em que F é uma função distribuição de probabilidade

M é a função característica da variável de distribuição F.

Série de Taylor para a função característica de uma v.a.

Suponha que a expansão em série de Taylor da função característica existe

em algum intervalo que contenha a origem. Então

[ ]∑+∞

=

=0 !

)()(

k

kk

Xk

jXEjM

νν .

A função característica fornece TODOS os momentos da variável aleatória.

Assim, “conhecer momentos” ⇔ “conhecer distribuição”.

Calcular os momentos (não-centrais) de uma distribuição gaussiana de média

nula e variância σ2.

X~ NNNN(0,σσσσ2).

Fazendo

...!2

1)1(...

8

1

2

11)( 2244222/22

+−+++−== − ll

l

l

Xl

ejM σνσνσνν σν

Chega-se a

par

ímpar

n

n

n

nXEn

n

=)!2/(2

!0

2/ .

avaliar: dxex x 4/10 2−+∞

∞−∫ , use σ2=2 n=10.

No caso de funções características conjuntas, seja o caso simples de apenas

duas variáveis X1, X2, com distribuição FX1,X2.

Mostra-se que

[ ]0,0

21,21

21

21

21),()(

==

++

∂∂

∂−=

νν

νννν

jjMjXXE XXmn

mnmnmn

generaliza-se facilmente ...

Função característica de vetor aleatório

X vetor n-dimensional: [ ]Xj

X

T

eEjMrr

rr νν =:)(

As propriedades são semelhantes, e.g., BXAY +=rr

. , A e B matrizes:

)(.)( νν ν T

X

bj

YjAMejM

Tr

rr

= .

Aplicação. Seja X um vetor aleatório bidimensional com função característica:

( )2122

21 .22

21 )),(()( ννννννν ++−== ejMjMXXrr

r.

Deseja-se o vetor média mX e a matriz de covariância KX.

1) )0,0(1

1

=∂

∂−=

νν r

XMjXE ... calculando-se:

[ ] 04)()0,0(211 =−−−=

=νννν r

rjMjXE X .

Idem para EX2.

Resultado:

=

0

0X

m r .

2) [ ] 11)4).(4().()( 1221

)0,0(21

22

21 =−++−=∂∂

∂−=

=

ννννννν

ν

rr

r

jMM

jXXEX

X

e 12112 == XXEXXE .

4)()0,0(

21

222

1 =∂

∂−=

=νν r

XMjXE e 42

122 == XEXE ,

Resultando em

=

41

14XK .

A VARIÁVEL SOMA

Considere uma v.a. X definida pela soma de N variáveis aleatórias

independentes, N

nnX 1= .

∑=

=N

n

nXX1

: .

A função característica para X é

= ∑

=

N

n

nX XjEjM1

exp)( νν .

Logo, ( )

= ∏

=n

N

n

X XjEjM νν exp)(1

. Desde que as v.a.’s são

independentes, o cálculo da esperança é desacoplado:

( )[ ] ∏∏==

==N

n

X

N

n

nX jMXjEjMn

11

)(exp)( ννν .

∏=

=N

n

XX jMjMn

1

)()( νν

A função característica da variável aleatória soma de

variáveis independentes é o produto das funções

características das variáveis individuais.

TRIVIA:

Z:=X+Y X e Y independentes.

)().()( ννν jMjMjM YXZ = e usando a transformada de Fourier:

)(*)()( zfzfzf YXZ = .

Convolução!

Caso particular— Soma de duas v.a.’s i.i.d. uniformes:

Z:=X+Y ⇒ )(*)()( zfzfzf YXZ = = ∏∏ =)(*)( zz )(zΛ .

VARIÁVEL aleatória CAUCHY

)1(

11)(

2xxfX +

=π e

||)( νν −= ejM X

Sejam N

nnX 1= i.i.d. Cauchy, e ∑=

=N

n

nXX1

: .

Qual a função característica de X?

VARIÁVEL chi-quadrada (qui-quadrada)

)()2/(2

)(2/

2/2/)2(

xun

exxf

n

xn

X Γ=

−−

e 2/)21(

1)(

nXj

jMν

ν−

=

Sejam N

nnX 1= i.i.d. Cauchy, e ∑=

=N

n

nXX1

: .

Qual a função característica de X?

COTAS SOBRE PROBABILIDADES

Desigualdade de Chebyshev (Pafnutti Tchebyscheff).

Dado ε>0 (arbitrariamente pequeno), X variável aleatória de

• Média mX

• Variância σX2

2

2

||Prεσ

ε XmX ≤>− .

Teorema. Se f≥a>0 em I⊂ , então

a

XfEIX

)(Pr ≤∈ .

Vejamos: )()()( xdFxfXfE X∫+∞

∞−= .

)()()()()( xdFxfxdFxfXfE XI

XI

C∫∫ += ⇒ )()()( xdFxfXfE XI∫≥

≥0

Enfraquecendo a desigualdade: Pr)()( IXaxdFaXfE XI

∈=≥ ∫

Q.E.D.

Aplicação. v.a. X, com média nula EX=0 e EX2=σ2

Seja

22

:)(

+=

axxf

σ.

Para x≥a>0, (intervalo I), 0)(2222

+≥

+=

aa

axxf

σσ.

Esboço:

2

2

2

)(Pr

+

≤≥

aa

xfEaX

σ ou seja,

2

2

2

2422 //2Pr

+

++≤≥

aa

aaXEXEaX

σ

σσ

Logo

22

2

2

2

2

242 /Pr

σσ

σ

σσ+

+

+≤≥

a

aa

aaX

ou 22

2

Prσ

σ+

≤≥a

aX . (cota).

COTA INFERIOR E SUPERIOR

Teorema. X uma variável aleatória e g≥0, g Borel mensurável

(toda imagem inversa é um conjunto na σ-álgebra de Borel)

Se g é par e não-decrescente em [0,∞).

Então ∀a≥0, tem-se

)(

)(||Pr

)(sup..

)()(

ag

XgEaX

xgsa

agXgE≤≥≤

Calculando Eg(X):

∫∫∫ ≥+=A

XA

XA

X xdFxgxdFxgxdFxgXgEc

)()()()()()()( ,

pois o 2º termo é positivo.

aXagxdFagxdFxgXgEA

XA

X ≥=≥≥ ∫∫ ||Pr)()()()()()( .

Por outro lado, )()( sup xgxg ≥ ou )()( sup.. xgxgsa ≥ a.e.

aXxgxdFxgxdFxgA

XA

X ≥=≤ ∫∫ ||Pr).( sup)()(sup)()( (I)

)(||Pr).( )()()()( agaXagxdFagxdFxgcc A

XA

X ≤≤=≤ ∫∫ (II)

Somando termo a termo,

)(||Pr).( sup)()( agaXxgxdFxg X +≥≤∫+∞

∞−

E finalmente

aXxgagXgE ≥≤− ||Pr).(sup)()( Q.E.D.

Corolário.

Desigualdade Generalizada de Chebyshev. Dado ε>0 arbitrário, tão

pequeno quanto se queira, g≥0,par não-decrescente em [0,∞).

)(

)(||Pr

εε

g

XgEX ≤≥ .

Com g(x)=x2 2

2

||Prε

εXE

X ≤≥ .

Para X-mx ← X Variável aleatória central

2

var||Pr

εε

XmX X ≤≥−

desigualdade de Chebyshev

DESIGUALDADE DE MARKOV

Tomemos g(x)=|x|r

r

rXE

ε ≤≥||Pr .

Observação.

Convergência em r-ésima média Xn → X se e só se .0→−r

n XXE

XXésimar

n

→ ⇔ .0→−r

n XXE

Exemplo.

Uma visita à versão fraca da LEI DOS GRANDES NÚMEROS

Uma sequência infinita de variáveis aleatórias ∞=1niY , estatisticamente

independentes (e possivelmente identicamente distribuidas)

Definamos ( )∑

=

−=n

i

iin YEYn

X1

)(1

: n=1,2,3,...

Essa nova seqüência de v.a.’s tem

• EXn=0

• Var(Xn)= n

iY

n

22

σσ =

Um esboço da versão fraca da Lei dos grandes números:

2

var||Pr

εε

XmX X ≤≥−

2

2

||Prε

σε

nX n ≤≥ →0 quando n→∞.

0||Pr0

lim=≥

→εnX

n

O estimador de frequência relativa é um estimador consistente (quando ele

converge em Probabilidade). Os conceitos de convergência de sequências de

variáveis aleatórias são requeridos.

COTA (EXPONENCIAL) DE CHERNOFF

Uma cota “apertada” – (tigth upper bound).

Usando a função característica. ∫+∞

∞−= ).(:)( xdFejM X

xj

X

νν

Passando ao plano real:

νjs ←

Seja ∫+∞

∞−= )()( xdFesM X

sx

X , s Real.

(chamemo-la função geradora de momentos, sentido estrito)

sX

X eEsM =)(

Seja sX

X eEsMs ln)(ln:)( ==µ .

∫+∞

∞−= )(ln:)( xdFes X

sxµ pela desigualdade de Jensen

XEsexdFesxxdFs

X

sx X

.ln)(ln:)()(

=∫≥=+∞

∞−∫+∞

∞−µ .

Dado ε>0, Avaliemos agora ε≥XPr :

∫ ∫+∞

∞=∞==≥ε

εεε )(),[),[)(Pr xdFIIExdFX XX

εε

εε εεε s

s

s

sX eEe

IeEe

xdFIX1

),[.1

)(),[Pr ≤∞=∞=≥ ∫

Em termos de µ(s), s≥0

εµµεε sss

see

eX −=≤≥ )()(1

Pr.

Resolvendo agora o problema de programação matemática (minimização)

εµ ss

s

tsMin −

)(

0

.. ⇒ [ ] 0)( =−

∂∂

εµ sss ou seja, ε

µ=

∂∂

s

s)( o que é atingido em um

s=s0 particular.

A cota (exponencial) desejada é

εµε 00 )(Pr sseX

−≤≥

Vejamos agora um caso de interesse.

Seja ∑=

=N

i

iXX1

: , com Xi i.i.d. e avaliemos εNX ≥Pr .

Isto equivale a considerar

≥∑=

εN

i

iXN 1

1Pr .

Da cota de Chernoff básica, εµε 00 )(

1

1Pr Nss

N

i

iXeX

N

=

≥∑ .

Mas ( )( ) ( ))(ln)(ln)(lnlnlnln)(11

1 sMNsMeEeEeEeEs Xi

N

Xi

N

i

sxN

i

sxxs

sx

Xii

N

i

i

==

==

∑== ∏∏

==

A cota de Chernoff no caso de variável soma i.i.d. torna-se:

( ))()(

1

00001Pr

ssNNssNN

i

iiXiX eeX

N

µεεµε −−−

=

=≤

≥∑ .

A cota (exponencial) de CHERNOFF desejada é

( )εε ,

1

01

Pr sNEN

i

i eXN

=

≥∑

Esta cota decresce exponencialmente com N, enquanto que a lei fraca dos

grandes números (com base na cota de Chebyshev) decresce apenas com

1/N.

UMA COTA EXPONENCIALMENTE APERTADA!

Pode ser demonstrado que o expoente E(s0,ε) é o maior possível, i.e., inexiste

uma cota exponencial da forma

'

1

1Pr NE

N

i

i eXN

=

≥∑ ε

Com E’ independente de N e tal que E’> E(s0,ε).

Por esta razão a cota de Chernoff é dita ser exponencialmente “apertada”

(tight bound).

APLICAÇÃO

Cota para uma variável Gaussiana. 2/2

2

1)( x

X exf −=π

2/2

)( νν −= ejM X . 2/2/)/( 22

)( sjs

X eesM == − ⇒ 2

)(2s

s =µ .

impondo εµ

=∂

∂s

s)(, tem-se ε=0s .

Assim, PrX≥ε pode ser exponencialmente cotada por

2/22

22

Pr εεε

ε −−

=≤≥ eeX

EXEMPLO DOIS.ZERO. (há carro 2.0!)

A cota para a variável ∑=

N

i

iXN 1

1 com Xi variáveis de Bernoulli.

p-1 prob. com

p prob. com

0

1

=iX

)1()( ppesM s

X i−+= ⇒ ( ))1(ln)( ppes s −+=µ .

De εµ

=−+

=∂

∂ s

sep

ppes

s..

)1(

1)( obtém-se

−−

=p

ps

).1(

)1.(ln0 ε

ε

( ) )1ln()1(ln.)1ln()1(ln.)( ..00 εεεεεεµε −−−+−−−=− ppssiX

Definindo:

)1ln()1(ln:)( ppTp −−−−= ααα e

)1ln()1(ln:)( ααααα −−−−=H

Mostra-se que:

( ))()(

1

1Pr εεε HTN

N

i

ipeX

N

−−

=

≥∑ , 1≤< εp .

Ou

( ))()(

1

1Pr εεε HTN

N

i

ipeX

N

−−

=

≤∑ , p<≤ ε0 .

Herman Chernoff (EUA, imigrante russo)

CONVERGÊNCIA DE SEQUÊNCIAS DE VARIÁVEIS ALEATÓRIAS

Sequências de números reais:

∞=1nnr rn→ r (rn converge para r)

se e somente se ∀ε>0 ∃ Nε ∋ | rn - r |<ε ∀ n> Nε

Variável aleatória X:Ω → Função real de variável real.

Conjunto de funções de valores reais:

∞=1nnf fn→ f (fn converge para f ponto a ponto)

Se e somente se ∀ε>0 ∃ Nε,x ∋ | fn (x)- f(x) |<ε ∀ n> Nε,x ∀x.

nf → f

)()( xfxfn → ∀x.

⇑ Seq. de números reais.

Convergência uniforme (já estudada em MMAT):

Usar Nε em lugar de Nε,x

Exemplo 1.

]1,0[∈x nx

n xenxf −= 2:)( claro que 0)(lim =

∞→

xf

n

n

.

0=→ ffn . A convergência é uniforme?

Critério.

Fn converge uniformemente ⇔

0)()(

]1,0[

suplim =−

∈∞→

xfxf

xn

n

.

Temos:

nx

n xen

x

xfxf

x

=−

2

]1,0[

sup)()(

]1,0[

sup.

Verificando o máximo: 0232 =+−= −−− nxnxnx enxenxendx

d

[1-n.x]=0 i.e., o ponto de máximo ocorre em nx

1= .

e

nxen

x

nx=

−2

]1,0[

sup

+∞=

∈∞→

−nxxen

xn

2

]1,0[

suplim e a convergência não é uniforme.

Graficamente:

Ver Animação.

Exemplo 2.

Xn(ω)→ X(ω)=0 (mas não uniformemente).

Dado ω0 ∃ N ∋ n>N ⇒ 2/n< ω0

+∞=

∞→

=

∈∞→

n

n

X

n

n lim|)(|

]1,0[

suplim ω

ω .

Exemplo 3. n

n eX /:)( ωω −= , com ].1,0[∈ω

Xn(ω)→ X(ω)=1 (converge uniformemente).

?)()(

]1,0[

suplim =−

∈∞→

ωωω

XX

n

n

nn ee // 1

]1,0[

sup1

]1,0[

sup ωω

ωω

−− −∈

=−∈ . Mas em ]1,0[∈ω , 1//1 ≤≤ −− nn ee ω

e

portanto, 0|1|lim)()(

]1,0[

suplim /1 =−

∞→

=−

∈∞→

− n

n e

n

XX

n

ωωω .

CONVERGÊNCIA COM PROBABILIDADE 1

Def. ∞=1nnX diz-se que Xn→ X c.p.1 (p.s. = a.s.) se e só se

1)()(lim

Pr =

=

∞→∋

ωω XX

nw

n

. Denota-se também XXsa

n

..

→ .

Conseqüencia. 0)()(lim

Pr =

∞→∋

ωω XX

nw

n

.

São equivalentes as seguintes proposições.

Xn→ X c.p.1 se e só se ∀δ>0, ∀ε>0 ∃Nδ,ε ∋

δεωωεδ

−>

<−∋

>

1|)()(|Pr,

XXw n

Nn

I (conjuntos bons)

δδεωωεδ

=−−<

≥−∋

>

)1(1|)()(|Pr,

XXw n

Nn

U (conjuntos ruins)

δεωω

εδ

−>

<−

>∋ 1

|)()(|supPr

,

XX

Nnw

n

.

CONDIÇÕES

I) Necessária

Pr(Bn)→0 quando n→∞

∑>>

→≤

Nn

n

Nn

n BPBP 0)(U

Obs. Suponha que nnBP2

1)( = . Pr(Bn)→0 quando n→∞

mas

>U

Nn

nBP pode não ser menor que um δ>0 arbitrário

Exemplo- bolo à francesa .1=

>U

δNn

nBP

II) Suficiência para convergência cp 1

δδ

<

>U

Nn

nBP Bn = bad sets

Bn ↓ i.e. nB seja sequência monotônica não crescente

Neste caso, Un

Nk

nk BBδ>

= ⇒ 0)( →=

>n

n

Nk

k BPBP Uδ

.

III) outra condição e suficiência com probabilidade 1 (conv. certa)

∑≤

)( nn BPBP U e Pr(Bn)→0 quando n→∞.

Suponha que ∑∞

=1

)(n

nBP seja convergente (cond.)

Então ∑>

<⇒>∋∃δ

δδδNn

nBPNnN )( e, portanto, δδδ

<≤

∑>> Nn

n

Nn

k BPBP )(U .

Convergência em média r-ésima

Definição.

0

lim→

−∞→

r

n XXE

n ∀r>0 .

O espaço Lr é fechado em relação à convergência em média r-ésima

Notação para r=2: XX

n

mil n =

∞→

...

Proposição:

se XXr

n → então rr

n XEXE

n

=∞→

lim

i) para 0<r≤1, usando a desigualdade-Cr

rr

n

r

n

r

n XEXXEXXXEXE +−≤+−=

r

n

r

n

rXEXXEXE +−≤

Denominaremos por

r

n

rr

n XXEXEXEz −≤−=:

r

n

r

n

rXXEXEXEz −≤−=−

0||0 ↓−≤−=≤r

n

rr

n XXEXEXEz pois XXr

n →

ii) r>1 Usar a desigualdade de Minkowsky

Convergência em Probabilidade

Definição. Seja ∞=1nnX uma sequência de variáveis aleatórias. Diz-se que

Xn converge para X em probabilidade se e só se

( ) 0|)()(|Prlim =≥−∋

∞→

εwXwXw

n

n

Notamos por XXP

n → i.e., para convergência em probabillidade exigimos

que

( ) δ≤nBP para todo n>Nδ,ε.

ou seja,

( ) 0Prlim =

∞→nB

n

Bn são “conjuntos ruins”:

ε≥−∋= |)()(|: wXwXwB nn .

Notação: XX

n

p n =

∞→

lim

Proposição. XXr

n → ⇒ XXP

n →

Prova. Pela cota de Markov, ( ) r

r

n

n

XXEXX

εε

−≤≥−≤ Pr0

Mas XXr

n → ⇔

0lim =−∞→

r

n XXE

n

⇒ ( ) 0Prlim =≥−

∞→

εXX

n

n

e logo XXP

n → .

Claro que a inversa não é verdadeira em geral. Mas, sob certas condições,

XXP

n → ⇒ XXr

n → . Vejamos:

Proposição.

Se 0

1lim =

−+

∞→r

n

r

n

XX

XXE

n (implica

0lim

→−

∞→

r

n XXE

n ), então

XXP

n → ⇒ XXr

n → .

Prova.

Seja X uma v.a. arbitrária e g em uma função de Borel não-negativa. Se g

é par e não-decrescente em [0,∞), vale ∀a>0

)(

)(||Pr

)(..

)()(

ag

XgEaX

xSupgsa

agXgE≤≥≤

Para este caso, tome r

r

X

Xxg

||1

||)(

+= . Chega-se a (a.s. sup g(x)=1):

++

≤≥≤+

+ r

r

r

r

r

r

r

r

X

XE

a

aaX

a

a

X

XE

||1

||1||Pr

1||1

||

Substitua X por Xn-X; a por ε, logo

−+

−+≤≥−≤

+−

−+

−r

n

r

n

r

r

nr

r

r

n

r

n

XX

XXEXX

XX

XXE

||1

||1||Pr

1||1

||

εε

εε

ε

01

lim =

−+

∞→r

n

r

n

XX

XXE

n ⇔ bad sets de prob. Nula ou XXP

n → .

DISTÂNCIA entre variáveis aleatórias

−+

−=

YX

YXEYXd

1:),( é uma distância, exceto que d(X,Y)=0 ⇒ X=Y p.p.

Teremos um espaço completo de classes equivalentesde variáveis

aleatórias.

Proposição: XXsa

n

..

→ c.p. 1 ⇒ XXP

n →

(convergência forte implica em convergência fraca)

Prova.

Se há c.p.1 então δεδ

>U

,Nn

kBP .

εδ ,Nn >∀ , Uεδ ,Nn

nn BB>

⊂ ⇒

>U

εδ ,

)(Nn

nn BPBP.

Conclui-se então que δ≤)( nBP εδ ,Nn >∀

o que significa que 0)Pr(lim =

∞→nB

n ⇒ XXP

n → Q.E.D.

Convergência em Distribuição

Definição. Seja ∞=1nnX uma sequência de variáveis aleatórias. Diz-se que

Xn converge para X em distribuição se e só se

)()(lim xFxF

n

XX n=

∞→ nos pontos de continuidade de FX.

Notamos isto por XXd

n → .

Teorema. XXP

n → ⇒ XXd

n → .

Prova.

(X<x’)= (Xn<x,X<x’) ∪ ( Xn≥x,X<x’) ⊂ (Xn<x) ∪ ( Xn≥x,X<x’)

Disjuntos

P(X<x’)≤ P(Xn<x) + P( Xn≥x,X<x’).

Consideremos x’<x:

P( Xn≥x,X<x’) ≤ P(|Xn-X|≥x-x’) →0 qdo n →∞, pois XXP

n → .

Assim,

)'|Pr(|)()'( xxXXxFxF nXX n−≥−+≤

donde

)(inflim)'( xFxFnXX ≤ , x’<x.

Similarmente, mostra-se que

)''()(suplim xFxF XX n≤ , x’’>x.

Coletando os resultados, segue-se

)''()(suplim)(inflim)'( xFxFxFxF XXXX nn≤≤≤ para x’<x<x’’

Portanto, se x∈Continua FX, então fazendo x’↑x e x’’↓x, tem-se

)()(lim xFxF

n

XX n=

∞→ Q.E.D.

LEIS DOS GRANDES NÚMEROS

Desejamos examinar a convergência de uma soma de variáveis aleatórias

quando a soma é normalizada subtraindo-se o seu valor esperado e dividindo-

se o resultado pelo número de termos da soma.

Considere a sequência ∞

1iX e defina ∑=

=N

i

iN XS1

: . Queremos examinar a

convergência da sequencia de variáveis ∞•1NS , aonde

[ ]1

: NNN SESN

S −=•.

Tem-se

[ ]∑∑∑===

• −=

−=

N

i

iii

N

i

N

i

iN XEXN

XEXN

S111

1

1

: .

Em particular, temos interesse nas condições exigidas que asseguram que

∞•1NS converge para zero de alguma maneira.

Se a sequência de variáveis aleatórias iX , verificando EXi<∞ para cada i,

é tal que:

a) 0..sa

NS →• então dizemos que a sequência dos iX obedece à Lei

forte dos grandes números.

b) 0P

NS →• então dizemos que a sequência dos iX obedece à Lei

fraca dos grandes números.

c) 0r

NS →• então dizemos que a sequência dos iX obedece à Lei

média r-ésima dos grandes números.

Convergências possíveis para a média amostral.

Efeitos da normalização.

Consider o caso em que os iX são v.a.’s i.i.d. com segundos momentos

finitos. Neste caso, definindo NN SN

S1

:=

∑=

==N

i

iN XEXEN

SE1

1

e 01 2

1

22

2 →== ∑= NN

XN

i

XS iN

σσσ

VERSÕES FRACAS – Weak law of large numbers

Teorema. Para que a sequência de variáveis aleatórias iX , possivelmente

dependentes seja tal que 0P

NS →•, é necessário e suficiente que

0][

][lim

1

2

1

=

−+

∞→ ∑

=

=r

N

i

ii

rN

i

ii

XEXN

XEX

E

N para algum r>0.

Prova.

Sabemos que YYP

N → se e somente se 01lim

=

−+

∞→r

n

r

n

YY

YYE

N .

Então substituindo nN YS ←• e Y←0 , vem

0P

NS →• ⇔ 01

lim=

+∞→•

r

N

r

N

S

SE

N

( )

( )0

1

1

1

lim

1

1

=

−+

∞→ ∑

=

=

rN

i

ii

rN

i

ii

XEXN

XEXN

E

N e o resultado segue.

Gostaríamos de condições estipuladas em termos das variáveis Xi.

Teorema de Markov (condição de suficiência).

Se as variáveis aleatórias iX são tais que 0var

1lim1

2=

∞→∑

N

iXN

N , então

0P

NS →•.

Prova.

r

Nr

N

r

NS

S

S•

≤+1 ⇒

r

Nr

N

r

NSE

S

SE •

+≤

10

.

Então 0→• r

NSE (cond. Suf.?) ⇒

01

+ •

r

N

r

N

S

SE

(cond. nec. e suf.?)

( ) ∑∑==

• −

−=N

i

r

iir

rN

i

ii

r

N XEXEN

XEXN

ESE11

1

1

a

Fazendo r=2, ... ∑=

−N

i

ii XEXEN 1

2

2 1

0

1lim1

2

2 =−

∞→∑

=

N

i

ii XEXEN

N

0)).((

1lim1 1

2 =−−

∞→∑∑

= =jj

N

i

ii

N

j

XEXXEXEN

N , ou seja,

0var1lim

12

=

∞→∑

N

iXN

N Q.E.D.

Observações: casos particulares de interesse.

1) iX i.i.d.

01lim1

var1lim 2

1

22

12 =

∞→==

∞→∑∑ X

N

X

N

iN

NN

XN

Ni

σσ

(esta é uma versão Chebyshev da Lei fraca dos grandes números).

2) Caso sério

iX independentes com médias finitas

0

1lim1

1

1 =−

∞→∑

=

+

+

N

i

ii XEXEN

N

δ

δ

⇒ 0P

NS →•

Organizando o resultado para enunciado formal:

Teorema de Chebyshev (condição suficiente).

Se iX é uma sequência de variáveis aleatórias não-correlacionadas (ou

independentes) par-a-par, com variâncias finitas ∞<2

iXσ e

∑ =∞→

N

X iNN 1

22

01lim σ

, então 0P

NS →•.

Nota. A demonstração é um caso particular, mas pode ser feita mais facilmente via a desigualdade de Chebyshev.

Pafnuty Chebyshev

CONVERGÊNCIA DA FREQUÊNCIA RELATIVA.

Teorema de Bernoulli. Seja K o número de ocorrências de um evento em N

realizações independentes de um experimento e seja p a probabilidade de

ocorrência de A em cada realização. Então:

pN

KZ

P

N →=: , i.e., 0||Prlim

=>−∞→

εpZN

N ∀ε>0.

Em notação simplificada: pZ

N

p N =

∞→

lim

Teorema de Poisson. Se em uma sequência de realizações de um

experimento, a probabilidade de ocorrência de um evento na i-ésima

realização é pi, então se

N

KZ N =: , ∀ε>0, 1|

1|Pr

lim

1

=

<−∞→ ∑

=

εN

i

iN pN

ZN .

(este é um caso mais geral do que aquele do teorema de Bernoulli, que

corresponde ao caso particular pi=p)

Lei Forte dos Grandes Números (Strong Law of large numbers)

RESUMO.

FREQUÊNCIA RELATIVA.

Teorema de Borel. Seja K o número de vezes que um evento A ocorreu em N realizações independentes de um experimento de Bernoulli, sendo a probabilidade de ocorrência em cada realização igual a p. Defina

realização ésima-i naocorreu Se

realização ésima-i naocorreu Se

0

1Ci

A

AX

=

Então

∑=

=N

i

iXNN

K

1

1, e ( ) 0

1:

1

..

∑=

• →−=N

i

sa

iN pXN

S .

[a demonstração usa a desigualdade de Makov com r=4]

Émile Borel

Teorema de Kolmogorov. Se a seqüência de variáveis aleatórias

mutuamente independentes iX satisfaz à condição

∑ ∞<∞→

NX

NN

i

1

2

lim σ

, então 0..sa

NS →•.

ARGUMENTO DO TEOREMA CENTRAL DO LIMITE

Teorema. Para um conjunto de variáveis aleatórias independentes e

identicamente distribuidas (i.i.d.) com os dois primeiros momentos finitos, a

média amostral N

XN

i

i∑==ℵ 1: tende para uma distribuição gaussiana quando o

número de variáveis cresce sem limite.

(imagine a estimativa do comportamento de grandes populações- notas de

exames, altura ou peso de individuos, taxas bioquímicas, ruído provindo de

muitas pequenas fontes etc.) Livro=[Wilbur Davenport]

(elegante) Prova.

Vamos considerar a v.a. normalizada )(

)(:

ℵℵ−ℵ

EY , com claramente

E(Y)=0 e σ2(Y)=1.

Tomando-se E(Xi)=m<+∞ e σ2(Xi)= σ2<+∞, tem-se:

mN

Nm

N

XE

E

N

i

i

===ℵ∑

=1

)()( (não enviezado)

NN

XN

i

i 2

21

2

2

)()(

σσ

σ ==ℵ∑

= (reduzindo a incerteza pelo aumento da população)

2/11

/

1

N

mXN

Y

N

i

i

σ

−=

∑=

, ou seja, 2/11

/

)(1

N

mXN

Y

N

i

i

σ

−=

∑=

∑=

−=

N

i

i mX

NY

12/1

1

σ .

Definimos uma nova variável aleatória normalizada zeta

σζ

mX ii

−=:

, com 0)( =iE ζ ; 1)(2 =iζσ

Média amostral normalizada ∑=

=N

i

iN

Y1

2/1

.

A função característica de Y é

===

2/11

)( Nj

yj

Y

N

i

i

eEeEjM

ζ

ννν

ou

= ∏=

N

i

Nj

Y

i

eEjM1

2/1

)(ζ

ν

ν.

Como os Xi’s são independentes, também o são os ζi’s

N

Nj

NN

i

Nj

YN

jMeEeEjMii

=

=

= ∏

=

)()(2/1

1

2/12/1 νν ζ

ζν

ζν

.

Vamos expandir a função característica M(.) em série de Taylor:

+−=

NA

NNjM

νννζ 2

1)(2

2/1.

(lembrando das propriedades de geração de momentos e que 0)( =ζE ;

1)(2 =ζσ ).

É fácil verificar que 0.lim

2=

+∞→ NA

N

N

ννν

(em particular, quando ν é fixo e N→∞)

Tomando o logaritmo de MY(jν), tem-se:

+−=

NA

NNjMY

ννν

2

1log)(log .

Usando o fato que

)()1log( zBzz +=+ em que ∫ +−=

z

dtt

tzB

0 1)(

.

***

Veja que tomando a derivada, )('11

1zB

z+=

+ ∴ )('1

zBz

z=

+− , com B(0)=0.

***

+−+

+−=

NA

NBN

NANjMY

ννννν

2..

2)(log

22

.

Mas

02

1)(0

→=≤ ∫z

tdtzz

zB z

quando 0→z .

Lembrando que

0. →

NAN

ν quando N→∞, então no limite, o comportamento é ditado por:

2)(log

lim 2νν −=

∞→jM

NY ∴

−=

∞→ 2exp)(

lim 2ννjM

NY .

Como )( νjMY é contínua em ν=0, a transformada )()( yfjM YY ↔ν verifica

−=

∞→ 2exp

2

1)(

lim 2y

yfN

Yπ Q.E.D. linda demonstração .

VERSÕES DO TEOREMA CENTRAL DO LIMITE

• Teorema de Lindenberg-Lévy

• Teorema de Liapunov

• Teorema de Berry-Esseen

Para detalhes, consultar livro do Feller.

TEOREMA CENTRAL DO LIMITE

Soma ∑=

=n

i

in XS1

: e soma normalizada ( )n

nnn

S

SESS

σ

:*−

=

Densidade, distribuição e função característica

)(* spnS ,

)(* sPnS ,

)(* νjMnS

(limite: 2/2

2

1:)( s

S esp −=π e ∫ ∞−

=s

S dpsP ξξ )()()

ESTUDO

1 condições sobre as quais SSd

n →* ?

2 condições sobre as quais )()(lim * spsp

n

SSn

=

∞→

3 quais são os erros envolvidos? (aproximações com n grande, porém finito)

Teorema de Lindenberg-Lévy: Se os termos em iX são

i) identicamente distribuidos

ii) independentes

iii) têm média m finita e variância σ2 finita, não nula

Então

SSd

n →*, i.e., a probabilidade do evento descrito abaixo,

( )

≤−+++

= sn

nmXXXS n

...21*tende para )(sPS

Teorema de Liapunov. Se os termos em iX são

i) não identicamente distribuidos

ii) independentes

iii) EXi=mi<∞ e momentos centrais absolutamente finitos

)(: 2

2

iii XmXE δδ

µ +

+=− para algum δ>0.

iv) Condição de Liapunov

0)(

lim2

12

=∞→ +

=+∑

δ

δ

σ

µ

nS

n

i

iX

n para algum δ>0.

Então SSd

n →*, i.e.,

( )

≤−+++

= sn

nmXXXS n

...21*tende para )(sPS

Teorema de Lindenberg: Se os termos em iX são

i) não identicamente distribuídas

ii) independentes

iii) mi<∞ e σ2i<∞

iv) se

0)()(

lim2

1||

2

=−

∞→

∑∫=

>−

n

nSii

S

n

im

Xi dpm

n σ

ξξξεσξ

∀ε>0.

Então SSd

n →*.

Teorema do erro 1.

Se )( 33 XEm = existe e

v

X jM )( ν , para algum v≥1 é integrável, então

)(* spnS existe para n≥v e além disso

+−−=

nspss

n

mspsp SSSn

1)()3(

6)()( 3

33

* οσ .

Teorema do erro 2.

Se 03=m e )( 44 XEm = existe e

v

X jM )( ν , para algum v≥1 é integrável,

então )(* spnS existe para n≥v e além disso

++−−

−=n

spssn

mspsp SSSn

1)()36(

24

3)()( 24

4

44

* οσ

σ.

Teorema de Berry-Esseen.

Se EX=0 e EX3:=µ3 existe, então

nsPsP sSn 3

3

4

33)()(*

σµ

<− ∀n,s

VISÕES MODERNAS

O TEOREMA CENTRAL DO LIMITE:

Uma abordagem via Teoria da Informação

Uma abordagem atipica, porém atrativa e interessante, considera o uso de

ferramentas da Teoria de Shannon para estabelecer teste de hipóteses,

teorema central do limite etc.

Considere a breve revisão dos conceitos de

ENTROPIA e ENTROPIA DIFERENCIAL

ENTROPIA

Distribuição pk ∑−=k

kk ppH 2log:)(p

Distribuição p(x) ∫+∞

∞−−= dxxpxpxpH )(log)(:))(( 2

Desigualdade de potências-entropicas

Sejam X e Y independentes, contínuas e de variância finita. Então a entropia

diferencial diferencial satisfaz

)(2)(2)(2 YHXHYXH eee +≥+.

(prova p.287, R.Blahut, principles and practice of Information Theory, Addison-Wesley)

Digressão: Discriminante de Kulback

Dadas duas distribuições p0 e p1, o discriminante de Kulback é definido pela

relação:

• ∑=

=1 1

0010 ln:);(

k kp

kk

p

ppL pp caso discreto

• ∫∞+

∞−= dx

xp

xpxpppL

)(

)(ln)(:);(

1

0010 caso contínuo

O discriminante é invariante a troca de coordenadas, tais como mudanças de

escala ou rotação dos eixos.

Teorema. (gaussianidade).

Se p1* tem distribuição gaussiana e p0 é arbitrária, então L(p0; p1

*) atinge o

mínimo quando p0 é também gaussiana.

Teorema. (medida de distância para distribuições de probabilidade).

O discriminante é não-negativo, ou nulo somente quando seus argumentos

são idênticos.

Prova.

Segue da desigualdade fundamental da teoria da Informação x

x1

1ln −≥ .

011ln:);(

00|1

11 0

10

1 1

0010 ≥−≥

−≥= ∑∑∑

≠===pkk

k

k

k kp

k

k

k kp

k

k pp

pp

p

ppL pp

.

Teorema (convexidade do discriminante).

O discriminante é convexo em cada dos seus argumentos, i.e., dado um

escalar ]1,0[∈λ , então:

);()1();();)1(( 1010100 pqpppqp LLL λλλλ −+≤−+

);()1();();)1(;( 1110110 qpppqpp LLL λλλλ −+≤−+ .

Definição: o discriminante binário é definido pela relação

βα

αβα

αβα−

−−+=

1

1ln)1(ln:),(L . (convexo e igual a zero sse α=β)

Discriminante: Define uma “Distância entre duas distribuições”

Dada uma sequência de variáveis aleatórias i.i.d. ∞=1llX , Xl~(m,σ2), e a

variável soma normalizada

∑=

=n

l

ln Xn

Y1

1:

∞=1nnY não são identicamente distribuidas, mas sua densidade converge

para uma gaussiana: especificamente, se Z~ N(0,σ2), então

0);( →ZYL n quando n→∞.

Teorema central do limite (segue como corolário).

Teorema 2

|)()(|log2

1

)(

)(ln)(

−≥ ∫∫

∞+

∞−

∞+

∞−dxxqxp

edx

xq

xpxp .

Prova.

Passo1 ]1,0[∈p , pq ≤ , tem-se 2)(

log2

4

1

1ln)1(ln qp

eq

pp

q

pp −≥

−−+ .

Considere então a def. 2)(

log2

4

1

1ln)1(ln:),( qp

eq

pp

q

ppqpf −−

−−+= com

f(p,q)=0 ⇔ q=p.

A derivada 0<∂∂q

f .pq <∀

Calculando: 0log

1

)1()(4

),(≤

−−

−−=∂

∂eqq

qpqp

q

qpf .pq <∀ .

Portanto, f(p,q)≥0 para 10 ≤≤≤ pq , completando a demonstração.

Passo2.

Seja ).()(|: xqxpx ≥=℘

[ ]2)()(log2

4

)(

)(ln)(

)(

)(ln)();( ℘−℘≥

℘℘+

℘℘≥ qp

eq

pp

q

ppqpL

C

CC

em que ∫℘=℘ dxxpp )(:)( , ∫℘=℘ dxxqq )(:)( .

Agora notando que dxxqxpdxxqxpqpC

)()()()()()( −−=−=℘−℘ ∫∫ ℘℘ ,

dxxqxpqp )()(2

1)()( −=℘−℘ ∫

∞+

∞− , concluindo que 2

)()(log

2);(

−≥ ∫

∞+

∞−dxxqxp

eqpL

Q.E.D.

Teorema (LIMITE CENTRAL).

A variável aleatória soma padronizada ∑=

=n

l

ln Xn

Y1

1:

satisfaz

0);( →ZYL n quando n→∞.

Esboço da prova.

Provaremos apenas que );( ZYL n e monotona, decrescendo a um limite.

A desigualdade de entropia para duas variáveis X e Y independentes é

)(2)(2)(2 YHXHYXH eee +≥+ (igualdade iff X=Y=Z=gaussiana).

Sejam

XX ←α

YY ←−α1 .

De TI, )ln()()( aXHaXH += .

Então:

)(2)(2))1((2 ).1(. YHXHYXHeee αααα −+≥−+

.

Multiplicando por

+∞

∞−dxxx )(ln)(2exp φφ , em que φ~ N(0,σ2), e usando o fato que

∫∫+∞

∞−

+∞

∞−−=− dxxxpdxxx )(ln)()(ln)( φφφ quando p(x) tem a mesma variância que

φ(x), a desigualdade torna-se:

);(2);(2);)1((2 ).1(. ZYLZXLZYXLeee −−−+− −+≥ αααα

A cota pode ser enfraquecida via desigualdade de Jensen, resultando em

[ ]);()1();(2);)1((2 ZYLZXLZYXLee αααα −+−−+− ≥

ou finalmente,

);()1();();)1(( ZYLZXLZYXL αααα −+≤−+ ,

Com igualdade se e só se X e Y são gaussianas.

A conclusão da demonstração é elaboraa: em linhas gerais

XYn ← YYm ←' mn

n

+=α e chega-se a

( ) ( )ZYLZYL rr ;;22 1 ≤+ com igualdade se e só se rY

2 é gaussiana.

Isto permite mostrar que:

( )↓ZYL r ;2 e adicionalmente, sabe-se que ( ) .0;

2≥ZYL r

Nota final.

A conclusão da demonstração requer demonstrar que a sequencia

( ) ∞

=12;

rZYL r não pode se estabilizar (travar, convergir) antes do zero e

continua decrescendo indefinidamente.

Processos Estocásticos: (processos aleatórios)

Coleção indexada de variáveis aleatórias: uma versão “dinâmica”.

T=conjunto de indices

TtX t ∈,

Teoria no Século XX, com base no gigante A. Kolmogorov.

Obs: ⊂− )(1 janelasX t a

( )iti bXai≤≤Pr

≤≤ )(Pr iti

i

bXaiU

CLASSIFICAÇÃO DE PROCESSOS

1. Processo estocástico de parâmetro contínuo ||T||=2c

2. Processo estocástico de parâmetro discreto ||T||<∞ ou ||T||=ℵ0

Fixado w∈∈∈∈ΩΩΩΩ,

X(w,t) são chamadas de “funções amostrais” ou trajetórias de um

processo estocástico

Fixado t1∈∈∈∈T,

X(w,t1) é uma variável aleatória.

Variável aleatória

w X

ΩΩΩΩ x (ΩΩΩΩ, ,P) ( , ,P’)

Teorema de Kolmogorov MAPEAMENTO

w Xt

ΩΩΩΩ (ΩΩΩΩ, ,P) ( , ,P’)

A’⊂ )'(1AXA t

−=

P’(A’):=P(A), desde que A∈

A idéia é usar ( n, ,Π) em lugar de ( , ,P’)

⊂⊂⊂⊂ ⇒⇒⇒⇒ Π é uma restrição de P' a

EQUIVALENCIA DE P.E.’s

Dois processos estocásticos TtX t ∈, e TtYt ∈, são ditos equivalentes

se e só se Xt(w)=Yt(w) c.p.1.

TOPOLOGIA

Intervalos abertos em

Intervalos de Base em n aj<X(tj,w)<bj j=1,2,3,...,n.

Intervalo aberto

Uniões, intersecções e outras operações finitas com intervalos abertos em

formam a álgebra . Tome como a menor σ-álgebra que contém todos os

intervalos abertos.

Função amostral ou Realização de um P.E. (trajetória)

É uma generalização do conceito de variável aleatória (versão dinâmica): a

cada instante, tem-se uma variável aleatória diferente!

t fixo

X(w1,t)

t

X(w2,t)

Figura. Fixado um instante arbitrário de tempo, o processo aleatório torna-se uma simples

variável aleatória.

Xt1 é uma variável aleatória,

⇒ logo tem sentido a distribuição ( )11 11Pr)( xXxF tX t

≤=

Distribuições marginais:

( )11 11Pr)( xXxF tX t

≤=

( )22 22Pr)( xXxF tX t

≤=

...

( )ntnX xXxF

ntn≤= Pr)(

Funções distribuição finito-dimensionais: ∀∀∀∀n, ∀∀∀∀t1,...,tn,

( )ntntttnnXXXX xXxXxXxXxxxxFnntntntt

≤≤≤≤= −− −−,,...,,Pr),,...,,( 121121..., 121,1,2,1

Especificação de ordem m de um P.E.

Um P.E. está especificado até ordem m se todas as funções de distribuição

finito-dimensionais são conhecidas para n=1, 2, ..., m, para instantes de tempo

arbitrários.

Especificação de um P.E.

Para todo n finito, suponha que conhecemos a função distribuição de

probabilidades acima: o Processo Estocástico está especificado.

Condições de Kolmogorov. (sobre as distribuições finito-dimensionais)

1. Condição de simetria:

∀ permutação j1,j2,...,jk dos índices 1,2,..,k,

F(xj1 xj2 ... xjk; tj1 tj2 ... tjk)=F(x1,x2,...;t1,t2...tk).

2. Condição de compatibilidade ∀m<k

F(x1,x2,..xm,+∞,...,+∞ ; t1,t2...tm,...,tk) = F(x1,x2,...xm;t1,t2...tm).

A especificação completa de um processo estocástico geral é, na vasta e

quase totalidade dos casos, excessivamente complexa e frequentemente

impossível.

Alguns processos aleatórios são mais estruturados, mais simples de

serem estudados e muito empregados para modelar situações práticas.

PROCESSO ESTACIONÁRIO SENTIDO ESTRITO

Definição. Um processo aleatório é dito ser estacionário no sentido estrito se

e somente se escolhidos quaisquer instantes finitos, as funções de distribuição

finito-dimensional são invariantes a um deslocamento na origem dos tempos.

t1 t2 t3

Figura. Estacionaridade de funções de distribuição finito-dimensionais (N=3).

Adicionando-se o mesmo incremento aos instantes fixados t1, t2, t3, recai-se sobre os

instantes identificados por (•). A distribuição conjunta permanece a mesma.

Etimologia - Estacionário (de comportamento estacionado), simplificando

sobremaneira a especificação e o tratamento do processo.

∀τ, ∀k,

Fxt1 xt2 ... xtk(x1,x2,...,xk)= Fxt1+τ xt2+τ ... xtk+τ (x1,x2,...,xk).

CONSEQÜENCIAS:

Para k=1

∀τ Fxt1 (x1)= F

xt1+τ (x1), i.e., mesma distribuição mantém-se durante todo o processo.

Por exemplo, para um processo estacionário Gaussiano

Variável Gaussiana, Gaussiana, Gaussiana, ....(indefinidamente...)

Em t1: E(Xt1) ∫+∞

∞−=

1tXxdF ,

Em t2: E(Xt2) ∫+∞

∞−=

2tXxdF .

Logo E(Xt1)= E(Xt2)= ...= E(Xt)=constante.

O processo estocástico (P.E.) estacionário tem média única, constante. De

modo geral, todos os momentos são constantes, invariantes à origem dos

tempos.

Note que – da análise pela função característica – uma forma alternativa

mais simples de especificar uma variável aleatória é através dos seus

momentos.

Ainda assim, o problema é demasiadamente complicado...

Por este motivo, é usual restringir-se a análise até a 2ª ordem, como ver-

se-á na sequência. Trabalhar com momentos é como comer “papa quente”:

atacar “pelas beiradas”...

PROCESSO ESTACIONÁRIO SENTIDO AMPLO

Definição. Um P.E. é dito ser estacionário no sentido amplo se e somente se

1. EX(t)= constante.

2. EX2(t)<+∞ ∀t∈T

3. ∀ t1, t2∈T RX(t1, t2)=RX(t2-t1)=RX(τ).

A função de autocorrelação do processo (ACF) independe

da origem dos tempos.

*Apenas a média e variância permanecem constantes ao longo do tempo.

Estacionaridade: sentido estrito ⇒⇒⇒⇒ sentido amplo

Além de ser mais simples de tratar, são mais gerais e com menor regularidade

que os processos estacionários no sentido estrito. Vale também salientar que

tais processos possuem uma descrição espectral (no domínio frequencial).

EXEMPLOS DE Processos Aleatórios

Xt=at+b a,b~N(0,1)

Xt=2.cos(2π(100+∆)t) ∆~U(-10,10)

Yn = Xn – Xn-1 Xn Bernoulli

∑=

=n

k

kn XY1

Xn Bernoulli

Processo das retas aleatórias

Xt=at+b a,b~N(0,1) a e b independentes.

EXt= mX(t)=E(a)t+E(b)=0. média nula.

RX(t1,t2)=EXt1 Xt2=t1t2E(a2)+2E(ab)t1t2+E(b2).

RX(t1,t2)=t1t2+1 e KX(t1,t2)= t1t2+1.

Ruído discreto – Processo estocástico de Bernoulli

1≥nnX Xn i.i.d. binária com p)(1 com

p com

0

1

=adeprobabilid

adeprobabilidX n .

Caso p=1/2. 2/10 ==nXP e 2/11 ==nXP .

trajetória típica (realização)

Análise dos parâmetros:

• Média E Xn =1/2

• Variância var( Xn )=1/4

• Correlação R(Xn,Xn+k)=0,25 δk,0

Seqüência estacionária no sentido amplo.

Xt=at+b a,b~N(0,1)

Calculando a ACF, RX(t1,t2)=t1.t2+b2

Não é estacionário, nem no sentido amplo nem estrito...

PASSEIO ALEATÓRIO (passeio causual)

Considere uma seqüência de v.a.’s i.i.d. 1≥nnX e suponha que

cada Xn possa assumir apenas valores -1 e +1 (passo para tras e

passo para frente, respectivamente), com probabilidades

pXP n =+= 1 e pqXP n −==−= 11 .

Seja a seqüência

∑=

=n

k

kn XY1

Se E Xn =m e var( Xn )=v então é fácil verificar que:

E Yn =n.m e var( Xn )=n.v ⇒ o processo não é estacionário!

Exercício. Demonstrar que a autocovariância do processo é dada

por:

Cov(Xn,Xn+k)=v.[Min(n,n+k)]

Notado também como Cov(Xn1,Xn2)=v.(n1^n2).

Processo de Wiener-Lévy (Movimento Browniano) Botânico Robert Brow 1827

Modelo para o movimento caótico exibido por uma partícula (e.g.

pólem) imersa em um líquido, visto em microscópio.

Norbert Wiener (1864-1964) filho de imigrantes russos

Paul Pierre Lévy (1886-1971) aluno Hadamard, orientador Mandelbrot

O processo X(t), t≥0 é dito ser um processo de Wiener-Lévy se:

i) ∀t>0, X(t)~ N(0,t)

ii) X(0):=0

iii) X(t), t≥0 tem incrementos estacionários e independentes.

Trajetória típica

Incrementos independentes

Para qualquer escolha de instantes arbitrários nttt <<< ...10 ,

as variáveis de incremento

)()( 01 tXtX − , )()( 12 tXtX − , )()( 23 tXtX − ,..., )()( 1−− nn tXtX são:

1) independentes

2) estacionárias )()( 1 kjkj tXtX +−+ − tem mesma distribuição

que )()( 1−− jj tXtX ∀ k

A média do processo é

m(t)=m1=0.

A covariância de processos incrementos-independentes vale

KX(t1,t2)=varmin(t1,t2)=varXt1^t2.

Prova.

Provemos inicialmente que t1≤t2, KX(t1,t2)= varXt1.

A ACF do processo é RX(t1,t2)=EXt1 Xt2.

Truque: RX(t1,t2)= EXt1 (Xt2- Xt1)+X2

t1

(via incrementos independentes) ⇒

RX(t1,t2)=m1(m2-m1)+E X2t1.

Mas KX(t1,t2)= RX(t1,t2)-m1m2 =E X2t1-m2

1 =varXt1.

Se t1=t2, o resultado é imediato. Generalizando, chega-se a

KX(t1,t2)=varXt1^t2. Q.E.D.

O processo definido por i) a iii) é Gaussiano:

=

− )()(

)()(

)()(

.

1111

0

0111

0011

0001

)(

)(

)(

1

12

01

2

1

nnn tXtX

tXtX

tXtX

tX

tX

tX

M

L

LOMM

K

K

K

M .

Como n

kkk tXtX 11)()( =−− são variáveis aleatórias independentes e

gaussianas, o vetor que define o processo corresponde a uma

transformação linear de variáveis gaussianas com distribuição n-

variada.


Recommended