148

Fundamentos_de_Estatística_convertido

Embed Size (px)

Citation preview

Page 1: Fundamentos_de_Estatística_convertido
Page 2: Fundamentos_de_Estatística_convertido
Page 3: Fundamentos_de_Estatística_convertido

AUTORES João Ismael Pinheiro é Engenheiro Eletrônico pelo IME, RJ (1969), mestre em Matemática pelo IMPA, RJ (1972), mestre em Economia (1981) e mestre em Análise de Dados e Estatística Computacional (1982), ambos pela Stanford University, Estados Unidos. Santiago S. Ramírez Carvajal é Engenheiro Químico pela Universidade de Concepción, Chile (1968), Master em Estatística Matemática pelo Centro Interamericano de Enseñanza de Estatística, CIENES, Chile (1871) e Doutor em Engenharia de Produção pela COPPE-UFRJ (1982). Sonia Baptista da Cunha é bacharel em Estatística pela Universidade Federal do Rio de Janeiro, UFRJ (1979) e mestre em Estatística pela UFRJ (1984). Gastão Coelho Gomes é bacharel em Matemática pela UFRJ (1977), mestre em Matemática pela UFRJ (1983), mestre em Math-Statistics pela University of Waterloo, Canadá (1991), e doutor em Engenharia de Produção pela COPPE-Produção / UFRJ (2000).

Page 4: Fundamentos_de_Estatística_convertido

Caros leitores,

Este é um livro que ainda não está pronto, embora o nosso compromisso com a Editora Campus seja finalizá‐lo ainda este ano. Por outro lado, em 2011/2, a Estatística está sendo oferecida pela 1ª vez como disciplina unificada para toda a graduação em Engenharia na UFRJ.

Decidimos então usar o livro no estado em que se encontra atualmente, ou seja, semi‐pronto. É o que a editora chama de um livro beta.

Para nós é uma excelente oportunidade para testar o material e aprimorá‐lo levando em conta o retorno que recebermos de professores e alunos.

Sendo assim, agradecemos de antemão a todos os que puderem colaborar conosco com sugestões, correções, etc. que nos permitam aperfeiçoar o material do livro.

Esperamos que esta seja uma experiência rica e frutífera para todos.

Atenciosamente,

Os autores

Page 5: Fundamentos_de_Estatística_convertido

SUMÁRIO

CAPÍTULO 1 – CÁLCULO DE PROBABILIDADES ...................................................................................... 1

1.1. Modelos Determinísticos e Modelos Probabilísticos ........................................................................ 1 1.2. Alguns conceitos fundamentais ......................................................................................................... 2 1.3. Eventos especiais ............................................................................................................................. 4 1.4. Probabilidades: Conceito clássico ..................................................................................................... 5 1.5. Probabilidades: Conceito Freqüentista .............................................................................................. 7 1.6. Definição Axiomática e algumas propriedades das probabilidades .................................................. 8 1.7. Espaços de probabilidades finitos – Técnicas de Contagem ........................................................... 10 1.8. Probabilidade Condicional .............................................................................................................. 15 1.9. Teorema da Probabilidade Total e Teorema de Bayes .................................................................... 20 1.10. Eventos independentes .................................................................................................................... 23 RESUMO DO CAPÍTULO 1 ..................................................................................................................... 25

CAPÍTULO 2 – VARIÁVEIS ALEATÓRIAS DISCRETAS .......................................................................... 28 2.1. O conceito geral de variável aleatória ............................................................................................. 28 2.2. O conceito de Variável aleatória discreta ........................................................................................ 32 2.3. Distribuição de probabilidade de uma v.a. discreta ......................................................................... 32 2.4. Esperança e variância de uma variável aleatória discreta. ............................................................... 34 2.5. Alguns dos modelos discretos mais importantes ............................................................................ 38 RESUMO DO CAPÍTULO 2 ..................................................................................................................... 48

CAPÍTULO 3 – VARIÁVEIS ALEATÓRIAS CONTÍNUAS ......................................................................... 50 3.1. O conceito de variável aleatória contínua ....................................................................................... 50 3.2. Distribuição de probabilidade de uma variável aleatória contínua .................................................. 51 3.3. Medidas de Centralidade e de Dispersão de uma V. A. Contínua ................................................... 55 3.4. Alguns dos modelos contínuos mais importantes .......................................................................... 59 3.5. A Distribuição Normal ................................................................................................................... 66

3.5.1. Generalidades ....................................................................................................................... 66 3.5.2. Distribuição Normal Padrão................................................................................................. 68 3.5.3. Propriedades da Distribuição Normal: ................................................................................. 68 3.5.4. Padronização ....................................................................................................................... 70 3.5.5. Uso da tabela da Normal para o Cálculo de Probabilidades ................................................ 70

RESUMO DO CAPÍTULO 3 ..................................................................................................................... 76

CAPÍTULO 4 –FUNÇÃO DE UMA VARIÁVEL ALEATÓRIA ................................................................... 79 4.1. Função de uma v.a. discreta ............................................................................................................ 79 4.2. Função de uma v.a. contínua .......................................................................................................... 80 4.3. Esperança e variância de uma função de uma variável aleatória ..................................................... 86 4.4. Propriedades da esperança, da variância e do desvio-padrão ......................................................... 87 RESUMO DO CAPÍTULO 4 ..................................................................................................................... 89

Page 6: Fundamentos_de_Estatística_convertido

CAPÍTULO 5 – VARIÁVEIS ALEATÓRIAS BIDIMENSIONAIS .............................................................. 91 5.1. Variáveis aleatórias bidimensionais discretas. ................................................................................ 92 5.2. Variáveis aleatórias bidimensionais contínuas. ............................................................................... 93 5.3. Distribuições marginais ................................................................................................................... 96 5.4. Cálculo das medidas de centralidade e de dispersão a partir da distribuição conjunta .................... 97 5.5. Distribuições condicionais. Esperanças e Variâncias condicionais. Distribuição, Esperança e

Variância condicionais: Caso discreto ............................................................................................ 98 5.6. Variáveis aleatórias independentes. .............................................................................................. 104 5.7. Covariância e Correlação ............................................................................................................. 106 5.8. Função de duas variáveis aleatórias. ............................................................................................. 110

5.8.1. Distribuição de probabilidade de uma função de duas variáveis aleatórias ....................... 110 5.8.2. Esperança de uma função de duas variáveis aleatórias ...................................................... 114 5.8.3. Esperança e Variância de uma combinação linear de duas variáveis aleatórias ................. 114

RESUMO DO CAPÍTULO 5 ................................................................................................................... 115

CAPÍTULO 6 – VETORES ALEATÓRIOS MULTIDIMENSIONAIS ...................................................... 119 6.1. Distribuição Conjunta ................................................................................................................... 120

6.1.1. O Modelo Multinomial ...................................................................................................... 121 6.1.2. O modelo Normal Multidimensional ................................................................................. 123

6.2. Independência ............................................................................................................................... 124 6.3. Propriedades adicionais da esperança e da variância ................................................................... 124 6.4. Soma de Variáveis Aleatórias Independentes ............................................................................... 125 6.5. Combinação Linear de n variáveis aleatórias Normais independentes ......................................... 128 6.6. Teorema Central do Limite ........................................................................................................... 128 6.7. Aproximação de diversas Distribuições pela distribuição Normal ................................................ 129

6.7.1. Aproximação da distribuição Binomial pela Normal ......................................................... 130 6.7.2. Aproximação Normal para a distribuição de Poisson.- ...................................................... 132 6.7.3. Aproximação Normal para a distribuição de Pascal .......................................................... 133 6.7.4. Aproximação Normal para a distribuição Gama ................................................................ 134

RESUMO DO CAPÍTULO 6 ................................................................................................................... 115

Tabela I: Distribuição Normal Padrão Acumulada ................................................................................... 139 Tabela II: Distribuição t de Student .......................................................................................................... 140 Tabela III: Distribuição F de Fischer-Snedecor ........................................................................................ 141 Tabela IV: Distribuição Qui-Quadrado .................................................................................................... 142

Page 7: Fundamentos_de_Estatística_convertido

CAPÍTULO 1 CÁLCULO DE PROBABILIDADES

Conceitos e resultados a serem apresentados neste capítulo: Modelo probabilístico

Experimento aleatório - Espaço amostral – Evento – Probabilidade Eventos mutuamente exclusivos

Permutações, Arranjos, Combinações Partição do espaço amostral

Probabilidade condicional Teorema de Bayes

Eventos independentes

“A experiência não permite nunca atingir a certeza absoluta. Não devemos procurar obter mais que uma probabilidade.” Bertrand Russell, filósofo

1.1 Modelos Determinísticos e Modelos Probabilísticos

Nos cursos de Física aprendemos que, na queda livre de um corpo no vácuo, a velocidade final, em cm/seg, atingida pelo corpo é dada pela fórmula v = 2ℎ, onde g é a aceleração da gravidade, em cm/seg2, do lugar onde é realizada a experiência e h é a altura, em cm, da qual o corpo cai. Uma vez conhecido o lugar (com o qual g fica determinado) e conhecida a altura h, podemos determinar exatamente a velocidade final, v, com que o corpo atinge o chão. O fenômeno em estudo pode, portanto, ser descrito mediante uma fórmula matemática, a partir da qual, dadas certas condições iniciais do experimento, é possível calcular o resultado final. O modelo usado na descrição de tal fenômeno é chamado de modelo determinístico, e pode ser expresso através de uma fórmula, como ocorre com muitas das leis da Física.

Entretanto há também situações práticas nas quais é impossível determinar com exatidão o resultado do experimento a partir de um conjunto de condições iniciais.

Suponha, por exemplo, que lançamos uma moeda e observamos a face que ela mostra ao cair. Sabemos que essa face pode ser “cara” ou “coroa”, mas antes do lançamento não temos condições de dizer com precisão qual das duas faces será apresentada. Em outras palavras, sabemos quais são os possíveis resultados do experimento, mas não podemos precisar qual deles será obtido. Dado que

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 1

Page 8: Fundamentos_de_Estatística_convertido

o conhecimento das condições iniciais do experimento não permite determinar com precisão o que acontecerá, o fenômeno em questão – cujo resultado é a face apresentada pela moeda quando ela cai – não pode ser descrito deterministicamente. O modelo usado na descrição não determinística de um fenômeno é chamado de modelo probabilístico ou estocástico.

A formulação e o estudo das propriedades dos modelos probabilísticos são alguns dos objetivos dos seis primeiros capítulos deste livro.

“A teoria quântica pode nos dar uma indicação da probabilidade de que a partícula alfa vai deixar o núcleo por unidade de tempo, mas ela não pode prever o momento preciso em que a emissão irá ocorrer, já que este é, em princípio, incerto.” Werner Heisenberg, físico

1.2 Alguns conceitos fundamentais

No estudo dos modelos probabilísticos, o conceito mais importante é, naturalmente, o de probabilidade. Mas para introduzi-lo precisamos apresentar antes os conceitos de experimento aleatório, espaço amostral e evento.

Por exemplo, o lançamento de uma moeda com o objetivo de registrar a face que ela apresenta ao cair, é um experimento aleatório.

Notemos que este experimento pode ser repetido quantas vezes quisermos, sob condições essencialmente inalteráveis. Também, se a moeda não for viciada, para um grande número de lançamentos devemos esperar uma freqüência de “caras” aproximadamente igual à freqüência de “coroas”. Em outras palavras, a freqüência relativa de “caras”, se aproxima do valor 0,5 ou 50%, à medida que o número de lançamentos aumenta. Esta propriedade é chamada de regularidade estatística e é uma das características de um experimento aleatório. Um experimento aleatório apresenta as seguintes características:

a) Ele pode ser realizado quantas vezes desejarmos, sob condições essencialmente iguais.

b) O resultado do experimento não pode ser determinado “a priori”, mas o conjunto de todos os resultados possíveis pode ser especificado.

c) O experimento apresenta a condição de regularidade estatística, no sentido de que, quando o número de realizações é muito grande, a freqüência relativa de um particular resultado se aproxima de um valor constante.

d) Além disso, com base na estabilidade estatística, podemos associar a cada resultado possível uma medida de confiança na ocorrência desse particular resultado. Assim sendo, no exemplo do lançamento da moeda, podemos dizer que as medidas de confianças nas ocorrências de “cara” e “coroa” são iguais.

“O verdadeiro gênio reside na capacidade de avaliar informações incertas, perigosas e conflitantes.” Winston Churchill, estadista

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 2

Page 9: Fundamentos_de_Estatística_convertido

Espaço amostral – é o conjunto de todos os possíveis resultados do experimento aleatório. Será denotado por Ω.

Observação: Dizemos que o espaço amostral é finito uniforme se ele tem um número finito de elementos, sendo todos eles igualmente prováveis.

Exemplo 1.1: Espaços amostrais

a) No lançamento de uma moeda, com o objetivo de se registrar a face que ela apresenta ao cair, os dois resultados possíveis são “cara” e “coroa”. Assim sendo, escrevemos Ω = cara, coroa ou, simplesmente, Ω = c , k , onde usamos c para indicar “cara” e k, para “coroa” .

b) Lançamos um dado e registramos o número de pontos obtidos. Há seis resultados possíveis e o espaço amostral pode ser descrito por Ω = 1, 2, 3, 4, 5, 6.

c) As peças fabricadas diariamente em uma linha de produção podem ser classificadas como “perfeitas” e “defeituosas”. Uma peça é extraída e a classe à qual ela pertence é anotada. Temos Ω = perfeita, defeituosa.

d) Um equipamento é usado para fazer a contagem do número de bactérias de um certo tipo em uma lâmina. O espaço amostral pode ser descrito como Ω = 0, 1, 2, 3, 4, . . . .

e) Observa-se o número de partículas emitidas por uma fonte radioativa durante um certo intervalo de tempo. Aqui novamente Ω = 0, 1, 2, 3, 4, . . . .

f) Determina-se a duração em horas de uma lâmpada. Nesse caso o espaço amostral pode ser descrito como o conjunto de todos os valores possíveis do seu tempo de vida t. Ou seja, Ω = t | t > 0 .

O espaço amostral pode ser finito ou infinito. Os espaços amostrais dos Exemplos 1.1a 1.1b e

1.1c são finitos porque há um número finito de resultados possíveis. Os espaços amostrais dos Exemplos 1.1d, 1.1e e 1.1f são infinitos. Os exemplos 1.1d e 1.1e mostram um espaço amostral infinito e enumerável, enquanto que o espaço amostral do Exemplo 1.1f é infinito e não enumerável.

Pergunta: Entre os espaços amostrais finitos do exemplo 1.1 existe algum que seja uniforme?

Qual ou quais?

É importante frisar que os espaços amostrais dos três últimos exemplos são uma idealização da realidade. De fato, é difícil conceber como infinito o número de bactérias em uma lâmina ou o número de partículas emitidas por uma substância radioativa. Nossa percepção nos diz que esse número pode ser muito grande, porém finito; contudo não há maneira de se estabelecer um limite superior para ele. Por esse motivo assumimos que nestes casos o espaço amostral é infinito.

No caso do exemplo 1.1f o tempo está medido em horas, e aceitamos como possível qualquer duração t maior que zero. Devido à impossibilidade de se estabelecer com exatidão um limite superior para t, assumimos novamente que este limite superior é infinito.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 3

Page 10: Fundamentos_de_Estatística_convertido

Evento – é um subconjunto do espaço amostral. Geralmente é denotado por uma letra maiúscula: A, B, C, etc.

Exemplo 1.2: Lançamento de um dado

Consideremos novamente o lançamento de um dado. O espaço amostral é Ω = 1, 2, 3, 4, 5, 6 . Seja A o evento descrito como A = o resultado é um número par. Os resultados que satisfazem essa condição são 2, 4 e 6. Portanto, podemos escrever A = 2, 4, 6. Notemos que em um lançamento de um dado só pode ocorrer um resultado. Se ele for 2 ou 4 ou 6 diremos que o evento A ocorreu. Naturalmente, se o resultado for 1 ou 3 ou 5, diremos que A não ocorreu. Assim um dado evento A ocorrerá se e somente se um resultado que pertence a A ocorrer.

1.3 Eventos especiais

Dado que todo conjunto é subconjunto dele próprio, o espaço amostral Ω é um evento chamado de evento certo. Em particular, um evento pode conter um único resultado. Diremos que ele é um evento simples ou evento elementar. Em nosso exemplo, B = 3 é um evento simples. Ainda mais, teoricamente faz sentido falar em um evento carente de resultados. Tal evento será chamado de evento vazio (ou evento impossível) e será denotado por Ø.

Pela própria definição terá sentido aplicar a eventos a álgebra de Boole. Assim podemos falar em união, interseção, complementação de eventos, e determinar probabilidades para os eventos resultantes.

Em particular,

AUB é o evento que ocorre se, e somente se, pelo menos um dos eventos, A ou B, ocorre.

A∩B é o evento que ocorre se ambos, A e B, ocorrerem simultaneamente.

AC, chamado evento complementar de A, é o evento cujos resultados pertencem a Ω mas não a A. Considere um espaço amostral Ω associado a um experimento aleatório e sejam A e B dois

eventos contidos em Ω: Diremos que A e B são mutuamente exclusivos se eles não possuem elementos comuns, isto é,

se A∩B = Ø.

Exemplo 1.3 .: Operações com eventos.

Consideremos o lançamento de um dado equilibrado. Sejam A = número par, B=número maior que 4 e C = 3 . Então A = 2, 4, 6, B = 5, 6 e C = 3 Também temos :

AUB =2 , 4, 5, 6 , A∩B = 6 , AUC =2 , 3, 4, 6 A∩C = Ø , BUC = 3, 5, 6.

Observamos que A e C são mutuamente exclusivos. O mesmo acontece com B e C.

Também, AC = 1, 3, 5, BC = 1, 2, 3, 4 e CC = 1, 2, 4, 5, 6

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 4

Page 11: Fundamentos_de_Estatística_convertido

Naturalmente, a álgebra de Boole aplicada a eventos pode ser usada para qualquer número deles. Assim, em nosso caso, AUBUC = 2, 3, 4, 5, 6 e A∩B∩C = Ø.

1.4 Probabilidades: Conceito clássico

O ponto de partida do estudo sistemático das probabilidades pode ser situado em meados do século XVII, mais precisamente no ano 1654, com a troca de correspondências entre os matemáticos Pascal e Fermat atendendo a uma consulta feita ao primeiro pelo aristocrata francês conhecido como Chevalier de Méré. Este, um jogador inveterado, desejava descobrir uma estratégia de jogo que lhe permitisse ganhar grandes quantias em dinheiro. Isto foi apenas a motivação que deu início ao estudo das probabilidades. Porém, como há diversas situações práticas onde é possível calcular probabilidades de determinados eventos ocorrerem, podemos fazer uma analogia entre esses problemas e os jogos de azar. Por isso nos livros de probabilidade é muito comum aparecerem vários exemplos com moedas, dados, baralhos, roletas, etc.

Note que nesses tipos de exemplo os espaços amostrais considerados são finitos. Ainda mais, se moedas, dados, baralhos, etc são equilibrados, os espaços amostrais são também uniformes. De fato, no lançamento de uma moeda equilibrada, por exemplo, não há razões para se supor que “cara” tem mais chance de ocorrer que “coroa”.

O conceito clássico de probabilidade, apresentado a seguir é perfeitamente adequado a este tipo de problemas.

Conceito Clássico de Probabilidade

Seja Ω um espaço amostral finito uniforme e seja A um evento qualquer desse espaço. A probabilidade de A, denotada por P(A), é dada por

P(A) = )(#

)(#

ΩA

,

onde #(Ω) é o número de resultados possíveis do experimento e #(A) é o número de resultados favoráveis à ocorrência do evento A. É claro que 0 ≤ P(A) ≤ 1.

Exemplo 1.4 Moedas, dados, baralhos... (calculando as probabilidades)

(a) A = sair cara no lançamento de uma moeda. Neste caso #(Ω) = 2 e #(A) = 1.

Então P(A) = 21

(b) A= ocorrer o número 6 no lançamento de um dado.

Então P(A) = , porque #(Ω) = 6 e #(A) = 1

(c) A = ocorrer um número par no lançamento de um dado, ou seja, A= 2,4,6. Agora #(A) = 3 .

Então P(A) = 63

= 21

(d) A= retirar um rei de paus de um baralho completo (sem coringa).

Então P(A) = 521

, porque #(Ω) = 52 e #(A) = 1

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 5

Page 12: Fundamentos_de_Estatística_convertido

(e) A= retirar um rei de um baralho completo (sem coringa).

Então P(A) =

=

, porque neste caso #(A) = 4

Note que na aplicação do conceito clássico não há a necessidade de se repetir várias vezes o

experimento aleatório. A definição da probabilidade vem simplesmente da uniformidade do espaço amostral.

A aplicabilidade desta definição não se limita a jogos de azar. Há muitas situações práticas onde ela pode ser aplicada. Basta para isso que o espaço amostral associado seja finito uniforme como no exemplo a seguir.

Exemplo 1.5: Escolhendo instituições filantrópicas

Uma empresa, atenta à preservação do meio ambiente e aos problemas sociais do país, desenvolve uma campanha de reciclagem, na qual os clientes voluntariamente devolvem as embalagens vazias de seus produtos. A renda resultante da reciclagem destas embalagens é revertida em cestas de produtos de primeira necessidade para serem doadas a instituições filantrópicas, algumas de amparo a crianças e outras de amparo a idosos. A empresa tem cadastradas 50 instituições, sendo que 30 atendem crianças e 20 atendem idosos. Como as necessidades são diferentes entre estes 2 grupos, os produtos doados também o são. Mensalmente é sorteada aleatoriamente uma instituição para receber a cesta. Um procedimento para efetuar o sorteio poderia ser o de atribuir um número a cada instituição, colocar bolas com esses números numa urna e extrair uma bola ao acaso dessa urna. Dessa maneira teríamos um espaço amostral finito uniforme com 50 resultados possíveis. Seguindo esse procedimento, a probabilidade de que a instituição selecionada em um determinado mês seja de crianças será de 30/50 = 0,6 e a de que ela seja de idosos será de 20/50 = 0,4.

Suponha agora que, ao invés de selecionar apenas uma instituição, a empresa selecione 5 instituições para fazer a doação. Para efeito de planejamento na compra das cestas, a empresa quer saber, por exemplo, qual é a probabilidade do evento A = 2 são de amparo a crianças e 3 são de amparo a idosos. Neste caso os elementos do espaço amostral serão todas as possíveis “amostras” de 5 instituições extraídas dentre as 50 cadastradas. Como listar todas as possibilidades para posteriormente identificar as “amostras” com 2 instituições de amparo a crianças e 3 instituições de amparo a idosos? Isto será visto na seção 1.7 (Técnicas de Contagem).

Apesar de sua facilidade de aplicação, a definição clássica tem as suas limitações. Ela não pode

ser usada em situações envolvendo espaços amostrais não uniformes. O espaço amostral do Exemplo 1.1c é finito, mas não uniforme. Se quisermos determinar a probabilidade de uma peça extraída da linha de produção ser defeituosa não poderemos usar um procedimento como o descrito acima no caso das instituições de crianças e de idosos. Neste caso as probabilidades podem ser calculadas através do conceito freqüentista de probabilidade.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 6

Page 13: Fundamentos_de_Estatística_convertido

1.5 Probabilidades: Conceito Freqüentista

Conceito Freqüentista de Probabilidade

Suponha que o experimento foi repetido n vezes, sempre sob as mesmas condições, e que o evento A ocorreu m vezes entre essas n realizações do experimento. Então, se o número n de repetições for bastante grande, a fração m/n é uma boa aproximação para a probabilidade de A.

Simbolicamente, P (A) ≅ mn

.

Exemplo 1.6.: Probabilidade de uma peça de uma linha de produção ser defeituosa

Consideremos novamente a situação do Exemplo 1.1c. Supondo que as peças são fabricadas em grande escala podemos escolher ao acaso umas 50 peças da linha de produção e determinar a proporção p de peças defeituosas entre elas. Esse valor de p pode ser usado como uma aproximação para a probabilidade de uma peça selecionada dessa linha de produção ser defeituosa.

Exemplo 1.7 : Simulando 100 lançamentos de uma moeda

Usando o software R, foram simulados 100 lançamentos de uma moeda equilibrada, isto é, uma moeda onde as chances de cara e de coroa são iguais. Depois de cada lançamento foi anotado o número acumulado de caras obtidas até esse momento e foi calculada a proporção de caras correspondente. Na tabela a seguir estão apresentados os valores correspondentes ao número acumulado de caras ao longo do processo. Na primeira linha aparecem os resultados do 1º ao 10º lançamento, na segunda linha os resultados do 11º ao 20º lançamento, e assim sucessivamente. Por exemplo, para a jogada de número 29 o número acumulado de caras é 13 e a fração de caras é 13/29. O gráfico abaixo mostra a evolução dessa fração à medida que foram feitos os 100 lançamentos da moeda.

Figura 1.1 – Cara ou coroa? A visão freqüentista

51 50 50 50 49 48 47 47 46 46

45 44 44 44 43 43 43 42 41 41

40 39 39 38 38 37 36 36 35 34

34 33 33 33 32 32 31 31 31 31

30 29 28 27 27 27 27 27 26 25

24 23 23 23 22 22 21 20 19 18

18 18 17 16 15 15 15 15 15 14

14 13 13 13 12 11 10 10 10 10

10 9 8 8 7 6 5 5 5 5

5 5 5 4 4 3 3 3 2 1

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 7

Page 14: Fundamentos_de_Estatística_convertido

Observe que no começo há uma grande variabilidade do valor da probabilidade estimada m/n, mas ele tende a se estabilizar em torno de uma constante, no caso 0,5, quando o número n de tentativas (lançamentos) vai aumentando. Como já foi dito, esta é uma propriedade de todo experimento aleatório, chamada estabilidade estatística: à medida que o número n de realizações do experimento aumenta, a probabilidade empírica de um dado evento tende a se estabilizar em uma constante.

Observe que o “ponto de estabilidade” – a saber, 0,5 – corresponde ao valor que seria obtido para a probabilidade de cara, se usarmos o conceito clássico de probabilidade no espaço amostral finito uniforme cara, coroa.

Pergunta: Será que este ponto de estabilidade também é igual a 0,5 no caso da linha de produção, onde as peças são classificadas como perfeitas ou defeituosas?

O conceito freqüentista é mais abrangente do que o conceito clássico de probabilidade, já que ele se aplica, mesmo quando o espaço amostral não é finito uniforme. Porém, embora o conceito freqüentista nos forneça uma maneira de medir na prática a probabilidade de ocorrência de um determinado evento, há casos em que ele também não é aplicável

Deu na mídia : Em 2009, nas vésperas do confronto com a seleção de futebol da Argentina o jogador Kaká afirmou que o Brasil tinha 75% de chances de ganhar. Já o jogador Luis Fabiano foi mais otimista e disse que essas chances eram de 80%.

Este é um exemplo típico da atribuição de probabilidades a um evento sem uma base na definição clássica nem na freqüentista. É o típico “chutômetro”, que no caso de jogadores de futebol até pareceria ter sentido. Entretanto este tipo de comentário é freqüente em várias situações, e não apenas no esporte.

É claro que existem situações onde faz todo sentido pensarmos em atribuir um valor à probabilidade de algo ocorrer, embora não seja possível determinarmos empiricamente esse valor. Por exemplo, como determinar a probabilidade de um atentado semelhante ao das Torres Gêmeas vir a acontecer nos próximos 5 anos? Ou a probabilidade de acontecer uma queda geral das bolsas de valores como em agosto de 2008? Analistas políticos (no primeiro caso) e financeiros (no segundo caso) talvez possam ter alguma idéia sobre o tema, porém qualquer quantificação da incerteza que apresentem será apenas subjetiva. Esta é uma terceira forma de se conceituar o que seja a probabilidade de ocorrência de um determinado evento A. Segundo essa abordagem, a probabilidade de A acontecer refletiria o grau de confiança do observador quanto à ocorrência ou não do evento em questão.

Qualquer que seja o conceito de probabilidade adotado é possível enunciar um conjunto de axiomas que independem da forma como ela é calculada. É o que veremos a seguir.

1.6 Definição Axiomática e algumas propriedades das probabilidades

A unificação do conceito de probabilidade é obtida por meio da chamada definição axiomática, baseada principalmente nos trabalhos do matemático russo A. Kolmogorov.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 8

Page 15: Fundamentos_de_Estatística_convertido

Definição Axiomática de Probabilidade

Seja Ω um espaço amostral associado a um experimento aleatório, A um evento qualquer deste espaço amostral e P(A) um número real, denominado probabilidade do evento A, onde os seguintes axiomas são obedecidos:

1) 0 ≤ P(A) ≤ 1

2) P( Ω ) = 1

3) Se A e B são eventos mutuamente exclusivos, P (A ∪ B) = P(A) + P(B)

4) Se A1 , A2 , A3 , ..., An ,... é uma seqüencia de eventos, dois a dois mutuamente exclusivos,

P( ∞

i) = P(A1) + P(A2) + P(A3 ) + ... + P(Ak) + ... = ∑∞

=1ii )P(A .

Nota: O axioma 3 acima pode ser estendido a um número finito de eventos, mas não a um número infinito. Daí a necessidade de se acrescentar o axioma 4.

Propriedades das Probabilidades

As probabilidades possuem uma série de propriedades, válidas independentemente da forma como elas podem ser obtidas.

1 - P (Ø) = 0

2 - Para todo evento A, P(AC ) = 1 – P(A)

3 - Para quaisquer dois eventos A e B, P(A U B) = P(A) + P(B) – P(A∩B)

4 - Para quaisquer três eventos A, B, C,

P(A U B U C) = P(A) + P(B) + P(C) – P(A∩B) – P(A∩C) – P(B∩C) + P(A∩B∩C)

5 - Se A e B são eventos tais que A ⊂ B , então P(A) ≤ P(B)

Demonstração de algumas Propriedades:

Propriedade 2:

A e AC são mutuamente exclusivos e, além disso, A ∪ AC = Ω .

Logo, P(A) + P( AC ) = P (Ω ) = 1 , o que demonstra a propriedade 2.

Propriedade 3.

Note que podemos escrever B = (A∩B) U (AC∩B), que é a união de dois eventos mutuamente exclusivos. Logo P(B) = P(A∩B) + P(AC∩B) (*)

Analogamente, podemos escrever A U B como união de dois eventos mutuamente exclusivos,

A U B = A U (AC∩B), o que dá P(A U B) = P(A) + P(AC∩B) (**)

Subtraindo (*) de (**) chegamos a P(A U B) – P(B) = P(A) – P(A∩B), o que demonstra a propriedade 3

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 9

Page 16: Fundamentos_de_Estatística_convertido

1.7 Espaços de probabilidades finitos – Técnicas de Contagem

Seja Ω = a1 , a2 , a3 , ..., an um espaço amostral finito associado a um experimento aleatório

E. A cada evento elementar ai associa-se um número real pi = P(ai) , chamado de probabilidade de ai satisfazendo as seguintes propriedades :

1.- pi ≥ 0 , para todo i ( i = 1, 2, 3, ..., n)

2 - ∑ p = 1

A probabilidade de cada evento A é definida então como a soma das probabilidades dos eventos elementares em A.

O espaço amostral Ω com as probabilidades definidas acima é dito um espaço de probabilidades finito .

Um caso particular da definição acima é constituído pelos espaços de probabilidades uniformes, isto é, espaços de probabilidades com um número finito n de elementos e tais que pi = 1/n , i = 1, 2, 3,...., n.

Neste caso a probabilidade de qualquer evento A é calculada de acordo com o conceito clássico da Seção 1.3 , ou seja ,

P(A) = )(#

)A(#

Ω

onde #(A) é o número de resultados do evento A e #(Ω) é o número total de resultados do espaço amostral.

O cálculo das probabilidades usando a expressão acima pode parecer simples. Contudo, como vimos no final da seção 1.3, em algumas aplicações pode não ser imediata a determinação do número de elementos de A e do número de elementos do próprio espaço amostral Ω. Temos como ferramentas importantes nestes casos as técnicas de contagem da Análise Combinatória.

Principio básico de contagem

Suponha que um dado procedimento possa ser executado de m maneiras e que, a seguir, um segundo procedimento possa ser executado de n maneiras. Cada uma das maneiras do procedimento inicial pode ser seguida por qualquer uma das maneiras do segundo procedimento. Então o

procedimento resultante do primeiro seguido do segundo poderá ser executado de (m×n) maneiras.

Nota : O princípio acima pode ser naturalmente estendido a mais de dois procedimentos.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 10

Page 17: Fundamentos_de_Estatística_convertido

Exemplo 1.8: Compondo o pedido

Igor decide almoçar em um principais, duas opções de bebidas e quatro de sobremesa. De quantas maneiras poderá Igor fazer o seu pedido?

Solução: Há 3 maneiras de se escolher o prato principal, 2 maneiras de se escolher a bebida e 4 maneiras de se escolher a sobremesa. Assim sendo, o pedido pode ser feito de 3×2×4 = 24 maneiras.

Analisemos agora uma situação em que se queira ordenar mesmo tempo.

Exemplo 1.9: Esqueceu o código

Iza quer fazer um saque num caixa eletrônico mas não se lembra da ordem das letras para o código de entrada. As três letras são R, T e V . Quantas são as ordenações possíve

Solução: Há 3 maneiras de se escolher a letra para o primeiro lugar. Para o segundo lugar sobram duas letras e, portanto, só há duas maneiras de preencher esse letra para ocupar o terceiro lugar, o que significa que há apenas escolha. Desta forma teremos um total de 3×2×1 = 6 possíveis ordenações para as três letras.

As 6 ordenações são RTV, RVT, TRV, TVR,

Compondo o pedido

em um Restaurante. O garçom apresenta a ele três opções de principais, duas opções de bebidas e quatro de sobremesa. De quantas maneiras poderá Igor fazer o

Há 3 maneiras de se escolher o prato principal, 2 maneiras de se escolher a bebida e 4 maneiras de se escolher a sobremesa. Assim sendo, o pedido pode ser feito de 3×2×4 = 24

Analisemos agora uma situação em que se queira ordenar n objetos diferentes, tomados todos ao

Esqueceu o código?

Iza quer fazer um saque num caixa eletrônico mas não se lembra da ordem das letras para o código de entrada. As três letras são R, T e V . Quantas são as ordenações possíve

: Há 3 maneiras de se escolher a letra para o primeiro lugar. Para o segundo lugar só há duas maneiras de preencher esse lugar.

letra para ocupar o terceiro lugar, o que significa que há apenas uma maneira de se realizar a escolha. Desta forma teremos um total de 3×2×1 = 6 possíveis ordenações para as três letras.

As 6 ordenações são RTV, RVT, TRV, TVR, VRT, VTR

Restaurante. O garçom apresenta a ele três opções de pratos principais, duas opções de bebidas e quatro de sobremesa. De quantas maneiras poderá Igor fazer o

Há 3 maneiras de se escolher o prato principal, 2 maneiras de se escolher a bebida e 4 maneiras de se escolher a sobremesa. Assim sendo, o pedido pode ser feito de 3×2×4 = 24

diferentes, tomados todos ao

Iza quer fazer um saque num caixa eletrônico mas não se lembra da ordem das letras para o código de entrada. As três letras são R, T e V . Quantas são as ordenações possíveis?

: Há 3 maneiras de se escolher a letra para o primeiro lugar. Para o segundo lugar Finalmente sobra uma

maneira de se realizar a escolha. Desta forma teremos um total de 3×2×1 = 6 possíveis ordenações para as três letras.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 11

Page 18: Fundamentos_de_Estatística_convertido

Generalizemos agora o exemplo acima do código do banco. Temos n maneiras de selecionar o objeto que ocupará o primeiro lugar, n–1 maneiras para o objeto no segundo lugar, n–2 para o terceiro, e assim sucessivamente. Para o penúltimo lugar sobram 2 objetos (duas maneiras de escolha) e finalmente, haverá uma maneira de se escolher o último objeto. Assim sendo, o número total de permutações possíveis é n×(n–1)×(n–2)×...×2×1.

Essa quantidade n×(n–1)×(n–2)×...×2×1, ou seja, o produto dos n primeiros números naturais, é chamada de Fatorial de n e denota-se por n!.

Nota: 1) Por convenção, 0! = 1. 2) Cada uma das ordenações do exemplo anterior é dita uma permutação das 3 letras.

Permutações

Qualquer ordenação de n objetos diferentes, tomados todos ao mesmo tempo, é chamada de permutação dos n objetos . O número total permutações é denotado por nPn e é calculado por :

nPn = é n×(n–1)×(n–2).....2×1 = n ! Consideremos agora n objetos, para os quais há disponíveis r lugares, onde r < n. O primeiro lugar

pode ser ocupado por qualquer um dos n objetos. Há n-1 objetos para ocupar o segundo lugar, n-2 para o terceiro, etc. Para o r-ésimo lugar sobram n – ( r – 1) = n – r + 1 objetos. Desta forma, o número total de maneiras possíveis de dispor os n objetos nas r posições é:

n × (n–1) × (n–2) × (n–3) ×...×(n– r +1)

Multiplicando e dividindo por (n–r)! temos

….…...

! = !

!

Cada disposição dos n objetos em r posições é denominada um arranjo.

Arranjos Um arranjo com r objetos extraídos a partir de n objetos diferentes é uma seleção ordenada

desses r objetos. Denotamos o número total de tais arranjos por nPr e o calculamos por :

nPr = !

!

Lê-se “arranjos de n objetos tomados r a r” ou também “permutação de n objetos tomados r a r”, o que justifica a notação acima.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 12

Page 19: Fundamentos_de_Estatística_convertido

Exemplo 1.10: Distribuição de Medalhas

Oito atletas disputam uma corrida. De quantas maneiras poderão ser distribuídas as medalhas de ouro, prata e bronze?

Solução: Claramente o problema é determinar o número de arranjos de 8 indivíduos tomados 3

a 3 , isto é, 8P3 = !! = 8×7×6 = 336.

Exemplo 1.11 : Possibilidades de subir ao Pódio

Suponha que no exemplo anterior só interessa saber se o atleta sobe ao pódio ou não, não importando a medalha que ele recebe. De quantas maneiras isso pode acontecer?

Solução: Quando era importante especificar a medalha tínhamos 3! = 6 permutações possíveis entre os ocupantes do pódio. Agora, como a ordem de chegada dos três primeiros não interessa, o

número total de maneiras dos 8 atletas subirem ao pódio é (8P3)/3! = !

! ! =

= 56

Combinações.

Uma seleção de r objetos extraídos a partir de n objetos, sem considerar a ordem de seleção, é denominada combinação de n objetos tomados r a r.

O número total de combinações possíveis é denotado por nCr, ou mais comumente por ( !), e

calculado por :

nr =

! !!

Este resultado é obtido como uma generalização do cálculo feito no exemplo 1.11.

Notas:

1) A partir da convenção adotada para 0! concluímos que $nn% = n

0 = 1 , para qualquer inteiro

positivo n . Com efeito , $nn% = n

0 = !

(!! = 1.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 13

Page 20: Fundamentos_de_Estatística_convertido

2) O cálculo do número de combinações é simplificado se dividirmos numerador e denominador

por (n-r)! . Nesse caso teremos ( nr ) =

…....……

Este resultado é particularmente útil quando r é relativamente pequeno.

Por exemplo: ( 123 ) =

! !+! =

××( ×× = 220

Estamos agora em condições de expandir o exemplo 1.5.

Exemplo 1.12 : Seleção de 5 instituições para receberem doações

Consideremos novamente a empresa do Exemplo 1.5 que cadastrou 50 instituições para fazer doação de cestas. O cadastro da empresa é composto por 30 instituições de amparo a crianças e 20 de amparo a idosos. A Empresa seleciona ao acaso 5 instituições para fazer as doações. Qual a probabilidade do grupo de instituições selecionado ser formado por duas de amparo a crianças e três de amparo a idosos?

Solução : Primeiramente devemos definir nosso espaço amostral.

Os seus elementos serão todos os grupos de 5 instituições que podem ser selecionadas dentre as

50. Como dentro do grupo não há qualquer consideração de ordem, o que temos são as 505

possíveis combinações das 50 instituições tomados 5 a 5, ou seja, temos 2118760 grupos de 5 instituições dentre as 50.

O evento A é constituído por todos os grupos não ordenados, formados por 2 instituições de amparo a criança e 3 de amparo a idosos. Para obter o número de elementos de A raciocinamos

assim: As 2 instituições de crianças podem ser escolhidas dentre as 30 de crianças de 302

maneiras e as 3 instituições de idosos podem ser escolhidas dentre as 20 de idosos de 203

maneiras. Assim, os grupos de 5 instituições que pertencem ao evento A podem ser formados no

total de 302 20

3 maneiras, pelo Princípio Fundamental da Contagem.

Como a seleção foi feita ao acaso dentro de um número finito de instituições, podemos considerar um espaço amostral finito uniforme. Dessa maneira,

#Ω = 505 = 2.118.760 e # A = 30

2 203 = 435×1140 = 495.900

Logo, P(A) = # /#0 =

+.+((..1( = 0,234

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 14

Page 21: Fundamentos_de_Estatística_convertido

Notas:

1) No exemplo acima podemos dizer que, de uma população de 50 instituições, foi selecionada uma amostra não ordenada de 5 instituições. Como, além disso, cada instituição não pode ser escolhida mais de uma vez na amostra, diremos que foi realizada uma amostragem não ordenada sem reposição.

2) Quando dissermos que foi escolhida ao acaso uma amostra de r objetos a partir de uma população de n objetos, entenda-se que cada uma das possíveis amostras tem a mesma probabilidade de ser selecionada.

Até agora, em todas as técnicas de contagem apresentadas, admitimos que todos os objetos considerados são diferentes. Vejamos o que ocorre quando no conjunto de objetos há grupos deles não distinguíveis entre si.

Permutações com elementos repetidos Suponha que o conjunto de n objetos possa ser dividido em k grupos tais que no primeiro há n1

objetos iguais (não distinguíveis) entre si, no segundo há n2 objetos iguais entre si, ... , no k-ésimo há nk objetos iguais entre si, de modo tal que n = n1+n2+...+nk. Então o número de permutações possíveis desses n objetos é

!

2!3!…4!

Por exemplo, quantas são as possíveis permutações das letras da palavra ARARIBOIA?

Há 9 letras, dentre as quais três A , dois R, dois I , um B e um O . Desta maneira, o número de

permutações é +!

!!!!! = 15.120.

Observação: Um caso particular do tipo de problema acima é quando se tem, para cada experimento, apenas duas possibilidades S e F (S representando sucesso e F representando fracasso) com a probabilidade de sucesso p e conseqüentemente a de fracasso 1-p. Suponha que se tenha n replicações independentes desse experimento. Seja X a variável que mede o número de sucessos entre os n resultados. Então

( ) n.,0,1,2, x,p1p x

nx)P(X xnx

…∈−

== −

Este assunto será abordado com mais detalhes no Capítulo 2, quando estudarmos variáveis aleatórias com distribuição Binomial de parâmetros n e p.

1.8 Probabilidade Condicional

Fernando pede a um amigo para extrair uma carta de um baralho de 52 cartas e solicita uma informação sobre ela. O amigo só lhe diz que a carta é uma figura de copas. Com esse dado Fernando deve calcular a probabilidade da carta ser um rei. Isto é, ele já tem uma informação sobre a carta selecionada. Temos assim um evento A = “A carta é uma figura de copas”, um evento B = “A carta é um rei” e desejamos determinar a probabilidade de B quando é sabido que A ocorreu. Uma probabilidade dessa natureza é chamada de probabilidade condicional.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 15

FABIO
Sublinhado
Page 22: Fundamentos_de_Estatística_convertido

Em geral, se A e B são eventos que podem ocorrer em um dado experimento, a probabilidade condicional de B ter ocorrido, quando se sabe que A ocorreu, é representada por P(B A). (Leia-se probabilidade de B dado A.)

Embora o baralho tenha 52 cartas o espaço amostral para Fernando ficou reduzido às 3 figuras de copas: valete, dama e rei . Isto é, ao número de elementos de A. Como há 1 rei entre essas 3

figuras, concluímos que P(B|A) =

Ou seja, para calcularmos P(B|A) procedemos como se A fosse o novo espaço amostral que chamaremos de espaço amostral reduzido e a probabilidade será calculada considerando no numerador o número de elementos de B que estão em A, ou seja, a interseção de A com B.

Exemplo 1.13 – Estudantes classificados por curso e por sexo

Suponha que num determinado ano entraram 200 alunos numa universidade, sendo 100 do curso de Letras e 100 do curso de Engenharia, cuja distribuição por sexo está especificada na tabela a seguir :

Curso Sexo

Total Masculino (M) Feminino (F)

Letras (L) 10 90 100

Engenharia (E) 70 30 100

Total 80 120 200

Um aluno é sorteado ao acaso e verifica-se que é do curso de Letras. Qual a probabilidade deste aluno ser do sexo feminino?

Deseja-se calcular P(F L), isto é, a probabilidade de o aluno ser do sexo feminino, dado que o aluno sorteado é de Letras.

Com a informação a priori de que o aluno é do curso de Letras o espaço amostral não é constituído mais por todos os alunos, mas só pelos que são de Letras.

Usando o conceito clássico de probabilidade, podemos calcular P(F L) da seguinte forma: • O número de elementos do espaço amostral reduzido é #(L)=100 .

• Dentro do novo espaço, o evento “o aluno é do sexo feminino” é formado pelos alunos que além de serem de Letras são também do sexo feminino. Então o número de elementos favoráveis a este evento é #(F∩L)=90.

Portanto, P(F L) = 100

90

(L)#

L) (F# =∩

Observe que podemos dividir tanto o numerador quanto o denominador pela mesma quantidade #(Ω)=200, desta forma .

P(F L) = P(L)

L) P(F

)(# / (L)#

)(# / L) (F#

200/100

200/90

100

90

(L)#

L) (F# ∩=Ω

Ω∩===∩

Pergunta: Nas mesmas condições acima, qual seria a probabilidade do aluno ser do sexo feminino, dado que ele é de Engenharia?

Isto conduz à definição a seguir.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 16

Page 23: Fundamentos_de_Estatística_convertido

Probabilidade Condicional de B dado A

A probabilidade do evento B ocorrer quando se sabe que o evento A ocorreu é calculada por

P(B A) = P(A)

B) P(A ∩, se P(A) > 0

Exemplo 1.14 – Extração de uma carta do baralho

Voltemos a situação do início desta seção. O espaço amostral Ω tem 52 resultados possíveis enquanto que o evento A = a carta é uma figura de copas, tem 3 resultados. Assim, P(A) = 3/52.

Por outro lado, A∩B tem como resultado somente o rei de copas , portanto, P(A∩B) = 1/52.

Desta maneira , P(B|A) = =∩P(A)

B) P(A // =

Exemplo 1.15 - Probabilidade condicional no lançamento de um dado

Experimento: Lançamento de um dado

A = o resultado é um número ímpar B = no mínimo são obtidos 2 pontos

Figura 1.2 – Alguns eventos possíveis no caso do lançamento de 1 dado

Desejamos calcular P(A|B). A = 1, 3, 5 e B = 2, 3, 4, 5, 6

Para calcularmos P(A|B) devemos considerar todos os resultados favoráveis a A dentre os resultados de B, ou seja, os resultados comuns a A e B.

Há apenas dois resultados nestas condições, 3 e 5. Assim, P(A|B) = 2/5. Isso significa que procedemos como se B fosse o novo espaço amostral.

Uma outra maneira seria calcular P(A|B) usando a definição acima:

P(A B) = P(B)

B) P(A ∩ =

// =

Analogamente, ao determinar a probabilidade condicional de B dado A, raciocinamos como se o novo espaço amostral fosse A e olhamos para a parte de B que está em A.

Assim sendo, P(B A) = P(A)

B) P(A ∩=

// = 2/3

Exercitando:

1. Verifique que a probabilidade condicional satisfaz as propriedades axiomáticas da Probabilidade (Ver Seção 1.6).

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 17

Page 24: Fundamentos_de_Estatística_convertido

2. Suponha que A está contido em B (notação: BA ⊂ ). Verifique que, neste caso,

P(A) ≤ P(B), P(A B) = P(B)

P(A) e P(B A) = 1.

Há situações nas quais uma probabilidade condicional pode ser calculada em forma direta, sem

usar as fórmulas acima, como no exemplo a seguir.

Exemplo 1.16 : Poluição ambiental em um processo industrial

No processo produtivo de uma indústria são utilizadas diariamente duas unidades de um certo insumo. Ocorre que as diferentes formulações desse insumo podem afetar ou não o nível de poluição ambiental. Num determinado dia a empresa possui 40 unidades desse insumo em estoque, sendo 10 poluentes e 30 não poluentes.

Se as duas unidades utilizadas em um determinado dia forem selecionadas aleatoriamente uma após a outra, qual a probabilidade da segunda unidade também ser poluente, se a primeira for poluente?

Solução:

Sejam os eventos: A= a primeira unidade selecionada é poluente B= a segunda unidade selecionada é poluente

Queremos calcular P(B | A). Se a primeira unidade for poluente, sobrarão 39 unidades das quais 9 serão poluentes e 30 não

poluentes. Portanto P(B | A) = +

+ .

Da definição de probabilidade condicional, temos que

P(A ∩B) = P(A|B) P(B) = P(B|A)P(A).

Este resultado é conhecido como Teorema da multiplicação de probabilidades.

Exemplo 1.17 : Novamente a poluição ambiental em um processo industrial

Considerando novamente o processo produtivo do exemplo 1.16, qual a probabilidade de: (a) as duas unidades selecionadas aleatoriamente serem poluentes ? (b) as duas unidades selecionadas aleatoriamente serem não poluentes ? (c) nas duas unidades selecionadas aleatoriamente, uma ser poluente e outra não? 1ª Alternativa de Solução:. (usando a definição de Probabilidades)

Sejam os eventos : A = a primeira unidade selecionada é poluente B = a segunda unidade selecionada é poluente

AC= a primeira unidade selecionada é não poluente BC= a segunda unidade selecionada é não poluente

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 18

Page 25: Fundamentos_de_Estatística_convertido

M = as 2 unidades são poluentes

N = as 2 unidades são não poluentes

Q = uma unidade é poluente e a outra não

Então: (a) M = A∩B. Portanto :

P(M) = P(A∩B) = P(B|A). P(A) = +

+ × (( = 0,0577

(b) N= AC ∩ BC, portanto:

P(N) = P(AC ∩ BC) = P(BC|AC). P(AC) = ++ × (

( = 0,5577

(c) Q= (A ∩BC) ∪ (AC ∩B), então P(Q) = P((A ∩BC) ∪(AC ∩B))

Note que os eventos A∩BC e AC∩B são mutuamente exclusivos, portanto :

P(Q) = P((A ∩BC) ∪(AC ∩B)) = P(A ∩BC) + P(AC ∩B) = P(BC|A). P(A) + P(B|AC). P(AC) =

= (+ × (

( + (+ × (

( = 2 × $(+ × (

(% = 0,3846

As probabilidades envolvidas na solução deste exemplo podem ser obtidas facilmente através de

um diagrama de árvore como o da figura a seguir.

Figura 1.3 – Diagrama de Árvore para o cálculo de probabilidades

Observe que as probabilidades das interseções são dadas pelos produtos das probabilidades nas diversas trajetórias.

2ª Alternativa de Solução (usando Técnicas de Contagem) :

Uma segunda maneira de calcular as probabilidades pedidas é usando as técnicas de contagem, vistas na seção anterior. Devemos considerar que, embora as unidades tenham sido extraídas uma após a outra, no resultado final essa ordem é indiferente. O que interessa é que as unidades são selecionadas sem reposição. O mesmo resultado seria obtido selecionando simultaneamente as duas unidades do estoque.

Neste enfoque, o número de elementos do espaço amostral Ω é igual ao número de todas as possíveis combinações de 40 objetos tomados 2 a 2;

#Ω = $402 %= 780

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 19

Page 26: Fundamentos_de_Estatística_convertido

(a) Consideremos o evento M = “as 2 unidades selecionadas são poluentes”. Notamos que M é formado por todas as combinações de 10 objetos tomados 2 a 2, porque há somente 10 unidades poluentes e dentre elas selecionamos duas. Portanto;

#M = $102 %= 45 . Daí, P(M) = 45/780 = 0,0577.

(b) Considerando o evento N = as 2 unidades selecionadas são não poluentes, temos que:

#N = $302 % = 435 e P(N) = 435/780 = 0,5577.

(c) Observamos que Q é formado por todos os elementos de Ω em que uma unidade é não poluente e a outra é poluente. A unidade não poluente pode ser selecionada de 30 maneiras e para cada uma delas há 10 maneiras de se selecionar a unidade poluente. Portanto:

#Q = 30 × 10 = 300 e P(Q) = 300/780 = 0,3846. Notemos que os resultados obtidos pelas duas alternativas de solução são os mesmos. Isto mostra que geralmente há mais de uma maneira de se resolver um problema de probabilidades. O conhecimento delas permitirá ao leitor escolher, em cada caso, a mais adequada.

1.9 Teorema da Probabilidade Total e Teorema de Bayes

Um resultado da maior importância é o que nos permite calcular a probabilidade de um dado evento a partir de um conjunto de probabilidades condicionais envolvendo o dito evento.

Inicialmente, vejamos o que se entende por uma partição do espaço amostral Ω.

Partição de um Espaço Amostral Dizemos que os eventos A1, A2, .., Am formam uma partição do espaço amostral Ω se

a) P(Ai) > 0 , para todo i (i= 1, 2, ..., m)

b) Ai∩A j = ∅ , para todo i ≠ j

c) A> = Ω

Seja B um evento qualquer do espaço amostral. Então os eventos A1∩B, A2∩B,..., Am∩B são

todos mutuamente exclusivos e B = )BA( im

1i ∩∪ =

Figura 1.4 – Uma partição do espaço amostral. Aqui, m=5

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 20

Page 27: Fundamentos_de_Estatística_convertido

Daí, P(B) = P(A1∩B) + P(A2∩B) + ... + P(Am∩B) =

=∑=

m

1iP(B|Ai)P(Ai)

Este resultado é conhecido como Teorema da Probabilidade Total ou Absoluta

Teorema da Probabilidade Total

Se os eventos A1, A2,...., Am formam uma partição do espaço amostral Ω e B é um outro evento qualquer desse espaço então:

P(B) ∑==

m

1iii )A(P)A|B(P .

Nota : Alguns dos eventos Ai∩B podem ser vazios sem invalidar o Teorema.

Exemplo 1.18 – Duração de Componentes eletrônicos

A probabilidade de um componente eletrônico de um computador falhar antes de 1000 horas de funcionamento é: 0,05, se for da marca A1; 0,10, se for da marca A2; e 0,15, se for da marca A3. Numa loja de manutenção, 50% dos componentes em estoque são da marca A1, 20% da marca A2 e 30% da marca A3. Um componente é escolhido ao acaso para o conserto de um computador. Determine a probabilidade de que ele funcione perfeitamente por mais de 1000 horas.

Solução:

Representemos por Ai o evento “o componente escolhido é da marca Ai”, para i = 1, 2, 3.

Notemos que se Ω representa os resultados de todas as possíveis seleções de um componente para o

conserto do computador, então os eventos A1, A2 e A3 representam uma partição de Ω.

Denotemos por B o evento “o componente falha antes de 1000 horas de funcionamento”.

Então B = (A1∩B) U (A2∩B) U (A3∩B) e, pelo Teorema da Probabilidade Total,

P(B) = P(B|A1)P(A1) + P(B|A2)P(A2) + P(B|A3)P(A3)

As probabilidades de que precisamos são:

P(A1 ) = 0,5; P(A2) = 0,2; P(A3) = 0,3

P(B|A1) = 0,05; P(B|A2) = 0,10; P(B|A3) = 0,15

Assim, P(B) = 0,05 x 0,5 + 0,10 x 0,20 + 0,15 x 0,30 = 0,09

Essa é a probabilidade de um componente escolhido ao acaso vir a falhar antes de 1000 horas. Logo, a probabilidade dele se manter em funcionamento por mais de 1000 horas será

P(BC ) = 1 – P(B) = 1 – 0,09 = 0,91 ou 91%.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 21

Page 28: Fundamentos_de_Estatística_convertido

As probabilidades iniciais de seleção de um componente do estoque, se não soubermos se ele falhará antes das 1000 horas de funcionamento ou não, são de 50%, 20% e 30% para componentes da marca A1, A2 ou A3, respectivamente. Estas probabilidades costumam ser chamadas de probabilidades “a priori” . Será que o fato de sabermos que o componente falhou ou não antes de 1000 horas de funcionamento altera essas probabilidades? Para isto precisamos calcular P(A1|B), P(A2|B) e P(A3|B) . Estas probabilidades condicionadas são chamadas de probabilidades “a posteriori”.

Exemplo 1.19 – Novamente os componentes eletrônicos

Cálculo das probabilidades “a posteriori”, isto é, sabendo-se que o componente falhou antes de 1000 horas de uso:

A probabilidade do componente selecionado ter sido da marca A1 , dado que ele falhou antes de 1000 horas é

P(A1|B) = ?/2∩A

?A = ?A|/2?/2

?A = (,(×(,(

(,(+ = 0,2778 ≅ 0,28

Analogamente, encontramos:

P(A2|B) = ?/3∩A

?A = ?A|/3?/3

?A = (,(×(,(

(,(+ = 0,2222 ≅ 0,22

P(A3|B) = ?/D∩A

?A = ?A|/D?/D

?A = (,×(,(

(,(+ = 0,50.

A tabela a seguir contem as probabilidades “a priori” e “a posteriori” de cada marca:

Marca Priori Posteriori Variação da priori para a posteriori

Qualidade (medida pela chance de falha)

A1 0,50 0,28 Diminui Melhor A2 0,20 0,22 Quase não se altera Intermediária A3 0,30 0,50 Aumenta Pior

Vale a pena observar que a marca A1 é a de melhor qualidade, ou seja, aquela a que corresponde a menor taxa de falha (0,05). Por isso, a probabilidade de ter sido utilizada a marca A1 diminui da situação a priori (ausência de informação) para a situação a posteriori (houve falha). Enquanto isso, a marca A3 é a de pior qualidade, ou seja, aquela que corresponde à maior taxa de falha (0,15). Por isso, a probabilidade de ter sido utilizada a marca A3 aumenta da situação a priori (ausência de informação) para a situação a posteriori (houve falha).

Portanto, as probabilidades “a posteriori” diferem das probabilidades “a priori”, ou seja, são modificadas pelo conhecimento adquirido sobre a duração do componente selecionado.

Uma generalização do resultado ilustrado no exemplo acima é conhecida como Teorema de Bayes, cuja demonstração é imediata a partir da definição de probabilidade condicional e do Teorema da Probabilidade Total.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 22

Page 29: Fundamentos_de_Estatística_convertido

Teorema de Bayes Se os eventos A1,A2,....,Am formam uma partição do espaço amostral Ω e B é um outro evento

qualquer desse espaço , tal que P(B) > 0 , então:

PA|B = ?A|/G ?/G

?A para todo i = 1,2,...,m,

onde P(B) é calculado usando-se o Teorema da Probabilidade Total.

Observação: Analisando com atenção o enunciado do Teorema de Bayes, vemos que:

• O fato de sabermos que o evento B ocorreu, realmente pode alterar as nossas expectativas sobre a ocorrência dos Ai’s

• Quando se trata de probabilidades condicionais, ele nos permite inverter a ordem dos condicionamentos.

• Pelo fato de A1,A2,...,Am formarem uma partição do espaço amostral, temos:

∑=

=m

1ii 1)A(P e ∑

==

m

1ii 1)B|A(P

O Teorema de Bayes pode ser considerado a base do que é conhecido como Teoria Estatística Bayesiana.

1.10 Eventos independentes

Há situações em que a probabilidade de ocorrência de um dado evento, digamos B, não é afetada pela ocorrência de um outro evento A . Neste caso, intuitivamente, podemos afirmar que P(B|A) = P(B).

Da mesma forma, se a probabilidade de ocorrência de A não é afetada pela ocorrência de B, teremos P(A|B) = P(A).

Quando as situações acima ocorrem, diremos que os eventos A e B são estatisticamente independentes ou simplesmente, independentes.

Do exposto acima e usando o Teorema da multiplicação das probabilidades, podemos dar a seguinte definição:

Eventos Independentes

Dizemos que dois eventos A e B associados ao mesmo experimento são independentes se

P (A∩B) = P (A).P(B)

Isto é, dois eventos são estatisticamente independentes se a probabilidade deles ocorrerem juntos é igual ao produto das probabilidades individuais.

É possível demonstrar que se A e B são independentes, também o são (AC e B), (A e BC) e (AC e BC).

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 23

Page 30: Fundamentos_de_Estatística_convertido

Exemplo 1.20 – Lançamento de duas moedas

Seja o experimento: Uma mesma moeda é lançada duas vezes e a face que ela apresenta em cada lançamento é registrada.

O espaço amostral é composto de 4 resultados igualmente prováveis. Denotando “cara” por C e “coroa” por K temos:

Ω= CC , CK , KC , KK

Sejam os eventos A e B definidos como A = “cara” no primeiro lançamento e B = “cara” no segundo lançamento. Desta maneira:

A = CC, CK , porque esses são os dois elementos de Ω para os quais temos “cara” no primeiro lançamento. Analogamente, B = CC , KC . Temos P(A) = P(B) = 1/2.

Por outro lado, A∩B = CC, porque CC é o único resultado de Ω com “cara” nos dois lançamentos. Daí, P(A∩B) = 1/4 . Como P(A).P(B) = (1/2)(1/2) = ¼ verifica-se que P(A∩B) = P(A).P(B). Logo, A e B são independentes .

Este resultado confirma a idéia intuitiva que temos de independência. Com efeito, qualquer que seja o resultado no primeiro lançamento da moeda, ele não afeta a ocorrência de qualquer resultado no segundo lançamento.

Exemplo 1.21: Baralho – Independência de eventos

Experimento: Extração de uma carta do baralho

A = “a carta é um valete” B = “a carta é de copas”

Como P(A) = 4/52, P(B) = 13/52 e P(A∩B) = 1/52, vemos que

P(A) • P(B)= (4/52) x (13/52) = 1/52= P(A∩B)

Logo, A e B são independentes.

Observe também que P(AB) = 1/13 = 4/52 = P(A) e P(B A) = ¼ = 13/52 = P(B).

Curiosamente, se fossem acrescentados ao baralho dois coringas (Jokers), perder-se-ia a independência entre A e B, já que nesse caso teríamos P(AB) = 1/13 ≠ 4/54 = P(A) e P(B A) = ¼ ≠ 13/54 = P(B).

Exemplo 1.22: Lavadora e Secadora

Em determinado condomínio residencial há duas máquinas antigas à disposição dos moradores que desejam lavar suas roupas: uma lavadora e uma secadora. A lavadora costuma estar funcionando apenas durante 60% do tempo e a secadora durante 80% do tempo. Maria acaba de entrar na lavanderia onde ficam as duas máquinas com um cesto de roupas sujas. Calcule a probabilidade de que:

(a) ela consiga sair dali com suas roupas lavadas e secas; (b) ela saia com as roupas lavadas, mas sem secar; (c) ela não consiga nem mesmo lavar suas roupas.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 24

Page 31: Fundamentos_de_Estatística_convertido

Solução: Sejam L = “Lavadora funcionando” e S = “Secadora funcionando”.

Temos então P(L) = 0,60 e P(S) = 0,8.

Admitindo que o funcionamento da lavadora e o funcionamento da secadora são independentes entre si, temos:

(a) PL ∩ S = PLPS = 0,6 × 0,8 = 0,48 (b) PL ∩ SJ = PLPSJ = 0,6 × 1 − 0,8 = 0,12 (c) PLJ = 1 − 0,6 = 0,40

Apenas checando: 0,48 + 0,12 + 0,40 = 1. OK!

RESUMO DO CAPÍTULO 1:

• Os modelos usados na descrição não determinística de um fenômeno são chamados de modelos probabilísticos ou estocásticos.

• Um experimento aleatório: a) pode ser realizado quantas vezes desejarmos, sob condições essencialmente iguais; b) gera um resultado que não pode ser determinado “a priori”, embora o conjunto de todos os

resultados possíveis possa ser especificado; c) apresenta a condição de regularidade estatística: quando o número de realizações é muito

grande, a freqüência relativa de um particular resultado se aproxima de um valor constante; d) possibilita associar a cada resultado possível uma medida de confiança na sua ocorrência.

• O espaço amostral é o conjunto de todos os possíveis resultados do experimento aleatório. (denotado por Ω )

• Um evento é um subconjunto do espaço amostral (comumente denotado por uma letra maiúscula: A, B, C, etc).

• Eventos especiais: 1) O próprio espaço amostral Ω é um evento chamado de evento certo. 2) Um evento que contem um único resultado é dito um evento elementar. 3) O conjunto vazio, denotado por Ø é chamado de evento impossível. 4) AUB é o evento que ocorre se pelo menos um dos eventos, A ou B, ocorre. 5) A∩B é o evento que ocorre se ambos, A e B, ocorrerem simultaneamente. 6) AC, chamado evento complementar de A, é o evento cujos resultados pertencem a Ω mas

não a A. 7) Os eventos A e B são mutuamente exclusivos se A∩B = Ø.

• Conceito Clássico de Probabilidade:

Seja Ω um espaço amostral finito uniforme e seja A um evento qualquer desse espaço. A

probabilidade de A é P(A) = #/#Ω . É claro que 0 ≤ P(A) ≤ 1.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 25

Page 32: Fundamentos_de_Estatística_convertido

• Conceito Freqüentista de Probabilidade: Suponha que o experimento foi repetido n vezes, sempre sob as mesmas condições, e que o evento A ocorreu m vezes entre as n realizações do experimento. Então, se n for bastante grande, P (A) ≅

> .

• Definição Axiomática de Probabilidade Seja Ω um espaço amostral associado a um experimento aleatório. A cada evento A deste espaço está associado um número real P(A) que mede a sua probabilidade, sendo obedecidos os seguintes axiomas:

1) 0 ≤ P(A) ≤ 1 2) P( Ω ) = 1 3) Se A e B são eventos mutuamente exclusivos, P (A∪ B) = P(A) + P(B) 4) Se A1, A2, A3,..., An,... é uma seqüencia de eventos, dois a dois mutuamente exclusivos,

P( AL i) = P(A1) + P(A2) + P(A3 ) + ... + P(Ak) + ... = ∑

=1ii )P(A .

• Propriedades das Probabilidades: 1 - P (Ø) = 0

2 - Para todo evento A, P(AC ) = 1 – P(A)

3 - Para quaisquer dois eventos A e B, P(A U B) = P(A) + P(B) – P(A∩B)

4 - Para quaisquer três eventos A, B, C,

P(A U B U C) = P(A) + P(B) + P(C) – P(A∩B) – P(A∩C) – P(B∩C) + P(A∩B∩C)

5 - Se A e B são eventos tais que A ⊂ B , então P(A) ≤ P(B).

• Espaço de probabilidades finito: Seja Ω = a1 , a2 , a3 , ..., an um espaço amostral finito associado a um experimento aleatório E. A cada evento elementar ai corresponde a sua probabilidade pi = P(ai) , satisfazendo as seguintes propriedades :

1) pi ≥ 0, para todo i ( i = 1, 2, 3, ..., n) 2) ∑ p

= 1

A probabilidade de cada evento A é definida então como a soma das probabilidades dos eventos elementares em A.

• Espaço de probabilidades uniformes:

É um espaço de probabilidades finito, onde pi = 1/n, i = 1, 2, 3,...., n.

Neste caso, para qualquer evento A, temos P(A) = #/#Ω.

• Principio básico de contagem

Se um dado procedimento pode ser executado de m maneiras e, a seguir, um segundo procedimento pode ser executado de n maneiras, então o procedimento resultante do primeiro seguido do segundo poderá ser executado de (m×n) maneiras.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 26

Page 33: Fundamentos_de_Estatística_convertido

• Permutação

É qualquer ordenação de n objetos diferentes, tomados ao mesmo tempo. O número total permutações é de n objetos é nPn = n×(n–1)×(n–2).....2×1 = n !.

Por convenção, 0! = 1.

• Arranjo

É uma seleção ordenada de r objetos extraídos a partir de n objetos diferentes. O número total

de tais arranjos é: nPr = !

! .

• Combinação

É uma seleção de r objetos extraídos a partir de n objetos, sem considerar a ordem de seleção. O número total de combinações possíveis é

nCr = $nr% =

! !! = …..

..…… .

Note que $nn% = n

0 = 1.

• Permutações com elementos repetidos Se um conjunto de n objetos pode ser dividido em k grupos tais que: no primeiro há n1 objetos iguais (não distinguíveis) entre si, no segundo há n2 objetos iguais entre si, ... , no k-ésimo há nk objetos iguais entre si, de modo tal que n = n1+n2+...+nk; Então o número de permutações

possíveis desses n objetos é !

2!3!…4! .

• Probabilidade Condicional

A probabilidade do evento B ocorrer quando se sabe que o evento A ocorreu é

P(B A) = P(A)

B) P(A ∩, se P(A) > 0.

Observe que se BA ⊂ , P(A) ≤ P(B), P(A B) = P(B)

P(A) e P(B A) = 1.

• Teorema da multiplicação de probabilidades:

P(A∩B) = P(A|B) P(B) = P(B|A)P(A).

• Os eventos A1,A2,....,Am formam uma partição do espaço amostral Ω se um e somente um entre eles ocorre.

• Teorema da Probabilidade Total: Se os eventos A1,A2,....,Am formam uma partição do espaço amostral Ω e B é um outro evento qualquer desse espaço então:

))P(AAP(B...))P(AAP(BP(B) mm11 ++= .

• Teorema de Bayes: Se os eventos A1,A2,....,Am formam uma partição do espaço amostral Ω então

P(A i ))P(AAP(B...))P(AAP(B

))P(AA P(BB)

mm11

ii

++= , para todo i = 1,2,...,m

• A e B são eventos independentes se P (A∩B) = P (A) . P(B).

Neste caso, ( ) P(A)BAP = e ( ) P(B)ABP = .

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 27

Page 34: Fundamentos_de_Estatística_convertido

CAPÍTULO 2

VARIÁVEIS ALEATÓRIAS DISCRETAS

Conceitos a serem introduzidos neste capítulo: Variável aleatória Variável aleatória discreta e Variável aleatória contínua Função de probabilidade de uma variável aleatória discreta Função de distribuição acumulada de uma variável aleatória discreta Média Populacional ou Esperança de uma variável aleatória discreta Variância, desvio padrão e coeficiente de variação de uma v.a. discreta Modelos discretos: Bernoulli, Binomial, Geométrica, Pascal, Hipergeométrica, Poisson

“A ciência não pode resolver o mistério definitivo da natureza. E isso porque, em última análise, nós mesmos somos uma parte do mistério que estamos tentando resolver.” Max Planck, cientista

2.1 O conceito geral de variável aleatória

No capítulo 1 vimos o que é um espaço amostral e como calcular a probabilidade de um evento. Neste capítulo vamos ampliar estes conceitos associando espaço amostral e eventos a valores numéricos, como é visto no exemplo a seguir.

Exemplo 2.1: Será que a memória do PC vai aumentar?

Humberto deseja aumentar a capacidade de memória RAM do seu microcomputador. A placa mãe do PC de Humberto permite a instalação de até quatro pentes de memória e atualmente só possui um pente. Ele vai a um posto de revenda de computadores e solicita a compra e instalação de mais 3 pentes de memória, idênticos ao atual. Na loja há 12 pentes com esta característica. O que Humberto não sabe, e o técnico também não, é que dentre os 12 há 4 pentes defeituosos. Se os três pentes novos forem escolhidos ao acaso, qual a probabilidade de que:

a) a capacidade de memória do PC realmente aumente? b) o PC continue com a capacidade de memória original?

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 28

Page 35: Fundamentos_de_Estatística_convertido

Solução: A capacidade de memória do PC realmente aumentará se pelo menos um dos 3 pentes novos

for perfeito e não aumentará se todos os 3 forem defeituosos. Usando os conceitos vistos no Capítulo 1, consideremos os eventos:

A = o primeiro pente selecionado é perfeito (não defeituoso) B = o segundo pente é perfeito e C = o terceiro pente é perfeito.

Assim, teremos um espaço amostral não uniforme, dado por

Ω = ABC, ABCC, ABCC, ACBC, ABCCC , ACBCC,ACBCC,ACBCCC

A probabilidade de cada elemento do espaço amostral pode ser calculada usando-se o Diagrama de Arvore descrito na Figura 2.1.

Figura 2.1 – Diagrama de árvore para o problema dos pentes de memória

O foco principal deste exemplo é o número de pentes não defeituosos, entre os 3 selecionados. Denotando esse número por X, vemos que os valores possíveis de X são 0, 1, 2 e 3.

Seguindo este enfoque, vemos que X =3 corresponde ao evento ABC, cuja probabilidade é, portanto,

P(X=3) = P(ABC) =

x

x

=

= 0,255.

Analogamente, X= 2 se e somente se são selecionadas duas peças perfeitas e uma defeituosa, ou seja, se e somente se o evento ABCC, ABCC, ACBC ocorrer. Portanto:

P(X=2) = P(ABCC, ABCC, ACBC) = P(ABCC) + P(ABCC)+ P(ACBC)

Temos

P(ABCC) =

x

x

=

,

P(ABCC) =

x

x

=

e

P(ACBC) =

x

x

=

Logo,

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 29

Page 36: Fundamentos_de_Estatística_convertido

P(X=2) = P(ABCC, ABCC, ACBC) = P(ABCC) + P(ABCC)+ P(ACBC) = 3x

= 0,509

Teremos X = 1 se e somente se forem selecionadas uma peça perfeita e duas defeituosas, ou seja, se ocorrer ABCCC, ACBCC, ACBCC . Portanto:

P(X=1) = P(ABCCC, ACBCC, ACBCC) = 3 x

= 0,218

Finalmente, X = 0 corresponde à ocorrência do evento ACBCCC. Dessa maneira,

P(X=0) = P(ACBCCC) = x

x

=

= 0,018.

Um resumo das equivalências vistas acima é apresentado no quadro a seguir:

Em Ω ACBCCC ABCCC, ACBCC, ACBCC ABCC, ABCC, ACBC ABC

k = no de peças perfeitas 0 1 2 3

P(X=k) 0,018 0,218 0,509 0,255

Agora podemos responder facilmente às questões formuladas.

No item (a), a capacidade de memória realmente aumentará se houver pelo menos um pente novo não defeituoso, ou seja, se X ≥ 1, ou ainda, se X = 1 ou X = 2 ou X = 3 .

Daí, P(X ≥ 1) = P(X=1) + P(X=2) + P(X=3) = 0,982 .

Para responder ao item (b), observamos que a capacidade de memória não será alterada se nenhum dos pentes novos for perfeito, ou seja, se X= 0. Assim sendo, a probabilidade da memória do PC não ser alterada é P(X=0) = 0,018.

No exemplo acima, X pode ser visto como uma variável que assume certos valores aleatoriamente, com uma probabilidade conhecida de assumir cada valor. Por esse motivo ela é chamada de variável aleatória.

Observamos que existe uma equivalência entre: ΩΩΩΩ = ABC, ABCC, ABCC, ACBC, ABCCC , ACBCC, ACBCC, ACBCCC e RX = 0, 1, 2, 3

Além disso, qualquer elemento ω de Ω corresponde a um único valor real x = X(ω).

Portanto, a variável aleatória X é, de fato, uma função com domínio Ω e com contra-domínio RX, formado por números reais.

Uma variável aleatória (abreviadamente, v.a.) é uma função que associa cada elemento de um

espaço amostral a um número real.

Se X é uma variável aleatória, então a cada elemento ω do espaço amostral Ω corresponde um único número real

X(ω), como na Figura a seguir.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 30

Page 37: Fundamentos_de_Estatística_convertido

Figura 2.2 – Uma variável aleatória, seu domínio e seu contra-domínio

Observação: Usualmente denotam-se as variáveis aleatórias por letras maiúsculas e seus

valores por letras minúsculas.

Na prática usualmente não existe a preocupação de se explicitar qual é o espaço amostral onde está definida a variável aleatória. O que importa é definir o conjunto de valores reais que a variável pode assumir e explicitar como se calcula a probabilidade de ela assumir tais valores.

O conceito de variável aleatória é particularmente útil em situações onde se dispõe de um nível de conhecimento parcial ou incompleto do comportamento da grandeza que está sendo estudada. Essa incerteza pode ser então introduzida sob a forma de um modelo probabilístico.

“A probabilidade é a expectativa fundada no conhecimento parcial. Um perfeito conhecimento de todas as circunstâncias que afetam a ocorrência de um determinado evento iria transformar essa expectativa em certeza, e não sobraria espaço nem necessidade para uma teoria das probabilidades.” George Boole, matemático

Exemplo 2.2 : Variáveis aleatórias do cotidiano profissional

a) Uma analista química deseja submeter a um teste de alcalinidade uma amostra de água extraída de um ponto escolhido ao acaso em uma lagoa. Para isso mede 100 ml da água a ser analisada, coloca-os em um balão de Erlenmeyer e acrescenta 3 gotas de fenolftaleína. Se a solução se tornar rósea, ela é titulada adicionando – com uma bureta graduada – gotas de ácido sulfúrico de uma dada concentração, até o descoramento total. A analista anota, então, o número de gotas que se revelou necessário (o que lhe permite determinar o volume de ácido usado). Quanto maior for a alcalinidade, maior será esse número de gotas.

Neste caso podemos considerar a v. a. como sendo X, o número de gotas de ácido sulfúrico e, se a alcalinidade é alta, a probabilidade de que tenham sido necessárias pelo menos 2 gotas – ou seja, P(X≥ 2) – também deve ser alta.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 31

Page 38: Fundamentos_de_Estatística_convertido

b) Um engenheiro encarregado de realizar estudos ergonômicos em uma empresa mede o tempo que os operários gastam em executar certas tarefas. Naturalmente, para cada tarefa o tempo gasto depende do treino e da destreza do operário. Suponha que, para uma particular tarefa, o tempo médio gasto é de 285 segundos.

Aqui a variável aleatória é X = tempo em segundos gasto na execução da tarefa e tudo indica que, para um operário novato, pouco treinado, é alta a probabilidade P(X >285).

2.2 O conceito de Variável aleatória discreta

A variável do Exemplo 2.1, que pode assumir somente os valores 0, 1, 2 e 3, é um exemplo de variável aleatória discreta. Mais geralmente, podemos apresentar a seguinte definição:

Seja X uma variável aleatória. Diremos que X é uma v. a discreta se o número de valores que ela pode assumir é finito ou infinito enumerável.

(Lembrete: Um conjunto é enumerável quando existe uma correspondência 1 a 1 entre os seus elementos e os números naturais.)

Exemplo 2.3: Detectando peças defeituosas

Em uma linha de produção são examinadas as peças produzidas até se encontrar 10 peças defeituosas e o número total de peças examinadas é anotado. Neste caso a v.a. X é o número total de peças examinadas. Notemos que X pode assumir os valores 10, 11, 12, 13, 14... . Assim sendo claramente X é uma v.a aleatória discreta. A lógica indica que ela deveria ter um número finito de valores. Contudo, em uma situação desta natureza sabemos que deveria haver um limite superior, porém desconhecemos qual valor poderia ser. Por esse motivo, em uma idealização do problema podemos considerar que o conjunto de valores possíveis da variável X é infinito enumerável.

2.3 Distribuição de probabilidade de uma v.a. discreta

Consideremos inicialmente o caso em que o conjunto de valores possíveis da v.a. é finito.

Suponha que X é uma v.a. cujos valores possíveis são os elementos do conjunto ΩX = x1 , x2, x3,

... , xN de números reais. Suponha também que para cada ponto xi de ΩX está definida uma probabilidade p(xi) = P(X = xi ) de tal forma que: a) p (xi ) ≥ 0 , para todo i (i=1,2,3,....N)

b) ∑ p(x) = 1

Então p: xi ֏ p(xi ) = P(X = xi ) é chamada de Função de Probabilidade de X .

A Função de Probabilidade determina a distribuição da v.a. discreta X, ou seja, o seu modelo probabilístico.

Se X for uma v.a. discreta com um conjunto infinito de valores possíveis ΩX = x1 , x2, x3, ... a definição é a mesma somente fazendo com que a propriedade (b) passe a ser ∑ p( x )∞ = 1 .

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 32

Page 39: Fundamentos_de_Estatística_convertido

Exemplo 2.4 : Novamente os pentes de memória

Para a v. a. X do Exemplo 2.1 temos ΩX = 0, 1, 2, 3 e as probabilidades p(0) = P(X=0) = 0,018 ; p(1) = P(X=1) = 0,218 ; p(2) = P(X=2) = 0,509 e p(3) = P(X=3)= 0,255

Notemos que p(xi) ≥ 0 para todo i e que p(0) + p(1) + p(2) + p(3) = 1, o que caracteriza uma Função de Probabilidade.

Notemos também que a probabilidade de qualquer evento em ΩX pode ser calculada através da soma das probabilidades dos pontos que compõem o evento.

Sejam os eventos: D = X>0 (“há um aumento da memória”) e E = X ≤ 2 (“a memória não é máxima”) .

Então, P(D) = P(X>0)=P(X ≥ 1)=P(X=1)+P(X=2)+P(X=3)=0,982, como já foi mostrado no Exemplo 2.1 . P(E) = P(X≤ 2) = P(X=0)+P(X=1)+P(X=2) = 0,018 +0,218 +0,509 = 0,745

Uma forma alternativa de calcular as probabilidades acima é usando eventos complementares. Assim, P(X>0) = 1– P(X=0) =1– 0,018 = 0,982 e P(X≤ 2) = 1– P(X=3) = 1– 0,255 = 0,745.

Outras probabilidades: P(D⋂E) = P( 1≤X≤2) = P(X=1) + P(X=2) = 0,218 + 0,509 = 0,727 P(D⋃E) = P(0≤X≤3) = P(X=0) + P(X=1) + P(X = 2) + P(X = 3) = 1

Em geral, para qualquer variável aleatória discreta com valores possíveis x1 , x2, x3, ..., xn, os eventos X=x1 , X=x 2 , X = x 3 , ..., X=x n são mutuamente exclusivos. Portanto, sendo x1 <

x2 < x3 <...< xn , temos, por exemplo:

P(X ≤ x5) = P(X=x1) + P(X=x2) + P(X=x3) + P(X=x4) + P(X=x5) = ∑ p(x )

Além da Função de Probabilidade há uma outra função que também é usada para caracterizar a distribuição de uma variável aleatória. Trata-se da Função de Distribuição Acumulada.

A Função de Distribuição Acumulada de uma variável aleatória discreta X , denotada por F é dada por

F(x) = P(X≤x) = ∑ p(x) , para todo número real x.

Propriedades da Função de Distribuição Acumulada F

(a) F é uma função não decrescente; isto é, x < y implica F(x) ≤ F(y). (b) lim→&∞ F(x) = 0. (c) lim→*∞ F(x) = 1. (d) O gráfico de F tem o aspecto de uma “função escada”, que sobe um degrau de altura p(x) no

ponto x, sempre que p(x) > 0.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 33

Page 40: Fundamentos_de_Estatística_convertido

Exemplo 2.5: Uma vez mais, os pentes.

Retornemos à v.a. X do Exemplo 2.1. A sua Função de Distribuição Acumulada é calculada como se segue:

• Se x < 0 teremos F(x) = P(X≤x) = 0, porque X não assume valores negativos. • Se 0≤x<1 , o único valor possível de X é 0. Nesse caso, F(x) = P(X≤x) = P(X=0) = 0,018 . • Para números reais x tais que 1≤x<2 , temos 1 como valor possível para X . Assim, o valor

da Função de Distribuição Acumulada é obtido somando os valores P(X=0) + P(X=1) , ou seja, F(x) = P( X ≤ x) = P(X=0) + P(X=1) = 0,018 + 0,218 = 0,236.

• Se o número real x é tal que 2≤x< 3, encontramos o valor 2 como valor possível para X. Acumulando os valores encontrados temos F(x) = P( X ≤ x) = P(X=0) + P(X=1) + P(X=2) = 0,018+0,218+0,509 = 0,745.

• Finalmente, para valores reais x ≥ 3, temos 3 como valor possível para X. Desta maneira, procedendo cumulativamente encontramos F(x) = P(X≤x) = P(X=0) + P(X=1) + P(X=2) + P(X=3) = 1.

Em resumo,

F(x) =

,-.-/ 0 , se x < 0 0,018 , se 0 ≤ x < 10,236, se 1 ≤ x < 20,745, se 2 ≤ x < 31, se x ≥ 3

;

A Figura 2.3 mostra o gráfico da Função de Distribuição Acumulada para a variável aleatória X acima.

Figura 2.3 – FDA para a v.a. Número de pentes perfeitos

2.4 Esperança e variância de uma variável aleatória discreta.

Além das funções de probabilidade e de distribuição acumulada existem quantidades que permitem caracterizar adicionalmente a distribuição de uma variável aleatória discreta. Elas são conhecidas comumente como parâmetros da distribuição.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 34

Page 41: Fundamentos_de_Estatística_convertido

Os mais freqüentemente usados são os parâmetros de centralidade e os parâmetros de dispersão, que definimos a seguir.

A média ou valor esperado de uma variável aleatória discreta X é uma medida de centralidade. Ela é também denominada esperança, por isso sua notação é E(X).

Se X é uma variável aleatória discreta que assume os valores x1, x2, x3, ... com probabilidades p(x1), p(x2), p(x3), ... , respectivamente, então sua média ou esperança é :

E(X) = ∑∑∞

=

==1i

ii1i

ii )p(xx)xP(Xx

se a série ∑∞

=1iii )p(xx converge absolutamente , ou seja, se ∑ |x|= p(x) é finita.

Nota: Se a v.a discreta X tiver apenas N valores possíveis x1, x2, ...xN com probabilidades p(x1),

p(x2),..., p(xN) teremos E(X) = ∑=

N

1iii )p(xx . Neste caso, a sua esperança é calculada como a média

ponderada dos valores que essa variável assume, sendo o peso de cada valor igual à probabilidade de que ela assuma esse valor. Note que nesta média ponderada não foi necessário dividir pela soma dos pesos, já que ela é igual a 1.

“Toda pessoa normal, na verdade, é apenas normal na média. Seu ego aproxima-se do ego de um psicótico, em uma ou outra parte e em maior ou menor grau.”

Sigmund Freud, psicólogo

Interpretação física da média ou esperança de uma v.a discreta:

Se pensarmos na função p como uma distribuição discreta de massa, onde a massa localizada no ponto de abscissa xi é p(xi), então podemos perceber que E(X) corresponde exatamente à abscissa do centro de gravidade dessa distribuição.

.

Exemplo 2.6 . Revisitando os pentes de memória

Consideremos novamente a v.a. X , número de pentes não defeituosos, do Exemplo 2.1. A média da v. a. X é

E(X) = 0 × 0,018 + 1×0,218 + 2×0,509 +3 ×0,255 = 2,0

Isto significa que se o mesmo experimento – selecionar ao acaso três pentes de um conjunto de 12, dentre os quais há 4 defeituosos – for repetido um número muito grande de vezes sob as mesmas condições, em média serão selecionados 2 pentes não defeituosos. Uma ferramenta interessante para comprovar esta afirmação encontra-se no Anexo XX, onde o cálculo de E(X) é feito simulando-se 1000 repetições do evento ”retirar 3 pentes de um lote de 12 pentes, dentre os quais há 4 defeituosos”. Para isso foi usada a programação em R.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 35

Page 42: Fundamentos_de_Estatística_convertido

Observação: Em geral, ao contrário do ocorrido no exemplo 2.6, a esperança não é necessariamente um valor possível da variável X, o que, na Física, equivale a dizer que o centro de gravidade não se encontra necessariamente em algum ponto em que uma força é aplicada.

O simples conhecimento da média de uma variável aleatória X, em geral, não é suficiente para se

ter uma idéia clara da distribuição de X. Suponha que sabemos que a média de mensagens via e-mail recebidas diariamente por uma pessoa é de 20. Isto pode significar que a pessoa recebe todos os dias um número de mensagens próximo de 20 – digamos, entre 18 e 22. Ou então, que ela recebe muitas mensagens em alguns dias – digamos, ao redor de 50 –, e em outros dias um número muito pequeno – por exemplo, em torno de 5 –, perfazendo igualmente uma média de 20.

Existe assim uma necessidade de se ter uma medida adicional que permita quantificar o grau de dispersão dos valores de X.

As medidas de dispersão mais freqüentemente empregadas são a variância e o desvio-padrão.

Se X é uma variável aleatória discreta que assume os valores x1, x2, x3, ... com probabilidades p(x1), p(x2), p(x3), ... respectivamente, e se E(X) é finito, então sua variância é calculada por :

Var(X) == ∑ (x − (E(X))= p(x)

Diremos que Var(X) existe e é finita se a série da direita for convergente.

Notas :

(1)Se X só admitir um número finito N de valores possíveis, teremos Var(X) == ∑ (x − (E(X)) p(x)

Podemos observar que a variância é a média ponderada dos quadrados das diferenças entre cada valor da variável e a sua esperança, sendo que o correspondente peso é novamente igual à probabilidade de que a variável assuma esse valor.

(2) Pode ser demonstrado que a variância de X também pode ser calculada pela expressão Var(X) = ∑ x= p(x) – E(X) 2

Interpretação física da variância de uma v.a discreta: Fazendo novamente um paralelo com a Mecânica, vemos que Var(X) corresponde exatamente ao

momento de inércia da distribuição discreta de massa representada pela função de probabilidade p em relação a um eixo vertical que passa pelo ponto de abscissa E(X).

Note que a unidade de medida da variância é o quadrado da unidade de medida da respectiva variável. Portanto uma alternativa para mensurar a dispersão é através do chamado desvio padrão, que é medido na mesma unidade da variável.

O desvio padrão de uma variável aleatória discreta é igual à raiz quadrada não negativa da sua variância: DP(X) = Var(X) .

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 36

Page 43: Fundamentos_de_Estatística_convertido

Exemplo 2.7: Comparando variâncias Consideremos as v.a’s X e Y com suas correspondentes funções de probabilidade :

X xi 1 2 3 4 5 6 7 p(xi) 0,01 0,01 0,30 0,36 0,30 0,01 0,01

Y

yj 1 2 3 4 5 6 7 p(yj ) 0,47 0,02 0,01 0,00 0,01 0,02 0,47

Podemos verificar facilmente que E(X) = E(Y) = 4. Contudo, é fácil ver que X e Y têm

distribuições bem diferentes. A v.a. X tem como valores mais prováveis os valores centrais, 3 , 4 e 5 , com probabilidades muito pequenas para os demais valores, enquanto que para a v.a. Y, os seus valores extremos, 1 e 7, são os mais prováveis. Vejamos como essa diferença se expressa em termos das suas variâncias.

Var(X) = 12(0,01)+22(0,01) +32(0,30) + 42(0,36) +52(0,30) +62(0,01)+72(0,01) – 42 = 0,86 Var(Y)= 12(0,47)+22(0,02)+32(0,01)+42(0)+52(0,01)+62(0,02)+72(0,47) – 42 = 8,64

Observamos que, como era de se esperar, Var(Y) é muito maior que Var(X) já que os valores de Y são bem mais dispersos com relação à media que os de X.

Também temos : DP(X) = √0,86 = 0,93 e DP(Y) = √8,64 = 2,94.

Desta maneira podemos usar a variância ou o desvio-padrão para quantificar o grau de

dispersão em torno da média de uma variável aleatória. O papel da variância no Controle de Qualidade A variância é um conceito importante no Controle Estatístico da Qualidade, sobretudo no

enfoque mais moderno. Atualmente, define-se a qualidade de um produto como sendo inversamente proporcional à sua variabilidade. Além disso, defíne-se Melhoria da Qualidade como sendo a redução da variabilidade do processo produtivo.

O coeficiente de variação de uma variável aleatória é igual ao quociente entre o desvio-padrão e a média :

CV(X) = BC(D)E(D) (desde que E(X) seja não-nula)

Comumente o coeficiente de variação é expresso como porcentagem.

Exemplo 2.8 : Coeficientes de variação

Para as variáveis X e Y do Exemplo 2.7, temos: E(X) = E(Y) = 4 ; DP(X) = 0,93 ; DP(Y) = 2,94.

Assim sendo, CV(X) = ,

= 0,2325 (ou 23,25%) e CV(Y) = ,

= 0,735 (ou 73,5%)

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 37

Page 44: Fundamentos_de_Estatística_convertido

Exemplo 2.9 : Ainda os pentes de memória defeituosos.

Aqui encontramos E(X) = 2,0. Por outro lado, V(X) = 02(0,018)+12(0,218)+22(0,509)+32(0,255) – (2)2 = 0,555 e DP(X) = 0,738.

Portanto, CV(X) = ,

, = 0,369 (ou 36,9%)

Como o coeficiente de variação é uma grandeza adimensional, é sempre possível comparar duas variáveis através desse indicador. Assim, embora a variável aleatória deste exemplo não represente o mesmo fenômeno que as variáveis do exemplo anterior podemos dizer que, em termos relativos, a variabilidade do número de pentes de memória perfeitos está compreendida entre as variabilidades das variáveis X e Y do Exemplo 2.8.

2.5 Alguns dos modelos discretos mais importantes

Apresentamos a seguir alguns dos modelos probabilísticos discretos que costumam ser mais utilizados nas aplicações práticas da Estatística.

Começaremos com os modelos que envolvem ensaios de Bernoulli (Bernoulli, Binomial, Geométrico e Pascal) e em seguida analisaremos os modelos hipergeométrico e de Poisson.

O modelo de Bernoulli

Num experimento aleatório é freqüente o caso em que estamos interessados apenas na ocorrência de um particular resultado. Por exemplo:

• na seleção de um chip extraído de um lote podemos querer saber somente se ele é perfeito ou não;

• na seleção de uma peça fabricada queremos saber se ela satisfaz ou não as especificações exigidas pelo consumidor;

• numa transmissão digital podemos estar interessados em saber se o bit transmitido tem erro ou não.

Em todos esses casos o experimento realizado origina um espaço amostral com somente dois resultados possíveis.

Um experimento dessa natureza é chamado de “experimento de Bernoulli” ou, mais popularmente, “ensaio de Bernoulli”.

Os dois resultados de um ensaio de Bernoulli são comumente chamados de “sucesso” e “fracasso”, sendo p a probabilidade de sucesso e (1-p) a probabilidade de fracasso.

Dada a constante p, (onde 0 < p < 1), uma variável aleatória X que assume somente os valores 0 (fracasso) ou 1 (sucesso), de tal forma a que

P(X = 1) = p e P(X = 0) = 1 – p,

tem distribuição de Bernoulli com parâmetro p.

Neste caso é fácil verificar que E(X) = p e Var(X) = p(1-p).

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 38

Page 45: Fundamentos_de_Estatística_convertido

Para verificar as expressões de E(X) e Var(X) basta ver que: E(X) = 0.(1– p)+1.p = p e

Var(X) = 02.(1– p)+12.p – p2 = p – p2 = p(1– p).

Exemplo 2.10: Alguns modelos de Bernoulli.

a) Numa turma com 50 alunos dos quais 30 são homens e 20 mulheres, escolhe-se um aluno ao acaso. Se levarmos em consideração apenas o sexo do aluno selecionado trata-se de um ensaio de Bernoulli. Se considerarmos como sucesso a escolha de uma mulher, teremos p = 0,4 e 1–p = 0,6.

b) A escolha ao acaso de um pente de memória RAM de uma caixa com 12 pentes com 8 perfeitos e 4 defeituosos é um ensaio de Bernoulli. Entendendo como sucesso a seleção de um pente perfeito temos p = 8/12 = 2/3 e 1 – p = 1/3

c)Se em uma transmissão digital 15% dos bits são transmitidos com erro , e entendemos como sucesso a transmissão perfeita, teremos, para cada bit, p = 0,85 e 1 – p = 0,15.

O modelo Binomial

No modelo Binomial um mesmo experimento de Bernoulli é repetido n vezes, independentemente, e a v.a. de interesse representa o número de sucessos a serem obtidos nos n ensaios.

Sejam p e (1–p), respectivamente, as probabilidades de sucesso e fracasso em cada ensaio de Bernoulli. Se os resultados de cada ensaio são denotados por S (sucesso) e F (fracasso) teremos, para cada ensaio, P(S) = p e P(F) = 1– p.

O espaço amostral do experimento resultante dos n ensaios de Bernoulli será composto por resultados que podem ser escritos como uma seqüência de letras S e F. Em particular, um resultado com k sucessos e (n – k) fracassos pode ser descrito, sem perda de generalidade, como uma seqüência de k S´s, seguida de (n–k) F´s , como a seguinte :

SSSSSS...SFFF...FF Como os n ensaios são independentes, a probabilidade de ocorrência deste particular resultado é

pk(1–p)n–k.

Ora, o evento “k sucessos e (n–k) fracassos” pode ocorrer de diversas outras maneiras. O cálculo do número de maneiras de se obter “k sucessos e (n – k) fracassos” foi visto na seção 1.7,

ou seja,é o número de combinações de n objetos tomados de k em k: FnkH = I!K!(I&K)! .

Desta maneira, se a variável aleatória X representa o número de sucessos nos n ensaios de

Bernoulli, a probabilidade de X assumir o valor k é dada por

k

n pk (1– p)n – k, para todo k inteiro

entre 0 e n. Como é visto na definição a seguir:

Dizemos que a variável aleatória discreta X segue um modelo de probabilidade Binomial com parâmetros n e p se sua função de probabilidade é

p(k) = P(X=k) =

k

n pk (1– p)n – k, para todo k = 0,1,2,...,n

Prova-se também que E(X) = np e Var(X) = np(1– p).

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 39

Page 46: Fundamentos_de_Estatística_convertido

Notas:

1. Observe que

k

n pk (1– p)n – k corresponde ao termo geral do desenvolvimento do binômio

de Newton [p + (1–p)]n . Portanto,

∑ P(X = k) =IK ∑ FnkHIK pK(1 − p)I&K = p +(1– p)n = 1 .

Ou seja, a função k → p(k) = P(X=k) assim definida é uma legítima função de probabilidades.

2. Escreve-se X ~ Bin(n, p) para significar que X segue o modelo Binomial com parâmetros n e p.

3. Os valores das probabilidades relativas a uma Binomial podem ser obtidos diretamente a partir de um software adequado.

Exemplo 2.11: Vírus no computador Em geral, em cerca de 80% dos chamados que um certo técnico em computação recebe para

resolver panes nos computadores dos seus clientes, ele constata que o problema decorreu da presença de algum vírus. Suponha que em um determinado dia, esse técnico vai visitar 6 clientes seus, cujos computadores estão precisando ser consertados e admita também que os 6 clientes não se comunicam através de computador (o que garante a independência da existência de vírus em cada computador). Calcule a probabilidade de que:

(a) Pelo menos 4 entre os 6 computadores estejam com vírus. (b) No máximo 2 entre eles estejam com vírus. (c) Todos os 6 estejam com vírus.

Solução:

Considere:

Sucesso = “o defeito no computador é devido a presença de vírus” (p = P(sucesso) = 0,80 )

X = número de computadores com vírus entre os 6 a serem consertados.

Então X ~ Bin(6, 0,80)

(a) P(X ≥ 4) = P(X=4) + P(X=5) + P(X=6) =

= F64H 0,8 × 0,2 + F65H 0,8 × 0,2 + F66H 0,8 = 0,90112.

Isso significa que é bem alta a probabilidade de pelo menos 4 entre os 6 computadores estarem com vírus.

(b) P(X ≤ 2) = P(X=0) + P(X=1) + P(X=2) =

= F60H 0,2 + F61H 0,8 × 0,2 + F62H 0,8 × 0,2 = 0,01696

Este valor indica que é baixíssima a probabilidade de que no máximo 2 deles estejam com vírus.

(c) P(X = 6) = 0,806 = 0,26214. Finalmente, não é tão pequena a probabilidade de que todos estejam com vírus.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 40

Page 47: Fundamentos_de_Estatística_convertido

Exemplo 2.12: A função de probabilidade da Binomial para vários n’s e vários p’s

A figura a seguir exibe o gráfico das funções de probabilidade relativas à lei de probabilidade Binomial, para diferentes valores dos parâmetros n e p. Na primeira linha n = 3, na segunda n = 6 e na última n = 20. Quanto às colunas, temos p = 0,1 na primeira, p = 0,5 na segunda e p = 0,7 na terceira.

p=0,1 p=0,5 p=0,7

Figura 2.4 - Função de probabilidade da Binomial(n,p)

O modelo geométrico

Considere uma seqüência de ensaios de Bernoulli que se repetem, com probabilidade p de sucesso e (1–p) de fracasso, em cada ensaio. O nosso interesse agora é na variável aleatória X, que representa o número de realizações até que o primeiro sucesso ocorra. Claramente, X poderá assumir os valores 1,2,3,4,...

X assumirá o valor inteiro k se e somente se ocorrerem (k – 1) fracassos antes de ser obtido o primeiro sucesso. A probabilidade dos (k – 1) fracassos é (1– p)k– 1 e a de sucesso no último ensaio é p. Logo, a probabilidade de X ser igual a k é p(1– p)k– 1.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 41

Page 48: Fundamentos_de_Estatística_convertido

Diremos que uma v.a. discreta X com a função de probabilidade

P(X=k) = p(1– p)k– 1, para k = 1,2,3,4,...

segue um modelo de probabilidade Geométrico com parâmetro p (0 <p<1)

Pode-se demonstrar que neste caso E(X) = O e Var(X) =

&OOP

Notas:

(1) Pode-se provar que ∑ p(1 − p)K&∞K = 1, ou seja , esta fórmula define uma função de probabilidade.

(2) Escreve-se X ~ Geom(p) para indicar que a v.a. discreta X tem distribuição Geométrica com parâmetro p.

Exemplo 2.13: A produção deveria ser parada?

O engenheiro responsável pelo Controle da Qualidade de uma linha de produção examina, uma após a outra, as peças fabricadas. Se achar uma defeituosa, ele pára a produção para detectar e corrigir as causas do defeito. Se após 10 peças examinadas nenhuma for defeituosa ele mantém a linha funcionando. Se a probabilidade de se achar uma peça defeituosa em cada exame é 0,05, qual é a probabilidade de:

a) a produção ser parada antes da quinta peça examinada? b) a produção não precisar ser parada?

Solução: Seja X a v.a. representando o número de peças examinadas até se achar a primeira defeituosa. Então X segue um modelo geométrico com p = 0,05 e P(X=k) = (0,05)(0,95)k–1, para k = 1,2,3,...

a) A produção é parada antes da quinta peça ser examinada se e somente se X ≤ 4 .

P(X≤4) = P(X=1) + P(X=2) + P(X=3) + P(X=4) = 0,05 + 0,05×0,95 + 0,05×0,952 + 0,05×0,953 = 0,185.

b) A produção não é parada se X ≥ 11 . Ora, X ≥11 se e somente se todas as 10 primeiras peças selecionadas são perfeitas. Então P(X≥11) = (0,95)10 = 0,599.

O modelo de Pascal

Considere a mesma seqüência anterior de ensaios de Bernoulli, com probabilidade p de sucesso em cada ensaio. Agora o foco é na variável aleatória X que representa o número de realizações até que o r-ésimo sucesso ocorra. Assim, X poderá assumir os valores r, r+1, r+2, r+3...

Note que X = k se e somente se nos (k – 1) primeiros ensaios ocorrerem (r – 1) sucessos (e, conseqüentemente, (k – 1) – (r – 1) = k – r fracassos) e ocorrer um sucesso no k-ésimo ensaio. Há

Fk − 1r − 1H maneiras disto acontecer e para cada uma delas a respectiva probabilidade é pr–1(1–p)k–r . p

= pr.(1–p)k–r. Portanto, a probabilidade de X ser igual a k é Fk − 1r − 1H pr.(1–p)k–r .

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 42

Page 49: Fundamentos_de_Estatística_convertido

Diremos que uma v.a. discreta X com a função de probabilidade

P(X=k) = Fk − 1r − 1H pr.(1–p)k–r , k = r, r+1, r+2, r+3...

segue um modelo de probabilidade de Pascal com parâmetros r e p (r inteiro positivo e 0 <p<1).

Pode-se demonstrar que E(X) = QO e Var(X) =

Q(&O)OP .

Notas:

(1) Pode-se demonstrar que ∑ Fk − 1r − 1H∞KQ pr.(1–p)k–r = 1, legitimando P(X=k) como função de

probabilidade. (2) Escreve-se X ~ Pascal(r, p) para indicar que a variável aleatória X tem distribuição de

Pascal com parâmetros r e p. (3) Alguns autores se referem a essa distribuição como binomial negativa.

Exemplo 2.14 Novo esquema de parada da linha Consideremos novamente a linha de produção do Exemplo 2.13. Suponha que há uma

modificação no esquema de parada da linha. Isto é, as peças são examinadas conforme vão sendo fabricadas e a produção é parada para revisão se 3 peças defeituosas forem achadas. Se isto não ocorrer até a 10ª peça examinada a produção não é paralisada. Determine: a) a probabilidade da paralisação ocorrer antes da 7ª peça examinada; b) a probabilidade da produção não ser paralisada.

Solução:

Seja X a v.a. que representa o número total de peças examinadas até se obter a terceira peça defeituosa. Como no Exemplo 2.13, estamos supondo p = 0,05.

O modelo a ser usado é o de Pascal com p= 0,05 e r=3 .

P(X=k) = Fk − 13 − 1H ×0,053×0,95k-3 , k= 3,4,5,...

a) P(X<7) = P(X≤6) = P(X=3) + P(X=4) + P(X=5) +P(X=6)

P(X=3) = 0,053 = 0,000125

P(X=4) = F32H ×0,053×0,95 = 0,000356

P(X=5) = F42H ×0,053×0,952 = 0,000679

P(X=6) = F52H ×0,053×0,953 = 0,001072

Daí, P(X≤6) = 0,002232

b) P(X> 10 ) = ∑ Fk − 12 H∞K ×0,053×0,95k-3

O cálculo acima pode ser feito com um programa computacional adequado. Um outro procedimento, que apresentamos aqui consiste em utilizar uma interessante relação entre as distribuições de Pascal e Binomial.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 43

Page 50: Fundamentos_de_Estatística_convertido

O novo esquema de parada determina que X > 10 se, e somente se, nos 10 primeiros ensaios são encontradas, no máximo, 2 peças defeituosas (sucessos), com probabilidade 0,05 de sucesso em cada ensaio.

Seja Y o número de peças defeituosas nos 10 ensaios. Então Y~ Bin(10 ; 0,05), ou seja,

P(Y=k) = F10R H×0,05k×0,9510-k para k= 0,1,2,3,....10.

Logo:

P(X>10) = P(Y≤ 2) = F100 H×0,050×0,9510 + F101 H×0,05×0,959 + F102 H×0,052×0,958 = 0,9884

Portanto, a probabilidade de não se ter de paralisar a produção é de 98,84%.

O modelo Hipergeométrico

Lembremos mais uma vez o caso dos pentes de memória RAM do exemplo 2.1. É sabido que 8 dos 12 pentes são perfeitos. A seleção de um único pente é um ensaio de Bernoulli. Contudo, se três pentes são escolhidos, um de cada vez, sem reposição, não teremos três repetições independentes do mesmo ensaio de Bernoulli e, portanto, não podemos aplicar o modelo Binomial.

No Exemplo mencionado foi obtida a função de probabilidade da variável X – número de pentes perfeitos escolhidos. Veremos agora uma expressão geral para dita função.

Podemos considerar os três pentes selecionados como uma amostra sem reposição. O número

total de possíveis amostras deste tipo é F123 H ou seja, o número de combinações de 12 objetos

tomados 3 a 3 . Isto é, #Ω = F123 H = 220.

Suponha que a amostra contém k (k = 0,1,2,3) pentes perfeitos e (3 –k) pentes defeituosos. Os k

pentes perfeitos serão extraídos dentre os 8 existentes o que pode ser feito de F8kH maneiras. Os 3-k

pentes defeituosos são extraídos dentre os 4 que sabemos existir e isso pode ser feito de F 43 − kH

maneiras. Assim sendo, o número total de amostras com k pentes perfeitos e 3-k defeituosos é

F8kH F 43 − kH.

Portanto,

P(X=k) = FKHF &KH

F H , k = 0,1,2,3.

Generalizando, suponha que há um total de N pentes de memória dos quais K são perfeitos e (N–K) são defeituosos. Suponha também que é selecionada, sem reposição, uma amostra de n pentes dentre os N. Então, seguindo o raciocínio acima a probabilidade de se ter na amostra k

pentes perfeitos e (n – k) defeituosos é FSKHF&SI&K H

FIH , para todo k inteiro entre 0 e n

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 44

Page 51: Fundamentos_de_Estatística_convertido

Isto conduz a seguinte definição, de caráter geral:

Dizemos que uma v.a. discreta X segue um modelo de probabilidades Hipergeomêtrico com parâmetros n, N e K, se sua função de probabilidade é

p(k) = P(X=k) = FSKHF&SI&K H

FIH para k = 0,1,2,3….,n, sendo n ≤ min(K; N – K)

Se p = K/N, prova-se que E(X) = np e Var(X) = np(1– p)&I&

Notas:

1. Escreve-se X ~ Hiper(n, N, K) para indicar que a v.a. X segue uma distribuição Hipergeométrica com parâmetros n, N e K.

2. Pode-se demonstrar também que para N grande, P(X=k) ≅ (nk)pk(1–p)n–k

Em outras palavras, quando N é grande, a distribuição de probabilidade hipergeométrica pode ser aproximada por uma binomial de parâmetros n e p = K/N. (Ver Exercício Resolvido 2.2)

Exemplo 2.15: Revisitando os pentes

Voltemos aos dados do Exemplo 2.1. Temos N=12, K=8 , n= 3 .

FUVH = F123 H = 220

P(X=0) = FHFHF H =

= 0,018 ; P(X=1) =

FHFHF H =

× = 0,218

P(X=2) = FHFHF H =

× = 0,509 ; P(X=3)=

FHFHF H =

= 0,255

Como era esperado, as probabilidades calculadas desta maneira são iguais às obtidas no Exemplo 2.1.

Neste caso p = K/N = 8/12 = 2/3. Assim,

E(X) = np = 3× = 2 (ou seja, espera-se que, em média, 2 dos 3 pentes instalados estejam perfeitos.)

Var(X) = 3× ×

× = 0,545.

O modelo de Poisson

Suponha que defeitos numa chapa metálica acontecem de acordo com uma taxa média λ por unidade de área. Suponha também que esses defeitos se apresentam aleatoriamente em qualquer ponto da chapa. Em tal situação, se X é a variável aleatória que representa o número de defeitos por unidade de superfície, então diz-se que X segue um modelo de Poisson, definido a seguir. Dizemos que a variável aleatória X obedece a um modelo de Poisson com parâmetro λ (λ > 0) se sua função de probabilidade é

p(k) =P(X=k) = WXλλY

K! , para k = 0,1,2,...

Neste caso, prova-se que E(X) = λ e Var(X) = λ.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 45

Page 52: Fundamentos_de_Estatística_convertido

Notas:

1. Escreve-se X ~ Poisson(λ) para indicar que a v.a. X tem distribuição de Poisson com parâmetro λ.

2. Notemos que neste caso a v.a. X, embora discreta, pode assumir um número infinito de valores.

3. Pode ser provado que ∑ WXλλYK!∞K = 1, ou seja, ∑ P(X = k)∞K = 1.

4. O modelo de Poisson pode ser aplicado a qualquer seqüência de eventos que ocorram por unidade de área, de longitude, de volume ou de tempo.

No Controle Estatístico da Qualidade o modelo de Poisson é usado, às vezes, para determinar probabilidades de números de defeitos que ocorrem por unidade de um certo produto.

Exemplo 2.16: Algumas situações onde se aplica o modelo de Poisson

a) Número de chamadas telefônicas que chegam a uma Central em um dado intervalo de tempo b) Número de navios que chegam ao cais de um porto em um dia c) Número de defeitos encontrados em uma geladeira recém fabricada d) Número de defeitos de acabamento por metro quadrado em uma chapa metálica e) Número de coliformes fecais em um mililitro de água f) Número de falhas por metro no recapeamento de um fio condutor de eletricidade.

Exemplo 2.17: Falhas em um fio elétrico

Admita que o número de falhas no recapeamento de um fio condutor de eletricidade obedece a uma distribuição de Poisson e que em média há 2 falhas por metro. Qual a probabilidade de que:

a) em um determinado metro de fio o recapeamento apresente 3 falhas? b) em 7 metros de fio sejam encontradas no máximo 10 falhas?

Solução:

(a) Seja X a v.a. que representa o número de falhas num dado metro de fio. Então X ~ Poisson(2)

Assim, P(X=3) = WXPZ

! = 0,1804.

(b) Neste caso a unidade de longitude considerada é 7 metros. Logo, para esta nova situação a taxa média por unidade é λ = 2×7 = 14. Obs.: Uma justificativa mais consistente para afirmações como esta será vista mais adiante, no Capítulo 6 (Soma de Poisson’s independentes).

Se Y é a v.a. que representa o número de falhas nesses 7 metros de fio, é lícito considerar Y ~ Poisson(14). Assim sendo,

P(Y≤10)= ∑ WX[\YK! K = 0,1757.

Obs.: Note que, em um problema deste tipo, já que os cálculos envolvidos são bastante trabalhosos, é conveniente o uso do computador.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 46

Page 53: Fundamentos_de_Estatística_convertido

Exemplo 2.18: A função de probabilidade de uma Poisson

A figura a seguir exibe o gráfico das funções de probabilidade para uma distribuição de Poisson, sendo considerados três casos:

λ = 1, λ = 3 e λ = 10

λ = 1 λ = 3 λ = 10

Figura 2.5 – A distribuição para diferentes valores do parâmetro λ

Aproximação da binomial pela Poisson

Em determinados casos, o modelo de Poisson é usado também como uma aproximação para o modelo Binomial. Se n for grande, e a probabilidade p de ocorrência de um sucesso em cada ensaio de Bernoulli for próxima de zero, diremos que estamos na presença de um evento raro.

Na prática, um evento será considerado raro quando o número de ensaios é, pelo menos, igual a 50 (n ≥ 50 ) ao passo que np é menor do que 5 . Nesse caso pode ser demonstrado que a distribuição binomial produz probabilidades muito aproximadas das obtidas com a distribuição de Poisson com λ = np .

Exemplo 2.19: Erro na transmissão de bits

Suponha que a probabilidade de um bit ser transmitido com erro, durante uma transmissão digital, é igual a 0,001. Determine a probabilidade de que, entre 3.000 bits transmitidos, em exatamente 4 deles tenha havido erro de transmissão.

Solução:

Seja X a variável aleatória representando o número de bits transmitidos com erro, dentre os 3000. Notemos que X é Binomial com n = 3000 e p = 0,001.

Como n > 50 e np < 5, podemos usar a aproximação pela Poisson.

Temos n= 3.000 e p = 0,001. Logo λ = np = 3 .

Assim, P(X=4) ]XZ\

! = 0,1680

O cálculo exato, usando a função de probabilidade Binomial, é 0,1681, ou seja, coincide com o

valor obtido pela aproximação até a terceira casa decimal.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 47

Page 54: Fundamentos_de_Estatística_convertido

• Uma variável aleatória (v.a.) X é uma função que associa cada elemento de um espaço amostral a um número real.

• Uma variável aleatória discreta é tal que seus valores pertencem a um conjunto finito ou infinito enumerável de números reais.

• Seja X uma v.a. discreta cujos valores possíveis são x1 , x2, x3, ... , xN. A cada xi de está associada uma probabilidade p(xi) = P(X = xi ) de tal forma que: a) p (xi ) ≥ 0 , para todo i (i=1,2,3,....N)

b) ∑ p(x) = 1 Então p: xi ֏ p(xi ) = P(X = xi ) é chamada de Função de Probabilidade de X. .

• A Função de Distribuição Acumulada F de uma variável aleatória discreta X é definida por: F(x) = P(X≤x) = ∑ p(x) , para todo x real.

• Propriedades da Função de Distribuição Acumulada F: (e) F é uma função não decrescente; isto é, x < y implica F(x) ≤ F(y). (f) lim→&∞ F(x) = 0. (g) lim→*∞ F(x) = 1. (h) O gráfico de F tem o aspecto de uma “função escada”, que sobe um degrau de altura p(x) no

ponto x, sempre que p(x) > 0.

Se X é uma v.a discreta que assume os valores x1, x2, x3, ..., então :

• A média ou esperança de X é

E(X) = x1 . P(X=x1) + x2 . P(X=x2) + x3 . P(X=x3) + ...

(se essa série for absolutamente convergente)

• A variância de X é calculada por

Var(X)=(x1–E(X))2.P(X=x1)+(x2–E(X))2.P(X=x2)+(x3–E(X))2. P(X=x3) + ... =

= ∑ x= p(x) – E(X) 2 (se essas séries forem convergentes)

• O desvio padrão de X é igual à raiz quadrada não negativa da sua variância,

DP(X)= Var(X) .

• O coeficiente de variação de X é igual ao quociente entre o desvio padrão e a média,

E(X)

DP(X)CV(X) = (desde que E(X) seja não nula).

• O quadro abaixo apresenta os modelos probabilísticos discretos (ou famílias de distribuições de probabilidade discretas) aqui estudados, com seus respectivos parâmetros, função de probabilidade, média e variância.

Modelo Parâmetro(s) Valores possíveis dos parâmetros

Função de Probabilidade Média Variância

Bernoulli p 0 < p < 1 P(X=1)=p,

P(X=0)= 1-p

p p(1-p)

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 48

RESUMO DO CAPÍTULO 2

Page 55: Fundamentos_de_Estatística_convertido

Binomial

n e p

n inteiro positivo e

0 < p < 1

P(X=k) =

k

n pk (1-p)n - k ,

para k = 0,1,2,...,n,

np

np(1-p)

Geométrica p 0 < p < 1 P(X=k) = p(1– p)k–1,

para k = 1,2,3,4,...

1/p (1-p)/p2

Pascal r e p 0 < p < 1 P(X=k) = Fk − 1r − 1H pr.(1–p)k–r ,

k = r, r+1, r+2, r+3...

r/p r(1-p)/p2

Hiper-geométrica

n, N e K n, N e K inteiros positivos

n ≤ min(K; N – K)

P(X=k) = FSKHF&SI&K H

FIH ,

para k = 0,1,2,3….,n

nS n

S (1–

S) &I

&

Poisson

λ

λ > 0 k!

λek]P[X

kλ−

==,

para k=0, 1,2,...

λ

λ

• Aproximação da binomial pela Poisson Se n for grande (n ≥ 50), e a probabilidade p de sucesso em cada ensaio de Bernoulli for próxima de zero (tal que np < 5), a distribuição Binomial(n,p) produz probabilidades muito próximas das obtidas através da lei de Poisson com λ = np .

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 49

Page 56: Fundamentos_de_Estatística_convertido

CAPÍTULO 3

VARIÁVEIS ALEATÓRIAS CONTÍNUAS Conceitos e resultados a serem apresentados neste capítulo:

Função de densidade de uma variável aleatória contínua Função de distribuição acumulada de uma variável aleatória contínua Média Populacional ou Esperança de uma variável aleatória contínua Variância, desvio padrão e coeficiente de variação de uma v.a. contínua Quantil de uma distribuição de probabilidade contínua Quartis e Distância Interquartil de uma variável aleatória contínua Famílias de Distribuições contínuas: Uniforme, Exponencial, Gama, Normal Confiabilidade Função Gama A curva Normal – Padronização – Normal Padrão Uso da Tabela da Normal

3.1 O conceito de variável aleatória contínua

Ao contrário do que ocorre com as variáveis discretas, cujos valores podem ser obtidos por um processo de enumeração ou contagem, os valores de uma variável contínua são em geral oriundos de uma medição.

São exemplos de variáveis aleatórias contínuas:

• O tempo que um operário gasta para executar uma determinada tarefa • A duração de uma lâmpada • O diâmetro de um rolamento • A intensidade de uma corrente elétrica

Observe que em todos esses casos, embora possa ser determinada uma unidade de medida (minutos, horas, milímetros, ampères), é possível imaginar a variável assumindo qualquer valor igual a uma fração da unidade adotada.

Mesmo sendo expressas em uma determinada unidade (o que poderia ser interpretado como uma discretização) é muito mais adequado, do ponto de vista matemático, tratar cada variável mencionada acima como uma variável que pode assumir todos os valores reais em algum dado intervalo, isto é, cada uma delas varia continuamente.

Uma variável aleatória X é dita contínua se ela assume todos os possíveis valores dentro de um intervalo (ou conjunto de intervalos) de números reais.

Devido à natureza contínua de X não podemos mais atribuir uma probabilidade diferente a cada valor possível da variável. Entretanto, podemos definir uma probabilidade para um dado intervalo, ou seja, P(a ≤ X ≤ b) para dois números reais a e b (a < b) .

Isto é conseguido substituindo a função de probabilidade p por uma função f , chamada função de densidade de X , ou simplesmente , densidade de X.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 50

Page 57: Fundamentos_de_Estatística_convertido

3.2 Distribuição de probabilidade de uma variável aleatória contínua

Note a semelhança com a definição de função de probabilidade de uma v.a. discreta, onde a soma é agora substituída por uma integral.

Dizemos que X é uma variável aleatória contínua se existe uma função f , chamada função de densidade de X satisfazendo as seguintes condições:

1. f(x) ≥ 0 para todo x real

2. = 1

3. Para quaisquer a, b reais (a<b), P(a≤X≤b) =

Figura 3.1 – O gráfico de uma função de densidade

Pela definição da função de densidade f, o seu gráfico é uma curva, também chamada curva de densidade, que fica sempre acima do eixo das abscissas e tal que a área total sob a curva e acima desse eixo vale 1. Da mesma forma, vemos que P(a≤X≤b) é dada pela área sob a curva compreendida entre as retas x=a e x=b (Ver Fig 3.1)

Conforme foi mencionado anteriormente, para uma variável aleatória contínua X, a probabilidade de qualquer valor particular de X é nula. Com efeito, o evento X=a pode ser expresso como a≤X≤a, e P(X=a) = = 0. Isto também pode ser explicado dizendo que a

área de um segmento de reta é zero.

Este fato não é tão simples de se compreender na prática. Por exemplo, em uma turma de estudantes podemos facilmente encontrar mais de um aluno com estatura igual a 1,70 m (170 cm), o que parece sugerir que a probabilidade da v.a. X (estatura) ser exatamente igual a 170 cm não é nula. Entretanto temos de lembrar que a estatura está sendo expressa em centímetros. Se fosse usado um instrumento de medição com a precisão, digamos, de um mm, talvez essas estaturas não fossem mais as mesmas. Podemos ter um aluno com 169,8 cm e um outro com 170,1 cm, por exemplo. O que ocorre é que, quando afirmamos que a estatura de um aluno é de 170 cm, o que queremos dizer é que ela está no intervalo 169,5 ≤ X ≤ 170,5, cuja probabilidade pode ser maior do que zero.

Pelo exposto acima, concluímos que se X é uma variável aleatória contínua e se a e b são números reais tais que a < b, então :

P(a≤ X ≤b) = P( a< X ≤ b) = P(a≤ X <b) = P(a< X <b)

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 51

Page 58: Fundamentos_de_Estatística_convertido

Exemplo 3.1: Duração da carga de uma bateria

Suponha que a duração em horas da carga da bateria de um notebook de determinada marca pode ser expressa por uma v.a. contínua X, cuja função de densidade é

f(x) = ( )

<

≥−

0 xpara 0,

0 xpara ,2xexp

2

1

Determine a probabilidade da carga da bateria durar:

a) mais de 3 horas;

b) entre 30 e 90 minutos.

Solução:

Primeiro, vamos verificar que a função dada é uma legítima função de densidade. Notemos que f(x) ≥ 0 para todo x real e que = + dx = 1

a) P(X> 3) = dx = e-3/2 = 0,2231

Isto quer dizer que aproximadamente 22,3% das baterias deste tipo ficam carregadas por mais de três horas.

b) Como a unidade de medida é uma hora, a probabilidade pedida é

P(0,5 ≤ X ≤ 1,5) = dx = e-0,5/2 – e-1,5/2 = 0,3064

Aproximadamente em 30,6% dos casos, o tempo durante o qual as baterias ficam carregadas varia entre 30 e 90 minutos.

A Figura 3.2 mostra o gráfico da função de densidade aqui considerada.

Figura 3.2 – A densidade da duração da carga

A definição de Função de Distribuição Acumulada (FDA) de uma v.a. contínua X é a mesma que foi usada para uma v.a discreta. Isto é, se F é a FDA de uma v.a. contínua X, então, como já vimos anteriormente, F(x) = P(X ≤ x), para todo número real x .

O que muda é a forma de cálculo e o aspecto do gráfico da FDA.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 52

Page 59: Fundamentos_de_Estatística_convertido

Se X é uma variável aleatória contínua, com função de densidade f, sua Função de Distribuição Acumulada (FDA) é

F(x) = , para todo x real .

A FDA de uma variável aleatória contínua possui muitas das propriedades da FDA de uma variável aleatória discreta. A diferença é que no caso contínuo o gráfico de F não é uma “função escada”, mas uma função contínua.

Propriedades da Função de Distribuição Acumulada F para uma variável aleatória contínua

(a) F é uma função contínua.

(b) F é uma função não decrescente, ou seja, x < y implica F(x) ≤ F(y);

(c) −∞→xlim F(x) = 0;

(d) ∞→xlim F(x) = 1;

(e) Se a < b, P[a<X<b] = F(b) – F(a)

Exemplo 3.2: De novo, a carga da bateria

Ao calcularmos a FDA da v.a X do Exemplo 3.1 observamos que :

a) Se x<0 , f(x) = 0 e F(x) = P(X≤x) = =

b) Se x≥ 0 , F(x) = + dt = 1 – e-x/2 , se x ≥ 0

Em resumo

F(x) =

≥−<

0 xse ,e1

0 xse ,0x/2

Fig 3.3 – A FDA da duração da carga

Note que as probabilidades ali obtidas podem ser recalculadas usando a FDA.

Com efeito, para o presente exemplo,

P(X>3) = 1 – P(X≤3) = 1 – F(3) = 1 – (1 – e-3/2 ) = e-1,5 = 0,2231

P(0,5 ≤X≤1,5) = F(1,5) – F(0,5) = (1 –e-1,5/2) – (1 – e-0,5/2) = e-0,25 – e-0,75 = 0,3064

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 53

Page 60: Fundamentos_de_Estatística_convertido

Em algumas situações, como no exemplo a seguir, as probabilidades podem ser obtidas sem

necessidade de integração.

Exemplo 3.3: Erros de arredondamento

Quando números reais são arredondados para os inteiros que lhes são mais próximos, os erros de arredondamento assumem valores entre -0,5 e +0,5. Além disso, dado um sub-intervalo qualquer I = (a,b) contido no intervalo [-0,5; +0,5], a probabilidade de que o erro de arredondamento X pertença a I deve ser proporcional à sua amplitude (b – a). Podemos então considerar que esse erro X se comporta como uma variável aleatória contínua cuja função de densidade é

f(x) = ≤≤

contrario caso 0,

0,5x0,5- se 1,

Figura 3.4 Função densidade do erro de arredondamento

Vejamos qual é a função de distribuição acumulada.

Se x ≤ –0,5, f(x) = 0 e F(x) = = 0

Se –0.5 < x < 0,5, f(x) = 1 e F(x) = = x +0,5

Se x ≥ 0, f(x) = 0 e F(x) = + = 1

Portanto,

F(x) =

>≤<−+

0,5 xse 1,

0,5x0,5se x,0,5

0,5 xse 0,

Como veremos adiante este é um caso particular da chamada distribuição uniforme contínua.

Então, por exemplo, a probabilidade de que o erro de arredondamento X seja menor que 0,2 (em módulo) é

P(|X|< 0,2) = F(0,2) –F(-0,2) = (0,5 +0,2) – (0,5 – 0,2) = 0,4.

Observe que ela também pode ser calculada como a área do retângulo em destaque na figura abaixo, ou seja,

[ ] 0,4.10,4AlturaBase0,2XP =×=×=<

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 54

Page 61: Fundamentos_de_Estatística_convertido

Figura 3.5 Probabilidade vista como área sob a curva

A relação entre as funções f e F relativas a uma v.a. contínua

Como vimos, o valor F(x) é obtido integrando a função f entre −∞ e x . Da mesma forma, podemos obter f(x) derivando F(x) com relação a x.

Seja F a FDA de uma variável aleatória contínua com função de densidade f . Então ,

f(x) =

para todo x no qual F seja derivável.

Exemplo 3.4: Segue a carga da bateria

Consideremos a função F obtida no Exemplo 3.1.

Para valores de x<0, F(x) = 0 e portanto , f(x) = = 0

Para valores de x>0, F(x) = 1 –e-x/2 e f(x) = ) =

Notemos que F não é derivável no ponto x = 0. Neste ponto o valor de f poderia ser fixado arbitrariamente sem alterar as probabilidades já que a probabilidade de qualquer ponto particular é zero. Assim obtemos a função de densidade do exemplo 3.1 onde consideramos f(0) = 1/2.

3.3 Medidas de Centralidade e de Dispersão de uma V. A. Contínua

As medidas de centralidade que serão aqui apresentadas são a esperança (ou média, ou valor esperado) e a mediana de uma variável aleatória contínua X. Como medidas de dispersão (ou de variabilidade), consideraremos a variância, o desvio-padrão e a distância interquartil.

As definições são semelhantes às do caso discreto, sendo que as somas são substituídas por integrais.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 55

Page 62: Fundamentos_de_Estatística_convertido

Seja X uma variável aleatória contínua com função de densidade f.

A esperança de X é definida e calculada como

E(X) = ,

desde que a integral seja absolutamente convergente , ou seja, desde que

.

Se essa última integral é finita, a variância de X é definida e calculada como Var(X) = f(x)dx.

Diremos que Var(X) é finita se essa integral é convergente.

A variância também pode ser calculada pela expressão

Var(X) = .

“Inteligência é a capacidade de se adaptar às mudanças.” Stephen Hawking, físico

Exemplo 3.5: Carga da bateria (cont.)

Para a v.a X do Exemplo 3.1 temos :

E(X) = + dx = 2 (após integração por partes)

Ou seja, a bateria dura em média 2 horas.

Além disso, f(x)dx = 0dx + = 8 ( após integração por partes)

Logo, Var(X) = 8 – 22 = 4

Daí , DP(X) = 2 e CV(X) = 1 .

Exemplo 3.6: Erro de arredondamento (cont.)

Para a variável aleatória X do Exemplo 3.3,

E(X) = = = = 0

(Observação: a integral foi calculada entre -0,5 e +0,5 porque para os outros valores de x a função de densidade é zero)

Já que = = ,

Var(X) = – 02 = ⇒ DP(X) = = 0,289 .

Aqui o coeficiente de variação não existe porque E(X) = 0.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 56

Page 63: Fundamentos_de_Estatística_convertido

Interpretação física da média e da variância de uma v. a. contínua

Por analogia com o caso discreto, a média ou esperança de X pode ser interpretada como sendo a abscissa do centro de gravidade da distribuição de probabilidade representada pela função f, vista aqui como se fosse uma distribuição contínua de massa. E novamente por analogia com o caso discreto, poderíamos pensar na variância como sendo o momento de inércia da distribuição contínua de massa representada pela função de densidade f com respeito a um eixo vertical que passa pelo seu centro de gravidade.

Visualização geométrica dos conceitos de média e variância

Uma vez que o comportamento de uma variável aleatória contínua X é basicamente caracterizado por sua função densidade f, como o aspecto visual do gráfico da f pode nos ajudar a interpretar os conceitos de média e variância de X?

Geometricamente, diremos que: • Quanto mais à direita estiver o centro de gravidade da f no gráfico, maior será a média da variável

considerada; • Quanto mais espalhado (disperso, aberto) for o gráfico da f com relação à sua média, maior será a

variância da variável considerada.

Exemplo 3.7: O visual da densidade, da média e da variância

As Figuras 3.6 e 3.7 a seguir nos mostram, respectivamente, como ficaria o gráfico de:

• Três funções densidade com a mesma variância e médias diferentes

• Três funções densidade com a mesma média e variâncias diferentes

Figura 3.6 - Três funções densidade com médias diferentes e com a variância constante

É fácil ver que essas três curvas são exatamente iguais à menos de uma translação. Por isso, elas

têm todas a mesma variância, embora suas médias sejam diferentes.

Figura 3.7 - Três funções densidade com variâncias diferentes e com a média constante

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 57

Page 64: Fundamentos_de_Estatística_convertido

Essas três curvas têm todas elas o mesmo centro de gravidade (no caso, o ponto de abscissa igual a 4). Porém em termos de suas dispersões em torno da média elas não são iguais. Por isso, elas têm todas a mesma média, embora suas variâncias sejam diferentes.

Quantís de uma variável aleatória

A seguir definimos um outro conjunto de medidas importantes de uma variável aleatória. São os chamados quantis ou separatrizes, que permitem particionar uma distribuição de probabilidades. Essas medidas são válidas para qualquer tipo de variável aleatória (discreta ou contínua), mas são melhor visualizadas em se tratando de v.a.’s contínuas, e por isso são introduzidas aqui.

O quantil q de uma variável aleatória X é denotado por ζq e é definido como o menor número ζ que satisfaz F(ζ) ≥ q .

O primeiro quartil ou quartil inferior da v.a. X, denotado por q1(X), é o quantil ζ0,25

O segundo quartil ou mediana da v.a. X, denotado por q2(X), é o quantil ζ0,5

O terceiro quartil, ou quartil superior da v.a. X, denotado por q3(X), é o quantil ζ0,75

A distância interquartil, denotada por DIQ(X) é a diferença entre os quartis superior e inferior , isto é DIQ(X) = q3(X) – q1(X).

Algumas observações importantes sobre Quantis:

1. A mediana de X é uma medida de centralidade . Ela é o ponto que divide em duas partes iguais (equiprováveis) uma distribuição de probabilidades.

2. A distancia interquartil , é uma medida de dispersão.

3. Quando se divide a distribuição de probabilidade em partes percentuais, os divisores correspondentes são chamados de percentís. Assim , o 10º percentil é ζ0,1 , o 25º percentil é q1 = ζ25, e assim por diante.

4. Um caso particular, que abrange muitas das situações de maior interesse prático, é aquele em que X é uma v.a. contínua cuja FDA, F, é uma função estritamente crescente. Neste caso, seu q-ésimo quantil ζq é tal que F(ζq) = q. Conseqüentemente, para uma tal variável aleatória X, temos:

F(q1(X)) = 0,25, F(q2(X)) = 0,50 e F(q3(X)) = 0,75

5. Os quantis são de uso importante num ramo da Estatística chamado de Estatística Não paramétrica.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 58

Page 65: Fundamentos_de_Estatística_convertido

Exemplo 3.8: Carga da bateria - Determinação dos quartis

Já que, para a v.a X do Exemplo 3.1, F é estritamente crescente, temos:

F(q2(X)) = = 0,5 ⇒ ⇒ q2(X) = 1,39

Analogamente encontramos: q1(X) = 0,58 , q3(X) = 2,77 , DIQ(X) = 2,19

Isto quer dizer que metade das baterias desse tipo duram no máximo 1,39 horas. Além disso, também 50% dessas baterias têm seu tempo de vida entre 0,58 horas e 2,77 horas.

3.4 Alguns dos modelos contínuos mais importantes

O modelo Uniforme Contínuo

Dados os números reais a e b (a < b), diz-se que variável aleatória X tem distribuição uniforme no intervalo [a,b], se sua função de densidade (f) é dada por

f (x) =

≤≤−

contrario caso 0,

bxa se ,ab

1

Prova-se também que E(X) = (a + b)/2 e Var(X) = (b – a)2/12.

Não é difícil verificar que, neste caso, a função de distribuição acumulada é:

≤≤−−

=

b xse 1,

bxa se ,ab

axa xse 0,

F(x)

Nota: Para indicar que a v.a. X segue o modelo uniforme contínuo no intervalo [a,b] escrevemos X ~ U (a, b).

Figura 3.8 A densidade e a FDA da Uniforme[a,b]

Observação:

Notemos que se X ~ U[a ,b], então para qualquer subintervalo [c,d], onde a≤c<d≤b, P(c≤X≤d) é a mesma para todos os subintervalos que tenham o mesmo comprimento. De fato, P(c≤X≤d) = ,

que depende somente do comprimento (d – c) do subintervalo e não de seus limites. Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 59

Page 66: Fundamentos_de_Estatística_convertido

Exemplo 3.9: Novamente o erro de arredondamento

É fácil ver que a variável X = erro de arredondamento considerada nos exemplos 3.3 e 3.6 segue uma lei de probabilidade Uniforme no intervalo [ ]5,0;5,0− .

Conseqüentemente, vemos que, por exemplo:

P(–0,2 ≤ X≤ 0 ) = P(0,1 ≤X≤ 0,3) = 0,2.

Observação: Escolher ao acaso um ponto P dentro de um intervalo [a,b] é o mesmo que dizer que a

coordenada X do ponto em questão é uniformemente distribuída sobre [a,b]. Por este motivo, a distribuição uniforme contínua tem um papel de destaque na conceituação do que seja um gerador de números aleatórios, ferramenta fundamental da metodologia de Simulação por Monte Carlo.

Exemplo 3.10: Esperando o ônibus

Helena é aluna de Engenharia Química e todos os dias se dirige de ônibus à sua faculdade. Há somente um ônibus que lhe serve e ele costuma passar pelo ponto em qualquer instante entre 7:00 e 7:30 . Se num certo dia Helena chega ao ponto às 7:24 qual a probabilidade de conseguir pegar o ônibus?

Solução: Seja X o instante da chegada do ônibus ao ponto. Note que a uniformidade de X está implícita no

enunciado. Então X ~ U ( 0 , 30) , onde X é medida em minutos e 0(zero) corresponde às 7:00 h.

Para Helena pegar o ônibus ele deve chegar após as 7:24 ( ou seja, entre 7:24 e 7:30)

Temos: P(X>24) = P( 24 < X ≤ 30) = = 0,2

- O modelo exponencial

Se λ é uma constante positiva, dizemos que a variável aleatória X obedece a um modelo probabilístico exponencial com parâmetro λ, se sua função de densidade é dada pela expressão:

( )

≥−<

=0 xse ,λxλexp

0 xse 0,f(x)

Além disso, E(X) = 1/λ e Var(X) = 1/λ2

É imediato que f é uma legítima função de densidade, porque

∫∞

∞−

f(x)dx = ∫∞

0

λxdxλe = 1

Portanto a Função de distribuição acumulada é calculada como se segue:

Se x < 0 , F(x) = ∫∞−

x

0.dt = 0

Se x ≥ 0 , F(x) = ∫∞−

0

.dt0 + ∫−

x

0

λtdtλe = 1 – e-λx

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 60

Page 67: Fundamentos_de_Estatística_convertido

Em resumo:

( )

≥−≤

=0 xse ,λxexp -1

0 xse 0,F(x)

A figura a seguir mostra, no mesmo gráfico, como ficam as funções f (densidade) e F(distribuição acumulada) no caso em que λ = ½.

. Figura 3.9 – A relação entre a função densidade e a função de distribuição acumulada relativas

a uma lei de probabilidade exponencial

Na figura acima se observa , por exemplo, que a ordenada da função de distribuição acumulada F no ponto x=3, ou seja, F(3) = 1 – exp(–1,5) = 0,777 é numericamente igual à área em destaque sob o gráfico da função de densidade f entre x = 0 e x = 3.

É fácil verificar, usando integração por partes, que E(X) == 1/λ e Var(X) = 1/λ2.

Exemplo 3.11: A duração da carga da bateria

A v.a. X do Exemplo 3.1 (duração, em horas, da carga da bateria de um notebook) segue um modelo exponencial com parâmetro λ =2.

Como vimos, E(X) = ½ = 1/λ e Var(X) = ¼ = 1/λ2

Relação entre a distribuição exponencial e a distribuição de Poisson

Existe uma interessante relação entre a distribuição exponencial e a distribuição de Poisson:

Sejam X a v.a. que representa o número de ocorrências de um evento de determinado tipo ao longo de um intervalo de amplitude t e T a v.a. que representa o intervalo de tempo entre a ocorrência de dois eventos consecutivos desse tipo.

Então: X segue um modelo de Poisson com parâmetro λt, se e só se T segue uma distribuição exponencial com parâmetro λ.

Ou, simbolicamente:

( )k!

λtek]P[X

kλt−

== , k = 0,1,2,..., se e somente se [ ] λte1tTP −−=≤ , para todo t > 0.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 61

Page 68: Fundamentos_de_Estatística_convertido

De fato, suponha que X é Poisson(λt). Então, X = 0 (ou seja, não ocorre nenhum evento no intervalo (0,t)) se e somente se T>t.

Portanto,

P(X=0) = P(T>t) . Ou seja, = e-λt.

Então, F(t) = P(T≤ t) = 1 – e-λt. Como esta é a FDA de uma exponencial, concluímos que T ~ exp(λ).

Ou seja, a distribuição exponencial se aplica às mesmas situações que a de Poisson, isto é, para

modelar fenômenos como os seguintes:

• Tempo entre a chegada de dois navios a um porto • Tempo entre a chegada de dois clientes a uma loja comercial • Tempo entre as chegadas de dois e-mail consecutivos à caixa de entrada de uma pessoa.

Dentro desse contexto, o parâmetro λ da distribuição exponencial tem uma interpretação

interessante: Trata-se da freqüência média de ocorrências do fenômeno considerado por unidade de tempo. Por outro lado, T = 1/λ é o valor médio desse intervalo de tempo, à luz do modelo exponencial, já que E(X) =1/λ =T. Esta relação Exponencial-Poisson é mantida mesmo quando a unidade considerada para a ocorrência de eventos não é o tempo. Então, se, por exemplo, D é a v.a. representando a distância entre duas falhas consecutivas no recapeamento de um fio elétrico, e se o número médio de falhas em d metros de fio é λd, então a v.a X que representa o número de falhas em d metros de fio tem distribuição Poisson(λd) e D ~ exp( λ), como veremos no exemplo a seguir.

Exemplo 3.12: Novamente as falhas no recapeamento do fio elétrico

Voltemos ao Exemplo 2.17. Nele a v.a X, que representa o número de falhas por metro de fio, tem

distribuição Poisson(λ), com λ=2. Assim, se Y é a v.a. representando o número de falhas em d

metros de fio, teremos Y ~ Poisson(λd) = Poisson(2d). A v.a. D, que representa a distância entre duas falhas consecutivas, terá distribuição exp(2).

Dessa maneira, a freqüência média de falhas por metro é 2 e a distância média entre duas falhas consecutivas é 0,5 metros.

Uma outra interessante propriedade da distribuição exponencial é a chamada “perda de memória”. Isto é, se o fenômeno segue um modelo exponencial então a probabilidade condicional de não ocorrer nenhum evento no intervalo de tempo (t1, t1+t2), dado que não ocorreu nenhum evento no intervalo (0,t1), é igual à probabilidade (incondicional) de não ocorrer nenhum evento no intervalo (0, t2). Ou, matematicamente, dados quaisquer reais t1 e t2, ambos positivos,

P(X > t1 +t2 | X > t1) = P(X > t2). Com efeito, no caso da distribuição exponencial:

P(X > t1 +t2 | X > t1) =

= = e = P(X > t2).

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 62

Page 69: Fundamentos_de_Estatística_convertido

Esta propriedade da distribuição exponencial é amplamente usada na Teoria da Confiabilidade. A Confiabilidade de um componente (ou sistema) ao longo de um intervalo de amplitude t, que denotamos por R(t), é definida como R(t) = P(T > t), onde T é a duração da vida do componente.

Há várias leis que regem a Confiabilidade de um componente. Uma delas, a Lei de Falhas Exponencial, é aplicada quando a taxa de falhas, λ, é constante. Isto ocorre quando não há desgaste do material com o tempo. Assim, por exemplo, se o componente já está funcionando há 1000 horas, a probabilidade de que ele continue funcionando até 1500 horas é igual à probabilidade de ele funcionar apenas 500 horas a contar do instante inicial. Note que aqui está sendo usada a propriedade de “perda de memória”.

A situação acima ocorre comumente com componentes elétricos ou eletrônicos – como lâmpadas, chips, transistores, etc. – que podem falhar subitamente, sem apresentar desgaste ou fadiga do material.

No caso de componentes de outros tipos, que se desgastam com o uso, a lei exponencial pode ser usada em intervalos não muito grandes. Por exemplo, um carro pode ter uma taxa elevada de falhas no período de rodagem. Posteriormente, após alguns ajustes, talvez a taxa de falhas se mantenha aproximadamente constante durante algum tempo, para em seguida voltar a aumentar progressivamente quando aparecerem os primeiros sinais de desgaste. Este fenômeno pode ser observado em outras situações, como nas tabelas de vida em Atuária, onde há uma alta taxa de mortalidade nos primeiros anos de vida, seguida por uma certa estabilidade durante a juventude e a idade madura, e novamente um aumento da taxa de mortalidade na idade senil. Nos períodos em que essas taxas permanecem constantes, o modelo exponencial de falhas pode ser aplicado.

Exemplo 3.13: Tempo de vida de uma lâmpada

O tempo de vida T de um certo tipo de lâmpada segue uma distribuição exponencial com média de 10000 horas. Se tiver sido encomendado um lote com 20000 lâmpadas desse tipo:

(a) Quantas dessas lâmpadas que deverão queimar antes de 10000 horas de uso? (b) Após quantas horas de uso 90% das lâmpadas do lote deverão estar queimadas? (c) Se uma certa lâmpada já durou mais de 12000 horas, qual a probabilidade dela durar mais de

20000 horas? (d) Qual é a confiabilidade de uma lâmpada no período de 20000 horas?

Solução:

(a) Sabemos que E(T) = 1/λ = 10000. Logo, λ = 0,0001. Isto quer dizer que a freqüência média de “mortes” dessas lâmpadas é de 0,0001 lâmpada por hora. Queremos determinar P [ T ≤ 10000 ]. Mas isto é precisamente:

F(10000) = 1– e-0,0001x10000 = 1– e-1 = 0,6321

Isso quer dizer que, após 10000 horas de uso, cerca de 12642 lâmpadas, entre as 20000 do lote, deverão estar queimadas.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 63

Page 70: Fundamentos_de_Estatística_convertido

(b) Queremos obter um valor to tal que P [ T ≤ to] = 0,9. ( ) ⇒=−−= 0,90,0001texp1)F(t 00 ( ) 0,11t000,0exp 0 =− ⇒

⇒−==− 2,3026ln(0,1)1t000,0 0 23026t0 = horas

Isso quer dizer que, passadas 23026 horas de uso, cerca de 18000 lâmpadas deverão estar queimadas.

(c) Pela propriedade de falta de memória da distribuição exponencial,

P(T > 20000 | T > 12000) = P(T > 8000) = exp(– 0,0001×8000) = = 0,449.

Repare que o cálculo desta probabilidade condicional não levou em consideração o fato de a lâmpada já ter 12000 horas de uso. Na verdade ela só depende das 8000 horas adicionais.

(d) R(20000) = P(T > 20000) = exp(–0,0001×20000) = = 0,135.

Observação: A solução do exemplo anterior pode ser também obtida diretamente a partir de um

software que contenha a exponencial acumulada (direta e inversa). Os comandos do R para resolver o exemplo anterior encontram-se no Anexo XXX.

Distribuição Gama

A distribuição Gama é importante por sua relação com a distribuição exponencial e com a distribuição de Poisson.

Antes de definí-la, introduziremos uma função que desempenha um importante papel no Cálculo das Probabilidades e na Matemática em geral. Trata-se da função Gama.

A função Gama é definida , para todo número real positivo r , por

Γ(r) = xedx

Algumas propriedades da função Gama:

• Para todo r > 0 , Γ(r+1) = rΓ(r)

• Γ(1) = edx = 1.

• Γ(n +1) = n! , para n = 0, 1, 2, 3...

• Γr + = ×!×"×…×

$ √π , se r = 0, 1, 2, 3...

Diz-se que uma variável aleatória X tem distribuição Gama, com parâmetros r e λ (r > 0 e λ > 0), se sua função de densidade é dada por

f(x) = ' () λxe(, se x ≥ 00, se x < 0

0 onde r é o parâmetro de configuração e λ o parâmetro de escala.

A média e a variância da distribuição Gama são, respectivamente,

E(X) = r/λ e Var(X) = r/λ2.

Notação: X ~ Gama(r,λ) significa “X tem distribuição Gama com parâmetros r e λ”.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 64

Page 71: Fundamentos_de_Estatística_convertido

O fato de essa f ser uma função de densidade pode ser demonstrado aplicando-se as propriedades de função Gama. Senão, vejamos:

1 λΓr λxe(dx = 1

Γr 1 λxe(d

λx = ΓrΓr = 1

Exercitando: Use as propriedades da função gama para verificar a validade das expressões de E(X) e Var(X) acima.

Na figura 3.10, a seguir, podemos observar que a curva da densidade da gama é assimétrica, mas vai se tornando cada vez mais simétrica à medida que r cresce.

Figura 3.10: A densidade da Gama para λ = 2 e vários valores de r: 1, 5, 10, 25

Observações:

1. Notemos que X ~ Gama(1,λ) ⇒ X ~exp(λ), ou seja, a distribuição Exponencial é uma caso particular da distribuição Gama, no caso em que r = 1.

2. No Capítulo 3 será apresentada uma interessante propriedade que relaciona as distribuições Gama e Exponencial.

Relação entre as distribuições Gama e de Poisson

Pode-se demonstrar que, se eventos ocorrem dentro de um intervalo de tempo (0,t) conforme uma distribuição de Poisson com média λt, então o tempo até a ocorrência do r-ésimo evento consecutivo segue uma distribuição Gama(r,λ).

Esta propriedade será usada na solução do exemplo a seguir.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 65

Page 72: Fundamentos_de_Estatística_convertido

Exemplo 3.14: O brinde de Seu Joaquim.

Seu Joaquim é dono de uma joalheria e torcedor fanático do Vasco da Gama. Motivado pela vitória de seu time na partida de domingo, pelo marcador de 6 a 0, ele decide dar um brinde ao sexto cliente que fizer uma compra na 2ª feira seguinte. Historicamente as vendas são feitas conforme uma distribuição de Poisson com média de 0,5 por hora (ou seja, uma venda em cada duas horas). A joalheria permanece aberta durante 8 horas por dia.

a) Qual é a probabilidade de que Seu Joaquim de fato dará o brinde? b) Qual é o tempo médio para o instante da sexta venda, contando o tempo desde o momento

de abertura da loja na 2ª feira escolhida?

Solução:

Sejam:

N = o número de vendas feitas por hora. Então N ~ Poisson(0,5).

X = instante da sexta venda, contando o tempo desde a abertura da loja na 2ª feira.

Então X ~ Gama( r, λ), onde r = 6 , λ= 0,5. Ou seja,

f(x) = ' ,")4 0,5x"e,", se x ≥ 00, se x < 0

0

a) Como a joalheria permanece aberta durante 8 horas por dia, o Seu Joaquim de fato dará o brinde se X<8. Integrando por partes ou usando um pacote computacional adequado, temos que:

P(X < 8) = ,")4 0,5x"e,"dx =6

0,215

Logo a probabilidade de que Seu Joaquim dará o brinde é de apenas 21,5%.

b) E(X) = r/λ = 6/0,5 = 12 horas. Note que este último valor, superior ao tempo de 8 horas, durante as quais a loja fica aberta, é coerente com a probabilidade baixa obtida no item (a).

Exercitando: Repita o mesmo exemplo supondo que Seu Joaquim resolvesse oferecer o brinde ao terceiro

cliente a fazer uma compra em sua loja.

3.5 A Distribuição Normal

Dada a sua relevância no Cálculo de Probabilidades, dedicaremos uma seção deste capítulo exclusivamente ao modelo Normal. Este modelo foi proposto inicialmente pelo matemático Carl Friedrich Gauss e, por esse motivo, é também chamado de modelo Gaussiano.

3.5.1 - Generalidades

Por várias razões, a distribuição Normal é o modelo mais usado em todo o Cálculo de Probabilidades. A curva Normal ou Gaussiana descreve de forma muito adequada o comportamento de uma variável que se distribui de forma simétrica em relação a um valor central. Os 2 parâmetros que a caracterizam são µ, que especifica o seu valor central e σ2, que define a sua variabilidade.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 66

Page 73: Fundamentos_de_Estatística_convertido

Dadas as constantes µ e σ2 (onde σ > 0), diz-se que a variável aleatória X tem distribuição Normal com parâmetros µ e σ2 se a sua densidade é dada pela expressão matemática

,2σ

2µ)(x

2

1exp

σ2π

1f(x)

−= para todo x real.

Prova-se que E(X) = µ e Var(X) = σ2.

Notação : X ~ N(µ; σ2) significa “a variável aleatória X tem distribuição Normal com parâmetros µ e σ2”.

“O charme encantador desta ciência sublime revela-se apenas para aqueles que têm a coragem de mergulhar nela profundamente.” Carl Friedrich Gauss, matemático

As figuras 3.11 e 3.12, a seguir, nos mostram o aspecto visual, respectivamente, da função densidade e da função de distribuição acumulada de uma Normal.

x

f (x)

µµµµ - 2 σσσσ µµµµµµµµ - σσσσ µµµµ + 2 σσσσµµµµ + σσσσ

Figura 3.11 A densidade da distribuição Normal

Curiosidade:

Lembre-se que, em alguns exemplos anteriores de distribuições discretas, os gráficos das funções de probabilidade dos modelos binomial (Figura 2.4 ) e de Poisson (Figura 2.5) já sugeriam um comportamento “gaussiano”. Também no caso da distribuição Gama(r; λ), vimos que, à medida que r cresce (com λ fixo), a curva da densidade se aproxima cada vez mais de uma curva gaussiana. Como veremos no Capítulo 6, isto é uma decorrência de um dos resultados mais importantes da teoria de probabilidades, o Teorema Central do Limite.

Figura 3.12 - Gráfico da Função de distribuição acumulada da Normal (µ; σ2)

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 67

Page 74: Fundamentos_de_Estatística_convertido

3.5.2 Distribuição Normal Padrão

Se uma v.a. tem distribuição Normal com média igual a zero e variância igual a 1, diremos que ela tem distribuição Normal Padrão ou distribuição Normal Reduzida .

Daqui em diante serão usadas as letras ϕ e Φ para representar, respectivamente, a função densidade e a função de distribuição acumulada correspondentes à Normal padrão e Z para representar uma v.a. com essa distribuição. Ou seja, se Z ~ N(0;1),então

−= 2z2

1exp

1(z)ϕ e z)P(ZΦ(z) ≤= , para todo z real.

As funções de densidade e FDA da Normal reduzida estão representadas na figura a seguir.

Figura 3.13 – Gráficos das funções φ(.) e Φ(.)

3.5.3 Propriedades da Distribuição Normal:

A distribuição Normal(µ, σ2) goza de várias propriedades, entre as quais estão as seguintes:

(a) A curva da densidade da Normal é simétrica em relação à reta vertical que passa por x = µ.

(b) Quando x tende a +∞ ou a –∞, a curva da densidade da Normal se aproxima assintoticamente do eixo horizontal.

(c) A curva da densidade tem seu ponto de máximo em x = µ e tem pontos de inflexão em x=µ – σ e x=µ + σ.

(d) Se X ~ N(µ; σ2), então [ ] 0,95.2σµX2σµP ≅+<<− (Ou seja, se a variável X segue uma curva Normal, em aproximadamente 95% dos casos o valor de X estará distante da média de menos de dois desvios padrão.)

As propriedades acima são obviamente válidas para a distribuição Normal padrão. Em particular, para Z ~ N(0, 1), as propriedades descritas nos itens (a) e (c) podem ser escritas como:

a) A curva da densidade φ é simétrica em relação à vertical z = 0. Daí decorre que Φ(–z) = 1 – Φ(z), para todo z real;

b)

c) A curva da densidade φ tem seu ponto de máximo em z = 0 e tem pontos de inflexão em z = –1 e z = 1.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 68

Page 75: Fundamentos_de_Estatística_convertido

Exemplo 3.15: Distribuição do peso líquido de latas de leite em pó.

Suponha que os pesos líquidos do leite em pó contido em latas abastecidas por uma certa

máquina seguem uma curva Normal com média µ = 300g e desvio padrão σ = 10g. Portanto, µ - 2σ

= 300 - 2×10 = 280g e µ + 2σ = 300+2×10 = 320g.

. Então podemos afirmar que:

• cerca de 95% dessas latas têm peso líquido entre 280g e 320g; • cerca de 2,5% dessas latas têm peso líquido inferior a 280g; • cerca de 2,5% dessas latas têm peso líquido superior a 320g.

Figura 3.14 – Distribuição do peso (em g) – Densidade e FDA

Exemplo 3.16: Como interpretar a média e a variância de uma curva Normal?

Cada um dos gráficos da figura abaixo nos permite comparar duas curvas Normais em termos de suas médias e suas variâncias.

Figura 3.15 – Três pares de curvas Normais

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 69

Page 76: Fundamentos_de_Estatística_convertido

Observações importantes sobre a Normal:

1. É muito comum se representar o erro (ou o desvio) na medição de uma grandeza por uma variável aleatória, cuja lei de probabilidade é uma Normal centrada em zero.

2. O Teorema Central do Limite, a ser abordado no Capítulo 4, é uma razão a mais para justificar a importância da distribuição Normal no contexto do Cálculo de Probabilidades.

3.5.4 Padronização

Se X ~ N(µ,σ2) e Z = μ

9 , então Z ~ N(0,1).

Esta transformação da v.a. X na nova v.a. Z é chamada de padronização.

A padronização é um recurso fundamental para o cálculo de probabilidades envolvendo a distribuição Normal. Suponha que X ~ N( µ, σ2 ) e desejamos calcular P(a≤X≤b) para qualquer intervalo [a,b] de números reais. Então, fazendo a mudança de variáveis z = μ

9 na primeira integral da expressão a seguir, obtemos:

P(a ≤ X ≤ b) = 9√: exp − μ

9=

> dx = √:

=μ/9>μ/9 exp − @

dz =

= φzdz=μ/9>μ/9 = P(

>μ9 ≤ Z ≤ =μ

9 ) = Ф(=μ

9 ) – Ф(>μ

9 ).

Observemos que o integrando da 2ª integral é exatamente ϕ (z), o que mostra que a v.a. Z =

μ9

tem de fato distribuição N(0;1).

Assim, se X ~ N(µ, σ2) e Z ~ N(0, 1) temos:

P(a ≤ X ≤ b) = P( >μ

9 ≤ Z ≤ =μ9 ) = Ф(

=μ9 ) – Ф(

>μ9 ) .

Analogamente,

P( X ≤ a) = P(Z ≤ >μ

9 ) = Ф(>μ

9 )

P(X ≥ a) = P(Z ≥ >μ

9 ) = 1 – P(Z ≤ >μ

9 ) = 1 – Ф(>μ

9 )

Ou seja, podemos calcular qualquer probabilidade envolvendo a v.a. X ~ N(µ, σ2) usando somente a distribuição Normal Padrão. A FDA Φ da distribuição Normal Padrão apresenta a grande vantagem de se encontrar tabulada (ver Tabela no Anexo). 3.5.5 Uso da tabela da Normal para o Cálculo de Probabilidades

Suponha que X ~ N(µ; σ2), ou seja, a variável X tem distribuição Normal com parâmetros µ e σ2 e que queremos calcular P(a<X<b), para um determinado intervalo (a,b). Segundo o conceito de função de densidade, essa probabilidade corresponderia à área sob a curva da Normal(µ, σ2) entre x = a e x = b.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 70

Page 77: Fundamentos_de_Estatística_convertido

Então, no Exemplo 3.15, a probabilidade de uma lata de leite sorteada ao acaso da produção total ter seu peso líquido entre 295 e 310 gramas, corresponderia à área sombreada na figura 3.16, e deveria ser calculada integrando a correspondente densidade entre esses valores. Há, contudo, um problema: a integral indefinida da função de densidade N(µ,σ2) não tem uma expressão analítica conhecida. Uma solução seria fazer o cálculo usando integração numérica, o que nem sempre é fácil.

µ = 300, σ = 10, a = 295, b = 310

Figura 3.16 – Leite em pó: Probabilidade como área sob a curva Normal

Felizmente, como já vimos, existe uma forma prática e simples de se efetuar esse tipo de cálculo com o auxílio de uma Tabela de Probabilidades que se refere especificamente à função de distribuição acumulada (.)Φ da distribuição Normal Padrão (Ver Tabela I, no Apêndice II).

Características da Tabela I, no Apêndice II

- A tabela foi construída fazendo uso de integração numérica para valores de z com duas casas decimais.

- Aproveitando a simetria da Normal padrão em torno de zero, a tabela considera apenas valores positivos de z, entre 0,00 e 3,59, com passo de 0,01.

Como utilizar a Tabela I, do Apêndice II

• A parte inteira e a primeira casa decimal de z estão representadas na borda esquerda da tabela. • A segunda casa decimal de z está representada na borda superior da tabela. • No corpo da tabela está o valor da probabilidade Φ (z).

Notação:

Admita que Z ~ N(0; 1).

• Seja p = P(Z ≤ zp) = Φ(zp). • zp representa um valor qualquer da variável Z, também chamado quantil de Z, expresso

com duas casas decimais.

Função densidade φ(.) FDA Φ(.)

Figura 3.17 Trabalhando com a Normal Padrão Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 71

Page 78: Fundamentos_de_Estatística_convertido

Trabalhando com a Tabela I da Normal Padrão

A explicação será toda feita com base em exemplos numéricos. Observação: Note que )zP(Z p≤ = )zP(Z p< , para qualquer valor de zp, porque a variável Z é

contínua.

1. Determinação de p tal que )zP(Zp p≤= = Ф(zp), para zp conhecido.

Exemplos:

• Seja zp = 0,83. O valor de p está no corpo da tabela, no cruzamento entre a linha 0.8 e a coluna .03 da Tabela I. Logo, p = 0,7967. Conclusão: Ф(0,83) = P(Z<0,83) = 0,7967

• Seja zp = 1,57. valor de p está no corpo da tabela, no cruzamento entre a linha 1.5 e a coluna .07 da Tabela I. Logo, p = 0,9418. Conclusão: Ф(1,57) = P(Z<1,57) = 0,9418

2. Determinação de quaisquer probabilidades relativas à Normal padrão Z

Exemplos:

a. P(Z>0,75) = 1 – P(Z<0,75) = 1– Ф(0,75)= 1 – 0,7734 = 0,2266

b. P(0,26<Z<1,02) = Ф(1,02) – Ф(0,26) = 0,8461 – 0,6026 = 0,2435

c. P(Z<–0,66) = P(Z>0,66) = 1 – Ф(0,66) = 1 – 0,7454 = 0,2546

d. P(Z>–1,23) = P(Z<1,23) = Ф(1,23) = 0,8907

e. P(–0,39<Z<0,72) = Ф(0,72) – Ф(–0,39) = Ф(0,72) – (1– Ф(0,39)) = 0,7642 + 0,6517 – 1=

= 0,4159

f. P(Z>0,58) = 2.P(Z>0,58) = 2. (1 – Ф(0,58)) = 2 × (1 – 0,7190) = 0,5620

Figura 3.18 – Áreas sob a curva da Normal Padrão

3. Determinação de quantil zp da Normal padrão dada uma probabilidade (Isto corresponde a trabalhar com a inversa da FDA de Z, isto é, (p)Φz 1

p−= .)

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 72

Page 79: Fundamentos_de_Estatística_convertido

Exemplos:

• Determinar zp tal que Ф(zp)= 0,81. Procurando o valor 0,81 no corpo da tabela, vemos que ele se encontra no cruzamento entre a linha 0,8 e a coluna 0,08, portanto zp 88,0≅ .

• Determinar zp tal que P(Z > zp) = 0,73. P(Z >zp) = 1 – Ф(zp) = 0,73 ⇒ Ф(zp) = 0,27

A Tabela só permite trabalhar com valores de Ф(.) ≥ 0,5. Sabemos que Ф(– zp) = 1 – Ф(zp) = 0,73 Daí, -zp 61,0≅ e então, zp 61,0−≅ .

• Determinar zp tal que P(Z<zp) = 0,16. Como P(Z<zp) = P(–zp<Z<zp) = Ф(zp) – Ф(–zp) = = Ф(zp) – (1 – Ф(zp) ) = 2. Ф(zp) – 1, temos

Ф(zp) = 58,02

16,1 = , logo zp 20,0≅ .

4. Determinação de quaisquer probabilidades relativas a Normal genérica

Exemplos:

• Se X ~ N(8; 9), P(7<X<10) = ?

P(7<X<10) = P(E6√F < G6

√F < 6√F ) = P(E6

! < Z < 6! ) = P(-0,33 <Z <0,67) =

= Ф(0,67) – Ф(–0,33) = Ф(0,67)+Ф(0,33) –1 = 0,7486 + 0,6293 –1 = 0,3779.

Observe que, para garantir a equivalência entre as condições (7<X<10) e

(E6√F < G6

√F < 6√F ), as mesmas operações têm que ser aplicadas aos três membros da

desigualdade. Também pode-se usar diretamente P(7<X<10) = = Ф(6√F ) – Ф(E6

√F ).

• Se X~N(20,16) , P(X>23) = ? P(X>23) = 1 – P(X≤23) = 1 – Ф( !

H ) = 1 – Ф(0,75) = 1 – 0,7734 = 0,2266.

5. Determinação de quantil de Normal genérica dada uma probabilidade

Exemplo:

• Se X ~ N(20;25) e P(X>b) = 0,60, então b = ? P(X>b) = 1 – Ф(=

" ) = 0,60 ⇒ Ф(I" ) = 0,40 ; como esse valor é menor que 0,5

devemos considerar Ф(=" ) = 1 – Ф(I

" ) = 1– 0,40 = 0,6.

Da Tabela Normal: =" = 0,25 ⇒ b = 20 – 5×0,25 = 18,75

6. Determinar parâmetro de Normal genérica dada uma probabilidade

Exemplo: • Se X ~ N(µ;25) e P(X<32) = 0,35, então µ = ?

Temos P(X<32) = Ф (!μ" ) = 0,35 ⇒ Ф (μ!

" ) = 1 – 0,35 = 0,65 ( porque 0,35 < 0,5)

Da Tabela Normal: μ!" = 0,39 ⇒ µ = 32 +5×0,39 = 33,95

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 73

Page 80: Fundamentos_de_Estatística_convertido

Exemplo 3.17: Carga de ruptura de um cabo de aço

A carga de ruptura de cabos de aço de 8 mm, usados em guinchos e produzidos por uma certa Companhia têm uma distribuição Normal com média de 2210kg e desvio-padrão de 25kg. A especificação mínima para a dita carga é de 2180kg. Cabos com carga de ruptura entre 2130 e 2180kg ainda podem ser comercializados, porém a um preço menor, enquanto que se tiverem carga de ruptura inferior a 2130kg devem ser descartados.

a) Qual a porcentagem de cabos que satisfazem a especificação? b) Qual a porcentagem de cabos que, mesmo não satisfazendo a especificação, poderiam ser

vendidos? c) Qual a porcentagem de cabos que deveriam ser descartados?

Solução :

Seja X a v.a. que representa a carga de ruptura, em kg, dos cabos de aço. Então, X ~ N(2210, 252) .

a) Os cabos satisfarão a especificação se X>2180.

P(X>2180) = 1– Ф(6" = 1 – Ф(– 1,2) = Ф(1,2) = 0,8849

Aproximadamente 88,5% dos cabos produzidos satisfazem as especificações.

b) P(2130 < X <2180) = Ф(6

" – Ф(!

" = Ф(–1,2) – Ф (–3,2) =

= Ф(3,2) – Ф(1,2) = 0,9993 – 0,8849 = 0,1144.

Aproximadamente 11,4% dos cabos podem ser vendidos a um preço inferior.

c) P(X<2130) = Ф(!" = Ф(–3,2) = 1 – Ф(3,2) = 1 – 0,9993 = 0,0007

Portanto, deveriam ser descartados aproximadamente 0,07% dos cabos produzidos.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 74

Page 81: Fundamentos_de_Estatística_convertido

Exemplo 3.18: Tempo (em minutos) necessário para executar uma tarefa

Suponha que o tempo X, em minutos, que uma pessoa leva para executar determinada tarefa varia conforme uma distribuição Normal com parâmetros µ (média) e σ (desvio padrão). Suponha também que a probabilidade de que a tarefa seja executada em no máximo 70 minutos é 0,75 e a probabilidade de que a tarefa seja executada no máximo 50 minutos é 0,25.

(a) Determine os valores de µ e σ. (b) De todas as pessoas que necessitam de pelo menos 75 minutos para executá-la, que percentagem

precisará de mais de 85 minutos? Solução:

Sabemos que X tem distribuição Normal com parâmetros µ e σ2. Isto implica que σµX

Z−= tem

distribuição Normal padrão, isto é, com esperança 0 e desvio padrão 1.

a) Então 0,75 = P(X ≤ 70) = Ф(Eμ

9 ⇒ Eμ

9 = 0,67 , consultando uma tabela da Normal

reduzida ou um software apropriado.

Analogamente, 0,25 = P(X≤50) = Ф("μ

9 ) ⇒ "μ

9 = – 0,67.

Ficamos então com um sistema de 2 equações a duas incógnitas: µ e σ. Resolvendo esse sistema, temos 60µ = e 9,41σ = , ambos em minutos.

b) Temos que calcular uma probabilidade condicional, a saber,

P(X>85|X>75) = JG6"JGE" =

ФLMNOP,Q

ФRMNOP,Q =

Ф,46Ф, =

,H4","4 = 0,2977

Ou seja, 29,8% das pessoas que executam a tarefa em pelo menos 75 minutos, levam no mínimo 85 minutos nessa atividade.

Por que a incerteza está tão presente na Física Moderna? Vejamos, por exemplo, o que diz o Princípio da Incerteza de Heisenberg: Na física tradicional newtoniana, também chamada de Física Clássica, acreditava-se que se soubéssemos a posição inicial e o momento (massa e velocidade) de todas as partículas de um sistema, seríamos capaz de calcular suas interações e prever como ele se comportará. Isto parece correto, se soubermos descrever com precisão as interações entre essas partículas, mas parte de um pressuposto bastante forte: o de que de fato conhecemos a posição e o momento de todas as partículas.

Segundo o princípio da incerteza, não se pode conhecer com precisão absoluta a posição ou o momento (e, portanto, a velocidade) de uma partícula. Isto acontece porque para medir qualquer um desses valores acabamos os alterando, e isto não é uma questão de medição, mas sim de física quântica e da natureza das partículas.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 75

Page 82: Fundamentos_de_Estatística_convertido

Eu pensei que estava interessado em Incerteza, mas agora não estou tão certo disso.

RESUMO DO CAPÍTULO 3

• Uma variável aleatória contínua pode assumir todos os valores pertencentes a um intervalo de números reais.

• Dada uma variável aleatória contínua X, existe uma função f, chamada função de densidade de X tal que: a. f(x) ≥ 0 para todo x real b. = 1

c. Para quaisquer a, b reais (a<b), P(a≤X≤b) =

Se X é uma variável aleatória contínua e se a < b, então:

P(a≤ X ≤b) = P( a< X ≤ b) = P(a≤ X <b) = P(a< X <b)

• Se X é uma variável aleatória contínua, com função de densidade f, sua Função de Distribuição Acumulada (FDA) é a função F tal que

F(x) = P[X≤x], para todo x real.

• Propriedades da FDA para uma variável aleatória contínua

a) F é uma função contínua. b) F é uma função não decrescente, ou seja, x < y implica F(x) ≤ F(y); c) −∞→xlim F(x) = 0;

d) ∞→xlim F(x) = 1;

e) Se a < b, P[a<X<b] = F(b) – F(a)

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 76

Page 83: Fundamentos_de_Estatística_convertido

• Relação entre as funções f e F:

f(x) = e F(x) = , para todo x real.

Seja X uma variável aleatória contínua com função de densidade f. Então:

• A esperança de X é E(X) = ,

(desde que essa integral seja absolutamente convergente)

• A variância de X é Var(X) = f(x)dx=

(Var(X) é finita se essas integrais são convergentes)

• O desvio padrão de X é igual à raiz quadrada não negativa da sua variância,

DP(X)=Var(X)

.

• O coeficiente de variação de X é igual ao quociente entre o desvio padrão e a média,

E(X)

DP(X)CV(X) = (desde que E(X) seja não nula).

• O quantil q de X, denotado por ζq, é o menor número ζ tal que F(ζ) ≥ q. • O primeiro quartil de X, denotado por q1(X), é o quantil ζ0,25

• O segundo quartil ou mediana de X, denotado por q2(X), é o quantil ζ0,5 • O terceiro quartil de X, denotado por q3(X), é o quantil ζ0,75

• A distância interquartil de X é DIQ(X) = q3(X) – q1(X).

• O quadro abaixo apresenta os modelos probabilísticos contínuos (ou famílias de distribuições de probabilidade contínuas) aqui estudados, com seus respectivos parâmetros, função de probabilidade, média e variância.

Modelo Parâmetros Valores dos parâmetros

Função de Distribuição Acumulada Média

Variância

Uniforme

a e b

a < b

f(x) =

≤≤−

contrario caso 0,

bxa se ,ab

1

2

ba +

12

a)(b 2−

Exponencial

λ

λ > 0

( )

≥−<

=0 xse ,λxλexp

0 xse 0,f(x)

λ1

2λ1

Gama r e λ r > 0

λ > 0

f(x) = ' () λxe(, se x ≥ 00, se x < 0

0

r/λ r/λ2

Normal

µ e σ2

µ qualquer

σ > 0

,2σ

2µ)(x

2

1exp

σ2π

1f(x)

−=

para todo x real

µ

σ2

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 77

Page 84: Fundamentos_de_Estatística_convertido

• A função Gama é definida, para todo número real positivo r , por Γ(r) = xedx∞

• Propriedades da função Gama :

a) Para todo r > 0 , Γ(r+1) = rΓ(r)

b) Γ(1) = edx∞

= 1.

c) Γ(n +1) = n! , para n = 0, 1, 2, 3...

d) Γr + = ×!×"×…×

$ √π , se r = 0, 1, 2, 3...

• A Confiabilidade de um componente (ou sistema) ao longo de um intervalo de amplitude t, é R(t) = P(T > t), onde T é a duração da vida do componente.

• Se X ~ N(µ; σ2) então σ

µ−= XZ ~ N(0; 1). Diz-se que Z tem distribuição Normal padronizada.

• A FDA da Distribuição Normal Padronizada encontra-se tabulada (Ver Tabela no Apêndice)

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 78

Page 85: Fundamentos_de_Estatística_convertido

CAPÍTULO 4

FUNÇÃO DE UMA VARIÁVEL ALEATÓRIA Conceitos a serem introduzidos neste capítulo:

Função de uma v.a. discreta Função de uma v.a.contínua. Esperança e variância de uma função de uma variável aleatória Propriedades da esperança, da variância e do desvio-padrão

Na seção 3.5.4 vimos que se X é uma variável aleatória contínua com distribuição Normal, de parâmetros µ e σ2, ao fazermos a transformação Z = (X–µ)/σ, obtemos uma nova variável aleatória que tem distribuição Normal Padrão. A v. a. Z assim definida é uma função de X. Nesta situação a função de densidade foi facilmente obtida visto que ela é um caso particular do modelo Normal, em que µ = 0 e σ2 = 1.

Existem outros casos um pouco mais complexos. Suponha, por exemplo, que o diâmetro D de um rolamento (em mm) é uma v.a. cuja função de distribuição é conhecida. Então o volume do

rolamento, V = é também uma v.a. cuja função de distribuição podemos determinar a partir

do conhecimento da distribuição correspondente a D.

Mais geralmente, se X é uma v.a. e Y=H(X), então Y é também uma v.a. Nosso objetivo é determinar a distribuição de Y quando a de X é conhecida.

Figura 4.1 A variável aleatória Y vista como uma função composta de H com X

4.1 . Função de uma v.a. discreta

Começaremos com o caso discreto.

Consideremos uma v.a. discreta X com valores x1, x2, x3,..., xn,... e função de probabilidade p(.) e seja Y =H(X) uma variável aleatória discreta definida como uma função de X . Então a função de probabilidade q(.) de Y é obtida, a partir de p(.), como se segue:

Se, para um dado i, há vários valores de X, digamos xi1, xi2, ... tais que H(xi1) = H(xi2) = ... = yi, então

q(yi ) = P(Y = yi ) = ∑ p(x): .

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 79

Page 86: Fundamentos_de_Estatística_convertido

Exemplo 4.1: Numa revendedora de carros.

Augusto é o gerente de uma revendedora de carros. Toda semana ele tem 5 carros para venda. Se ele vender até dois carros, não ganha qualquer adicional ao seu salário; porém se ele conseguir vender 3 ou mais carros, ganha um prêmio igual de R$ 500,00 por cada carro vendido. Suponha que as chances de venda dos diversos carros são independentes e que a probabilidade de cada carro ser vendido é 0,6. Determine a função de probabilidade do prêmio semanal ganho por Augusto.

Solução :

Notemos que X~Bin( 5 ; 0,6).

Seja Y a v.a. que representa o prêmio semanal ganho por Augusto. Então temos :

Y = 0, se X ≤ 2500 X , se X ≥ 3 ! com a seguinte função de probabilidade:

q(0,00) = P(Y=0,00) = P(X≤2) = ∑ "(#) = ∑ %5#&'()'() (0,6)((0,4),-( = 0,3174

q(1500,00) = P(Y=1500,00) = P(X=3) = %53&(0,6)3(0,4)2 = 0,3456

q(2000,00) = P(Y=2000,00) = P(X=4) = %54&(0,6)4(0,4) = 0,2592

q(2500,00) = P(Y=2500,00) = P(X=5) = 0,65 = 0,0778

Exercitando: Verifique que a função q(.) obtida no exemplo anterior é de fato uma função de probabilidade

4.2 Função de uma v.a. contínua

X contínua e Y=H(X) discreta

Se X é uma variável aleatória contínua e H é uma função tal que Y = H(X) só assume um número de valores finito ou infinito enumerável, então Y será uma v.a. discreta. Neste caso Y é tratada de modo semelhante ao caso anterior, substituindo as somas por integrais.

Exemplo 4.2: Preço de um cabo de aço

Voltemos ao Exemplo 3.17. Lembremos que a carga de ruptura, em kg, do cabo de aço ali considerado é uma v.a. X ~ N(2210 ; 252), sendo que a especificação mínima para a dita carga é de 2180 kg. Suponha que o rolo de cabos com essa especificação pode ser vendido por R$ 200,00. Cabos com carga de ruptura entre 2130 e 2180 kg ainda podem ser comercializados a um preço de $120,00; e se a carga de ruptura for inferior a 2130 kg, eles devem ser descartados.

Determine a distribuição de probabilidade do preço dos cabos.

Solução:

Seja Y o preço de venda dos cabos. Então a relação entre Y e X é dada por:

Y = 200,00 , se X > 2180

Y = 120,00 , se 2130 ≤ X ≤ 2180

Y = 0,00 , se X < 2130

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 80

Page 87: Fundamentos_de_Estatística_convertido

As probabilidades necessárias já foram calculadas no Exemplo 3.17. Assim, temos:

P(Y=200,00) =P(X>2180) = 0,8849

P(Y=120,00) = P(2130 < X <2180) = 0,1144

P(Y=0,00) = P(X<2130) == 0,0007

X contínua e Y=H(X) contínua

Consideremos agora o caso em que H é uma função contínua, derivável e estritamente monótona, podendo ser crescente ou decrescente.

Exemplo 4.3: Duração da carga de uma bateria.

Seja X a v.a. correspondente à duração, em horas, da carga da bateria de um notebook de certa marca, que segue um modelo probabilístico com função de densidade

f(x) = ./-0 , se 0 ≤ x ≤ 40, caso contrário!

Suponha que é fabricada uma nova bateria que dura duas vezes mais que a atual. Se Y é a v.a. que representa a duração da nova bateria, determine a função de densidade de

Y .

Solução :

O enunciado do problema estabelece que Y = H(X) = 2X. Seja G a FDA de Y. Temos,

G(y) = P(Y≤y) = P(H(X)≤y) = P(2X≤y) = P(X≤9' ) = : ;(<)=<9/'-∞ (Ver Figura 4.2)

Figura 4.2 - A relação entre as durações das cargas das duas baterias

Para x <0 , f(x) =0 ⇒ G(y)=0

Para 0 ≤ x≤ 4 , G(y) = : /-D0 =<9/') = 9/ − 9F/

Para x >4, G(y) = 1

0 ≤ x≤ 4 ⇒ 0 ≤ y ≤ 8 . Assim sendo, a FDA de Y pode ser expressa como

G(y) = G0, se y ≤ 09/ − 9F/ , se 0 ≤ y ≤ 81, se y ≥ 8!

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 81

Page 88: Fundamentos_de_Estatística_convertido

Uma vez obtida a FDA, já conhecemos a distribuição de Y. Contudo ainda é possível obter a densidade derivando G(y) com relação a y.

Para 0 < y < 8 : g(y) = KL(9)K9 =

M/ − 9N' = 0-9N'

G(.) é diferenciável no extremo y = 8, com G´(8) = 0, mas não no extremo y =0. Assim,

g(y) = .0-9N' , se 0 < P ≤ 80, caso contrario !

Na figura a seguir temos a FDA e a densidade da duração em horas da carga da nova bateria.

Figura 4.3 – A densidade e a FDA da duração em horas da carga da nova bateria

Exercitando: Verifique que g(.) define, de fato, uma função de densidade.

O procedimento adotado no exemplo anterior pode ser generalizado para o caso de uma função estritamente monótona (crescente ou decrescente) de X .

Sejam: X ~ f(.) definida no intervalo real (a,b) e

Y = H(X), onde H é estritamente monótona crescente em (a ,b) (e portanto, existe a função inversa, H−1, de H)

Seja G a função de distribuição acumulada de Y. Então: G(y) = P(Y≤ P) = P(H(X)≤ P) = P (X ≤ Q-M(P)) = F(H−1(y)).

Pela regra da cadeia, a função de densidade de Y é

g(y) = KL(9)K9 =

KR[TUV(9)]K9 = ;[Q-M(P)] KTUV(9)K9 .

Dado que H é crescente , KTUV(9)K9 é positiva.

Portanto g(y) > 0 para a < H−1 (y) < b, ou seja, para H(a) < y < H(b) .

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 82

Page 89: Fundamentos_de_Estatística_convertido

Suponha, agora, que H é monótona decrescente. Nesse caso teremos:

G(y) = P(Y≤ P)= P(H(X)≤ P) = P (X ≥ Q-M(P)) = 1 − F[H−1(y)] .

Assim,

g(y) = KL(9)K9 =

KM-R[TUV(9)]K9 = −;[Q-M(P)] KTUV(9)K9

Como H é decrescente, KTUV(9)K9 < 0.

Então g(y ) > 0, para a < H−1 (y) < b, ou seja, para H(b) < y < H(a)

Os dois resultados acima podem ser unificados escrevendo

g(y) = ;[Q-M(P)]| KTUV(9)K9 |. Temos assim, o resultado que se segue:

Consideremos uma v.a. contínua X com valores em um intervalo (a,b) de números reais e H uma função estritamente monótona nesse intervalo. Então existe a inversa H-1. Seja Y = H(X) uma v.a. continua, com valores em (H(a),H(b)), se H é crescente; e com valores em (H(b), H(a)), se H é decrescente. A função de densidade de Y é dada por

g(y) = f(Q-M(P) | KTUV(9)K9 |

onde g(y) = 0, se Q-M(P) não pertence ao intervalo (a,b) .

No caso de H não ser monótona, o resultado acima pode ser aplicado desde que seja possível dividir o domínio de H em sub-intervalos nos quais essa função é monótona, crescente ou decrescente.

Exemplo 4.4: Novamente a duração da carga da bateria.

Vamos resolver o mesmo problema do Exemplo 4.3 usando o método da função de densidade.

Temos

f(x) = ./-0 , se 0 ≤ x ≤ 40, caso contrário! e Y = H(X) = 2X .

Em termos dos valores que as v.a.’s assumem podemos escrever :

y = H(x) = 2x e

x = H-1 (y) = 9'

Notemos que H é monótona crescente . Daí | K(TUV(9)K9 | = K(TUV(9)K9 =

K([F )K9 = M'

Além disso, f(9' ) =

/-[ F0 = 0-9M

Portanto, g(y) = f( 9' )

K[FK9 = 0-9M ×M' =

0-9N'

Temos f(x) > 0 para 0 ≤ x ≤ 4 . Como H(0) = 0 e H(4) =8 , teremos , então, que g(y) > 0 para 0 ≤ y ≤ 8.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 83

Page 90: Fundamentos_de_Estatística_convertido

Finalmente, temos, como no Exemplo anterior:

g(y) = .0-9N' , se 0 ≤ P ≤ 80, caso contrario !

Exemplo 4.5: Erro em uma medição.

Suponha que o erro, X, de uma medição pode variar uniformemente entre -1 e 1. Determine a função de densidade do erro quadrático Y = X2.

Obs.: Note que, através de uma reparametrização apropriada, o erro aleatório cometido na medição de uma grandeza qualquer pode ser representado por uma v.a. com distribuição Uniforme entre –1 e +1.

Solução

Temos X ~ U (-1,1) e seja Y = H(X) = X2. (Ver Figura 4.4)

f(x) = ½, se − 1 < < < 1 0, caso contrário !

Figura 4.4 – A relação entre o erro e o erro quadrático

Notemos que quando X assume valores de -1 até +1 , Y =X2 assume valores entre 0 e 1 .

Admita que 0 < y < 1. Então,

G(y) = P( Y ≤ y) = P(X2 ≤ y) = P( −]P ≤ ^ ≤ ]P ) = : ;(<)=< = : M'√9-√9√9-√9 =<

= ]P

Derivando em relação a y temos :

g(y) = KL(9)K9 = K√9K9 = M'√9

A função de densidade de y é então dada por :

g(y) = . M'√9 , se 0 < P < 10, caso contrário!

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 84

Page 91: Fundamentos_de_Estatística_convertido

Exemplo 4.6: Mais uma vez o erro de medição.

No mesmo caso do Exemplo anterior , suponha agora que há um erro sistemático de medição e que, por isso, o erro, X, tem distribuição U (-1 , 2 ) , ou seja, neste caso a média do erro não é mais igual a zero. Determine a função de densidade do erro quadrático X2 .

Obs.: Aqui novamente, através de uma reparametrização apropriada, pode-se representar o erro (no qual, além da parte aleatória, há também um componente sistemático) na medição de uma grandeza qualquer por uma v.a. com distribuição Uniforme entre –1 e +2.

Solução

Agora X~U(-1 2) e Y= H(X) = X2. (Ver Figura 4.5)

Figura 4.5 – A relação entre o erro e o erro quadrático, quando há erro sistemático

Aqui temos

f(x) = `1/3 , se − 1 < < < 2 0, caso contrário ! Notemos que agora há duas situações diferentes. Quando X assume valores no intervalo (–1;

1) , Y = X2 assume valores em (0; 1) , como no exemplo anterior. Contudo, quando X assume valores em (1; 2), Y os assume em (1; 4). Temos assim,

Para 0 ≤ y ≤ 1 ,

G(y) = P( Y ≤ y) = P(X2 ≤ y) = P( −]y ≤ X ≤ ]y ) = : f(x)dx = : MN]-]]-] dx = ']N

Para 1≤ y ≤ 4 , G(y) = P( Y ≤ y) = P(X2 ≤ y) = P(−]y ≤ X ≤ ]y ) = P(−1 ≤ X ≤ 1) + P(1 ≤ X ≤ ]y) =

= : MN dx + : MN]MM-M dx = 'N + MN (]y − 1) = MN (]y + 1)

Derivando G(y) com relação a y obtemos a função de densidade de Y, dada por :

g(y) = def MN√9 , se 0 < P < 1M√9 , se 1 < P < 40, nos demais casos

!

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 85

Page 92: Fundamentos_de_Estatística_convertido

4.3 Esperança e variância de uma função de uma variável aleatória

Nas sub-seções anteriores vimos como a distribuição de probabilidade da v.a. Y = H(X) pode ser obtida a partir da distribuição de probabilidade da v.a. X. É claro que, uma vez conhecida a lei de probabilidade de Y, a sua esperança e a sua variância podem também ser determinadas, bastando para isso que apliquemos as definições desses conceitos. O propósito desta sub-seção é exibir um outro caminho para que a esperança e a variância de Y possam ser calculadas diretamente a partir do conhecimento da função H e da distribuição de probabilidade de X, sem que seja necessário obtermos previamente a distribuição de probabilidade de Y.

Se X é uma v.a. discreta com função de probabilidade p(xi)=P(X= xi) e Y=H(X), então a esperança e a variância de Y são dadas por :

E(Y) = E(H(X))= ∑ H(x)p(x)

Var(Y) = Var(H(X)) = ∑ (H(x) − E(H(X))' p(xi)

Ou equivalentemente : Var(Y) =Var(H(X))= ∑ (H(x))' p(xi) – (E(H(X)))2

Se X é uma v.a. contínua, com função de densidade f, e se Y=H(X), então

E(Y) = E(H(X)) = : H(x)f(x)dx∞-j

Var(Y) = Var(H(X)) = : (H(x) − E(H(X))'∞-j f(x)dx

Ou equivalentemente : Var(Y) = Var(H(X))= : H(x)'f(x)dx − (EH(X))'∞-j

Exemplo 4.7: Novamente a revendedora de carros

Voltando ao caso da revendedora de carros considerada no Exemplo 4.1, determine agora o valor esperado, a variância e o desvio-padrão do prêmio semanal a ser recebido por Augusto.

Solução:

Temos

E(Y) = ∑ 0. "(#) + ∑ 500#. "(#),(N'() = 0 + 1500p(3) + 2000p(4) + 2500p(5) =

= 1500×0,3456 + 2000×0,2592 + 2500×0,0778 = 1.231,30 reais.

Logo, espera-se que o prêmio semanal de Augusto esteja ao redor de R$ 1.231,30.

Para Var(Y), procedemos calculando inicialmente o primeiro termo do lado direito da 2ª expressão, isto é, ∑ (H(k))'l p(k) = 02 (p(0)+p(1)+p(2)) + 15002p(3) +20002p(4)+25002p(5) = 2.300.650

Daí , Var(Y) = 2.300.650 – (1.231,3)2 = 784.550,31 e DP(Y) = ]784.550,31 = 885,75 reais.

Observe que o prêmio de Augusto é bastante variável. Se aceitarmos que uma variação de ± 2 desvios padrão com relação à média é bem provável, Augusto pode ganhar desde zero até cerca de 3000 reais com alta chance.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 86

Page 93: Fundamentos_de_Estatística_convertido

Exemplo 4.8: Novamente a duração da carga da bateria.

Voltando ao caso das duas baterias do Exemplo 4.3, determine agora o valor esperado, a variância e o desvio-padrão do da duração da carga da 2ª bateria.

Solução:

Temos Y= H(X) = 2X

E(Y) = : 2< /-D0/) =< = 2,67 horas

Para calcular Var(Y), determinamos primeiramente : (2<)'/) /-D0 =< = 10,67.

Daí , Var(Y) = 10,67 – (E(Y))2 = 10,67 – 2,672 = 3,54 horas2

Portanto, DP(Y) = ]3,54 =1,88 horas.

Vemos então que a carga da nova bateria duraria em média 2,67 horas, com desvio padrão igual a 1,88 horas.

Exercitando: Calcule as quantidades acima usando a função de densidade de Y.

Exemplo 4.9: Preço de um cabo de aço

Voltemos ao cabo de aço do Exemplo 4.2. Determine o valor esperado e o desvio-padrão do preço desse cabo.

Solução:

Vimos que para a v.a. Y, preço do cabo,

P(Y=200,00) =P(X>2180) = 0,8849

P(Y=120,00) = P(2130 < X <2180) = 0,1069

P(Y=0,00) = P(X<2130) =0,0082

Logo, E(Y) = 200×0,8849 + 120×0,1069 + 0×0,0082 = 189,8.

Para a variância temos:

Var(Y) = (2002×0,8849 + 1202×0,1069 + 02×0,0082) – (189,8)2 = 911,32

Daí , DP(Y) = 30,2

Portanto, o preço médio dos rolos é de R$ 189,80, com desvio padrão igual a R$ 30,20.

4.4 Propriedades da esperança, da variância e do desvio-padrão

Agora temos condições de apresentar algumas interessantes propriedades das medidas de centralidade e de dispersão de uma variável aleatória. Algumas dessas propriedades serão aqui demonstradas, porém, para simplificar, as demonstrações serão feitas apenas para o caso contínuo.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 87

Page 94: Fundamentos_de_Estatística_convertido

1 - Esperança e variância de uma constante

Se c é uma constante, E(c) = c e Var(c) = 0.

2 - Linearidade da esperança

Seja X uma v.a. contínua , com densidade f , e seja Y = aX +b para a, b reais. Então,

E(Y) = E(aX+b) = aE(X)+b

Com efeito, E(aX+b) = : (ax + b)f(x)dx∞-j = a : xf(x)dx∞-j + b : f(x)dx∞-j = aE(X) + b

Porque a primeira integral é igual a E(X) e a segunda igual a 1.

No caso particular em que b = 0, E(aX) = a E(X)

3 - Relação entre esperança e variância

Seja µ=E(X), finita. Então: Var(X) = E(X2 ) − µ2

O resultado deriva da própria definição de Var(X) porque Var(X) = : (x − μ)'∞-j f(x)dx = E(X – µ)2

Usando as propriedades das integrais e da esperança temos:

E(X – µ)2 = E(X2 –2µX+µ2) = E(X2) – 2µE(X) + µ2 = E(X2) – 2µ2 + µ2 = E(X2 ) – µ2

4 - Variância de aX + b

Se a,b reais , Var(aX+b) = a2Var(X)

Com efeito, Var(aX+b) = E[(aX+b) – E(aX+b)2] = E[aX+b–aE(X) –b2] =

= E[(aX–aµ)2] = a2 E(X – µ)2 = a2Var(X)

5 - Desvio padrão de aX + b

Se a, b reais, a≠0 ,

DP(aX +b) = |a|DP(X) (Corolário do resultado anterior)

Exemplo 4.10: Média e variância da v.a. padronizada.

Seja X uma v.a. com E(X)= µ e Var(X) = σ2 (finita), e seja Z = (X–µ)/σ. Então:

E(Z) = E((X–µ)/σ) = Mq E(X–µ) =

Mq E(X) – µ = 0 e

Var(Z) =Var(X–µ)/σ = MqF Var(X–µ) =

MqF Var(X) = 1

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 88

Page 95: Fundamentos_de_Estatística_convertido

Exemplo 4.11: Novamente o erro de medição com componente sistemático

Retomando a discussão do Exemplo 4.6, consideremos:

• o erro de medição X com um componente sistemático, cuja distribuição é uma Uniforme entre –1 e 2;

• o erro quadrático Y = H(X) = X2.

Usando a teoria da Seção 4.3, vemos que:

E(Y) = E(X2) = : x'f(x)dx∞-∞ = : x' ∙ MN dx = Ms xN t 2−1 = Ms (2N − (−1)N) =!'-M Ms × 9 = 1

Por outro lado, da teoria referente à distribuição Uniforme (Ver Capítulo 2), sabemos que:

E(X) = -Mw'' = M' e Var(X) =

('-(-M))FM' = N/ .

Esses resultados confirmam a validade da Propriedade 3 da Seção 4.4:

Var(X) = N/ = 1 − %M'&' = E(X2) – (E(X))2

• Se X é uma v.a. discreta com valores x1, x2, x3,..., xn,... e função de probabilidade p(.) e Y = H(X) é uma v.a. discreta com valores y1, y2, y3,..., yn,..., então a função de probabilidade q(.) de Y é dada por: q(yi ) = P(Y = yi ) = ∑ p(x): ,

i = 1,2,… • Se X é uma variável aleatória contínua e H é uma função tal que Y = H(X) só pode

assumir um número de valores finito ou infinito enumerável, então Y será uma v.a. discreta. Neste caso Y é tratada de modo semelhante ao caso anterior, substituindo as somas por integrais.

• Se X é uma v.a. contínua com valores em um intervalo (a,b) de números reais e H é uma função estritamente monótona nesse intervalo, então existe a inversa H-1. Seja Y = H(X) uma v.a. continua, com valores em (H(a),H(b)), se H é crescente; e em (H(b), H(a)), se H é decrescente. A função de densidade de Y é dada por g(y) =

f(H-M(y) | x UV()x |, onde g(y) = 0, se H-M(y) não pertence ao intervalo (a,b).

• Se X é uma v.a. discreta com função de probabilidade p(xi)=P(X= xi) e Y=H(X), então

E(Y) = ∑ H(x)p(x)

Var(Y) = ∑ (H(x) − E(H(X))' p(xi) = ∑ (H(x))' p(xi) – (E(H(X)))2

• Se X é uma v.a. contínua, com função de densidade f, e se Y=H(X), então

E(Y) = : H(x)f(x)dx∞-j

Var(Y) = : (H(x) − E(H(X))'∞-j f(x)dx = : H(x)'f(x)dx − (EH(X))'∞-j

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 89

RESUMO DO CAPÍTULO 4

Page 96: Fundamentos_de_Estatística_convertido

Propriedades da esperança, da variância e do desvio-padrão

1. Se c é uma constante, E(c) = c e Var(c) = 0. 2. Seja X uma v.a. e seja Y = aX+b, para a, b reais. Então, E(Y) = E(aX+b) =

aE(X)+b 3. Seja µ=E(X), finita. Então: Var(X) = E(X2 ) − µ2 4. Se a,b são constantes, Var(aX+b) = a2Var(X) e DP(aX +b) = |a|DP(X)

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 90

Page 97: Fundamentos_de_Estatística_convertido

CAPÍTULO 5

VARIÁVEIS ALEATÓRIAS BIDIMENSIONAIS Conceitos e resultados a serem apresentados neste capítulo:

Variável aleatória bidimensional (ou Vetor aleatório bidimensional) Distribuição conjunta bivariada Função de probabilidade conjunta de um vetor aleatório bidimensional discreto Função de densidade conjunta de um vetor aleatório bidimensional contínuo Função de distribuição acumulada conjunta bidimensional Caso discreto: Distribuições marginais e Distribuições condicionais Caso contínuo: Densidades marginais e Densidades condicionais Esperança condicional e variância condicional Teorema da Esperança Total Teorema (ou Lei) da Variância Total Covariância e Coeficiente de correlação Distribuição Normal Bivariada Função de duas variáveis aleatórias e sua esperança Convolução de duas densidades unidimensionais Independência de Variáveis Aleatórias

Figura 5.1: O mapa, um exemplo de representação bidimensional

Em muitos experimentos estamos interessados em observar mais de uma característica de um determinado fenômeno. Por exemplo, na fabricação de um certo tipo de papel podemos estar interessados na gramatura (g/m2) e na espessura (micra) do material produzido.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 91

Page 98: Fundamentos_de_Estatística_convertido

Se (X,Y) é uma variável aleatória bidimensional, então a cada elemento ω do espaço amostral Ω corresponde um único ponto de coordenadas (X(ω), Y(ω)), situado no plano a duas dimensões, como na Figura 5.2 a seguir.

Figura 5.2 – Uma v.a. bidimensional, seu domínio e seu contra-domínio

Veremos a seguir algumas definições para esse tipo de vetor bidimensional. No

Capítulo 6 apresentamos um resumo dos principais resultados para mais de duas v.a.’s, generalizando do R

2 para o R n.

5.1 . Variáveis aleatórias bidimensionais discretas.

Começaremos estudando o caso em que ambas as v.a.’s , X e Y , são discretas.

Suponha a v.a. discreta X assumindo os valores x1 , x2 , x3 , ... e a v.a discreta Y assumindo os valores y1, y2 , y3 , ... Assim sendo, os valores que a v.a. bidimensional (X,Y) pode assumir são da forma (xi , yj).

Diremos que p (xi , yj ) = P(X = xi , Y = yj ) define a função de probabilidade conjunta da v.a. bidimensional discreta (X,Y) se:

a) p (xi , yj ) ≥ 0 para todo par (i, j) ) ∑ p(x, , y) = 1

Observação: A notação P(X=xi , Y=yj) significa P(X=xi e Y=yj), ou seja, representa uma interseção.

Exemplo 5.1 Defeitos em carros

Os carros de uma determinada marca podem apresentar dois tipos de defeitos até a primeira revisão: defeitos graves (que comprometem o funcionamento) e defeitos menores (tais como defeitos de acabamento, lâmpadas queimadas, etc). Suponha que costumam ocorrer até 2 defeitos graves e até 3 menores.

Sejam X a v.a que representa o número de defeitos graves e Y a v.a. representando o número de defeitos menores de um carro sorteado ao acaso. A Tabela abaixo mostra como se distribuem as probabilidades conjuntas p (xi , yj) para os diferentes valores de X e Y . Note que a soma de todas as probabilidades é igual a 1.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 92

Page 99: Fundamentos_de_Estatística_convertido

X Y P(X=xi)

0 1 2 3

0 0,20 0,20 0,14 0,06 0,60

1 0,15 0,08 0,04 0,03 0,30

2 0,05 0,02 0,02 0,01 0,10

P(Y=yj) 0,40 0,30 0,20 0,10 1,00

Por exemplo, p(1,3) = P(X=1, Y=3) = 0,03, ou seja, a probabilidade de ocorrerem, até a primeira revisão, 1 defeito grave e 3 menores é 0,03.

Suponha que desejamos calcular a probabilidade de ocorrerem mais defeitos graves do que defeitos menores, isto é P(X>Y). Isto corresponde a qualquer par de valores tal que a primeira coordenada é maior do que a segunda e a probabilidade pedida é a soma das probabilidades conjuntas de todos os pares que satisfazem essa condição. Assim

P(X>Y) = p(1,0)+p(2,0)+p(2,1) = 0,15 +0,05 + 0,02 = 0,22 (22%)

Espera-se que em 22% dos carros ocorram mais defeitos graves do que defeitos menores. Teremos P(X=Y) quando as duas coordenadas forem iguais , ou seja,

P(X=Y) = p(0,0) + p(1,1) + p(2,2) = 0,20 +0,08 +0,02 = 0,30.

Espera-se que em 30% dos carros tenhamos um número igual de defeitos dos dois tipos.

5.2. Variáveis aleatórias bidimensionais contínuas.

Diremos que (X,Y) é uma variável aleatória bidimensional contínua ou vetor aleatório bidimensional contínuo se existe uma função não negativa f definida em todo ℝ tal que para qualquer região R em ℝ

P(X,Y) ∈ R = f(x, y)dxdy

Neste caso dizemos que X e Y têm uma distribuição conjunta contínua.

A função f é chamada de função de densidade de (X,Y) ou função de densidade conjunta de X e Y e satisfaz as duas condições seguintes:

1) f(x,y) ≥ 0 para -∞ < x < ∞ , -∞ < y < ∞ 2) f(x, y)dxdy∞∞ = 1

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 93

Page 100: Fundamentos_de_Estatística_convertido

Exemplo 5.2 Concurso público

Num concurso público para engenheiros, a prova de conhecimentos consta de uma parte teórica e uma parte prática, que devem ser feitas nesta ordem. Cada candidato só tem acesso ao enunciado da parte prática após ter terminado e entregado a parte teórica. O prazo máximo é de 2 horas para completar a prova como um todo. Sejam Y o tempo gasto para completar a parte teórica, e X o tempo total gasto para completar toda a prova, ambos medidos em horas.

Admita que o vetor aleatório (X,Y) têm uma função de densidade conjunta dada pela expressão

f(x,y) = xy, se 0 ≤ y ≤ x ≤ 20 , caso contrário$

Figura 5.3 – Os tempos da parte teórica (y) e total (x) para realizar a prova

Verifiquemos primeiramente que f(.,.) é de fato uma densidade conjunta.

Pela definição vemos que f(x,y) ≥ 0 , para todo (x,y) do plano real. Além disso,

f(x, y)dxdy∞∞ = xydydx%&' %&( )* )*+ = , - x. + dx = 1

Portanto, f(.,.) satisfaz as condições de uma função de densidade conjunta.

Suponha que desejamos conhecer a probabilidade de que um determinado candidato termine a prova toda em no máximo 1 hora. Isto equivale a determinar a probabilidade na região R dada por

R = (x,y)∈ℝ2 : 0≤y ≤ x ≤ 1

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 94

Page 101: Fundamentos_de_Estatística_convertido

Então ,

P((X,Y) єR) = f(x, y) dxdy = xy dydx)++ = , - x.+ dx = 0,0625

Logo, podemos concluir que em somente 6,25% dos casos a prova como um todo é entregue em no máximo 1 hora.

Pergunta: Já que a região 0 ≤ y ≤ x ≤ 1 corresponde a um triângulo cuja área é × = ,

enquanto o triângulo onde a v.a. (X,Y) toma valores tem área × = 2, por que a

probabilidade acima calculada é muito menor que 1 = - = 0,25?

Notemos que se (X,Y) é uma v.a. bidimensional contínua, então a probabilidade de que o seu conjunto de valores esteja restrito a qualquer: ponto, seqüência de pontos, linha reta ou curva unidimensional no plano real, é igual a 0.

Função de distribuição acumulada bidimensional.

Sejam X e Y duas variáveis aleatórias. Sua função de distribuição acumulada conjunta é a função F, definida, para todo par (x,y) de números reais , por

F(x,y) = P(X≤ x , Y ≤ y)

1. No caso em que X e Y são contínuas, com densidade conjunta f e FDA conjunta F, F(x,y) = f(s, t)dsdt)3 (Aqui s e t são apenas variáveis auxiliares de integração.)

Por outro lado, a densidade conjunta pode ser obtida a partir da FDA através de

f(x,y) = 456(),3)4) 43 , para todo ponto (x, y) є ℝ onde existe a derivada de segunda

ordem.

2. No caso em que X e Y são discretas, com função de probabilidade conjunta p e FDA conjunta F,

F(x,y) = ∑ ∑ p7x, y8:3:;3:)<;) .

Já a obtenção da função de probabilidade conjunta p a partir da FDA conjunta F não tem grande interesse prático.

Exemplo 5.3: Novamente o concurso público

Considere a função de densidade conjunta do Exemplo anterior.

Então, para 0 ≤ y ≤ x ≤ 2 :

F(x,y) = f(s, t) ds dt'=>%=> = ' ?%( st dsdt = @ y (2x − y )

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 95

Page 102: Fundamentos_de_Estatística_convertido

Notemos que 456(),3)4) 43 = 45B CCD35( )535)E 4) 43 =

)3 = f(x,y) , se 0 ≤ y ≤ x ≤ 2

5.3. Distribuições marginais

A partir do conhecimento da distribuição conjunta de duas variáveis aleatórias é possível determinar as suas distribuições individuais que, nesse caso, passam a ser chamadas de distribuições marginais.

A título de ilustração consideremos novamente o Exemplo 5.1 (Defeitos em carros).

Observamos que há uma coluna e uma linha, encabeçadas, respectivamente por P(X=xi) e P(Y=yi). Elas correspondem às probabilidades marginais de X e de Y. Para obter, por exemplo, P(X=1) somamos todas as probabilidades conjuntas da linha encabeçada por X=1, isto é, P(X=1) = p(1,0)+p(1,1)+p(1,2)+p(1,3) = 0,30. Analogamente, P(Y=3) = p(0,3)+p(1,3)+p(2,3) = 0,10.

Ou seja, para calcular a probabilidade marginal relativa a um dado valor de X, mantemos fixo esse valor e somamos sobre todos os possíveis valores de Y. Procederemos analogamente se desejarmos obter a probabilidade marginal para um determinado valor de Y.

Sejam X e Y v.a.’s discretas com conjuntos de valores x1, x2, x3,... e y1, y2, y3,... respectivamente, e com função de probabilidade conjunta p(xi , yj) = P(X=xi , Y=yj).

Sejam pX e pY as correspondentes funções de probabilidade marginais de X e de Y. Então pX(xi ) = ∑ p(x∀ , y) e pY(yj) = ∑ p(x∀ , y)

No caso contínuo, define-se uma função de densidade marginal de maneira semelhante usando integrais ao invés de somatórios.

Sejam X e Y v.a.’s contínuas com função de densidade conjunta f e sejam fX e fY as funções de densidade marginais de X e de Y, respectivamente. Então,

fX(x) = f(x, y) dy∞ e fY(y) = f(x, y) dx∞

Exemplo 5.4: Densidades marginais dos tempos na parte teórica e no total da prova

Consideremos novamente a função de densidade conjunta de X e Y do Exemplo 5.2.

Para obtermos a densidade marginal do tempo total, X , notemos que f(x,y) > 0 se 0 ≤ x ≤ 2 e que, uma vez fixado um valor x , o intervalo de variação de y é 0≤ y≤x . Assim,

fG(x) = f(x, y)dy∞∞ = H xy dy ) + = - x. , se 0 ≤ x ≤ 2 0 , se x < 0 ou K > 2. $

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 96

Page 103: Fundamentos_de_Estatística_convertido

Para a obtenção da densidade marginal do tempo para a parte teórica, Y, observemos que f(x,y) > 0 para 0≤y≤2 e que nessa região x varia entre y e 2. Assim,

fN(y) = , f(x, y)dx∞

∞ =OPQPR , 12 xy dx

T = 14 y(4 – y ) , se 0 ≤ y ≤ 20, se y < 0 ou y > 2 .

$

Exercitando : Verifique que fX e fY são de fato funções de densidade unidimensionais.

5.4 Cálculo das medidas de centralidade e de dispersão a partir da distribuição conjunta

Na sub-seção anterior vimos como as distribuições marginais de X e de Y podem ser obtidas a partir da distribuição de probabilidade conjunta do vetor aleatório (X,Y). É claro que, uma vez conhecidas as leis de probabilidade marginais de X e de Y, as suas esperanças, bem como as suas variâncias, podem também ser determinadas, bastando para isso que apliquemos as definições desses conceitos. O propósito desta sub-seção é exibir um outro caminho para que E(X), E(Y), Var(X) e Var(Y) possam ser calculadas diretamente a partir do conhecimento da distribuição de probabilidade conjunta de (X,Y), sem que seja necessário obtermos previamente as distribuições marginais de X e de Y.

Caso discreto :

E(X) = ∑ ∑ x p(x, y) ; Var(X) = ∑ ∑ x p7x, y8 − E(X)

E(Y) = ∑ ∑ y p(x, y) ; Var(Y) = ∑ ∑ y p7x, y8 − E(Y)

Caso contínuo:

E(X) = xf(x, y) dxdy∞ ∞ ; Var (X) = x f(x, y) dxdy∞ ∞ − E(X)

E(Y) = yf(x, y) dxdy∞ ∞ ; Var (Y) = y f(x, y) dxdy∞∞ − E(Y)

Exemplo 5.5: Cálculo dos valores esperados dos tempos da parte teórica e total para realizar a prova

Dada a função de densidade conjunta do Exemplo 3.12 encontramos:

E(X) = x f(x, y) dxdy∞∞∞∞ = x y dy dx) + + = 32/20 = 1,6 horas

Var(X) = x f(x, y) dxdy∞∞∞∞ − E(X) = x.y dydx)+ + – 1,62 = 2,667– 2,56

= 0,117 horas2.

DP(X) = √0,117 = 0,327 horas

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 97

Page 104: Fundamentos_de_Estatística_convertido

Ou seja, o tempo total para fazer a prova é em média de 1,600 horas – ou seja, 96 minutos –, com um desvio-padrão de 0,327 horas – ou seja, 19,62 minutos.

E(Y) = yf(x, y)dxdy∞∞ = xy dxdy 3 + = 64/60 = 1,067 horas

Var (Y) = y f(x, y) dxdy∞∞ − E(Y) = xy. dxdy 3 + – (1,067)2 =

= 1,333 – 1,138 = 0,196 horas2

DP(Y) = √0,196 = 0,442 horas

Portanto o tempo para completar a parte teórica é em média de 1,067 horas – ou seja, 64,02 minutos –, com um desvio-padrão de 0,442 horas – ou seja, 26,52 minutos. Obs.: Já que Y é o tempo para completar somente a parte teórica e X é o tempo total, é claro que, em termos de valor central, já era esperado que obtivéssemos E(Y) ≤ E(X), como de fato ocorreu. Já em termos de variabilidade, não há nada que se possa esperar de antemão a esse respeito. Note que neste caso particular, obtivemos DP(Y) > DP(X).

Exercitando : Determine as quantidades acima usando as densidades marginais.

5.5 Distribuições condicionais. Esperanças e Variâncias condicionais.

Distribuição, Esperança e Variância condicionais: Caso discreto

Uma vez conhecida a distribuição de probabilidade conjunta de duas variáveis discretas, a definição da função de probabilidade condicional de uma delas, dado um valor da outra é obtida usando os conceitos do Capítulo 1 .

A função de probabilidade condicional de X dado que Y=yj é dada por

p(xi |yj)= P(X=xi | Y=yj) = (G*)<,N*3:)`( N*3:) , para i inteiro, se P(Y=yj) > 0.

Analogamente , a função de probabilidade condicional de Y dado que X=xi é dada por

p (yj |xi)= P(Y=yj |X=xi) = (G*)<,N*3:)`( G*)<) , para j inteiro, se P(X=xi) > 0.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 98

Page 105: Fundamentos_de_Estatística_convertido

As esperanças e variâncias condicionais são as seguintes:

A esperança condicional de X dado Y=yj é

E(X|Y=yj) = ∑ x pG(x|y) A esperança condicional de Y dado X=xi é

E(Y|X=xi) = ∑ y pN7ybx). A variância condicional de X dado Y=yj é

Var(X|Y=yj) = E[X−E(X|Y=y j)2|Y=yj] = E(X2| Y=yj) – E(X| Y=yj)

2,

onde E(X2| Y = yj) = ∑ x p(x|y) A variância condicional de Y dado X=xi é

Var(Y|X=xi) = E[Y−E(Y| X=x i)2| X=xi] = E(Y2| X=xi) – E(Y| X=xi)

2,

onde E(Y2| X=xi) = ∑ y p7ybx)

Exemplo 5.6 : Novamente os defeitos nos carros

No exemplo 5.1 a v.a. X representa o número de defeitos graves e a v.a. Y representa o número de defeitos menores em carros de uma determinada marca até a primeira revisão.

Da Tabela apresentada naquele exemplo temos que a função de probabilidade condicional de X dado Y=2 é dada por :

P(X=0|Y=2)= 0,14/0,20 = 0,70

P(X=1|Y=2)= 0,04/0,20 = 0,20

P(X=2|Y=2) = 0,02/0,20 = 0,10

Observe que esta é, de fato, uma função de probabilidade porque os seus valores somam 1.

Além disso ,

E(X| Y=2) = 0×0,70 + 1×0,20 + 2×0,10 = 0,4.

Var(X| Y=2) = 02×0,70 + 12×0,20 + 22×0,10 – 0,42 = 0,44

Distribuição, Esperança e Variância condicionais: Caso Contínuo

No caso de X e Y serem v.a.’s contínuas é possível falar em função de densidade condicional. Embora a justificativa não seja tão imediata como no caso discreto, a definição segue uma linha semelhante.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 99

Page 106: Fundamentos_de_Estatística_convertido

Sejam X e Y duas v.a.’s com função de densidade conjunta f e funções de densidade marginais fX e fY, respectivamente.

A função de densidade condicional de X dado que Y=y é dada por

f(x|y) = c(),3)cd(3) , para todo x real, se fY(y)≠0; se fY(y)=0, convenciona-se que f(x|y) = 0.

A esperança condicional de X dado que Y=y é

E(X|y) = x f∞ (x|y) dx

Obs.: A título de simplicidade, a letra f foi utilizada aqui para denotar, tanto a densidade condicional, quanto a densidade conjunta.

A variância condicional de X dado Y=y é

Var(X|Y=y) = E[X−E(X|y) 2|y] = E(X2| y) – E(X| y)2

onde E(X2| Y = y) = x f∞ (x|y)dx

A esperança e a variância condicionais de Y dado X=x, ou seja, E(Y|X=x) e Var(Y|X=x), são definidas de modo análogo.

Exemplo 5.7 Revisitando os tempos total e da parte teórica da prova

Considere novamente a densidade conjunta do Exemplo 5.2. Lembremos que

f(x,y) = xy , se 0 ≤ y ≤ x ≤ 2 e fX(x) =

-x3 , se 0 ≤ x ≤ 2

Assim,

f(y|x) = )3/ )f/- =

3 )5 , 0 < y ≤ x ≤ 2

= 0, em qualquer outro caso

Portanto,

E(Y|x) = 35)5) + dy = . x , se 0 < x ≤ 2

Var(Y|x) = 3f)5) + dy − g . xh =

)5i , se 0 < x ≤ 2

Se desejarmos determinar a densidade, a esperança e a variância condicionais de Y para um dado valor de X, por exemplo para X = 1, basta substituir x por 1 nas expressões de f (y|x), E(Y|x) e Var(Y|x).

Temos, então,

f(y|1) = 2y , 0 < y ≤ 1 , (Note que o limite superior do intervalo é 1 porque y ≤ x.)

E(Y|X=1) = 2/3 = 0,667 horas

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 100

Page 107: Fundamentos_de_Estatística_convertido

Ou seja, considerando apenas os candidatos cujo tempo total para realizar a prova é de exatamente 1 hora, o valor médio do tempo para completar a parte teórica é de 40 minutos.

Além disso, Var(Y|X=1) = 1/18 e, conseqüentemente

DP(Y|X=1) = j1 181 = 0,236 horas = 14,14 minutos.

Podemos verificar facilmente que f (.|x) define uma legítima função de densidade.

Com efeito , para 0 < x ≤ 2 ,

f(y|x)dy∞∞ = 3)5)+ dy = )5)5 = 1

Exercitando: Verifique que f (.|y) define uma função de densidade. (Dica: Cuidado com os limites de integração !)

Observe que E(X|y) e E(Y|x) são funções de y e de x , respectivamente.

Já que E(X|y) é uma função de y, e que y é um valor qualquer da v.a. Y, podemos dizer que E(X|Y) é uma variável aleatória, que é uma função de Y, sendo E(X|y) um de seus possíveis valores.

Faz sentido, então, falar na esperança de E(X|Y) , que, no caso contínuo, é dada por

EE(X|Y) = E(X|y)fN∞ (y)dy

Analogamente, ainda no caso contínuo,

EE(Y|X) = E(Y|x)fG (x)dx

Podem ser demonstrados os seguintes resultados (válidos nos casos discreto e contínuo):

Teorema da Esperança Total:

E(X) = EE(X|Y) e E(Y) = EE(Y|X)

O Teorema da Esperança Total pode ser útil nos casos em que o cálculo direto de E(X) ou E(Y) é complexo ou trabalhoso.

Teorema (ou Lei) da Variância Total

Var(Y) = E(Var(Y|X)) + Var(E(Y|X)) e Var(X) = E(Var(X|Y)) + Var(E(X|Y))

Exemplo 5.8 : Quantas vendas por hora?

Admita que o processo (aleatório) de chegada dos clientes que entram em uma loja segue um modelo de Poisson com média de 20 clientes por hora. A probabilidade de uma dessas pessoas fazer uma compra é de 0,75 e é a mesma para qualquer cliente que

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 101

Page 108: Fundamentos_de_Estatística_convertido

entra. Determine o valor esperado e o desvio padrão do número de clientes que realizam compras no período de uma hora.

Solução:

Aqui temos duas variáveis aleatórias:

X : número de pessoas que chegam em uma hora, Y : número de clientes que fazem compras nesse período de uma hora.

Temos então,

X ~ Poisson(20) e Y|x ~ Bin( x ; 0,75)

Assim, E(X) = 20, Var(X) = 20,

E(Y|X = x) = 0, 75 x, Var(Y|X = x) = (0,75 × 0,25) x

Logo ,

E(Y) = EE(Y|X) = E(0,75X) = 0,75E(X) = 0,75×20 = 15 .

Var(Y) = E(Var(Y|X)) + Var(E(Y|X)) = E((0, 75 × 0,25) X) + Var(0,75 X) =

= (0, 75 × 0,25) E(X) + 0,752 Var(X) = 0, 75 × 0,25 × 20 + 0,752 × 20 = 15

DP(Y) = √15 = 3,87

Assim sendo, o número de clientes que realizam compras em um período de uma hora é em média 15, com desvio padrão igual a 3,87.

Então, raciocinando como se a v.a. Y seguisse um modelo de probabilidade Gaussiano (o que está bem perto da realidade neste caso, por motivos que só serão vistos no Capítulo 6), podemos afirmar que

P(µ - 2σ < Y < µ + 2σ) = P(15 – 2 × 3,87 < Y < 15 + 2 × 3,87) ≅ 0,95.

Isso significa que, com cerca de 95% de chance, o número de clientes que fazem compras nesta loja ao longo de uma hora está entre 7 e 23.

Exercitando: Calcule novamente os valores de E(Y) e Var(Y) determinando previamente a distribuição de Y e compare as duas soluções.

Exemplo 5.9 Recadastramento

O governo de um determinado país decidiu promover, ao longo de um ano, o recadastramento de todos os beneficiários da área de seguridade social (aposentados e pensionistas). Admita que o processo de recadastramento evolui progressiva e uniformemente ao longo desse ano. Ou seja, se p é proporção de indivíduos já recadastrados, então no início desse ano temos p = 0 (ninguém recadastrado) e no fim do ano temos p = 1 (todos recadastrados). Em um instante escolhido ao acaso ao longo do ano, é sorteada uma amostra com 10 pessoas dessa população. A variável aleatória X mede o tempo (em fração de ano) a contar do início do ano até o instante em que foi coletada a amostra. Se a variável aleatória Y mede o número de recadastrados na amostra, calcule a média E(Y) e o desvio padrão DP(Y).

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 102

Page 109: Fundamentos_de_Estatística_convertido

Solução :

Sejam as v.a.´s:

X, representando o instante ao longo do ano em que foi feita a coleta, ou seja, X ∈ (0, 1) Y, que representa o número de pessoas recadastradas na amostra

Observe que, nas condições do enunciado, temos p = x.

Então:

X~U(0,1) e Y|x ~ Bin(10, x)

Conseqüentemente,

E(X) = , Var(X) = 1/12 e E(X2) = 1/12 + (1/2)2 = 1/3

E(Y|x) = 10x e Var(Y|x) = 10x(1–x)

Logo:

E(Y) = EE(Y|X) = E(10X) = 10E(X) = 10× = 5

Agora, somente a título de ilustração, vejamos como esse mesmo valor também poderia ter sido obtido a partir da determinação da distribuição de probabilidade de Y.

Note que neste exemplo estamos considerando uma v.a. contínua, X, e uma discreta, Y. Embora na teoria não tenhamos abordado esta situação específica, vamos raciocinar por analogia com os procedimentos aqui apresentados.

Obtenhamos então a função de probabilidade p(k) = P(Y=k), para todo k=0, 1, ... , 10.

Temos : fX(x) = n1 , se 0 < x < 10, caso contrário $ e

P(Y=k|X=x)= g10k h xq(1 − x)+q , k =0, 1,2,....,10

Portanto,

P(Y=k) = P(Y = k|X = x)fG+ (x)dx = g10k h xq(1 − x)+qdx+

= g10s h xq(1 − x)+qdx+

A integral acima é um caso particular da função Beta definida pela expressão:

β(r,s) = xt+ (1 − x)udx , r > 0 , s > 0 .

Pode-se demonstrar que β(r,s) = Γ(t)Γ(u)Γ(tvu)

Em nosso caso , r = k + 1 , s = 10−k+1 = 11−k

β(k+1, 11−k)= Γ(qv)Γ(q)

Γ( ) = q!(+q)!! =

q!(+q)!+! = g+q h

Logo, P(Y=k)= , k= 0, 1, 2, ….,10, e, assim sendo,

E(Y) =∑ x+x*+ = ×+× = 5.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 103

Page 110: Fundamentos_de_Estatística_convertido

Observe que o mesmo resultado já tinha sido obtido anteriormente com muito maior facilidade, através do uso do Teorema da Esperança Total.

Passemos então ao cálculo do desvio padrão de Y.

Var(Y) = Var(E(Y|X)) + E(Var(Y|X)) = Var(10X) + E(10X(1–X)) =

= 100 Var(X) + 10(E(X) – E(X2)) = 100 × + 10 g − .h = 10

Então, DP(Y) = √10 = 3,162. Como você interpretaria esses resultados?

5.6. Variáveis aleatórias independentes.

“Independência? Isso é blasfêmia da classe média. Nós somos todos dependentes uns dos outros, cada uma das nossas almas na Terra.” George Bernard Shaw, dramaturgo

Sabemos, do capítulo 1, que dois eventos A e B são independentes se

P(A ∩ B)= P(A)P(B).

Portanto podemos dizer que duas variáveis aleatórias X e Y são independentes se, para quaisquer dois conjuntos de números reais, A e B,

P(X є A , Yє B ) = P(X є A)P(Y є B)

Se, em particular, A = (–∞ ,x ), B =(–∞, y) , dizemos que duas variáveis aleatórias são independentes se

P(X≤x , Y≤ y) = P(X ≤ x) P(Y≤ y), para x e y reais . Ou seja:

Duas v.a.’s X e Y são ditas independentes se, para todo par de números reais (x, y),

F(x,y) = FX(x).FY(y) ,

onde F é a função de distribuição acumulada conjunta de X e Y e FX e FY são as correspondentes funções de distribuição marginais acumuladas de X e Y.

Caso discreto:

No caso de X e Y serem discretas a definição de independência de X e Y segue a linha da definição de dois eventos independentes. Com efeito, se A =X=xi e B= Y=y j então A ∩ B =X=x i , Y=yj. Desta maneira, diremos que:

As v.a.´s discretas X e Y são independentes se para todo par (xi , yj) de valores possíveis de (X, Y) se verifica :

P(X=xi , Y=yj ) = P(X=xi).P(Y=yj), ou seja, p(xi ,yj) = pX(xi).pY(yj).

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 104

Page 111: Fundamentos_de_Estatística_convertido

Exemplo 5,10: Imóveis à venda (Duas v.a.´s discretas independentes)

Considere a população de todos os apartamentos que, em determinado dia, estejam anunciados para venda no site de uma imobiliária. Sejam X e Y, respectivamente, o número de vagas de garagem e o número de varandas correspondentes a um apartamento anunciado nesse site.

A Tabela abaixo apresenta a função de probabilidade conjunta e as marginais para essas duas v.a.’s discretas, X e Y .

X Y P(X=xi)

0 1 2

0 0,20 0,15 0,15 0,50

1 0,16 0,12 0,12 0,40

2 0,04 0,03 0,03 0,10

P(Y=yj ) 0,40 0,30 0,30 1,00

Por exemplo , temos :

pX(0).pY(0) = 0,50×0,40 = 0,20 = p(0,0)

pX(1).pY(0) = 0,40×0,40 = 0,16 = p(1,0)

pX(1).pY(1) = 0,4×0,30 = 0,12 = p(1,1) , etc.

Note também que pX(xi|yj) = pX(xi) e que pY(yj|xi) = pY(yj).

A título de ilustração temos :

P(X=0|Y=2) = z(+, )zd( ) =

+,+,.+ = 0,50 = pX(0)

P(Y=2|X=1) = z(, )z|() =

+, +,-+ = 0,30 = pY(2)

Concluímos então que neste caso X e Y são variáveis aleatórias independentes. Isto significa que, para esses apartamentos, há independência entre o número de

vagas de garagem e o número de varandas.

Caso contínuo.

Se X e Y são variáveis aleatórias contínuas, além da definição geral, podemos dar a seguinte .

Sejam X e Y v.a.’s contínuas com função de densidade conjunta f e densidades marginais fX e fY, respectivamente. Diremos que X e Y são independentes se

f(x,y) = fX(x).fY(y) para todo par de números reais (x,y) .

Neste caso também se verificam:

fX(x|y) = fX(x) e fY(y|x) = fY(y)

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 105

Page 112: Fundamentos_de_Estatística_convertido

Exemplo 5.11: Nível de Emprego e Uso da Capacidade Instalada (Duas v.a.´s contínuas independentes)

Para cada uma das cidades de um determinado país, sejam:

X = proporção da população economicamente ativa que está empregada; Y = proporção da capacidade instalada na área industrial que está sendo de fato

utilizada.

Suponha que a densidade conjunta de X e Y é dada por

f(x,y) = 6xy2 , se 0 ≤ x≤ 1 , 0 ≤ y ≤ 1.

Quais serão as correspondentes densidades marginais? X e Y são independentes?

Solução:

As densidades marginais são :

fX(x) = 6xy dy =+ 2x , 0 ≤ x ≤ 1 , = 0 , caso contrário

fY(y) = 6xy dx =+ 3y2 , 0 ≤ y ≤ 1 = 0 , caso contrário.

Notemos que fX(x).fY(y) = f(x,y).

Concluímos, então, que X e Y são independentes.

Ou seja, nas cidades desse país, há independência entre a proporção da população economicamente ativa que está empregada e a proporção da capacidade instalada na área industrial que está sendo efetivamente utilizada.

5.7 Covariância e Correlação

Até agora consideramos medidas de centralidade ou de dispersão relativas somente às distribuições marginais. A seguir veremos alguns parâmetros que medem a interdependência de duas variáveis aleatórias. Uma delas é a covariância entre X e Y

Sejam X e Y duas variáveis aleatórias. Suponha que tanto as suas esperanças E(X) = µx e E(Y) = µy como as suas variâncias Var(X) e Var(Y) todas elas existem e são finitas. Então a Covariância entre X e Y é dada por :

Cov(X,Y) = E[(X – µx )(Y – µy)] e é também finita.

Uma expressão alternativa para a Covariância é :

Cov(X,Y) = E(XY) – µx µy

Obs.: Note que esta definição é válida tanto para o caso discreto quanto para o caso contínuo.

A veracidade da expressão alternativa na definição anterior deriva do seguinte:

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 106

Page 113: Fundamentos_de_Estatística_convertido

E[ (X− µx )(Y− µy) ] = E(XY − X µy− µXY + µx µy) =

= E(XY) − µYE(X) − µxE(Y)+ µx µy = E(XY) − µx µy

Propriedades da Covariância

1) Cov(X,Y) pode ser positiva, negativa ou nula.

2) Cov(X,X) = Var(X)

3) Se X e Y são v.a independentes, então

E(XY) = E(X)E(Y) e, conseqüentemente,

Cov(X, Y) = 0

4)Var(X+Y)=Var(X) + Var(Y) + 2Cov(X,Y)

5) Var(X+Y)=Var(X) + Var(Y), se X e Y são independentes

6) Cov(aX + bY, cX + dY) = ac Var(x) + bd Var(Y) + (ad+bc) Cov(X,Y)

Nota: A recíproca da propriedade 3 não é verdadeira, isto é, podemos ter Cov(X,Y) = 0 sem que X e Y sejam independentes.

Outro parâmetro que mede a interdependência entre duas variáveis aleatórias é o coeficiente de correlação.

Seja (X,Y) uma variável aleatória bidimensional. Suponha que E(X) = µX e E(Y) =

µY existem e que Var(X) e Var(Y) são finitas e não nulas. O coeficiente de correlação entre X e Y, que denotaremos por ρ(X,Y), é definido como

ρ(X,Y) = ~(Gμ|)(Nμd)`(G)`(N) = (G,N)|d

Nota: Se não houver dúvidas quanto às variáveis envolvidas podemos denotar o coeficiente de correlação simplesmente por ρ.

Propriedades do Coeficiente de Correlação:

1) O coeficiente de correlação é adimensional.

2) Pode-se demonstrar que -1 ≤ ρ ≤ 1

3) Se X e Y são v.a.’s independentes, ρ(X,Y) = 0. (Este resultado deriva do fato de que, neste caso, Cov(X,Y) = 0). 4) Se X e Y são duas v.a.’s tais que Y = aX +b, a e b constantes reais, a≠0, então

ρ(X,Y) = 1 , se e somente se a > 0 e ρ(X,Y) = −1 , se e somente se a < 0 .

Nota: A recíproca da propriedade 3 não é verdadeira, isto é, podemos ter ρ(X,Y) = 0 sem que X e Y sejam independentes.

O resultado acima mostra que o coeficiente de correlação é uma medida do grau de linearidade da relação entre as v. a.´s X e Y. Quanto mais próximo ρ estiver de +1 ou de – 1, maior será este grau de linearidade. Além disso, ρ > 0 indica que há uma

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 107

Page 114: Fundamentos_de_Estatística_convertido

tendência a que X e Y cresçam conjuntamente; enquanto que um valor ρ < 0, sinaliza para uma tendência de Y decrescer à medida que X aumenta.

É importante salientar também que um valor de ρ próximo de zero não significa necessariamente a ausência de uma relação entre X e Y. Este fato indica apenas que a relação, se existir, não é linear. Isto porque, como vimos anteriormente, Cov(X,Y) = 0 não implica em independência entre X e Y.

Obs.: 1. Note que se a unidade de medida da v.a. X é ux e a unidade de medida da v.a Y é uy,

então a covariância entre X e Y se expressa na unidade uxuy. Já o coeficiente de correlação é adimensional.

2. Além disso, enquanto a variância em princípio pode assumir qualquer valor real, o coeficiente de correlação está restrito ao intervalo [–1,1].

3. Sendo assim, se (X,Y) e (V,W) são duas v.a.’s bidimensionais, não é possível comparar Cov(X,Y) (expressa em uxuy) com Cov(V,W) (expressa em uvuw). Já ρ(X,Y) e ρ(V,W) podem ser comparados entre si.

Exemplo 5.12 : Revisitando as durações total e da parte teórica da prova

Determinemos a covariância e o coeficiente de correlação entre as durações total e da parte teórica consideradas no Exemplo 5.2.

Temos f(x,y) = xy , 0 ≤ y ≤ x ≤ 20 , caso contrário $

Já foram calculados anteriormente E(X) = 1,600 ; E(Y) = 1,067 ; DP(X) = 0,327 ; DP(Y) = 0,442.

Falta determinar E(XY).

E(XY) = xy.)+ + xy dydx = .)+ + x y dydx = 1,778 horas2

Logo ,

Cov(X,Y) = E(XY) – E(X)E(Y) = 1,778 – 1,6×1,067 = 0,0711 horas2

ρ = (G,N)`(G)`(N) =

+,++,. ×+,-- = 0,492.

Como já era esperado, há uma tendência da duração da parte teórica, Y, crescer junto com a duração total da prova, X. Contudo, a relação não está próxima da linearidade. Por que?

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 108

Page 115: Fundamentos_de_Estatística_convertido

Exemplo 5.13 A Distribuição Normal Bivariada

Se a densidade conjunta do vetor aleatório (X1, X2) é dada por

,

para todo par (x1, x2) de números reais, dizemos que ( )2X1X tem distribuição

Normal bi-variada ou Bi-Normal com vetor de médias

=2µ1µµ

e matriz de

covariâncias

=22σ2σ1ρσ

2σ1ρσ21σ

Σ .

Figura 5.4 – A densidade conjunta de uma Normal bidimensional

Neste caso, é possível provar que:

(a) A densidade marginal de Xi é uma Normal (µi, σi2), i = 1,2

(b) ρ σ1σ2 é a covariância e ρ é o coeficiente de correlação entre X1 e X2 (c) X1 e X2 são independentes se e só se X1 e X2 são não correlacionadas (d) A densidade condicional de X2 dado X1 é uma Normal cuja média é µ +5C 7X– µ8 e cuja variância é σ (1 − ρ ). Analogamente, a densidade condicional

de X1 dado X2 é uma Normal cuja média é µ + C5 7X – µ 8 e cuja variância é σ (1 − ρ ). Obs.:

1. O item (c) só é válido no caso de Normalidade. 2. Veja também o Exercício Proposto 5.????

( )

−+

−−−

−−

−=

2

2σ2µ2x

2σ2µ2x

1σ1µ1x

2ρ2

1σ1µ1x

2ρ12

1exp

2ρ12σ12π

12x,1xf

σ

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 109

Page 116: Fundamentos_de_Estatística_convertido

5.8 Função de duas variáveis aleatórias.

5.8.1 Distribuição de probabilidade de uma função de duas variáveis aleatórias

Sejam X e Y duas variáveis aleatórias cuja distribuição conjunta é conhecida e seja Z=H(X,Y). Então Z também é uma variável aleatória cuja distribuição de probabilidades podemos determinar.

Ao invés de abordar esse tema em toda a sua generalidade, discutiremos aqui somente algumas situações particulares.

No caso discreto o problema é relativamente simples, porém não menos importante que no caso contínuo. Daremos inicialmente um exemplo no caso discreto considerando duas variáveis X e Y independentes.

Exemplo 5.14: Soma de duas v.a´s Poisson´s independentes

Sejam X ~ Poisson (λ1) e Y ~ Poisson(λ2) , variáveis aleatórias independentes, e seja Z = H(X,Y) = X+Y. Determine a função de probabilidade de Z .

Solução:

Dado que X e Y assumem valores inteiros não negativos, Z assumirá também valores inteiros não negativos. Temos, para um dado valor k de Z, sendo k = 0,1,2,... :

P(Z=k) = P(X+Y=k) =∑ P(X = k − i, Y = i)q*+

Sabemos que X e Y são independentes, portanto: P(Z=k)=∑ P(X = i, Y = k − i)q*+ = ∑ P(X = i)P(Y = k − i)q*+ = ∑ =λCλC<!q*+ =λ5λ5=<

(q)! =

= =(λCλ5)

q! ∑ q!!(q)!q*+ λ λ q Pela fórmula do Binômio de Newton, vemos que o somatório acima é igual a (λ1 +

λ2)k.

Logo ,

P(Z=k) = =(λCλ5)

q! (λ + λ )q , k = 0,1,2,...,

o que implica que Z~ Poisson( λ1+λ2).

Em outras palavras, a soma de duas variáveis independentes X e Y, com distribuições de Poisson de médias λ1 e λ2, respectivamente segue uma distribuição de Poisson com média (λ1 + λ2).

Como veremos no Capítulo 4, este é um importante resultado que pode ser estendido a mais de duas variáveis aleatórias independentes com distribuições de Poisson. Isto também pode ser demonstrado através de indução matemática.

Veja também o Exercício Proposto 5.? Pedidos de informação em um aeroporto

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 110

Page 117: Fundamentos_de_Estatística_convertido

No caso de duas v.a.’s contínuas e independentes o procedimento geral usa a função de distribuição acumulada.

Exemplo 5.15 : Soma de duas v.a´s Uniformes independentes

Sejam X e Y variáveis aleatórias independentes, ambas uniformemente distribuídas no intervalo (0,1) . Então a função de densidade conjunta de X e Y é

f(x,y) = 1 , 0 ≤ x ≤ 1, 0 ≤ y ≤ 10, caso contrário$ Seja Z = H(X,Y) = X + Y ; notemos que Z pode assumir seus valores no intervalo

(0 , 2)

Se 0≤ z ≤1 , FZ(z) = P(Z ≤z) = dydx =)++ 5 (ver Figura 5.5 )

Figura 5.5 – A relação entre X, Y e Z quando 0≤ Z ≤1

Note que 5 é a área hachurada nessa figura.

Se 1 ≤ z ≤2 , P(Z ≤z) é obtida como a área sombreada da Figura 5.6, que é igual a

1 – ( )5

.

Figura 5.6 - A relação entre X, Y e Z quando 1≤ Z ≤2

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 111

Page 118: Fundamentos_de_Estatística_convertido

Assim temos ,

FZ(z) = H5 , se 0 ≤ z ≤ 1 1 – ( )5

, se 1 ≤ z ≤ 2$ A correspondente função de densidade é

fZ (z) = 6() = z, se 0 ≤ z ≤ 12 − z, se 1 ≤ z ≤ 20, em qualquer outro caso $

Exercitando: Faça o gráfico das 2 últimas funções acima

Veja também o Exercício Resolvido 5.? Tempo de deslocamento casa trabalho.

Método do Jacobiano (Opcional)

Quando consideramos uma função de apenas duas variáveis aleatórias, o procedimento do exemplo acima, usando a função de distribuição acumulada parece ser suficiente. Há, entretanto, um outro método, chamado método do Jacobiano, apresentado a seguir, que pode apresentar vantagens sobre o anterior, especialmente quando a função inclui mais de duas variáveis aleatórias contínuas.

Dada Z = H1(X,Y) introduzimos uma outra variável aleatória, digamos W = H2(X,Y) e determinamos a densidade conjunta de (Z,W), que representaremos por g. A partir dessa densidade conjunta, obtemos, por integração, a densidade marginal de Z. Em geral, W é apenas uma variável auxiliar, pela qual não estamos particularmente interessados. Assim, normalmente escolhemos como W a função mais simples possível de X e Y.

O procedimento é então o seguinte :

Seja (X,Y) uma v.a. bivariada contínua com função de densidade f. Sejam Z = H1(X,Y) e W= H2(X,Y) tais que :

• O sistema de equações z = H1(x,y) e w = H2(x,y) pode ser univocamente resolvido para x e y em termos de z e w, isto é , existem as funções K1 e K2 tais que x= K1(z,w) e y = K2(z,w).

•As derivadas parciais 4)4 , 4)4 ,

434 e 434 existem e são contínuas.

Seja J(z,w) = 4)4 4)4434 434 o determinante Jacobiano da transformação de (z,w) em

(x,y).

Então , a função de densidade conjunta de Z e W , é dada por :

g(z,w) = f(K1(z,w) , K2(z,w) ). |J(z,w)|

A densidade de Z =H(X,Y) é calculada como

fZ (z) = g(z, w)dw∞

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 112

Page 119: Fundamentos_de_Estatística_convertido

Objetivando encontrar os limites de integração adequados para a determinação de fZ(z), devemos considerar que: g(z,w) > 0 para todos os pares de valores (z,w), correspondentes aos pares de valores (x,y) tais que f(x,y) > 0.

Aplicaremos agora este resultado ao caso da soma de duas variáveis aleatórias contínuas e independentes.

Sejam X e Y duas v.a.’s contínuas e independentes com densidade conjunta f e densidades marginais fX e fY, respectivamente. Seja Z = H1(X,Y) = X + Y . Escolhamos W= H2(X,Y) = Y como variável auxiliar. Se considerarmos os valores que as variáveis assumem, podemos escrever as equações

z = H1(x,y) = x +y e

w = H2(x,y) = y .

Resolvendo para x e y em termos de z e w temos:

x = K1(z,w) = z –w e

y = K2(z,w) = w

O Jacobiano da transformação é o determinante

J(z,w) = 4)4 4)4434 434 = 1 −10 1 = 1

Então:

g(z,w) = f(z-w , w).1 = fX(z-w).fY(w) , pela independência de X e Y. e

fZ(z) = fG∞ (z − w)fN(w)dw

Esta integral é conhecida como convolução de fX e fY.

Devemos considerar que g(z,w)>0 ⟺ f(x,y) > 0 .

Exemplo 5.16 Soma de duas v.a.’s exponenciais independentes e identicamente distribuídas

Sejam X e Y v.a.´s independentes com a mesma distribuição Exp(λ) , e seja Z =X+Y . Obtenha a função de densidade de Z.

Solução

fZ(z) = fG (z − w)fN(w)dw, onde

fX(z-w) = λeλ() , para z –w > 0

fY(w) = λeλ , para w > 0

Vemos que o integrando é positivo se w > 0 e z –w > 0 , ou seja, se 0 < w < z . Isto estabelece os limites de integração e obtemos

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 113

Page 120: Fundamentos_de_Estatística_convertido

fZ(z) = λeλ()+ λeλdw = λ + eλdw = λ zeλ, se z > 0.

= 0 , caso contrário

Notemos que essa expressão é um caso particular da distribuição Gama, a saber, Z ~ Gama (2 , λ )

Este é um importante resultado segundo o qual a soma de duas v.a.’s exponenciais independentes, com o mesmo parâmetro λ , tem distribuição Gama (2 , λ ).

Este resultado pode ser estendido ao caso da soma de r variáveis exponenciais independentes com o mesmo parâmetro λ, dando como resultado uma distribuição Gama (r,λ), como pode ser visto no Capítulo 6.

Exercitando : Resolva o exemplo 5.16 usando o método do Jacobiano.

Veja também o Exercício Resolvido 3.?? (Tempo Gasto no caixa de uma loja)

Nota: O método do Jacobiano pode ser generalizado para mais de 2 v.a.’s. Esta generalização está exemplificada no exercício resolvido 6.?.

5.8.2 Esperança de uma função de duas variáveis aleatórias

A esperança de uma função de duas variáveis aleatórias é definida de modo análogo à esperança de uma função de uma variável aleatória.

Sejam X e Y v.a.´s discretas com valores x1 , x2 , x3 , .... e y1 , y2 , y3 , ..., respectivamente, com função de probabilidade conjunta p(. , .). Seja Z = H(X,Y) . Então

E(Z) = E(H(X,Y)) = ∑ ∑ H(x , y)p(x, y) Sejam X e Y duas v.a.´s contínuas com densidade conjunta f e seja Z = H(X,Y) . Então :

E(Z) = E(H(X,Y)) = ∞ H(x, y)f(x, y)dxdy∞

Para exemplificar a esperança de uma função de v.a.’s veja os exercícios propostos 5.?? (Soma e Produto de Uniformes Independentes) e 5.??? (continuação do problema do encontro).

5.8.3 Esperança e Variância de uma combinação linear de duas variáveis aleatórias

Sejam X e Y duas v.a.’s com esperanças e variâncias finitas e sejam a e b constantes reais. Então,

E (aX + bY) = aE(X) + bE(Y) e

Var(aX + bY) = a2Var(X) + b2Var(Y) + 2abCov(X,Y)

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 114

Page 121: Fundamentos_de_Estatística_convertido

A demonstração do primeiro resultado acima é imediata. Já a do segundo resultado pode ser feita como se segue:

Var(aX + bY) = E[aX+bY−E(aX+bY)2] = E[a(X –E(X))+ b(Y−E(Y))2] =

= a2E[X−E(X) 2] + b2E[Y−E(Y) 2] + 2abE[X-E(X)Y-E(Y)] =

= a2Var(X) + b2Var(Y) + 2abCov(X,Y)

Do resultado acima resulta que:

Se X e Y são v.a.´s independentes e se a e b são constantes reais, então :

Var(aX + bY) = a2Var(X) + b2Var(Y)

Observação: Veremos no capítulo 6 que as propriedades(?) acima podem ser generalizadas para mais de 2 v.a.´s

Para exemplificar a esperança e a variância de uma combinação linear de v.a.’s veja o Exercício Resolvido 5.?? - Erro Grave.

• Diremos que p (xi , yj ) = P(X =xi , Y =yj) define a função de probabilidade conjunta da v.a. bidimensional discreta (X,Y) se: a) p (xi , yj ) ≥ 0 para todo par (i, j) ) ∑ p(x, , y) = 1

• Diremos que (X,Y) é uma variável aleatória bidimensional contínua ou vetor aleatório bidimensional contínuo se existe uma função não negativa f com valores

em ℝ tal que para qualquer região R em ℝ , P(X,Y) ∈ R = f(x, y)dxdy .

A função f é chamada de função de densidade de (X,Y) ou função de densidade conjunta de X e Y e satisfaz as duas condições seguintes:

1. f(x,y) ≥ 0 para -∞ < x < ∞ , -∞ < y < ∞ 2. f(x, y)dxdy∞∞ = 1

• Sejam X e Y duas variáveis aleatórias, discretas ou contínuas. Sua função de

distribuição acumulada conjunta é a função F, definida por F(x,y) = P(X≤ x , Y ≤ y), para todo par (x,y) de números reais.

• No caso em que as v.a.’s X e Y são ambas discretas, com função de probabilidade conjunta p e FDA conjunta F, F(x,y) = ∑ ∑ p7x, y8:3:;3:)<;) , para todo par (x,y) de

números reais.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 115

RESUMO DO CAPÍTULO 5

Page 122: Fundamentos_de_Estatística_convertido

• No caso em que as v.a.’s X e Y são contínuas, com densidade conjunta f e FDA

conjunta F, F(x,y) = f(s, t)dsdt)3 e f(x,y) = 456(),3)4) 43 .

• Sejam X e Y v.a.’s discretas com valores x1, x2, x3,... e y1, y2, y3,... respectivamente, e com função de probabilidade conjunta p(xi , yj) = P(X=xi, Y=yj), para todo i e para todo j . As funções de probabilidade marginais de X e Y são dadas por: pX(xi ) = ∑ p(x∀ , y) para todo i e pY(yj) = ∑ p(x∀ , y) para todo j.

• Sejam X e Y v.a.’s contínuas com função de densidade conjunta f. As funções de

densidade marginais de X e de Y são dadas por:

fX(x) = f(x, y) dy∞ , para todo x e fY(y) = f(x, y) dx∞ , para todo y

Esperança e Variância

• Caso discreto :

E(X) = ∑ ∑ x p(x, y) ; Var(X) = ∑ ∑ x p7x, y8 − E(X)

E(Y) = ∑ ∑ y p(x, y) ; Var(Y) = ∑ ∑ y p7x, y8 − E(Y)

• Caso contínuo:

E(X) = xf(x, y) dxdy∞ ∞ ; Var (X) = x f(x, y) dxdy∞ ∞ − E(X)

E(Y) = yf(x, y) dxdy∞ ∞ ; Var (Y) = y f(x, y) dxdy∞∞ − E(Y)

Sejam X e Y v.a.’s discretas com valores x1, x2, x3,... e y1, y2, y3,... ,respectivamente.

• A função de probabilidade condicional de X dado Y=yj é dada por

p(xi |yj) = P(X=xi | Y=yj) = (G*)<,N*3:)`( N*3:) , para i=1,2,3..., se P(Y=yj) > 0.

• A função de probabilidade condicional de Y dado X=xi é dada por

p (yj |xi) = P(Y=yj |X=xi) = (G*)<,N*3:)`( G*)<) , para j=1,2,3..., se P(X=xi) > 0

• A esperança condicional de X dado que Y=yj é E(X|Y=yj) = ∑ x pG(x|y) • A esperança condicional de Y dado que X=xi é E(Y|X=xi) = ∑ y pN7ybx).

Sejam X e Y duas v.a.’s contínuas com função de densidade conjunta f e funções de densidade marginais fX e fY, respectivamente.

1. A função de densidade condicional de X dado Y=y é dada por

f(x|y) = c(),3)cd(3) , para todo x real, se fY(y) ≠0;

se fY(y) = 0, convenciona-se que f(x|y) = 0.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 116

Page 123: Fundamentos_de_Estatística_convertido

2. A esperança condicional de X dado Y=y é E(X|y) = x f∞ (x|y) dx 3. A variância condicional de X dado Y=y é

Var(X|Y=y) = E[X−E(X| y) 2|y] = E(X2| y) – E(X| y)2,

onde E(X2| Y = y) = x f∞ (x|y)dx

4. A esperança condicional e a variância condicional de Y dado X=x são definidas de modo análogo.

• Esperança da esperança condicional:

EE(X|Y) = E(X|y)fN∞ (y)dy

EE(Y|X) = E(Y|x)fG (x)dx

• Teorema da Esperança Total:

E(X) = EE(X|Y) e E(Y) = EE(Y|X)

• Teorema da Variância Total:

Var(Y) = E(Var(Y|X)) + Var(E(Y|X)) e Var(X) = E(Var(X|Y)) + Var(E(X|Y))

• Duas v.a.’s X e Y são ditas independentes se, para todo par de números reais (x, y),

F(x,y) = FX(x).FY(y) ,

onde F é a função de distribuição acumulada conjunta de X e Y e FX e FY são as correspondentes funções de distribuição marginais acumuladas de X e Y.

• As v.a.´s discretas X e Y são independentes se para todo par (xi , yj) de valores possíveis de (X, Y), p(xi ,yj ) = pX(xi )pY(yj). Neste caso também se verificam: p(xi|yj) = pX(xi ) e p(yj | xi) = pY(yj).

• As v.a.´s contínuas X e Y com função de densidade conjunta f e densidades marginais fX e fY, respectivamente são independentes se f(x,y) = fX(x).fY(y), para todo par (x,y) de números reais. Neste caso também se verificam: fX(x|y) = fX(x) e fY(y|x) = fY(y).

• Sejam X e Y duas variáveis aleatórias. Suponha que E(x) = µx, E(Y) = µy, Var(X) e Var(Y) existem e são todas finitas. Então a Covariância entre X e Y também existe, é finita e é dada por Cov(X,Y) = E[(X–µx)(Y–µy)] = E(XY) – µx µy.

Propriedades da Covariância

1) Cov(X,Y) pode ser positiva, negativa ou nula.

2) Cov(X,X) = Var(X)

3) Se X e Y são independentes, então E(XY) = E(X)E(Y) e, então, Cov(X, Y) = 0

4)Var(X+Y)=Var(X) + Var(Y) + 2Cov(X,Y)

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 117

Page 124: Fundamentos_de_Estatística_convertido

5) Var(X+Y)=Var(X) + Var(Y), se X e Y são independentes

6) Cov(aX + bY, cX + dY) = ac Var(x) + bd Var(Y) + (ad+bc) Cov(X,Y)

• Seja (X,Y) uma variável aleatória bidimensional. Suponha que E(X) = µX e E(Y) = µY existem e que Var(X) e Var(Y) são finitas e não nulas. O coeficiente de

correlação entre X e Y é definido como ρ(X,Y) = ~(Gμ|)(Nμd)`(G)`(N) = (G,N)|d

Propriedades do Coeficiente de Correlação:

1) O coeficiente de correlação é adimensional.

2) –1 ≤ ρ ≤ 1

3) Se X e Y são v.a.’s independentes, ρ(X,Y) = 0. 4) Se X e Y são duas v.a.’s tais que Y = aX +b, a e b constantes reais, a≠0, então

ρ(X,Y) = 1 , se e somente se a > 0 e ρ(X,Y) = −1 , se e somente se a < 0 .

• Sejam X e Y v.a.´s discretas com valores x1 , x2 , x3 , .... e y1 , y2 , y3 , ..., respectivamente, com função de probabilidade conjunta p(. , .) e seja Z = H(X,Y) . Então

E(Z) = E(H(X,Y)) = ∑ ∑ H(x , y)p(x, y) • Sejam X e Y duas v.a.´s contínuas com densidade conjunta f e seja Z = H(X,Y) .

Então : E(Z) = E(H(X,Y)) = ∞ H(x, y)f(x, y)dxdy∞

• Sejam X e Y duas v.a.’s com esperanças e variâncias finitas e sejam a e b constantes reais. Então, 1. E (aX + bY) = aE(X) + bE(Y) 2. Var(aX + bY) = a2Var(X) + b2Var(Y) + 2abCov(X,Y) 3. Se X e Y são v.a.´s independentes, então : Var(aX + bY) = a2Var(X) + b2Var(Y)

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 118

Page 125: Fundamentos_de_Estatística_convertido

CAPÍTULO 6

VETORES ALEATÓRIOS MULTIDIMENSIONAIS

Conceitos e resultados a serem apresentados neste capítulo:

Vetores aleatórios n-dimensionais, discretos e contínuos

Funções de probabilidade, de densidade e de Distribuição Acumulada conjuntas

O modelo Multinomial

O modelo Normal multidimensional

Independência de n variáveis aleatórias

Propriedades adicionais da esperança e da variância

Soma de n Variáveis Aleatórias Independentes

Combinação Linear de n Normais independentes

Teorema Central do Limite

Aproximações Normais para as distribuições Binomial, de Poisson, de Pascal e Gama

“Em última análise, um desenho simplesmente não é mais um desenho, não importa o quão auto-suficiente a sua execução possa ser. É um símbolo, e quanto mais profundamente as linhas imaginárias de projeção atenderem as dimensões mais elevadas, melhor.” Paul Klee, artista plástico

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 119

Page 126: Fundamentos_de_Estatística_convertido

Na fabricação de lâminas de aço o interesse do fabricante pode estar centrado nas seguintes variáveis: conteúdo de carbono(%), de manganês(% ), de silício (%), de fósforo(%), de enxofre(%), de cromo (%) e desgaste químico (g/m2).

Neste caso existiriam sete variáveis aleatórias, X1, X2,.. , X7, observadas simultaneamente. O vetor (X1, X2, ... , X7), formado por essas sete variáveis, é um exemplo do que se denomina variável aleatória multidimensional ou vetor aleatório multidimensional e dizemos que X1, X2,.. e X7 têm uma distribuição conjunta.

Ao longo deste capítulo abordaremos o estudo das variáveis aleatórias multidimensionais, como uma generalização das bidimensionais (Ver Capítulo 5). Em particular, dedicaremos uma boa parte do capítulo ao estudo de somas de n variáveis aleatórias independentes.

6.1 Distribuição Conjunta

Os conceitos vistos no capítulo 5 para uma variável aleatória bidimensional podem ser estendidos ao caso de uma v.a. multidimensional.

Resumidamente temos:

Vetores aleatórios multidimensionais discretos e contínuos

Funções de probabilidade, de densidade e de Distribuição Acumulada conjuntas

Dizemos que (X1 , X2, ... ,Xn) é um vetor aleatório n-dimensional discreto se Ci (⊂ ℝ) é o conjunto (enumerável) de valores da v.a. Xi, para todo i = 1,2,...,n, e existe uma função p:C1×...×Cn → ℝ, chamada função de probabilidade conjunta de (X1 , X2, ... ,Xn), tal que:

(a) p(x1,...xn) = P(X1 = x1,...,Xn = xn) ≥ 0, para todo vetor (x1,...xn) ∈ C1×...×Cn (b) ∑ … ∑ px , … , x = 1∈∈ .

Dizemos que (X1 , X2, ... ,Xn) é um vetor aleatório n-dimensional contínuo se existe uma função não negativa f , definida no espaço n-dimensional, ℝ, chamada de função de densidade de (X1 , X2, ... ,Xn) ou função de densidade conjunta de X1 , X2, ... ,Xn , tal que, para toda região R n-dimensional contida em ℝ,

P[(X1 , X2, ... ,Xn)є R ] = . . . fx , x, … , x dx dx … dx

A função f acima deve ser não negativa e tal que

… fx ∞∞∞ , x, … , xdx dx … dx = 1

Tanto no caso discreto como no caso contínuo, a função de distribuição acumulada conjunta de (X1 , X2, ... ,Xn) é F: ℝ → ℝ definida como

F(x1 , x2, ... ,xn) = P(X1 ≤x1 , X2 ≤ x2 ,....Xn ≤ xn ) ,

para quaisquer x1 , x2, ... ,xn do conjunto dos números reais.

As funções de probabilidade (no caso discreto) e de densidade (no caso contínuo), tanto as marginais como as condicionais, e também as esperanças e variâncias condicionais são definidas e obtidas de modo análogo ao que foi visto no caso bidimensional (Ver Capítulo 5).

Por exemplo, se (X1, X2 , X3) é uma v.a. tridimensional contínua, com densidade conjunta f , então:

• A densidade marginal de X1 é

f1(x1) = fx , x, x dxdx

• A densidade conjunta de (X1, X3) é

f13(x1 , x3) = fx , x, x dx , etc.

• A densidade condicional de (X2 , X3 ) dado X1 = x1 é

f(x2 , x3|x1) = !,",#! , se f1(x1) > 0

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 120

Page 127: Fundamentos_de_Estatística_convertido

• A densidade condicional de X2 dados X1=x1 e X3=x3 é

f(x2 | x1,x3) = !,",#!#,# , se f13(x1, x3) > 0

• A esperança condicional de X2 dados X1=x1 e X3=x3 é

E(X2| x1,x3) = x fx|x , x dx , • A esperança e a variância de X3 são, respectivamente:

E(X3) = x fx , x, x dx dx dx

Var(X3) = x − EX fx , x, x dx dx dx

Veremos agora dois importantes modelos probabilísticos para vetores aleatórios multidimensionais, a saber, o modelo Multinomial (para o caso discreto) e o modelo Multi-Normal (para o caso contínuo).

6.1.1 O Modelo Multinomial

Dizemos que a distribuição conjunta das v.a.’s X1, X2, …, Xm é uma multinomial com parâmetros n e p1, p2, …, pm, se:

PX = k , X = k, … , X* = k* = + n!k ! k! … k*! p .p." … p*./0, caso contrário 7 , se k + k + ⋯ + k* = n

onde n é um inteiro positivo e p1, p2, …, pm são reais positivos tais que p1+ p2 +…+ pm=1

Obs.: Neste caso, é possível provar que Xj é Binomial(n, pj), para todo j = 1,2,…,m.

Exemplo 6.1: Pesquisa eleitoral

Em uma eleição majoritária, há três candidatos C1, C2 e C3. Suponhamos que:

• A proporção populacional de eleitores que apóiam C1 é p1. • A proporção populacional de eleitores que apóiam C2 é p2. • A proporção populacional de eleitores que apóiam C3 é p3. • A proporção populacional de eleitores que votariam em branco, anulariam seu voto ou estão

indecisos (BNI) é p4.

Suponhamos também que em uma pesquisa eleitoral seja extraída da população de eleitores uma amostra aleatória simples com n = 20 eleitores. Sejam X1, X2, X3, X4, respectivamente, o número de elementos da amostra que vota em C1, em C2, em C3 ou BNI. Não é difícil verificar que a distribuição conjunta das v.a.’s X1, X2, X3, X4 é uma multinomial de dimensão 4 com parâmetros n, p1, p2, p3 e p4.

Observação: É claro que na prática as amostras das pesquisas eleitorais costumam ser muito maiores do que a amostra aqui considerada. A escolha de n = 20 foi feita apenas por razões de simplicidade dos cálculos.

Admita agora que:

p1 = 0,4 p2 = 0,3 p3 = 0,2 p4 = 0,1.

Ou seja: 40% do eleitorado apóia C1, 30% do eleitorado apóia C2, 20% do eleitorado apóia C3, e 10% do eleitorado pretende votar branco, nulo ou está indeciso (BNI).

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 121

Page 128: Fundamentos_de_Estatística_convertido

Nessas condições, entre os 20 eleitores da amostra, o número esperado de eleitores de:

C1 é 0,4 x 20 = 8; C2 é 0,3 x 20 = 6; C3 é 0,2 x 20 = 4 e BNI é 0,1 x 20 = 2.

Calcule a probabilidade de que:

(a) X1 = 8, X2= 6, X3= 4 e X4= 2. (b) X1 = 8. (c) X1 = 8 e X4= 2.

Solução:

(a) P(X1 = 8, X2= 6, X3= 4, X4= 2) = ;!<!=!>!! 0,4<0,3=0,2>0,1 = 0,0133.

Ou seja, a probabilidade de que, em uma pesquisa eleitoral com uma amostra de 20 eleitores, se obtenha exatamente o número de intenções de voto que se espera para cada candidato é aproximadamente 1,33%.

(b) Como X1 é Binomial(20; 0,4), P(X1 = 8) = B208 D 0,4<0,6 = 0,1797. Este resultado indica que a probabilidade do candidato C1, o preferido do eleitorado, obter exatamente

o número de intenções de voto que se espera para ele numa amostra com 20 eleitores é aproximadamente 18%.

(c) P(X1 = 8 , X4= 2) é igual à soma das probabilidades de todos os 11 vetores (X1, X2, X3, X4) tais que X1 = 8 e X4= 2 e X2+X3=10. A saber:

(X1, X2, X3, X4) Probabilidade

(8, 10, 0, 2) 0,000322

(8, 9, 1, 2) 0,002145

(8, 8, 2, 2) 0,006435

(8, 7, 3, 2) 0,01144

(8, 6, 4, 2) 0,013346

(8, 5, 5, 2) 0,010677

(8, 4, 6, 2) 0,005932

(8, 3, 7, 2) 0,00226

(8, 2, 8, 2) 0,000565

(8, 1, 9, 2) 8,37E–05

(8, 0, 10, 2) 5,58E–06

As probabilidades acima foram todas calculadas pela expressão geral do modelo multinomial.

Somando, temos: P(X1 = 8, X4= 2) = 0,0532.

Então, a probabilidade de que tanto o candidato C1 como brancos, nulos e indecisos obtenham exatamente o número de intenções de voto que se espera para cada um deles numa amostra com 20 eleitores é aproximadamente 5,3%.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 122

Page 129: Fundamentos_de_Estatística_convertido

6.1.2 O modelo Normal Multidimensional

A distribuição Normal Multidimensional é o principal exemplo de uma família de distribuições

contínuas multivariadas.

Dados o vetor de médias µ (p×1) e a matriz de covariâncias Σ (p×p), positiva definida, diz-se que a v.a. p-dimensional X tem distribuição Normal Multidimensional com parâmetros µ e Σ se a sua função de densidade conjunta é dada por:

fH = IJ "K ∙MNOP Q exp R− H − µTΣ H − µV, para todo H ∈ RX.

Observações:

i. A expressão H − µTΣ H − µ é um produto matricial onde: • H − µT é uma matriz linha 1 x p;

• Σ é uma matriz quadrada p x p; • H − µ é uma matriz coluna p x 1

Portanto, na fórmula acima, H − µTΣ H − µ é um escalar.

ii. det(Σ) simboliza o determinante da matriz quadrada p x p, Σ.

Exemplo 6.2: Arquitetura Bioclimática

A Arquitetura Bioclimática visa harmonizar as construções ao clima e às características

locais, pensando no homem que nelas habitará ou trabalhará, e tirando partido, por exemplo, da

energia solar, através de correntes convectivas naturais e de micro-climas criados por vegetação

apropriada. Preocupa-se, também, com o desenvolvimento de equipamentos e sistemas necessários

ao uso da edificação e com a utilização de materiais de conteúdo energético tão baixo quanto

possível. O estudo do nível de umidade do local ajuda na etapa de projeto da indústria, uma vez que

devem ser utilizados materiais resistentes ao nível de umidade local. A energia solar representa

uma forma de obtenção de energia para a indústria, de modo a torná-la auto-sustentável. As

variáveis a serem aqui consideradas são: • Umidade relativa (adimensional, expressa em porcentagem) • Energia solar (expressa em cal/(cm2 .hora)) • Velocidade do vento (expressa em m/s)

Admita que um modelo Normal tri-dimensional com

µ

= (76,67; 14,56; 4,57) e ΣΣΣΣ = Y 93,37 − 37,17 − 2,08−37,17 58,68 − 3,29 −2,08 − 3,29 8,36 [

representa de forma adequada o comportamento simultâneo e as interações entre essas variáveis.

Obs.: Os parâmetros acima foram calibrados com base em um levantamento de dados feito diariamente em uma estação meteorológica situada em Pelotas (RS) durante o ano de 2009.

Responda, então:

(a) Qual a probabilidade de que em um determinado dia escolhido ao acaso, simultaneamente: a umidade relativa seja inferior a 70%, a energia solar seja inferior a 20 cal/(cm2.hora), e a velocidade média do vento seja superior a 4 m/s?

(b) Qual a probabilidade condicional de que em um determinado dia escolhido ao acaso, a umidade relativa seja inferior a 70%, dado que a energia solar é inferior a 20 cal/(cm2.hora) e que a velocidade média do vento é superior a 4 m/s?

Obs.: Esse problema deve ser resolvido por Simulação, porque, devido à sua complexidade matemática, uma abordagem analítica revela-se praticamente inviável.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 123

Page 130: Fundamentos_de_Estatística_convertido

Solução:

(a) Usando um software adequado, no caso o R, podemos calcular

P(X1 < 70, X2 < 20, X3 > 4) = 0,0874.

(b) Também pelo R, obtemos P(X2 < 20, X3 > 4) = 0,4583.

Então, P(X1 < 70 | X2 < 20, X3 > 4) = \]^_;, ]"^;, ]#`>\]"^;, ]#`> = ;,;<_>;,>a< = 0,1908

“Vivemos numa realidade multidimensional, simultaneamente econômica, psicológica, mitológica, sociológica, mas estudamos estas dimensões separadamente, e não umas em relação com as outras. O princípio de separação torna-nos talvez mais lúcidos sobre uma pequena parte separada do seu contexto, mas nos torna cegos ou míopes sobre a relação entre a parte e o seu contexto.” Edgar Morin, filósofo

6.2 Independência

Sejam (X1 , X2 , ... , Xn) uma v.a. n-dimensional, F a sua FDA e F1 , F2 ,..., Fn as correspondentes FDA´s marginais. Então as v.a.’s X1 , X2 , ... , Xn são independentes se

F(x1 , x2, ... ,xn) = F1(x1) F2(x2)... Fn(xn) para todo vetor (x1 , x2, ... ,xn) є ℝ .

Em particular, se (X1 , X2 , ... , Xn) é uma v.a. n-dimensional contínua, as seguintes definições são equivalentes:

X1 , X2 , ... , Xn são independentes se

P(X1 ∈ I1 , X2 ∈ I2, . . . , Xn ∈ In ) = P(X1 ∈ I1 )P (X2 ∈ I2 )…P(Xn ∈ In),

para quaisquer intervalos I1 , I2 , . . , In .

Obs.: Nesta definição Ii = [ai , bi]; portanto Xi ∈ Ii indica que ai ≤ Xi≤ bi

Se f é a função de densidade conjunta de X1 , X2 , ... , Xn contínuas, com as correspondentes densidades marginais f1, f2, ..., fn , então X1 , X2 , ... , Xn são independentes se

f(x1 , x2 , ..., xn) = f1(x1) f2(x2)... fn(xn) para todo vetor (x1 , x2, ... ,xn) є ℝ.

6.3 Propriedades adicionais da esperança e da variância

No Capítulo 3 vimos que :

• E(X+Y) = E(X) + E(Y) e Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y) • Dada uma constante a, E(aX) = aE(X) e Var(aX) = a2Var(X)

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 124

Page 131: Fundamentos_de_Estatística_convertido

Consideremos agora n variáveis aleatórias, X1,...,Xn, e n constantes a1, a2 ,…, an. Temos as seguintes propriedades:

1 - E∑ abbc Xb= ∑ abEXbbc Var∑ abbc Xb = ∑ abbc VarXb + 2 ∑ abe`f aeCovXb , Xe) 2 - Se X1 , X2 , ... , Xn são independentes então:

Var(∑ abbc Xb) = ∑ abbc VarXb

Exemplo 6.3 Compras de produtos de higiene

Quando as pessoas fazem suas compras na seção de produtos de higiene de um determinado supermercado, para cada um dos itens a serem adquiridos, valem a média e o desvio padrão da quantidade comprada e o preço unitário que constam na tabela a seguir:

i

Item E(Xi) = Média da Quantidade

DP(Xi) = Desvio Padrão da quantidade

ai = Preço Unitário (reais)

1 Sabonete S 6 2 2,00 2 Xampu X 4 1 6,00 3 Creme dental C 5 2 10,00 4 Fio dental F 3 1 5,00 5 Desodorante D 3 1 35,00 Determine a média e o desvio padrão do gasto total de um comprador nessa seção do supermercado.

Solução:

Seja Y = ∑ ababc Xb o gasto total. Então, supondo independencia entre os Xi’s:

EY = ∑ abEXbabc = 2,00 x 6 + 6,00 x 4 + 10,00 x 5 + 5,00 x 3 + 35,00 x 3 = 206,00 reais

Var(Y) = ∑ ababc VarXb = (2,00 x 2)2 + (6,00 x 1)2 + (10,00 x 2)2 + (5,00 x 1)2 + (35,00 x 1)2 = 1702

DP(Y) = √1702 = 41,26 reais.

Então um cliente típico gasta em média R$206,00 com um desvio padrão de R$41,26 em cada visita feita a essa seção do supermercado.

6.4 Soma de Variáveis Aleatórias Independentes

No Capítulo anterior vimos que em alguns casos a soma de duas variáveis aleatórias independentes, de distribuição conhecida, resulta em uma nova variável cuja distribuição também é conhecida. Assim, vimos que a soma de duas variáveis aleatórias independentes com distribuições de Poisson de parâmetros λ1 e λ2 dá como resultado uma nova variável aleatória, também com distribuição de Poisson e de parâmetro λ1 + λ2. Vimos também que a soma de duas variáveis aleatórias independentes com distribuição exponencial com o mesmo parâmetro λ resulta em uma distribuição gama com parâmetros 2 e λ.

Neste Capítulo esses resultados serão estendidos ao caso da soma de n variáveis aleatórias independentes. Novos casos semelhantes serão apresentados além de outras propriedades importantes envolvendo somas de variáveis aleatórias independentes, entre as quais está o Teorema Central do Limite.

As distribuições das variáveis originais e das respectivas somas estão apresentadas resumidamente no quadro abaixo.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 125

Page 132: Fundamentos_de_Estatística_convertido

Distribuição das n v.a.’s independentes originais

Distribuição da Soma das n v.a.’s independentes

Xi ~ Bernoulli(p), i=1, ..., n Y = ∑ Xbbc ~ Binomial(n,p)

Xi ~ Binomial(ni, p), i=1, ..., k Y = ∑ Xbbc ~ Binomial(m,p), onde m= ∑ nb.bc

Xi ~ Geométrica(p), i=1, ..., n Y = ∑ Xbbc ~ Pascal(n,p)

Xi ~ Poisson(λi), i=1, ..., n Y = ∑ Xbbc ~ Poisson(λ), onde λ = ∑ λbbc

Xi ~ Exponencial(λ), i=1, ..., n Y = ∑ Xbbc ~ Gama(n,λ)

Xi ~ Gama(ni, λ), i=1, ..., n Y = ∑ Xbbc ~ Gama(m,λ), onde m= ∑ nb.bc

Demonstrações não serão aqui incluídas, mas convém ressaltar que, no caso de duas variáveis aleatórias, elas podem ser feitas com base nas fórmulas de convolução apresentadas no Capítulo anterior. Para mais de duas variáveis os resultados podem ser obtidos por indução matemática. Demonstrações mais simples podem ser obtidas fazendo-se uso da função geratriz de momentos, conceito que não será apresentado neste texto.

O fato de que “Y = ∑ Xbbc ~ Binomial(n,p), sendo que Xi ~ Bernoulli(p), i=1, ..., n” facilita muito a obtenção de algumas propriedades da distribuição binomial. Por exemplo, dado que Xi tem distribuição de Bernoulli de parâmetro p, temos E(Xi ) = p. Então, para a v.a. Y acima se verifica E(Y) = E(∑ Xbbc ) = np. Além disso, se as Xi forem independentes, dado que Var(Xi ) = p(1–p), para i=1,2,...n, teremos Var(Y) = Var (∑ Xbbc ) = np(1–p). (Ver o Exercício Proposto 6.?)

“Nenhuma tarefa é particularmente difícil se você a divide em várias pequenas tarefas.”

Henry Ford, empresário

Exemplo 6.4 Locação de automóveis (Soma de Poissons independentes)

Uma locadora de carros funciona de Segunda-feira a Sábado . Ela aluga em média 1 carro por dia de Segunda a Sexta-feira e 7 carros, em média, nos Sábados. Supondo que o aluguel diário de carros segue uma distribuição de Poisson, determine a probabilidade de, em uma dada semana, serem alugados pelo menos 8 carros. Suponha independência entre as operações realizadas nos diversos dias.

Solução

Sejam X1 , X2, X3 , X4 , X5 e X6 as v.a.’s representando o número de carros vendidos de Segunda a Sábado, respectivamente. Temos :

X i ~ Poisson(1) , i= 1,2,3,4,5 e

X6 ~ Poisson(7).

Então

Y = ∑ Xb=bc ~ Poisson (12) e P(Y ≥ 8) = ∑ Ok" l.!∞.c< = 0,9105

Portanto, há uma probabilidade de 91% de, em uma particular semana, serem alugados pelo menos 8 carros.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 126

Page 133: Fundamentos_de_Estatística_convertido

Exemplo 6.5 Segurança de uma aeronave (Soma de Exponenciais independentes)

O computador de bordo de uma aeronave tem três dispositivos de segurança idênticos. O computador funciona com apenas um dos dispositivos de cada vez. Quando o primeiro falha, o segundo entra de imediato em ação. Quando o segundo falha, o terceiro entra de imediato em ação. Suponha que para cada um deles a distribuição do tempo de vida, medido em horas, é exponencial com λ = 1/1000 .

a) Qual é o tempo médio até o terceiro dispositivo falhar? b) Qual a probabilidade dos 3 dispositivos falharem durante um vôo de 10 horas?

Solução

Sejam X1, X2 e X3 os tempos de vida, em horas, dos dispositivos 1, 2 e 3 , respectivamente. Então: X i ~ exp (1/1000).

Assim, E(Xi ) = 1000 horas.

a) Seja Y = X1 + X2 + X3. Segue-se que Y ~ Gama(3; 0,001).

Portanto, E(Y) = 3×1000 = 3.000 horas.

b) P(Y< 10) = ;,;; Γ 0,001mn;,;; o ;; pm = 1,65 x 10-7

Note que, felizmente, a probabilidade de todos os 3 dispositivos falharem durante um vôo de 10 horas é praticamente nula.

6.5 Combinação Linear de n variáveis aleatórias Normais independentes

Sejam :

X1, ..., Xn n variáveis aleatórias independentes e distribuídas conforme uma distribuição Normal

com parâmetros µi e σi2 (i = 1,2,..n), respectivamente ;

Y = ∑ cbXbbc , onde ci (i=1,2,...n) são constantes ;

µY = ∑ cbµbbc e σr = ∑ cbbc σ .

Então :

Y tem distribuição Normal com parâmetros µY e st.

Exemplo 6.6: Engenharia de software

Uma empresa que desenvolve software recebeu uma encomenda de um serviço a ser realizado

no prazo de uma semana e, para poder decidir sobre o perfil da equipe de programadores a ser

utilizada, deve levar em conta que:

i. O número total de linhas de código (comandos, instruções) a serem desenvolvidos é aproximadamente 30000.

ii. A produtividade, em comandos por hora, dos seus programadores mais experientes segue uma distribuição Normal com média de 50 e desvio padrão de 15.

iii. A produtividade, em comandos por hora, dos seus programadores menos experientes segue uma distribuição Normal com média de 30 e desvio padrão de 10.

iv. Cada programador trabalha 6 horas por dia, 5 dias por semana.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 127

Page 134: Fundamentos_de_Estatística_convertido

Qual a probabilidade de que o serviço fique pronto em uma semana se a equipe for composta por 10

programadores mais experientes e 20 programadores menos experientes?

Solução:

Sejam:

Xi a produtividade, em comandos por hora, do i-ésimo programador mais experiente, i = 1,2,...,10 e

Yj a produtividade, em comandos por hora, do j-ésimo programador menos experiente, j = 1,2,...,20.

Então a produtividade, em comandos por hora, da equipe toda será W = ∑ Xb ;bc + ∑ Ye;ec , cuja

distribuição de probabilidade é uma Normal com média 10 × 50 + 20 × 30 = 1100 e variância 10 × 152 +

20 × 102 = 4250.

Como cada programador trabalha 6 horas por dia, 5 dias por semana, em uma semana a produção da

equipe toda será 6 × 5 × W = 30 W comandos.

Então, a probabilidade de que o serviço fique pronto em uma semana é:

Pu30W ≥ 30000w = PuW ≥ 1000w = P xZ ≥ 1000 − 1100√4250 z = PuZ ≥ −1,534w = 0,9375.

6.6 Teorema Central do Limite

Seja X1 , X2, X3 , ....uma seqüência de v.a.’s independentes identicamente distribuídas (iid) cada uma

com a mesma esperança µ e a mesma variância σ2 .

Seja Yn = X1 + X2 + ... + Xn . Então a distribuição de rr|\r =

rμ~√ tende à distribuição Normal

padrão quando n → ∞.

Este é um dos resultados mais importantes da Teoria das Probabilidades e nos mostra claramente a relevância da distribuição Normal. Com efeito, conforme este Teorema, a distribuição da soma de quaisquer n variáveis aleatórias independentes e identicamente distribuídas tende a uma Normal, quando n tende a infinito, independente de qual seja a distribuição original considerada.

Ou seja, se X1,..., Xn são iid , então, quando n → ∞, temos que: ∑ Xbbc ~ Normal (nµ, ns2), aproximadamente

Na seção 4.6, vimos que, em particular, quando a distribuição original das variáveis aleatórias iid já é Normal, sua soma é exatamente (e não apenas aproximadamente) Normal, para qualquer valor de n.

Exemplo 6.7 Precisão dos cálculos

Cinquenta números, que originalmente tinham várias casas decimais, depois de arredondados, passaram a ter apenas duas casas decimais. Admita-se que os erros individuais de arredondamento são independentes e podem ser modelados como uniformes no intervalo (- 0,005; + 0,005)

a) Qual a probabilidade de que a distância (módulo da diferença) entre a soma dos números já arredondados e a soma dos números originais seja maior que 0,03?

b) Qual o valor da constante c para que essa distância seja maior que c com apenas 1% de probabilidade?

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 128

Page 135: Fundamentos_de_Estatística_convertido

Solução

Denotemos por Xi a variável aleatória que representa o erro de arredondamento do i-ésimo número (i = 1,2,3,..., 50). Sabemos que :

Xi ~ U(-0,005 ; +0,005), para todo i=1,...,n.

Portanto, para todo i,

E(Xi ) = µ = ;,;;a – ;,;;a = 0 e Var(Xi ) = σ2

= ;,;;a – – ;,;;a" = 8,333 × 10=.

a) Seja Y = ∑ fa;fc = a diferença entre a soma dos números já arredondados e os números originais.

Pelas propriedades da esperança e da variância temos:

E(Y) = 50 µ = 0 e

Var(Y) = 50 σ2 = 50 × 8,333 × 10= = 4,1667×10

-4, donde DP(Y) = 0,0204

Através do Teorema Central do Limite (TCL), sabemos que Y tem, aproximadamente, distribuição Normal com média 0 e desvio padrão 0,0204 .

Assim, a probabilidade pedida é

P(|Y|> 0,03 ) = P (|Z| > ;,; ;,;;> ) = P(|Z|> 1,47) = 2( 1 - Φ(1,47) ) = 2(1 – 0,9292) = 0,1416.

Logo, a probabilidade de que o módulo da diferença entre a soma dos valores arredondados e a soma original seja maior que 0,03 é igual a 0,1416.

b) Deseja-se determinar o valor de c tal que P(|Y| > c) = 0,01 .

Temos,

P(|Y| > c) = 0,01 ⇒ P(|Z|> ;,;;> ) = 0,01 ⇒ 2(1 - Φ(

;,;;> ) ) = 0,01 ⇒

⇒ Φ(;,;;> ) = 1 - 0,01/2 = 0,995 ⇒ ;,;;> = Φ-1

(0,995) = 2,575 ⇒ c = 0,05253.

Portanto, o valor de c é aproximadamente de 0,053 para que seja igual a 1% a probabilidade do valor absoluto dessa diferença ser maior do que c.

6.7 Aproximação de diversas Distribuições pela distribuição Normal

Na seção 6.4 vimos que, em muitos casos de interesse, a distribuição de probabilidade da soma de n v.a.’s independentes depende da distribuição de probabilidade de cada uma das n parcelas:

• Uma v.a. com distribuição Binomial(n,p) pode ser considerada como uma soma de n v.a.’s independentes com distribuição de Bernoulli(p)

• Uma v.a. com distribuição Pascal(n,p) pode ser considerada como uma soma de n v.a.’s independentes com distribuição Geométrica(p)

• Uma v.a. com distribuição Poisson(λ) pode ser considerada como uma soma de n v.a.’s independentes

com distribuição Poisson(λi), onde λ = ∑ λbbc .

• Uma v.a com distribuição Gama(n, λ) pode ser considerada como uma soma de n v.a.’s com distribuição Exponencial(λ).

Uma conseqüência destas associações e do Teorema Central do Limite é que, quando n → ∞, as

distribuições dessas variáveis, que podem ser vistas como somas de n v.a.’s independentes, se

aproximam da distribuição Normal.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 129

Page 136: Fundamentos_de_Estatística_convertido

É importante ressaltar um aspecto relativo a um tipo específico de aproximação: Quando se

aproxima um modelo discreto por um modelo contínuo deve ser feita uma correção de continuidade. A

título de simplificação, a correção de continuidade será analisada em detalhe apenas no caso da

aproximação da Binomial pela Normal e será usada diretamente (sem maiores considerações), nos casos

das distribuições de Pascal e de Poisson.

6.7.1 Aproximação da distribuição Binomial pela Normal

Seja X uma variável aleatória com distribuição Binomial de parâmetros n e p, portanto E(X)

= np e DP(X) = Mnp1 − p . Como X é a soma de n v.a.’s com distribuição de Bernoulli(p),

então, pelo Teorema Central do Limite:

Z = ]XMX X

tem distribuição aproximadamente Normal padronizada, se n for suficientemente grande.

Obs.: Convém realçar o fato de que a aproximação da Binomial por uma Normal funciona tanto melhor quanto mais o p da Binomial se aproxima de ½. Isso quer dizer que quando p é muito pequeno (próximo de 0) ou muito grande (próximo de 1), o número n de replicações teria que ser de fato muito grande para que essa aproximação fosse suficientemente precisa. Assim, a título de regra prática, recomenda-se usar a aproximação da Binomial por uma Normal somente quando np(1-p) ≥ 3.

Correção de Continuidade:

Caso se deseje calcular P[a ≤ X ≤ b], onde a e b são números inteiros, como se trata de aproximar uma distribuição discreta (Binomial) por uma contínua (Normal), convém introduzir, antes de mais nada, uma correção: subtrair ½ de a e somar ½ a b. Seja W ~ N(np; np(1–p)). Temos então

Pa ≤ X ≤ b = P a − ≤ W ≤ b +

Padronizando:

Pa ≤ X ≤ b = Φ b + 12 − npMnp1 − p − Φ a − 12 − np

Mnp1 − p

Também temos:

PX ≤ b ≅ P BW ≤ b + D = Φ "XMX X e

PX ≥ a ≅ P BW ≥ a − D = 1 − Φ "XMX X .

Como a v.a. original é discreta, faz sentido calcular a probabilidade (não nula) de X ser igual a uma constante a:

PX = a ≅ P a − ≤ W ≤ a + = Φ "XMX X − Φ "XMX X .

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 130

Page 137: Fundamentos_de_Estatística_convertido

PPoorr qquuee éé iimmppoorrttaannttee ffaazzeerr aa ccoorrrreeççããoo aacciimmaa iinnddiiccaaddaa??

PPaarraa mmeellhhoorr eenntteennddeerr eessssee ppoonnttoo,, ssuuppoonnhhaammooss,, ppoorr eexxeemmpplloo,, qquuee XX ~~ BBiinnoommiiaall((3300;; 00,,44)) –– VVeerr FFiigguurraa aabbaaiixxoo –– ee qquuee oo nnoossssoo oobbjjeettiivvoo sseejjaa ccaallccuullaarr

[ ] [ ] [ ] [ ] [ ] [ ] [ ].15XP14XP13XP12XP11XP10XP15X10P =+=+=+=+=+==≤≤ ..

AAqquuii tteemmooss mmééddiiaa == nnpp == 3300 xx 00,,44 == 1122 ee vvaarriiâânncciiaa == nnpp((11--pp)) == 3300 xx 00,,44 xx 00,,66 == 77,,22..

SSaabbeemmooss qquuee aa ddiissttrriibbuuiiççããoo ddee XX éé BBiinnoommiiaall((3300;; 00,,44)) ee eellaa ppooddee sseerr aapprrooxxiimmaaddaa ppoorr uummaa NNoorrmmaall((1122;; 77,,22)).. TTaammbbéémm ssaabbeemmooss qquuee,, ppoorr sseerr aa NNoorrmmaall uummaa ddiissttrriibbuuiiççããoo ccoonnttíínnuuaa,, aa pprroobbaabbiilliiddaaddee ddee qquuaallqquueerr ppoonnttoo ppaarrttiiccuullaarr vvaallee zzeerroo.. SSeejjaa WW ~ N(np; np(1–p). Então PP((WW==1100)) == PP((WW==1111)) == ...... == PP((WW==1155)) == 00 .. PPoorr oouuttrroo llaaddoo,, ppooddeemmooss ccoonnssiiddeerraarr oo vvaalloorr XX==1100 ccoommoo sseennddoo

uumm aarrrreeddoonnddaammeennttoo ddee qquuaallqquueerr vvaalloorr ccoonnttiiddoo nnoo iinntteerrvvaalloo ((99,,55;; 1100,,55)).. EEnnttããoo [ ]10XP = éé

aapprrooxxiimmaaddaammeennttee iigguuaall àà áárreeaa ssoobb aa ccuurrvvaa NNoorrmmaall ee eennttrree 99,,55 ee 1100,,55,, ccoommoo mmoossttrraa aa ffiigguurraa

aabbaaiixxoo.. OOuu sseejjaa,, [ ] [ ]10,5W9,5P10XPp10 <≤≅== ..

AAnnaallooggaammeennttee,, [ ]11,5W10,5Pp11 <≤≅ ,, ...... ,, [ ]15,5W14,5Pp15 <≤≅ ..

CCoommoo aa ccuurrvvaa NNoorrmmaall mmoossttrraaddaa nnaa ffiigguurraa ssee aajjuussttaa mmuuiittoo bbeemm àà ffuunnççããoo ddee pprroobbaabbiilliiddaaddee ddaa bbiinnoommiiaall,, ccoonncclluuíímmooss qquuee

10p ++ 11p ++ 12p ++ 13p ++ 14p ++ 15p [ ]15,5W9,5P <≤≅ ..

EEssttáá eennttããoo eexxpplliiccaaddaa aa nneecceessssiiddaaddee ddee ssee ssuubbttrraaiirr ½½ ddoo lliimmiittee iinnffeerriioorr ddoo iinntteerrvvaalloo ee ssoommaarr ½½ aaoo sseeuu lliimmiittee ssuuppeerriioorr aanntteess ddee eeffeettuuaarr aa ppaaddrroonniizzaaççããoo..

FFiigguurraa 66..11 –– AA iimmppoorrttâânncciiaa ddaa ccoorrrreeççããoo aaoo ssee aapprrooxxiimmaarr bbiinnoommiiaall ppoorr NNoorrmmaall

Na figura acima, a curva corresponde à função de densidade da Normal W e as áreas dos retângulos correspondem às probabilidades dos valores da Binomial X.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 131

Page 138: Fundamentos_de_Estatística_convertido

Exemplo 6.8 Partos Cesáreos

As estatísticas demonstram que em um determinado hospital, 60% dos partos são feitos através da cirurgia cesareana. Suponha que num dado dia foram realizados 50 partos nesse hospital. Determine:

a) O número esperado de partos cesáreos nesse dia no referido hospital. b) A probabilidade de que o número de partos cesáreos esteja entre 25 e 32, ambos os

extremos incluídos. c) A probabilidade de terem sido realizados exatamente 28 partos cesáreos.

Solução

Seja X a v.a. que representa o número de partos cesáreos, entre os 50.

Então podemos considerar que X é binomial com parâmetros n = 50 e p= 0,6.

a) O número esperado de partos cesáreos nesse dia no referido hospital é: E(X) = np = 30

b) Deseja-se calcular P(25≤ X ≤32).

Como np(1 – p) = 12 > 3, podemos usar a aproximação pela distribuição Normal.

Podemos considerar que a distribuição Normal(30, 12) é uma uma aproximação da Binomial(50, 0,6). Então se W ~ Normal(30, 12), usando a correção de continuidade:

P(25≤ X ≤32) ≅ P(24,5≤W≤32,5) = Φ B ,a ;√ D − Φ B>,a ;√ D =

=Φ 0,72 − Φ −1,59 = Φ 0,72 + Φ 1,59 − 1 = 0,7083

c) Deseja-se calcular P(X = 28).

Usando a aproximação pela Normal e a correção de continuidade temos :

P(X = 28) ≅ P(27,5 ≤ W ≤ 28,5) = Φ B<,a ;√ D − Φ B_,a ;√ D = Φ −0,433 − Φ −0,722 =

0,0973 .

A aproximação da Binomial pela Normal é um recurso muito usado em Estatística, uma vez que, quando a amostra é grande, fazer esses cálculos sem utilizar recursos computacionais e com o uso da própria fórmula da Binomial seria em geral excessivamente trabalhoso. Os testes de hipóteses sobre proporções são aplicações importantes dessa aproximação ao desenvolvimento teórico da Inferência Estatística. (Ver Seção ??? )

6.7.2 Aproximação Normal para a distribuição de Po isson .-

No Capítulo 2 vimos que à medida que λ, a taxa de ocorrência de eventos por unidade de tempo (ou de longitude, ou superfície), aumenta, o gráfico da função de probabilidade da distribuição de Poisson adquire uma forma próxima a um sino, simétrica (Ver Figura 2.5). Agora temos condições de entender por que isto acontece. De fato, para um valor grande de λ podemos considerar a distribuição de Poisson(λ) como sendo a soma de várias distribuições de Poisson com um menor valor da taxa média de ocorrências. Isto é conseguido dividindo a unidade de tempo ( ou de longitude, ou superfície) em subunidades independentes, não

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 132

Page 139: Fundamentos_de_Estatística_convertido

superpostas. Por exemplo, se λ = 50, podemos supor 50 subintervalos, todos com o valor da taxa igual a 1. Ou seja, a variável original pode ser escrita como a soma de 50 v.a.’s iid todas elas com distribuição de Poisson com parâmetro 1.

Aplicando o TCL podemos fazer a aproximação: Z = λ√λ ~ N(0, 1). Seja ~ N(λ; λ). Assim,

usando a correção para continuidade teremos, para quaisquer inteiros não negativos , a e b :

Pa ≤ X ≤ b ≅ P a − ≤ ≤ b + = Φ "λ√λ – Φ "λ√λ

Exemplo 6.9 Consultas ao site de uma empresa

Admita que o número de consultas à Home Page de uma determinada empresa durante um período de tempo obedece a uma distribuição de Poisson e que em média há 2 consultas por dia. Qual a probabilidade de que em um(a) determinado(a):

(a) dia sejam feitas exatamente 3 consultas? (b) semana (7 dias) sejam feitas no máximo 10 consultas? (c) mês (30 dias) sejam feitas pelo menos 60 consultas?

Solução:

Em qualquer dos casos acima usaremos o modelo ( )k!

λtek]P[X

kλt−

== , onde λ = 2 e X é a

variável aleatória que conta o número de consultas ao longo de t dias. Sabemos que E(X) = Var(X) = λt.

(a) Aqui t=1 e λt = 2. Então, ( )3!

2e3]P[X

32−

== = 0,1804.

(b) Aqui t=7 e λt = 14. Então X pode ser vista como a soma de 14 v.a.’s iid, todas elas com distribuição de Poisson(1). Isso significa que a distribuição de X pode ser aproximada por uma Normal com ambas, média e variância, iguais a 14.

Daí, P[X ≤ 10] = xZ ≤ ; K >√ > z = P[Z ≤ 0,9354] = 0,1748.

Apenas a título de curiosidade, o valor exato dessa probabilidade (calculado a partir do modelo de Poisson) é 0,1757.

(c) Aqui t=30 e λt = 60. Então X pode ser vista como a soma de 60 v.a.’s iid, todas elas com distribuição de Poisson(1). Isso significa que a distribuição de X pode ser aproximada por uma Normal com ambas, média e variância, iguais a 60.

Daí, P[X ≥ 50] = xZ ≥ a; K =;√=; z = P[Z ≥ -1,3555] = 0,9214

Apenas a título de curiosidade, o valor exato dessa probabilidade (calculado a partir do modelo de Poisson) é 0,9156.

6.7.3 Aproximação Normal para a distribuição de Pa scal

A distribuição de Pascal(r,p) pode ser considerada como sendo a distribuição da soma de r variáveis aleatórias iid, cada uma tendo a distribuição Geom(p). Desta maneira, para r grande, podemos calcular uma probabilidade relativa à distribuição de Pascal usando, como aproximação, a distribuição Normal de média r/p e variância r/p2.

Assim , se X ~ Pascal (r, p), para quaisquer inteiros a e b, tais que r ≤ a ≤ b , temos

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 133

Page 140: Fundamentos_de_Estatística_convertido

Pa ≤ X ≤ b ≅ P a − ≤ ≤ b + = Φ "J X"K – Φ "J

X"K ,

onde W ~ Normal(r/p, r/p2).

Exemplo 6.10 Pesquisa de mercado

Está sendo realizada uma pesquisa de mercado para se investigar a demanda potencial por um novo

produto a ser lançado proximamente. Um entrevistador aborda aleatoriamente os consumidores que

circulam por determinado local dentro de um Shopping Center – o público alvo da pesquisa – para que

estes respondam às perguntas de um questionário. Sabe-se de pesquisas anteriores que cerca de 60%

dos clientes abordados recusam-se a responder o questionário (alegando falta de tempo). Seja X o

número de pessoas abordadas pelo entrevistador até ele obter 40 questionários respondidos. Qual a

probabilidade do entrevistador ter que abordar mais de 70 pessoas até obter 40 questionários

respondidos?

Solução:

X representa o número de entrevistas a serem feitas até encontrar 40 questionários respondidos.

Portanto X ~ Pascal(40;p). Então P(X > 70) = P(X ≥ 71) pode ser calculada aproximadamente usando-se

a distribuição Normal(40/0,6, 40/0,62), ou seja:

P(X ≥ 71) ≅ − Φ_ " ,>; ;,="K = 0,358 ou 35,8%.

Isso significa que será necessário fazer pelo menos 70 abordagens para que se possa afirmar que

40 questionários serão de fato respondidos com 35,8% de probabilidade.

6.7.4 Aproximação Normal para a distribuição Gama

Já vimos que se X~ Gama ( r, λ ) então X pode ser considerada como sendo a soma de r variáveis aleatórias iid , cada uma tendo distribuição exponencial com parâmetro λ. Assim, para valores grandes de r podemos aplicar o TCL a fim de obter uma aproximação para a distribuição Gama através da Normal com média r/λ e variância r/λ2 .

Desta maneira, para a e b reais teremos :

Pa ≤ X ≤ b ≅ Φ λλ

"K – Φ λλ

"K

Note que, por ser X uma variável aleatória contínua, neste caso não é necessária a correção para continuidade.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 134

Page 141: Fundamentos_de_Estatística_convertido

Exemplo 6.11 Clientes chegando a uma loja comercial

A gerência de uma loja comercial estabeleceu como critério que, em um determinado dia feriado, ela abriria somente para atender aos 30 primeiros clientes que ali chegassem a partir de sua abertura às 9:00, e depois fecharia as portas. Admitindo que o intervalo de tempo entre duas chegadas consecutivas de clientes segue uma lei exponencial com λ = 0,2 min-1, determine a probabilidade de que a loja permaneça aberta até pelo menos as 11:00.

Solução:

O tempo em minutos durante o qual a loja fica aberta é uma soma de 30 exponenciais iid, cada uma delas com λ = 0,2, ou seja, segue uma distribuição Gama(30; 0,2), que pode ser aproximada por uma Normal com média 30/0,2 = 150 e variância 30/0,22 = 750.

Então P[X ≥ 120] ≅ P Z ≥ ; a;√_a; =P[Z≥-1,095] = 0,8633.

Ou seja, há uma probabilidade de aproximadamente 86,33% de que a loja permaneça aberta até pelo menos as 11:00.

A título de curiosidade, essa mesma probabilidade poderia também ser calculada diretamente pela distribuição gama, resultando em 0,8679, bastante próximo do resultado aproximado.

RESUMO DO CAPÍTULO 6

• (X1 , X2, ... ,Xn) é um vetor aleatório n-dimensional discreto se Ci (⊂ ℝ) é o conjunto (enumerável) de valores da v.a. Xi, i = 1,2,...,n, e existe uma função p:C1×...×Cn → ℝ, chamada função de probabilidade conjunta de (X1 , X2, ... ,Xn), tal que: (a) p(x1,...xn) = P(X1 = x1,...,Xn = xn) ≥ 0, para todo vetor (x1,...xn) ∈ C1×...×Cn (b) ∑ … ∑ px , … , x = 1∈∈ .

• (X1 , X2, ... ,Xn) é um vetor aleatório n-dimensional contínuo se existe uma função não negativa f , definida em ℝ e chamada de função de densidade conjunta de X1 , X2, ... ,Xn , tal que, para toda região R do ℝ,

P[(X1 , X2, ... ,Xn)є R ] = . . . fx , x, … , x dx dx … dx

A função f deve ser não negativa e tal que

… fx ∞∞∞ , x, … , xdx dx … dx = 1

• Tanto no caso discreto como no caso contínuo, a função de distribuição acumulada conjunta de (X1 , X2, ... ,Xn) é F: ℝ → ℝ definida como

F(x1 , x2, ... ,xn) = P(X1 ≤x1 , X2 ≤ x2 ,....Xn ≤ xn ) ,

para quaisquer x1 , x2, ... ,xn do conjunto dos números reais.

• As funções de probabilidade (no caso discreto) e de densidade (no caso contínuo), tanto as marginais como as condicionais, e também as esperanças e variâncias condicionais são definidas e obtidas de modo análogo ao que foi visto no caso bidimensional (Ver Capítulo 5).

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 135

Page 142: Fundamentos_de_Estatística_convertido

• A distribuição conjunta das v.a.’s X1, X2, …, Xm é uma multinomial com parâmetros n e p1, p2, …, pm, se:

PX = k , X = k, … , X* = k* = + n!k ! k! … k*! p .p." … p*./0, caso contrário 7 , se k + k + ⋯ + k* = n

onde n é um inteiro positivo e p1, p2, …, pm são reais positivos tais que p1+ p2 +…+ pm=1. Neste caso, é possível provar que Xj é Binomial(n, pj), para todo j = 1,2,…,m.

• Dados o vetor de médias µ (px1) e a matriz de covariâncias ΣΣΣΣ (pxp) positiva definida,

diz-se que X tem distribuição Normal multidimensional com parâmetros µ e ΣΣΣΣ se a sua função de densidade conjunta é dada por:

fH = IJ "K ∙MNOP Q exp R− H − µTΣ H − µV, para todo H ∈ RX.

• Sejam (X1 , X2 , ... , Xn) uma v.a. n-dimensional, sendo F a sua FDA e F1 , F2 ,..., Fn as correspondentes FDA´s marginais. Então as v.a.’s X1 , X2 , ... , Xn são independentes se

F(x1 , x2, ... ,xn) = F1(x1) F2(x2)... Fn(xn), para todo vetor (x1 , x2, ... ,xn) є ℝ.

• Se (X1 , X2 , ... , Xn) é uma v.a. n-dimensional contínua, X1 , X2 , ... , Xn são independentes se P(X1 ∈ I1 , X2 ∈ I2, . . . , Xn ∈ In ) = P(X1 ∈ I1 )P (X2 ∈ I2 )…P(Xn ∈ In), para quaisquer intervalos I1 , I2 , . . , In de números reais.

• Se f é a função de densidade conjunta de X1, X2, ... , Xn contínuas, com as correspondentes densidades marginais f1, f2, ..., fn, então X1, X2, ... , Xn são independentes se f(x1 , x2 , ..., xn) = f1(x1) f2(x2)... fn(xn), para todo (x1 , x2, ... ,xn) є ℝ.

• Dadas n variáveis aleatórias X1,...,Xn e n constantes a1, a2 ,…, an:

E∑ abbc Xb= ∑ abEXbbc

Var∑ abbc Xb = ∑ abbc VarXb + 2 ∑ abe`f aeCovXb, Xe) Se X1 , X2 , ... , Xn são independentes então: Var(∑ abbc Xb) = ∑ abbc VarXb.

• Se X1,...,Xn são n v.a.’s independentes, a tabela a seguir resume a relação entre a distribuição das Xi’s e a distribuição da sua soma Y = ∑ Xbbc :

Distribuição das n v.a.’s independentes originais

Distribuição da Soma das n v.a.’s independentes

Xi ~ Bernoulli(p), i=1, ..., n Y = ∑ Xbbc ~ Binomial(n,p)

Xi ~ Binomial(ni, p), i=1, ..., k Y = ∑ Xbbc ~ Binomial(m,p), onde m= ∑ nb.bc

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 136

Page 143: Fundamentos_de_Estatística_convertido

Xi ~ Geométrica(p), i=1, ..., n Y = ∑ Xbbc ~ Pascal(n,p)

Xi ~ Poisson(λi), i=1, ..., n Y = ∑ Xbbc ~ Poisson(λ), onde λ = ∑ λbbc

Xi ~ Exponencial(λ), i=1, ..., n Y = ∑ Xbbc ~ Gama(n,λ)

Xi ~ Gama(ni, λ), i=1, ..., n Y = ∑ Xbbc ~ Gama(m,λ), onde m= ∑ nb.bc

• Se X1, ..., Xn são n variáveis aleatórias independentes, sendo Xi é Normal(µi ; σi2), Y = ∑ cbXbbc , onde ci (i=1,2,...n) são constantes, µY = ∑ cbµbbc e σr = ∑ cbbc σb, então Y

é Normal(µY ; σr).

• Teorema Central do Limite

Seja X1 , X2, X3 , ....uma seqüência de v.a.’s independentes identicamente distribuídas

(iid) cada uma com a mesma esperança µ e a mesma variância σ2.

Seja Yn = X1 + X2 + ... + Xn . Então a distribuição de rr|\r =

rμ~√ tende à

distribuição Normal padrão quando n → ∞.

• Uma v.a. com distribuição Binomial(n,p) pode ser vista (ou considerada) como uma soma de n v.a.’s independentes com distribuição de Bernoulli(p)

• Uma v.a. com distribuição Pascal(n,p) pode ser vista como uma soma de n v.a.’s independentes com distribuição de Geométrica(p)

• Uma v.a. com distribuição Poisson(λ) pode ser vista como uma soma de n v.a.’s

independentes com distribuição Poisson(λi), onde λ = ∑ λbbc .

• Uma v.a com distribuição Gama(n, λ) pode ser vista como uma soma de n v.a.’s com distribuição Exponencial(λ).

• Aproximação da distribuição Binomial pela Normal

Se X é uma variável aleatória com distribuição Binomial(n ; p) então Z = ]XMX X tem

distribuição aproximadamente Normal padronizada, se n for suficientemente grande. Recomenda-se:

1. Usar essa aproximação somente quando np(1-p) ≥ 3. 2. Usar a chamada Correção de Continuidade: se a e b são inteiros e então

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 137

Page 144: Fundamentos_de_Estatística_convertido

Pa ≤ X ≤ b ≅ Φ b + 12 − npMnp1 − p − Φ a − 12 − npMnp1 − p

PX ≤ b ≅ Φ " XMX X ; PX ≥ a ≅ 1 − Φ " XMX X ;

PX = a ≅ Φ " XMX X − Φ " XMX X .

• Aproximação Normal para a distribuição de Poisson

Se Z é Poisson(λ) e a e b são inteiros não negativos:

Pa ≤ X ≤ b ≅ Φ " λ√λ – Φ " λ√λ

• Aproximação Normal para a distribuição de Pascal

Se X ~ Pascal (r, p), a e b são inteiros, e r ≤ a ≤ b,

Pa ≤ X ≤ b ≅ Φ " J X"K – Φ " J

X"K . • Aproximação Normal para a distribuição Gama

Se X ~ Gama (r, λ) então para a e b reais:

Pa ≤ X ≤ b ≅ Φ λλ

"K – Φ λλ

"K .

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 138

Page 145: Fundamentos_de_Estatística_convertido

Tabela I: Distribuição Normal Padrão Acumulada

Fornece Φ(z) = P(-∞ < Z < z), para todo z, de 0,01 em 0,01, desde z = 0,00 até z = 3,59

A distribuição de Z é Normal(0;1)

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359 0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753 0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141 0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517 0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879 0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224 0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549 0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852 0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133 0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389 1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621 1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830 1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015 1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177 1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319 1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441 1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545 1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633 1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706 1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767 2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817 2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857 2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890 2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916 2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936 2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952 2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964 2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974 2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981 2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986 3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990 3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993 3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995 3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997 3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998 3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998

Obs.: Se z < 0, então Φ(z) = P(−∞ < Z < z) = 1 − Φ(−z).

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 139

Page 146: Fundamentos_de_Estatística_convertido

Tabela II: Distribuição t de Student

Fornece o quantil tp em função do no de g.l. ν (linha) e de p = P(T≤tp) (coluna) T tem distribuição t de Student com ν g.l.

ν \ p 0,6 0,7 0,8 0,9 0,95 0,975 0,98 0,99 0,995

1 0,325 0,727 1,376 3,078 6,314 12,706 15,895 31,821 63,657

2 0,289 0,617 1,061 1,886 2,920 4,303 4,849 6,965 9,925

3 0,277 0,584 0,978 1,638 2,353 3,182 3,482 4,541 5,841

4 0,271 0,569 0,941 1,533 2,132 2,776 2,999 3,747 4,604

5 0,267 0,559 0,920 1,476 2,015 2,571 2,757 3,365 4,032 6 0,265 0,553 0,906 1,440 1,943 2,447 2,612 3,143 3,707

7 0,263 0,549 0,896 1,415 1,895 2,365 2,517 2,998 3,499

8 0,262 0,546 0,889 1,397 1,860 2,306 2,449 2,896 3,355

9 0,261 0,543 0,883 1,383 1,833 2,262 2,398 2,821 3,250

10 0,260 0,542 0,879 1,372 1,812 2,228 2,359 2,764 3,169

11 0,260 0,540 0,876 1,363 1,796 2,201 2,328 2,718 3,106 12 0,259 0,539 0,873 1,356 1,782 2,179 2,303 2,681 3,055

13 0,259 0,538 0,870 1,350 1,771 2,160 2,282 2,650 3,012

14 0,258 0,537 0,868 1,345 1,761 2,145 2,264 2,624 2,977

15 0,258 0,536 0,866 1,341 1,753 2,131 2,249 2,602 2,947

16 0,258 0,535 0,865 1,337 1,746 2,120 2,235 2,583 2,921

17 0,257 0,534 0,863 1,333 1,740 2,110 2,224 2,567 2,898 18 0,257 0,534 0,862 1,330 1,734 2,101 2,214 2,552 2,878

19 0,257 0,533 0,861 1,328 1,729 2,093 2,205 2,539 2,861

20 0,257 0,533 0,860 1,325 1,725 2,086 2,197 2,528 2,845

21 0,257 0,532 0,859 1,323 1,721 2,080 2,189 2,518 2,831

22 0,256 0,532 0,858 1,321 1,717 2,074 2,183 2,508 2,819

23 0,256 0,532 0,858 1,319 1,714 2,069 2,177 2,500 2,807 24 0,256 0,531 0,857 1,318 1,711 2,064 2,172 2,492 2,797

25 0,256 0,531 0,856 1,316 1,708 2,060 2,167 2,485 2,787

26 0,256 0,531 0,856 1,315 1,706 2,056 2,162 2,479 2,779

27 0,256 0,531 0,855 1,314 1,703 2,052 2,158 2,473 2,771

28 0,256 0,530 0,855 1,313 1,701 2,048 2,154 2,467 2,763

29 0,256 0,530 0,854 1,311 1,699 2,045 2,150 2,462 2,756 30 0,256 0,530 0,854 1,310 1,697 2,042 2,147 2,457 2,750

40 0,255 0,529 0,851 1,303 1,684 2,021 2,123 2,423 2,704

60 0,254 0,527 0,848 1,296 1,671 2,000 2,099 2,390 2,660

120 0,254 0,526 0,845 1,289 1,658 1,980 2,076 2,358 2,617

∞ 0,253 0,524 0,842 1,282 1,645 1,960 2,054 2,326 2,576 Obs.: Para um certo ν fixado, se p < 0,50, tp = − t1-p.

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 140

Page 147: Fundamentos_de_Estatística_convertido

Fornece os quantis F0,95 (em cima) e F0,99 (em baixo) em função do no de g.l. numerador ν1 (coluna) e do no de g.l. denominador ν 2 (linha)

F tem distribuição F com ν1 g.l. no numerador e ν 2 g.l. no denominador P( F < F0,95) = 0,95 e P( F < F0,99) = 0,99 ν2 \ ν1 1 2 3 4 5 6 7 8 9 10 20 40 60 120 ∞

1 161,45 199,50 215,71 224,58 230,16 233,99 236,77 238,88 240,54 241,88 248,01 251,14 252,20 253,25 254,31

4052,18 4999,50 5403,35 5624,58 5763,65 5858,99 5928,36 5981,07 6022,47 6055,85 6208,73 6286,78 6313,03 6339,39 6365,76

2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,45 19,47 19,48 19,49 19,50 98,50 99,00 99,17 99,25 99,30 99,33 99,36 99,37 99,39 99,40 99,45 99,47 99,48 99,49 99,50

3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,66 8,59 8,57 8,55 8,53 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,35 27,23 26,69 26,41 26,32 26,22 26,13

4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,80 5,72 5,69 5,66 5,63

21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,02 13,75 13,65 13,56 13,46

5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,56 4,46 4,43 4,40 4,37

16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,55 9,29 9,20 9,11 9,02

6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 3,87 3,77 3,74 3,70 3,67

13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,40 7,14 7,06 6,97 6,88

7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,44 3,34 3,30 3,27 3,23

12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,16 5,91 5,82 5,74 5,65

8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,15 3,04 3,01 2,97 2,93

11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,36 5,12 5,03 4,95 4,86

9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 2,94 2,83 2,79 2,75 2,71

10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 4,81 4,57 4,48 4,40 4,31

10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,77 2,66 2,62 2,58 2,54

10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,41 4,17 4,08 4,00 3,91

20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,12 1,99 1,95 1,90 1,84 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 2,94 2,69 2,61 2,52 2,42

40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 1,84 1,69 1,64 1,58 1,51 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,37 2,11 2,02 1,92 1,81

60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,75 1,59 1,53 1,47 1,39 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,20 1,94 1,84 1,73 1,60

120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91 1,66 1,50 1,43 1,35 1,25 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56 2,47 2,03 1,76 1,66 1,53 1,38

∞ 3,84 3,00 2,61 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,57 1,39 1,32 1,22 1,02 6,64 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 1,88 1,59 1,47 1,33 1,03

Obs.: O quantil Fp correspondente a ν1 g.l. no numerador e ν2 g.l. no denominador coincide com o inverso do quantil F1-p correspondente a ν2 g.l. no numerador e ν1 g.l. no denominador.

Tabela III: Distribuição F de Fischer -Snedecor

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 141

Page 148: Fundamentos_de_Estatística_convertido

Fornece o quantil χ2

p em função do no de g.l. ν (linha) e de p = P(χ 2 < χ 2p) (coluna). χ2 tem distribuição qui-quadrado com ν g.l.

ν \ p 0,005 0,010 0,025 0,050 0,100 0,250 0,500 0,750 0,900 0,950 0,975 0,990 0,995

1 0,000 0,000 0,001 0,004 0,016 0,102 0,455 1,323 2,706 3,841 5,024 6,635 7,879 2 0,010 0,020 0,051 0,103 0,211 0,575 1,386 2,773 4,605 5,991 7,378 9,210 10,597 3 0,072 0,115 0,216 0,352 0,584 1,213 2,366 4,108 6,251 7,815 9,348 11,345 12,838 4 0,207 0,297 0,484 0,711 1,064 1,923 3,357 5,385 7,779 9,488 11,143 13,277 14,860 5 0,412 0,554 0,831 1,145 1,610 2,675 4,351 6,626 9,236 11,070 12,833 15,086 16,750 6 0,676 0,872 1,237 1,635 2,204 3,455 5,348 7,841 10,645 12,592 14,449 16,812 18,548 7 0,989 1,239 1,690 2,167 2,833 4,255 6,346 9,037 12,017 14,067 16,013 18,475 20,278 8 1,344 1,646 2,180 2,733 3,490 5,071 7,344 10,219 13,362 15,507 17,535 20,090 21,955 9 1,735 2,088 2,700 3,325 4,168 5,899 8,343 11,389 14,684 16,919 19,023 21,666 23,589 10 2,156 2,558 3,247 3,940 4,865 6,737 9,342 12,549 15,987 18,307 20,483 23,209 25,188 11 2,603 3,053 3,816 4,575 5,578 7,584 10,341 13,701 17,275 19,675 21,920 24,725 26,757 12 3,074 3,571 4,404 5,226 6,304 8,438 11,340 14,845 18,549 21,026 23,337 26,217 28,300 13 3,565 4,107 5,009 5,892 7,042 9,299 12,340 15,984 19,812 22,362 24,736 27,688 29,819 14 4,075 4,660 5,629 6,571 7,790 10,165 13,339 17,117 21,064 23,685 26,119 29,141 31,319 15 4,601 5,229 6,262 7,261 8,547 11,037 14,339 18,245 22,307 24,996 27,488 30,578 32,801 16 5,142 5,812 6,908 7,962 9,312 11,912 15,338 19,369 23,542 26,296 28,845 32,000 34,267 17 5,697 6,408 7,564 8,672 10,085 12,792 16,338 20,489 24,769 27,587 30,191 33,409 35,718 18 6,265 7,015 8,231 9,390 10,865 13,675 17,338 21,605 25,989 28,869 31,526 34,805 37,156 19 6,844 7,633 8,907 10,117 11,651 14,562 18,338 22,718 27,204 30,144 32,852 36,191 38,582 20 7,434 8,260 9,591 10,851 12,443 15,452 19,337 23,828 28,412 31,410 34,170 37,566 39,997 21 8,034 8,897 10,283 11,591 13,240 16,344 20,337 24,935 29,615 32,671 35,479 38,932 41,401 22 8,643 9,542 10,982 12,338 14,041 17,240 21,337 26,039 30,813 33,924 36,781 40,289 42,796 23 9,260 10,196 11,689 13,091 14,848 18,137 22,337 27,141 32,007 35,172 38,076 41,638 44,181 24 9,886 10,856 12,401 13,848 15,659 19,037 23,337 28,241 33,196 36,415 39,364 42,980 45,559 25 10,520 11,524 13,120 14,611 16,473 19,939 24,337 29,339 34,382 37,652 40,646 44,314 46,928 26 11,160 12,198 13,844 15,379 17,292 20,843 25,336 30,435 35,563 38,885 41,923 45,642 48,290 27 11,808 12,879 14,573 16,151 18,114 21,749 26,336 31,528 36,741 40,113 43,195 46,963 49,645 28 12,461 13,565 15,308 16,928 18,939 22,657 27,336 32,620 37,916 41,337 44,461 48,278 50,993 29 13,121 14,256 16,047 17,708 19,768 23,567 28,336 33,711 39,087 42,557 45,722 49,588 52,336 30 13,787 14,953 16,791 18,493 20,599 24,478 29,336 34,800 40,256 43,773 46,979 50,892 53,672 40 20,707 22,164 24,433 26,509 29,051 33,660 39,335 45,616 51,805 55,758 59,342 63,691 66,766 50 27,991 29,707 32,357 34,764 37,689 42,942 49,335 56,334 63,167 67,505 71,420 76,154 79,490 60 35,534 37,485 40,482 43,188 46,459 52,294 59,335 66,981 74,397 79,082 83,298 88,379 91,952 70 43,275 45,442 48,758 51,739 55,329 61,698 69,334 77,577 85,527 90,531 95,023 100,425 104,215 80 51,172 53,540 57,153 60,391 64,278 71,145 79,334 88,130 96,578 101,879 106,629 112,329 116,321 90 59,196 61,754 65,647 69,126 73,291 80,625 89,334 98,650 107,565 113,145 118,136 124,116 128,299 100 67,328 70,065 74,222 77,929 82,358 90,133 99,334 109,141 118,498 124,342 129,561 135,807 140,169

Tabela IV: Distribuição Qui-Quadrado

Copyright ©2012, Elsevier Editora Ltda. Originais ainda não passaram por processo editorial da Elsevier 142