123
Estat´ ısticaB´asica Prof a . Daniela Paula Instituto de Matem´ atica -UFRRJ 2012

apostilaEB

Embed Size (px)

Citation preview

Page 1: apostilaEB

Estatıstica Basica

Profa. Daniela PaulaInstituto de Matematica -UFRRJ

2012

Page 2: apostilaEB

Contents

1 Introducao 1

2 Analise exploratoria de dados - Resumo de Dados 22.1 Tipos de variaveis . . . . . . . . . . . . . . . . . . . . . . . . . 22.2 Distribuicao de frequencias . . . . . . . . . . . . . . . . . . . . 32.3 Graficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.4 Medidas resumo - Medidas de posicao central . . . . . . . . . 92.5 Media geometrica e Media harmonica . . . . . . . . . . . . . . 112.6 Medidas de dispersao . . . . . . . . . . . . . . . . . . . . . . . 152.7 Quantis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.8 Box-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.9 Exercıcios - lista 01 . . . . . . . . . . . . . . . . . . . . . . . . 222.10 Exercıcios - lista 02 . . . . . . . . . . . . . . . . . . . . . . . . 232.11 Exercıcios - lista 03 . . . . . . . . . . . . . . . . . . . . . . . . 25

3 Analise bidimensional 273.1 Associacao entre variaveis qualitativas . . . . . . . . . . . . . 283.2 Associacao entre variaveis quantitativas . . . . . . . . . . . . . 323.3 Exercıcios - lista 04 . . . . . . . . . . . . . . . . . . . . . . . . 363.4 Exercıcios - lista de revisao . . . . . . . . . . . . . . . . . . . . 39

4 Probabilidade 434.1 Modelo probabilıstico . . . . . . . . . . . . . . . . . . . . . . . 434.2 Probabilidade condicional e independencia . . . . . . . . . . . 464.3 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 524.4 Exercıcios - lista 05 . . . . . . . . . . . . . . . . . . . . . . . . 54

5 Variaveis aleatorias discretas 595.1 Funcao de Probabilidade . . . . . . . . . . . . . . . . . . . . . 595.2 Funcao de distribuicao acumulada . . . . . . . . . . . . . . . . 615.3 Valor esperado e variancia . . . . . . . . . . . . . . . . . . . . 645.4 Modelo uniforme discreto . . . . . . . . . . . . . . . . . . . . . 665.5 Modelo Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 685.6 Modelo Binomial . . . . . . . . . . . . . . . . . . . . . . . . . 695.7 Modelo Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 725.8 Exercıcios - lista 06 . . . . . . . . . . . . . . . . . . . . . . . . 74

i

Page 3: apostilaEB

6 Variaveis aleatorias contınuas 786.1 Funcao de densidade de probabilidade . . . . . . . . . . . . . . 796.2 Funcao de distribuicao acumulada . . . . . . . . . . . . . . . . 816.3 Media e variancia para variaveis aleatorias contınuas . . . . . 846.4 Modelo uniforme contınuo . . . . . . . . . . . . . . . . . . . . 866.5 Modelo exponencial . . . . . . . . . . . . . . . . . . . . . . . . 886.6 Modelo Normal . . . . . . . . . . . . . . . . . . . . . . . . . . 906.7 Exercıcios - lista 07 . . . . . . . . . . . . . . . . . . . . . . . . 95

7 Inferencia estatıstica 987.1 Populacao e amostra . . . . . . . . . . . . . . . . . . . . . . . 987.2 Parametros e estimadores . . . . . . . . . . . . . . . . . . . . 997.3 Distribuicoes amostrais . . . . . . . . . . . . . . . . . . . . . . 1017.4 Estimacao por intervalo . . . . . . . . . . . . . . . . . . . . . 1047.5 Intervalo de confianca para µ para amostras grandes . . . . . . 1077.6 Teste de hipotese para media µ com variancia conhecida . . . 1087.7 Exercıcios - lista 08 . . . . . . . . . . . . . . . . . . . . . . . . 117

ii

Page 4: apostilaEB

1 INTRODUCAO 1

1 Introducao

Em alguma fase do seu trabalho, o pesquisador se depara com um conjuntode dados relevante ao seu objeto de estudo. Atraves desses dados ele buscaraextrair informacoes a fim de tomar decisoes relativas ao seu cotidiano.

Essa realidade, aparentemente distante de nos, esta presente em grandeparte das ciencias. Nas ciencias agrarias por exemplo, o engenheiro devetrabalhar os dados do solo, rendimento e fertilizacao para tomar decisoes arespeito do melhoramento do solo e da producao. Nas ciencias economicas,o administrador muitas vezes se depara com series de dados com atravesdas quais deve decidir sobre investimentos, taxas etc. Alem das areas citadasacima, existem muitas outras aplicacoes da estatıstica, podemos citar apenasa tıtulo de exemplificacao as ciencias biologicas e de saude, geografia, quımica,matematica etc. Por isso, o domınio da estatıstica se torna essencial quandodevemos trabalhar com um grande volume de dados independentemente daarea em estudo.

Neste curso, vamos inicialmente aprender a trabalhar com os dados, ex-trair medidas importantes e representacoes graficas que nos ajudarao a in-terpretar e resumir o conjunto de informacoes. Na segunda etapa, iremos es-tudar modelos probabilısticos para caracterizar os dados. O objetivo entao,e construir modelos para os dados em questao e, dessa forma, extrair in-formacoes e prever comportamentos futuros sem a necessidade de observarnovos conjuntos de dados. Na etapa final do curso, veremos brevemente comoverificar a adequacao dos modelos propostos a realidade.

Page 5: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 2

2 Analise exploratoria de dados - Resumo de

Dados

2.1 Tipos de variaveis

Para introduzir as formas de resumir os dados falaremos um pouco sobrecomo classificar os dados.

Suponha que estejamos realizando uma pesquisa e que desejamos investi-gar salario, nıvel de instrucao, idade e classe social de um grupo de pessoas.

Algumas dessas caracterısticas, que chamaremos de variaveis, apresen-tam como possıveis resultados atributos ou qualidades. Outras, tem comoresultados quantidades, numeros. As primeiras sao chamadas variaveis qual-itativas e as segundas variaveis quantitativas.

Qualitativas- Tem como possıveis resultados qualidades ou atributos.Quantitativas- Tem como possıveis resultados quantidades ou numeros.

Podemos subdividir as qualitativas em nominais e ordinais. Ja as quan-titativas sao subdivididas em discretas e contınuas.

Qualitativas

Nominal −Nao existe nenhuma ordenacaonas realizacoes.Exemplo : sexo, local de nascimento.

Ordinal − Existe uma ordem em seus resultados.Exemplo : classe social, nivel de instrucao.

Quantitativas

Discretas− V alores formam um conjunto finitoou enumeravel de valores. Resultam de uma contagem.Exemplo : idade, numero de filhos.

Continuas− V alores pertencem a um intervalode numeros reais. Resultam frequentemente deuma mensuracao.Exemplo : estatura, peso.

Para cada tipo de variavel existem tecnicas apropriadas para resumirinformacoes. Em algumas situacoes podemos atribuir valores as qualidadesde uma variavel qualitativa e proceder a analise como se quantitativa fosse.Podemos citar como exemplo a variavel que descreve o resultado obtido emum lancamento de uma moeda, ao atribuir 0 a cara e 1 a coroa podemosanalisar a variavel como quantitativa. Veremos outros exemplos mais adiante.

Page 6: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 3

2.2 Distribuicao de frequencias

Quando estudamos uma variavel podemos investigar seu comportamentoestudando a ocorrencia de suas realizacoes, isso se torna mais facil atraves daorganizacao e resumo dos dados em uma tabela que chamaremos de tabelade distribuicao de frequencias. Daremos aqui dois exemplos de tabelas defrequencias, para os outros tipos de variaveis a construcao e analoga.

Exemplo 1: Variavel qualitativa ordinal.

Suponha que realizamos uma pesquisa com 36 funcionarios de um setor Ade uma fabrica e estamos interessados no nıvel de escolaridade. Observamos3 nıveis de escolaridade com as frequencias descritas na tabela a seguir.

Setor A

Denominamos frequencia ni, frequencia absoluta. A proporcao fi, chamamosde frequencia relativa, ela e obtida fazendo fi = ni

total. Atraves da frequencia

relativa podemos comparar resultados de duas pesquisas distintas. Por ex-emplo, se fizermos a mesma pesquisa com 2000 funcionarios de um outrosetor B da fabrica e desejarmos comparar em qual dos setores existem maisfuncionarios com nıvel superior podemos usar a frequencia relativa.

Setor B

Page 7: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 4

Neste caso podemos perceber que o setor A tem percentualmente maisempregados com nıvel superior que o setor B.

Exemplo 2: Variavel quantitativa contınua.

Nesse caso precisamos dividir os dados em classes para construir a tabelade distribuicao de frequencias. Suponha que desejamos construir uma tabelade distribuicao de frequencias para os salarios dos empregados do setor A.Para isso, entrevistamos os 36 empregados e obtivemos os seguintes dados:

4; 4,2; 7,5; 4,1; 7,3; 6,6; 5,7; 5,1; 6,2; 7,78,1; 9,2; 9,5; 11,1; 9,3; 9,6; 8,7; 10,1; 11,2; 10,7; 9,3; 10,412,1; 13,2; 14,5; 15,6; 12,1; 12,2; 13,5; 14,619,1; 18,2; 17,5; 16,6; 19,8; 20,3

Como estamos trabalhando com uma variavel contınua (salario), vamosdividir os dados em classes. Suponha que desejamos construir uma tabelacom 5 classes de amplitudes iguais. Uma possıvel tabela e a seguinte:

Page 8: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 5

2.3 Graficos

Atraves da representacao grafica tambem podemos resumir informacoessobre a variabilidade dos dados.

Graficos para variaveis qualitativasExistem varios tipos de graficos usados para representar as variaveis quali-

tativas, vamos apresentar dois deles: graficos em barras/ colunas e em setores.

Exemplo 3: Vamos voltar ao exemplo 1. Grau de instrucao.grafico em colunas

grafico em setores

Graficos para variaveis quantitativasPara as variaveis quantitativas podemos considerar uma variedade maior

de representacoes graficas. Alem dos graficos usados para as variaveis quali-tativas, temos tambem o grafico de dispersao unidimensional para as variaveisdiscretas. Vamos ver um exemplo e em seguida faremos os graficos possıveis.

Page 9: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 6

Exemplo 4: Suponha que fizemos uma pesquisa com 20 pessoas e esta-mos interessados no numero de filhos.

grafico em barras/colunas

graficos de dispersao

Construir graficos para as variaveis quantitativas contınuas requer algu-mas adaptacoes. Para utilizarmos os mesmos tipos de graficos usados no caso

Page 10: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 7

de variaveis discretas a primeira ideia que surge e aproximar uma variavelaleatoria contınua por uma discreta sem perder muita informacao. Isso podeser feito aproximando-se os valores de uma classe pelo ponto medio dessaclasse.

Exemplo 5: Voltando ao exemplo 2, na figura 3 temos a tabela para avariavel salario que esta dividida em classes. Discretizando a variavel pode-mos contruir o grafico em barras, em setores ou o diagrama de dispersao.Em seguida temos o grafico em barras para a variavel salario.

Com o artifıcio utilizado acima perdemos muita informacao. Uma alter-nativa utilizada nesses casos e o grafico connhecido como histograma. Noeixos das abscissas representamos as classes e, no eixo das ordenadas pode-mos representar a frequencia absoluta ni, a relativa fi ou a densidade defrequencia.

Ramo-e-folhasTanto o histograma como o grafico em barras dao uma ideia da forma

da distribuicao dos dados. Um procedimento alternativo para resumir umconjunto de dados e dar uma ideia de sua distribuicao e utilizar o diagramade ramo-e-folhas. Uma vantagem desse diagrama sobre o histograma e queele tem uma perda menor de informacao. Nao ha uma regra fixa determi-nante para a construcao de um diagrama ramo-e-folhas, geralmente sao feitas

Page 11: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 8

adaptacoes para cada conjunto de dados. A ideia basica por tras da estru-tura e, em linhas gerais, a seguinte: cada numero, dentre os que compoemo conjunto de dados a serem organizados, e considerado em relacao a seusalgarismos, como sendo constituıdo por duas partes. Estas sao separadaspor uma linha vertical (tracada justamente para estabelecer essa separacao),de modo que os algarismos registrados a esquerda da linha sao chamados deramo, os da direita, denominam-se folha. Para entender melhor vamos veros seguintes exemplos.

Exemplo 6: Os dados abaixo referem-se ao comprimento em centımetrosde 20 pecas de alumınio:

53 70 84 69 77 87 53 82 67 5470 71 95 51 74 55 63 85 53 64

Se considerarmos como ramo as dezenas e como folha a unidade, o dia-grama de ramo-e-folhas fica da seguinte forma:

Exemplo 7: Suponha que entrevistamos 10 pessoas em um departamentoe estamos interessados no salario desses empregados. Obtivemos os seguintesdados:

4,0; 4,56; 5,2; 6,6; 6,8; 7,14; 8,2; 9,13; 10,53; 11,5.

Nesse caso, como existem dados com um e duas casas decimais podemosarredondar os dados ou colocar como folha as duas casas decimais de cadanumero, se optarmos por arredondar vamos obter o seguinte diagrama deramo-e-folhas:

Page 12: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 9

2.4 Medidas resumo - Medidas de posicao central

Vimos que podemos resumir a informacao atraves de tabelas e graficos quefornecem muitas informacoes sobre o comportamento dos dados. Podemosresumir os dados usando um ou alguns valores para representar a serie toda.Sao eles:

Moda- Realizacao mais frequente do conjunto de dados. Em algunscasos pode nao haver moda, dizemos entao que a distribuicao e amodal, ouhaver mais de uma moda, nesses casos dizemos tratar-se de uma distribuicaobimodal, trimodal etc.

Exemplo 8: Para a tabela da variavel numero de filhos do exemplo 4,temos moda igual a 2.

Mediana- E a realizacao que ocupa a posicao central da serie de ob-servacoes, quando ordenadas em ordem crescente.

Exemplo 9: Para os dados 3,7,5,8,8 a mediana sera 7.Para 3,7,5,8,8,9 a mediana sera 7,5.

Media aritmetica- E a soma das observacoes dividida numero de ob-servacoes no conjunto.

Exemplo 10: Para os dados acima 3,7,5,8,8, a media sera 6,2.

Observacao 1: Para identificar a moda precisamos apenas da frequenciaabsoluta, ja para identificar a mediana precisamos de alguma ordenacao entredos dados e, finalmente, para calcular a media, precisamos que a variavel seja

Page 13: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 10

quantitativa.Observacao 2: Para as variaveis qualitativas nominais podemos apenas

identificar a moda. Para as qualitativas ordinais podemos identificar a modae a mediana. A media so pode ser calculada para as variaveis quantitativas.Resumindo:

moda- Pode ser identificada para todos os tipos de variaveis.mediana- Pode ser identificada para todas exceto qualitativas nominais.media- Somente para as variaveis quantitativas.

Exemplo 11: Vamos voltar ao exemplo da variavel numero de filhos doexemplo 4.

Nesse caso temos moda 2, mediana valor10+valor112

= 2 e media 0.4+1.5+2.7+3.3+5.120

=3320

= 1, 65. Podemos perceber que as tres medidas tem valores proximos erepresentam de maneira semelhante as observacoes.

Formula geral para a media

Se x1, x2, x3, ..., xn sao n valores assumidos pela variavel x, dizemos quex e a media aritmetica dos n valores assumidos pela variavel x.

x =∑ni xin

.

Agora se tivermos n observacoes para a variavel x das quais n1 sao iguaisa x1, n2 sao iguais a x2, n3 sao iguais a x3 ate nk sao iguais a xk de tal formaque n1 + ...nk = n, podemos simplificar a formula anterior por:

x =∑ki ni.xin

.

Podemos tambem substituir a frequencia relativa fi = nin

na formula an-terior:

x =∑k

i fi.xi.

Formula geral para a mediana

Consideremos as n observacoes x1, x2, x3, ..., xn ordenadas em ordem cres-cente. Denotemos a menor observacao por x(1), a segunda por x(2) e assimpor diante ate n-esima x(n):

Page 14: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 11

x(1) ≤ x(2) ≤ x(3) ≤ ... ≤ x(n).

As observacoes ordenadas como acima sao chamadas estatısticas de or-dem. A mediana e entao definida por:

med(x) =

x(n+1

2) − Se n e impar.

x(n2 )+x(n+12 )

2− Se n e par.

Exemplo 12: Calculo das medidas de posicao para variaveis contınuas.Vamos retornar a terceira tabela da variavel salario.

Como a variavel salario e uma variavel contınua uma aproximacao quepode ser feita e considerar todos os valores dentro de uma classe iguais aoponto medio da classe, essa aproximacao e chamada de discretizacao. Pode-mos discretizar para encontrar os valores aproximados de media, mediana emoda. Dessa forma, para a variavel salario S temos:

moda(S)≈ 10

mediana(S) ≈ S(18)+S(19)

2= 10+10

2= 10

media (S) ≈ 6.10+10.12+14.8+18.5+22.136

= 11, 22

2.5 Media geometrica e Media harmonica

Media harmonica

A media harmonica e utilizada quando estamos tratando observacoes degrandezas inversamente proporcionais como velocidade e tempo. Por exem-plo suponha que temos varios valores de velocidade e, para cada valor temos adistancia que percorremos desenvolvendo tal velocidade. A frequencia agora

Page 15: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 12

e dada em termos de outra variavel, a distancia. Como podemos calcular avelocidade media entao? Para que fique mais claro que tipo de media deve-mos usar em cada caso vejamos alguns exemplos:

Exemplo 13: Se a metade da distancia de um percurso percorremoscom a velocidade de 60 km/h e a outra metade com velocidade 40 km/h.Qual e a velocidade media? isto e, com qual velocidade podemos percorrertodo trajeto de modo a gastar o mesmo tempo?

Na primeira metade gastamos o tempo de 4t1 = d60

, na segunda metadeo tempo de 4t2 = d

40entao nesse caso a velocidade media para percorrer

todo o percurso de modo a gastar o mesmo tempo e:vmedia = 2d

d60

+ d40

= 48.

Nesse caso, se usassemos a velocidade de 50 km/h para percorrer todo opercurso gastarıamos o tempo d

25< d

24. Portanto nao podemos usar a media

aritmetica, devemos usar a media harmonica. A velocidade media calculadaacima podia ter sido encontrada usando a formula da media harmonica dadaa seguir.

Definicao:A media harmonica de n valores reais x1, x2, x3, ..., xn e dada por:

mh = n1x1

+ 1x2

+...+ 1xn

Exemplo 14: Custo medio de acoes.

Suponha que compramos acoes por 3 meses com um montante sempre de1000 reais. No primeiro mes compramos acoes no valor de 8 reais, no segundomes no valor de 9 e, no terceiro de 10. Qual o custo medio das acoes?

Sabendo que a relacao entre custo e montante e dada por custo = montantenum.acoes

e que nesse caso temos os valores de custo e, associados a eles, o montanteempregado, qual media devemos usar? aritmetica ou harmonica? Para re-sponder devemos olhar a variavel nao citada no problema, o numero de acoes.Essa variavel esta se relacionando com o custo de maneira inversamente pro-porcional ( veja a formula), da mesma maneira, tınhamos no exemplo anteriora velocidade e o tempo. Portanto, devemos usar a media harmonica.

mh = 300010008

+ 10009

+ 100010

= 8, 92

Repare que se tivessemos comprado 1000 acoes no valor de 8, 1000 no valor

Page 16: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 13

de 9 e 1000 no valor de 10. Para saber o custo medio das acoes usarıamos amedia aritmetica:

mari = 1000.8+1000.9+1000.103000

= 9

Page 17: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 14

Media geometrica

Usamos a media geometrica quando os dados estao relacionados de maneiramultiplicativa e o objetivo e conhecer uma taxa media de crescimento ou de-crescimento dos dados.

Definicao:A media geometrica de n valores reais x1, x2, x3, ..., xn e dada por:

mg = n√x1.x2.x3...xn

Exemplo 15: Se um investimento rende 10 por cento no primeiro ano e20 por cento no segundo ano a juros compostos, qual e o rendimento mediodo investimento?

Se comecarmos com um montante X ao final do primeiro ano teremos1,1X e ao final do segundo ano teremos 1,2.(1,1X)=1,32X.

Queremos encontrar uma taxa media, isto e, uma unica taxa que aplicadadurante dois anos a juros compostos retornara 1,32X.

Podemos pensar que uma possıvel candidata a taxa media seria 15 porcento, mas quando aplicamos o montante de X a essa taxa em dois anosteremos (1, 15)2X=1,3225X que representa um pouco a mais do que obtemosquando aplicamos a 10 por cento no primeiro ano e 20 por cento no segundo.

Como encontrar entao a taxa media? A resposta vem atraves do fator.A cada taxa podemos associar um fator multiplicativo, por exemplo, para ataxa de 10 por cento, multiplicamos o valor inicial por 1,1. Para essa taxatemos portanto, um fator de 1,1. Para a taxa de 20 por cento, um fatorde 1,2. Para a taxa de 25 por cento, um fator de 1,25. Entao o problemade encontrar a taxa unica e equivalente ao problema de encontrar um fatormultiplicativo unico.

Para o exemplo acima temos que encontrar um fator multiplicativo unicof, tal que f 2X = 1, 32X ou seja f e a media geometrica dos fatores 1,1 e 1,2.

f =√

1, 32 =√

1, 1.1, 2 = 1, 148

Logo, podemos concluir que a media e de 14,8 por cento. Se tivessemosaplicado um montante durante um periodo maior, e dispusessemos de variastaxas, para encontrar a taxa media deverıamos proceder da mesma forma:encontrar um unico fator igual a media geometrica de todos os fatores.

De forma geral, a media aritimetica e sempre maior ou igual aos outrostipos de media. Temos a seguinte relacao entre as medias:

Page 18: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 15

mg ≤ mh ≤ ma

2.6 Medidas de dispersao

O resumo de um conjunto de dados por uma unica medida de posicao cen-tral ignora toda a informacao sobre a variabilidade dos dados. Por exemplo,suponha que desejamos analisar o comprimento de pecas produzidas por 3diferentes tipos de maquinas. Selecionamos entao grupos de pecas prove-nientes de cada maquina e registramos os comprimentos em cm:

maquina A- 3,4,5,6,7maquina B- 3,5,5,7maquina C- 5,5,5,5,5,5

Podemos perceber que as medias dos comprimentos e igual para os 3grupos. Nesse caso, perdemos a informacao sobre a variabilidade dos dadosse considerarmos apenas a media como medida representativa dos dados.

Num primeiro momento, podemos pensar que uma boa medida para avariabilidade dos dados nos grupos e a soma das diferencas entre os dados ea media. Por exemplo, para a maquina A terıamos

∑5i=1 xi−x, mas podemos

observar que a soma dos desvios com relacao a media e sempre igual a zero.∑5i=1 xi− x =

∑5i=1 xi−

∑5i=1 x =

∑5i=1 xi− 5x =

∑5i=1 xi−

∑5i=1 xi = 0

Uma maneira de contornar esse problema e considerar as duas medidasseguintes:

Page 19: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 16

∑5i=1 | xi − x |∑5i=1(xi − x)2

Chamamos entao∑ni=1

|xi−x|n

- desvio medio absoluto - dm(x).∑ni=1

(xi−x)2

n- variancia - var(x).

Para a maquina A temos:

dm(x) =∑5

i=1|xi−x|

5= |3−5|+|4−5|+|5−5|+|6−5|+|7−5|

5= 6

5= 1, 2.

var(x) =∑5

i=1(xi−x)2

5= 2

Para a maquina B temos:

dm(x) =∑4

i=1|xi−x|

4= |3−5|+|3−5|+|5−5|+|5−7|

4= 1.

var(x) =∑4

i=1(xi−x)2

4= 2

Podemos concluir entao que segundo o desvio medio a maquina B e maishomogenea que maquina A e que ambas sao igualmente homogeneas segundoa variancia.

Sendo a variancia uma medida de dimensao igual ao quadrado da di-mensao dos dados, no caso cm2, a interpretacao da variancia como medidade variacao dos dados pode gerar alguns problemas. Costumamos usar entaoo desvio padrao que e definido como raiz quadrada da variancia.

dp(x) =√var(x)

Para o grupo A e o B temos dp(x) =√

2.Ambas as medidas de dispersao (desvio medio e desvio padrao) indicam

em media qual o ”erro” que cometemos ao substituirmos cada observacaopela media.

No caso em que observamos n1 vezes o valor x1, n2 vezes o valor x2 eassim sucessivamente, ate nk vezes o valor xk, temos:

dm(x) =∑k

i=1ni|xi−x|

n=∑k

i=1 fi | xi − x |var(x) =

∑ki=1

ni(xi−x)2

n=∑k

i=1 fi(xi − x)2

dp(x) =√var(x)

Page 20: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 17

O calculo aproximado das medidas de dispersao no caso das variaveiscontınuas agrupadas em classes pode ser feito de modo analogo aquele usadopara encontrar a media.

Exercıcio: Calcule o desvio medio, variancia e desvio padrao para asvariaveis numero de filhos e salario dos exemplos anteriores.

Coeficiente de variacao

Coeficiente de variacao e uma medida que nos permite comparar a dis-persao em amostras diferentes. O desvio padrao e uma medida de dispersaocom relacao a media, como duas amostras podem ter medias diferentes naoconseguiremos, nesses casos, comparar a dispersao dos dados usando o desviopadrao. Para isso usamos o coeficiente de variacao:

cv = dp(x)x

Exemplo:Considere uma amostra com media 40 e desvio padrao 4 e outra com

media 5 e desvio padrao 4. Qual das amostras e a mais homogenea? Deacordo com o coeficiente de variacao temos na amostra 1, cv= 4/40=0,1 e naamostra 2, cv=4/5=0,8. Portanto a amostra 2 tem maior grau de dispersaodos dados.

2.7 Quantis

A media aritmetica pode muitas vezes nao ser uma medida adequada pois:a) Pode ser afetada por valores extremos.b) Nao da ideia da distribuicao e dispersao dos dados.

Exemplo 16: Para os dados 1,2,5,7,100 a media aritmetica vale 115/5= 23, um valor muito distante da maioria dos dados. A media portanto naoe uma boa medida de representacao para esses valores.

A mediana, igual a 5, representa melhor os dados nesse caso. Outra me-dida de posicao muito utilizada e o quantil.

Definicao:

Chamamos quantil de ordem p ou p-quantil onde p e uma proporcao,0 < p < 1, ao valor q(p) tal que 100.p por cento da amostra seja menor queq(p).

Page 21: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 18

Essa definicao parece um pouco complicada a primeira vista, vamos verum exemplo.

Exemplo 17: Para a amostra 1,2,3,5,7,8,10, desejamos saber o valor deq(0,5) e q(0,25).

Qual e o valor de q(0,5)? q(0,5) e o valor tal que 100.0,5=50 por centoda amostra esteja abaixo dele. Portanto q(0,5)= mediana.

Primeiramente devemos ordenar os dados e encontrar as estatısticas deordem, nesse caso os dados ja estao ordenados:

x(1) = 1;x(2) = 2;x(3) = 3...x(7) = 10

Como temos 7 dados na amostra q(0,25) e o valor que deixa 25 por centodos dados abaixo dele. Como 0,25.7=1,75 nao e inteiro calculamos um valoraproximado para q(0,25). Fazemos q(0, 25) =x(2). Para q(0,5), fazemos7.0,5=3,5. Como 3,5 nao e inteiro aproximamos o quantil para a estatısticade ordem subsequente que no caso e x(4). O mesmo procedimento feito an-teriormente para encontrar a mediana.

Como calcular os quantis?

Nao existe apenas uma maneira de obter os quantis, geralmente obtemosvalores aproximados que representam a divisao da amostra. Segue abaixouma das maneiras para descobrir os quantis.

Dada uma amostra com n observacoes ordenadas de maneira crescente,uma das formas para se obter o quantil de ordem p e a seguinte:

1) Se n.p e um numero inteiro entao q(p) =x(n,p)+x(n,p+1)

2.

2) Se n.p nao e um numero inteiro entao q(p) = x(| n.p | +1)

Percentil, decil e quartil

Os percentis sao construıdos atraves da divisao da amostra em cem partesiguais. O primeiro percentil deixa 1 por cento dos dados abaixo dele, o se-gundo 2 por cento e assim sucessivamente ate o 99 percentil, que deixa 99por cento dos dados abaixo dele. Ao dividirmos a amostra em 10 partes iguaispodemos calcular os decis. O primeiro decil deixa 10 por cento dos dadosabaixo dele, o segundo deixa 20 por cento dos dados abaixo e finalmente ononagesimo decil deixa 90 por cento dos dados abaixo dele. Os quartis saoobtidos dividindo a amostra em 4 partes iguais. O primeiro quartil deixa25 por cento dos dados abaixo dele, o segundo quartil e a mediana e o ter-

Page 22: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 19

ceiro deixa 75 por cento dos dados abaixo dele. Podemos perceber a seguinteequivalencia entre os percentis, quartis e decis:

q(0,1)- 1 decil, 10 percentil.q(0,25)- 1 quartil, 25 percentil.q(0,5)- 5 decil, 2 quartil, 50 percentil.q(0,75)- 3 quartil, 75 percentil.q(0,95)- 95 percentil.

Exemplo 18: Suponha que entrevistamos 10 pessoas e perguntamos opeso da cada uma delas. As respostas foram as seguintes:

45; 54; 48; 51; 63; 50; 74; 83; 91; 105.

Qual e o peso maximo que uma pessoa pode ter para estar entre as 25por cento mais magras e qual e peso mınimo para estar entre as 25 por centomais gordas?

O que queremos saber e quem sao q(0,25) e q(0,75).Primeiramente devemos ordenar os dados.

45; 48; 50; 51; 54; 63; 74; 83; 91; 105.

o quantil q(0,25) e o valor que deixa 25 por cento dos dados abaixo quenesse caso e o valor que ocupa a terceira posicao. Entao q(0,25)=50. q(0,75)e o valor que deixa 75 por cento dos dados abaixo, aquele que ocupa a oitavaposicao, portanto q(0,75)=83.

2.8 Box-plot

O box-plot nos da uma ideia da dispersao de uma amostra e da existenciade dados distoantes do conjunto. Ele e construido da seguinte maneira:

1) Calculamos os valores dos quartis, q(0,25), q(0,5) e q(0,75) que seraorespectivamente a base, a linha media e o topo da caixa.

2) Calculamos a diferenca dq = q(0, 75)− q(0, 25).3) Calculamos 3/2.dq, esse valor nos ajudara a construir os limites superior

e inferior do grafico. Os valores da amostra nao contidos nesse intervalodevem ser representados como pontos isolados e por isso sao denominadosoutliers.

O box-plot e um grafico muito util quando queremos investigar a simetria,valores atıpicos e a dispersao em um conjunto de valores. A representacaografica e a seguinte:

Page 23: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 20

Assimetria dos dados se reflete em assimetria na caixa e ou nos limitesinferiores e superiores e valores atıpicos se refletem em outliers. Vamos verum exemplo para que fique mais claro o processo de construcao.

Exemplo 19: Suponha que realizamos uma pesquisa com 15 pessoas eestamos interessados na variavel numero de filhos. Obtivemos os seguintesresultados 2 pessoas nao tem filhos, 5 tem 1 filho, 4 tem 2 filhos, 3 tem 3filhos e finalmente 1 pessoa tem 5 filhos. Construa o box-plot para a variavelnumero de filhos. Primeiramente vamos calcular os quartis:

Primeiro quartil- 0,25.15= 3,75 que nao e inteiro portanto q(0,25)=x(4)=1.Segundo quartil- 0,5.15= 7,5 que nao e inteiro portanto q(0,5)=x(8)=2.Terceiro quartil- 0,75.15= 11,25 que nao e inteiro portanto q(0,75)=x(12)=3.Temos o seguinte box-plot:

Como o menor valor observado foi 0 e o maior foi 5 os limites inferiore superior devem ser 0 e 5 respectivamente. Deixar o limite inferior como-2 e o superior como 6 significaria dizer que existem valores entre -2 e 0e tambem entre 5 e 6, o que nao e verdade. Portanto devemos calcularos limites inferiores e superiores como anteriormente e depois olhar para os

Page 24: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 21

dados para saber quem e o menor e o maior valor observado. O boxplotentao, fica melhor representado da seguinte maneira:

Page 25: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 22

2.9 Exercıcios - lista 01

Questao 1Suponha que realizamos uma pesquisa com 80 pessoas cuja variavel de

interesse era a idade. Suponha tambem que foram encontrados os seguintesvalores: 21; 35; 49 e 16 anos, com frequencias respectivamente iguais a 10;0,3; 0,2. Encontre a frequencia absoluta de 16 anos. Construa a tabela defrequencias, o grafico em barras e em setores.

Questao 2Os juros recebidos por um grupo de 12 acoes em um perıodo de dois meses

foram:3,67; 1,28; 3,96; 2,93; 7,77; 2,78;1,82; 8,14; 6,54; 2,82; 4,65; 5,54.Construa a tabela de frequencias para esses dados dividindo-os em 4

classes de amplitudes iguais a 2. Construa tambem o histograma para asfrequencias relativas.

Questao 3Suponha que desejamos estudar o numero de erros de impressao de um

livro. Para isso escolhemos uma amostra com 50 paginas e verificamos quedas 50 paginas analisadas, 25 nao apresentavam erros, 20 apresentavam 1erro, 3 possuiam 2 erros e finalmente duas paginas apresentavam uma 3 eoutra 4 erros.

a) Calcule o numero medio de erros por pagina e numero mediano.b) Qual e o desvio padrao?c) Faca um grafico em barras para a distribuicao.d) Se o livro tem 500 paginas qual e o numero total de erros esperado no

livro?

Page 26: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 23

2.10 Exercıcios - lista 02

Questao 1Suponha que observamos os valores de 20, 50, 60, 40 e 20 para uma

variavel X.

• a) Calcule a media harmonica de X.

• b) Se os valores acima fossem medidas, em km/h, da velocidade de umautomovel observadas em distancias iguais a 2km, qual a relacao davelocidade media com a resposta obtida no item anterior?

• c) Se os valores se referissem a velocidade do mesmo automovel medidasem intervalos iguais a meia hora qual a relacao da velocidade media como valor obtido em b)?

Questao 2O que acontece com a media, a mediana e a variancia quando:

• a) Somamos um valor fixo a cada observacao? (Por exemplo, se somar-mos 10?)

• b) E quando multiplicamos cada observacao por um valor fixo?

Questao 3Um objeto e construıdo com 300g de cobre, 150g de prata e 100g de

bronze. Sabendo que a densidade media e dada por dmed = massavolume

e asdensidades do cobre, da prata e do bronze sao respectivamente 1, 5g/cm3,1, 2g/cm3 e 2g/cm3. Encontre a densidade media do objeto.

Questao 4Realizando um experimento quımico repetidamente em baixas temperat-

uras, obtivemos os seguintes rendimentos em porcentagem: 1; 2; 5; 3 e 1.Ao aumentar a temperatura, aumentamos o rendimento da reacao para 40.Qual o rendimento medio da reacao?

Questao 5O departamento pessoal de uma empresa fez um levantamento dos salarios

de seus funcionarios e os dividiu em quatro classes. A primeira classe con-tinha todos os salarios menores do que dois e a frequencia observada foi 30.A segunda classe, os salarios maiores ou iguais a 2 e menores que 4 comfrequencia 48. A terceira classe, os salarios maiores ou iguais a 4 e menoresque 6 com frequencia 24. A quarta classe, os salarios maiores ou iguais a 6 emenores que 10 com frequencia 18.

Page 27: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 24

• a)Construa o histograma.

• b) Calcule a media, a variancia e o desvio padrao.

• c) Calcule o primeiro quartil, a mediana, o terceiro quartil e construao box-plot.

Page 28: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 25

2.11 Exercıcios - lista 03

Questao 1Suponha que entrevistamos 20 pessoas e estamos interessados em estudar

o comportamento da variavel peso nesse grupo. Os dados observados foramos seguintes:

53 ; 70,2; 84,3; 69,5; 77,8; 87,5; 53,4; 82,5; 67,3; 54,170,5; 71,4; 95,4; 51,1; 74,4; 55,7; 48,2; 45,7; 43,2; 50,7

• a) Faca o diagrama ramo-e-folhas.

• b) Encontre os quartis e faca o box-plot.

• c) Divida os dados em 6 classes de amplitude igual a 10. Construa atabela de frequencias e o histograma. Existe alguma semelhanca como diagrama ramo-e-folhas?

• d) Encontre a moda, media, mediana e desvio padrao para a tabela doitem anterior.

Questao 2O departamento de atendimento ao consumidor de uma concessionaria

de veıculos recebe ligacoes de reclamacoes de clientes. Foram anotados osnumeros de reclamacoes em 20 dias:

3; 4; 5; 4; 4; 5; 6; 9; 4; 4;5; 6; 4; 3; 6; 7; 4; 5; 5; 7.

• a) Construa a tabela de frequencias e o grafico em barras.

• b) Qual o numero medio e o numero mediano de reclamacoes por dia?

• c) Em 1 mes qual o numero total de reclamacoes esperado?

• d) Se cada telefonema acarreta novos servicos que custam 50 reais paraa concessionaria, qual e a despesa media por dia da concessionariaoriunda do atendimento ao consumidor?

Questao 3O tempo em horas para um determinado medicamento fazer efeito foi

investigado em um grupo de 20 pessoas e obteve-se os seguintes tempos:1; 2; 1; 2; 1; 2; 3; 1; 2; 2 3; 3; 2; 2; 1; 1; 4; 2; 1; 4

• a) Construa a tabela de frequencias para a variavel.

Page 29: apostilaEB

2 ANALISE EXPLORATORIA DE DADOS - RESUMO DE DADOS 26

• b) Calcule a media e a variancia.

• c) Quando o medicamento demora mais de 3 horas para agir, dizemosque o paciente e insensıvel ao tratamento. Se isso ocorre em 25 porcento dos casos ou mais entao os pacientes devem trocar de medicacao.Os pacientes acima devem ou nao trocar de medicacao?

Questao 4Realizando um cultivo de laranjas inicialmente com 100 mudas, um agricul-

tor percebeu que apos a primeira colheita o rendimento da producao aumen-tava consideravelmente com relacao a colheita anterior. As taxas de aumentode producao nas 5 colheitas que se seguiram foram de: 10; 15; 10; 5 e 20 porcento respectivamente. Qual a taxa media de aumento de producao?

Questao 5Alguns cientistas sociais acreditam que a opiniao sobre o aborto inde-

pende da situacao familiar. Foi feita uma pesquisa com 200 pessoas:

• a) Qual estado civil apresenta mais pessoas favoraveis ao aborto?

• b) Construa as tabelas de frequencias marginais.

• c) Escolhendo uma pessoa ao acaso, qual e a probabilidade de ser casadaou favoravel ao aborto?

• d) Construa a tabela de frequencias com relacao ao total geral.

• e) De acordo com o criterio de frequencias as variaveis sao ou naoindependentes?

Page 30: apostilaEB

3 ANALISE BIDIMENSIONAL 27

3 Analise bidimensional

Vimos ate agora como organizar e resumir informacoes pertinentes a umavariavel. Agora vamos aprender a analisar o comportamento de duas variaveiscom o objetivo de investigar a relacao entre elas. Podemos ter:

a) Duas variaveis qualitativas.b) Duas variaveis quantitativas.c) Uma variavel qualitativa e outra quantitativa.As tecnicas para se investigar a relacao entre as variaveis pode ser difer-

ente para cada caso. De uma maneira geral, medimos a relacao entre duasvariaveis atraves dos coeficientes de associacao, eles expressam se as variaveissao ou nao dependentes. Para as variaveis qualitativas temos a medida qui-quadrado X 2 e para as quantitativas temos o coeficiente de correlacao.

Duas variaveis qualitativas

Suponha que queremos comparar as variaveis grau de instrucao e regiao deprocedencia e investigar se existe alguma relacao entre elas. Para isso fizemosuma pesquisa com 36 pessoas e montamos a seguinte tabela conjunta:

Atraves dessa tabela podemos recuperar as tabelas de frequencia paraa regiao de procedencia e grau de instrucao que chamaremos de tabelas defrequencia marginais.

Page 31: apostilaEB

3 ANALISE BIDIMENSIONAL 28

Para duas variaveis podemos tambem construir a tabela de frequenciasrelativas. Diferentemente do caso unidimensional podemos considerar a frequenciarelativa:

a) Ao total de cada linha.b) Ao total de cada coluna.c) Ao total geral.No caso do exemplo anterior podemos obter a seguinte tabela de frequencia

relativa ao total de cada coluna:

E com relacao ao total geral temos:

A tabela com relacao ao total de cada linha e construıda de maneiraanaloga a tabela com relacao ao total de cada coluna.

Agora vamos aprender como investigar a relacao entre duas variaveisatraves das tabelas de frequencias.

3.1 Associacao entre variaveis qualitativas

Um dos objetivos de construir uma distribuicaao conjunta de duas variaveise conhecer o grau de dependencia entre elas. No caso de duas variaveis qual-itativas vejamos como podemos estudar a dependencia atraves da tabela defrequencias. Primeiramente um exemplo em que as variaveis parecem naoestar associadas.

Page 32: apostilaEB

3 ANALISE BIDIMENSIONAL 29

Exemplo 1: Suponha que entrevistamos 200 alunos dos cursos de econo-mia e administracao e queremos investigar se existe alguma relacao entre osexo e o curso.

Com as frequencias absolutas fica difıcil tirar alguma conclusao. Vamosconstruir a tabela para a frequencia relativa ao total de cada coluna.

Nessa tabela vemos que 60 por cento dos alunos fazem economia e 40por cento fazem administracao. Nao havendo dependencia entre as variaveis,esperarıamos essa mesma proporcao para cada sexo. Como as proporcoessao proximas para ambos os sexos: 61 e 58 por cento para economia e 39 e42 por cento para administracao as variaveis sexo e curso parecem nao estarassociadas. Agora vamos ver um exemplo em que as variaveis parecem estarassociadas.

Exemplo 2: Suponha agora que entrevistamos 200 alunos dos cursos defısica e ciencias sociais e, queremos identificar se ha relacao entre sexo e ocurso.

Page 33: apostilaEB

3 ANALISE BIDIMENSIONAL 30

Nesse caso parece haver associacao ja que as porcentagens dos alunos defısica e de ciencias sociais para o sexo feminino e masculino sao distantes.Veremos agora como podemos medir essa dependencia.

Medida de dependencia qui-quadrado

Retomemos o exemplo anterior. Na pesquisa observamos as seguintesfrequencias:

Se as variaveis fossem independentes, os valores esperados para as frequenciasmasculino e feminino seriam:

Nesse caso a tabela dos desvios com a diferenca entre os valores observadosde frequencia e os esperados ficaria:

Page 34: apostilaEB

3 ANALISE BIDIMENSIONAL 31

A medida qui-quadrado X 2 mede o quanto as variaveis estao longe daindependencia e leva em conta esses desvios entre a tabela das frequenciasobservadas e a tabela que esperarıamos encontrar se as variaveis fossem in-dependentes.

A medida qui-quadrado X 2 e entao definida por:

X 2 =∑

(oi−ei)2ei

onde oi sao os valores observados de frequencia e ei sao os esperados.Logo abaixo daremos a formula da medida X 2 explicitando como obter eisem a necessidade de construir outra tabela de valores esperados.

Se a hipotese de nao associacao for verdadeira entao as frequencias obser-vadas estarao muito proximas das frequencias esperadas portanto, a ”distancia”entre as tabelas deve ser pequena o que implica um valor de X 2 proximo dezero, um valor muito grande de X 2 indica associacao entre as variaveis.

Vamos calcular entao a medida X 2 para o exemplo acima:

X 2 = (16)2

84+ (−16)2

56+ (16)2

56+ (−16)2

36+ (16)2

24= 3, 05+4, 51+7, 02+10, 54 = 25

Como encontramos um valor grande para X 2, as variaveis parecem estarassociadas.

Notacao geral Para obter a medida X 2 para as tabelas de dupla entradanao precisamos construir uma nova tabela de valores esperados e uma outratabela de desvios. Podemos fazer o seguinte:

Para X e Y, duas variaveis assumindo os valoresA1, A2, ...Ar eB1, B2, ..., Bs

respectivamente. Suponhamos que elas possuam a seguinte tabela de frequenciasconjunta:

Page 35: apostilaEB

3 ANALISE BIDIMENSIONAL 32

Entao a medida X 2 e dada por:

X 2 =∑ri=1

∑sj=1(nij−nij∗ )2

nij∗

onde nij∗ e a frequencia esperada se as variaveis fossem independentes e,e dada por nij∗ =

ni..n.jn..

.

3.2 Associacao entre variaveis quantitativas

Quando as variaveis sao quantitativas, para idenficar a existencia de asso-ciacao entre as variaveis podemos usar uma medida denominada coeficientede correlacao linear que mede o quanto a relacao entre as variaveis estaproxima de uma relacao linear e um recurso grafico chamado diagrama dedispersao. Vamos comecar pelo grafico de dispersao.

Grafico de dispersao

Para construir o grafico de dispersao para duas variaveis X e Y quanti-tativas plotamos os valores (X,Y) obtidos num sistema de eixos coordenados.Vamos ver um exemplo:

Exemplo 3: Suponha que entrevistamos 7 agentes imobiliarios e quer-emos investigar se existe relacao entre os anos de servico e o numero declientes.

Page 36: apostilaEB

3 ANALISE BIDIMENSIONAL 33

O grafico de dispersao fica entao:

Pelo grafico de dispersao podemos perceber que as variaveis perecem estarassociadas. Quanto maior o tempo de servico maior parece ser o numero declientes. Vamos ver agora um grafico de dispersao em que os dados parecemnao estar associados:

Exemplo 4: Suponha que fizemos uma pesquisa da populacao rural eurbana nos ultimos anos. O grafico de dispersao abaixo indica que as variaveisnao estao relacionadas.

No primeiro exemplo, podemos perceber que e razoavel aproximar osdados por uma linha reta que seja a mais proxima possıvel dos dados eque atraves dela podemos identificar a relacao existente entre os dados. Aequacao dessa reta que minimiza o erro, isto e a distancia entre os dados e areta, estabelece um modelo que chamamos de modelo de regressao linear. Porhora, so investigaremos se a relacao existente entre os dados e uma relacaoproxima da linear e, quem nos dira isso sera o coeficiente de correlacao linear.

Coeficiente de correlacao linearE uma medida do grau de associacao linear entre duas variaveis quan-

titativas.

Page 37: apostilaEB

3 ANALISE BIDIMENSIONAL 34

Definicao:Dados n pares com os valores observados para as variaveis X e Y quantita-

tivas: (x1, y1), (x2, y2), ..., (xn, yn) definimos o coeficiente de correlacao linearentre X e Y por:

corr(X, Y ) = 1n

∑ni=1

(xi−x)(yi−y)dp(x)dp(y)

A parcela∑n

i=1(xi−x)(yi−y)

ne denominada covariancia.

Outra formula equivalente para calcular o coeficiente de correlacao e aseguinte:

corr(X, Y ) =∑ni=1(xiyi−nxy)√

(∑x2i−nx2)(

∑y2i−ny2)

Podemos perceber que −1 ≤ corr(X, Y ) ≤ 1. O calculo do coeficiente decorrelacao e muito custoso analiticamente, muitas vezes e conveniente utilizarprogramas estatısticos como o R.

Para valores positivos do coeficiente de correlacao, a nuvem de pontosdo grafico de dispersao segue uma tendencia de crescimento, quanto maisproximo de 1 o valor esta, mais alinhados os pontos estao. Por exemplo:

Para valores negativos do coeficiente de correlacao, a nuvem de pontossegue uma tendencia de decrescimento, aqui tambem quanto mais proximode -1 o valor esta, mais alinhados os pontos estao. Por exemplo:

Page 38: apostilaEB

3 ANALISE BIDIMENSIONAL 35

E finalmente, para valores de correlacao proximos a zero, nao ha umatendencia de crescimento/decrescimento linear clara para os pontos, comoabaixo podemos observar:

Vamos agora encontrar o coeficiente de correlacao linear para o exemplo3 e verificar que o valor esta proximo de 1, que vai ao encontro do queobservamos no grafico de dispersao.

Temos n=7, para X temos dp(X)= 1.98 e para Y temos dp(Y)= 7.48,entao o coeficiente de correlacao entre as variaveis X e Y e 0.81, um valorproximo de 1 , como esperavamos quando observamos o grafico de dispersao.

Page 39: apostilaEB

3 ANALISE BIDIMENSIONAL 36

3.3 Exercıcios - lista 04

Questao 1Suponha que realizamos uma pesquisa com 100 funcionarios de uma

empresa. Nessa pesquisa estavamos interessados nas variaveis regiao deprocedencia e nıvel de escolaridade. Para a regiao de procedencia observamosos valores capital, interior e outra. Para o nıvel de escolaridade observamos osvalores fundamental, medio e superior. Com os dados montamos a seguintetabela de frequencias absolutas:

• a) Construa a tabela de frequencias relativas com relacao ao total geral.

• b) Construa a tabela de frequencias marginais para cada uma dasvariaveis.

• c) Qual a porcentagem dos funcionarios que possuem nıvel medio?

• d) Qual a porcentagem dos funcionarios que sao da capital?

• e) Escolhendo um funcionario ao acaso qual sera provavelmente seugrau de instrucao? E a sua regiao de procedencia?

• f) As variaveis parecem dependentes? Porque?

Questao 2Uma companhia de seguros analisou a frequencia com que 2000 segurados

usaram o hospital, dentre eles 1000 homens e 1000 mulheres. Os resultadosforam:

Page 40: apostilaEB

3 ANALISE BIDIMENSIONAL 37

• a) Calcule a proporcao de homens dentre os indivıduos que utilizaramo hospital.

• b) Calcule a proporcao de homens dentre os indivıduos que nao uti-lizaram o hospital.

• c) Baseado nos calculos das frequencias e do coeficiente X 2 voce diriaque o uso do hospital independe do sexo do segurado?

Questao 3Lancam-se simultaneamente uma moeda de um real e uma de 25 centavos.

Em cada tentativa anotou-se o resultado cujos dados estao resumidos natabela abaixo:

• a) Esses dados sugerem que os resultados das moedas de um real e osda moeda de 25 centavos estao associados?

• b) Definindo as variaveis X1 e X2 tais que X1 = 0 quando ocorre carae X1 = 1 quando ocorre coroa na moeda de um real. AnalogamenteX2 = 0 quando ocorre cara e X2 = 1 quando ocorre coroa na moedade 25 centavos. Calcule a correlacao entre X1 e X2. Essa medida estade acordo com o que voce respondeu anteriormente?

Questao 4E esperado que a massa muscular de uma pessoa diminua com a idade.

Para estudar essa relacao, uma nutricionista selecionou 8 mulheres, com idadeentre 40 e 79 anos, e observou em cada uma delas a idade (X) e a massamuscular (Y).

Page 41: apostilaEB

3 ANALISE BIDIMENSIONAL 38

Construa o grafico de dispersao e calcule o coeficiente de correlacao. Ahipotese da nutricionista se confirma com os dados?

Page 42: apostilaEB

3 ANALISE BIDIMENSIONAL 39

3.4 Exercıcios - lista de revisao

Questao 1Numa pesquisa realizada com 100 famılias foram observadas 17 famılias

sem filhos, 20 com 1 filho, 28 com 2 filhos, 19 com 3 filhos, 7 com 4 filhos e9 com 5 filhos.

• a) Calcule o numero medio, o numero mediano de filhos e o desviopadrao.

• b) Se selecionarmos 1 dessas famılias qual sera provavelmente seu numerode filhos?

• c) Faca o grafico em barras e o grafico em setores.

Questao 2Foram investigadas idades de 10 alunos do curso de pos-graduacao em

agronomia:22, 23, 22, 21, 22, 23, 21, 22 , 35, 40.

• a) Calcule a media e a mediana das idades.

• b) Qual e a melhor medida para representar os dados.

• c) Faca o box-plot e observe os valores extremos. A distribuicao parecesimetrica?

Questao 3Em uma empresa A a media dos salarios e 10.000 e o terceiro quartil e

5.000. Se voce foi contratado e o seu salario foi escolhido aleatoriamente emais provavel que voce ganhe mais ou menos que 5.000? Em outra empresaB a media de salerios e 7.000 e a variancia e praticamente zero. Em qual dasempresas voce preferiria trabalhar?

Questao 4Os dados abaixo referem-se ao salario (em salarios mınimos) de 20 fun-

cionarios administrativos em uma industria.10.1, 7.3, 8.5, 5.0, 4.2, 3.1, 2.2, 9.0, 9.4, 6.1,3.3, 10.7, 1.5, 8.2, 10, 4.7, 3.5, 6.5, 8.9, 6.1

• a) Construa uma tabela de frequencias agrupando os dados em inter-valos de amplitude 2 a partir de 1.

• b) Calcule a media, a mediana e o desvio padrao usando a tabela con-struida em a).

Page 43: apostilaEB

3 ANALISE BIDIMENSIONAL 40

• c) Se classificarmos os funcionarios com salarios abaixo de 5 como fun-cionarios de baixa renda. Entre 5 e 7 como de renda media. Maior que7 como renda alta. Construa uma tabela de frequencias para o perfilde renda.

• d) Escolhendo um funcionario, qual e a probabilidade de ele ser derenda media? Qual sera provavelmente o seu perfil de renda?

Questao 5Dois medicamentos para cicatrizacao estao sendo testados em um ex-

perimento feito para estudar o tempo (em dias) necessario para o completofechamento de cortes. Uma amostra com 30 cobaias foi analisada, sendometade tratada com o medicamento A e a outra metade com o B, e forneceuos seguintes valores:

A - 15, 17, 16, 15, 17, 14, 17, 16, 16, 17, 15, 18, 14, 17, 15B - 14, 15, 16, 17, 18, 18, 17, 15, 16, 14, 18, 18, 16, 15, 14

• a) Construa uma tabela de frequencias para o tempo do medicamentoA e outra para o B.

• b) Para o medicamento A qual a porcentagem das observacoes estaoabaixo dos 16 dias? E para o B?

• c) Os medicamentos precem ter o mesmo efeito?

Questao 6Suponha que o paıs A receba de volta uma parte de seu territorio T,

que por certo tempo esteve sob a administracao do paıs B, devido a umtratado entre A e B. A populacao de A, antes de receber T, era 1,2 bilhaode habitantes, e a de T era 6 milhoes de habitantes. Se as medias de idadedas populacoes A e T, antes de se reunirem, eram, respectivamente, 30 anose 25 anos. Qual e a media de idade apos a reuniao?

Questao 7Numa classe com vinte alunos, as notas do exame final podiam variar

de 0 a 100 e a nota mınima para aprovacao era 70. Realizado o exame,verificou-se que 8 alunos foram reprovados. A media aritmetica das notasdesses oito alunos foi 65, enquanto que a media dos aprovados foi 77. Apos adivulgacao dos resultados, o professor verificou que uma questao havia sidomal formulada e decidiu atribuir 5 pontos a mais para todos os alunos. Comessa decisao, a media dos aprovados passou a ser 80 e a dos reprovados 68,8.

• a) Calcule a media aritmetica das notas da classe toda antes da atribuicaodos cinco pontos extras.

Page 44: apostilaEB

3 ANALISE BIDIMENSIONAL 41

• b) Com a atribuicao dos cinco pontos extras, quantos alunos, inicial-mente reprovados, atingiram nota para a aprovacao?

Questao 8Suponha que a relacao entre o tempo necessario para animais adquirirem

um certo peso e a quantidade de animais no rebanho pode ser descrita por:peso = racao(kg)

animais

A pesagem dos animais e feita semanalmente e o acompanhamento foifeito durante 3 semanas.

• a) Na primeira semana utilizamos 500kg para alimentar o rebanho e,nesse perıodo houve um ganho medio de 2kg. Na segunda semanaforam utilizados 1000kg e houve um ganho medio de 2,5kg. Na terceirasemana utilizamos 200kg e o ganho medio foi de 3kg. Qual o ganhomedio de peso nessas 3 semanas?

• b) Se alimentamos 100 animais durante a primeira semana, 150 du-rante a segunda e 500 durante a terceira e os ganhos de peso foramrespectivamente 2, 1.5 e 2.5. Qual e o ganho medio de peso duranteessas 3 semanas?

Questao 9Suponha que aplicamos um capital durante 6 meses e as taxas de retorno

foram de 10,15,30,40,60,50 por cento respectivamente. Suponha tambem quedecidimos continuar com o investimento se a taxa media de retorno for de pelomenos 34 por cento. Qual e a decisao a juros simples? E a juros compostos?

Questao 10Foram entrevistados 200 alunos de tres cursos, obtendo a seguinte tabela:

• a) Qual e a porcentagem de alunos do curso de fısica? Existem maishomens ou mulheres no curso de fısica?

• b) Qual e a porcentagem de mulheres no curso de matematica?

Page 45: apostilaEB

3 ANALISE BIDIMENSIONAL 42

• c) Escolhendo um aluno ao acaso e, sabendo que o escolhido e mulherqual e a probabilidade de ela ser do curso de quımica?

• d) Qual o curso tem um numero maior de homens fısica ou matematica?

• e) De acordo com o coeficiente X 2 e com a tabela de frequencias, essasvariaveis sao independentes?

Questao 11Um geologo esta procurando identificar a relacao existente entre a pre-

senca de magnesio e a existencia de calcificacao de um determinado tipo emum solo. Para isso, ele coletou uma amostra de solo com 5 observacoes e an-otou a quantidade de magnesio encontrada (X) e o correspondente numerode calcificacoes (Y).

Faca o grafico de dispersao para as variaveis e calcule o coeficiente decorrelacao. Qual e a conclusao do geologo?

Page 46: apostilaEB

4 PROBABILIDADE 43

4 Probabilidade

Ate agora, analisamos um conjunto de dados atraves de tecnicas graficase medidas de posicao ou dispersao.

A distribuicao de frequencias foi um instrumento importante para avaliar-mos o comportamento da variavel que estudamos, seus valores e suas variacoesobservadas na amostra.

As frequencias relativas estudadas ate entao, sao estimativas das proba-bilidades de ocorrencia dos valores da variavel de interesse.

Fazendo suposicoes adequadas e sem observarmos amostras, podemoscriar um modelo teorico que reproduza a distribuicao de frequencias obser-vadas na populacao. Esses modelos sao chamados modelos probabilısticos.

Uma outra interpretacao para o conceito de probabilidade, um poucodiferente da interpretacao frequentista que estamos acostumados ate agora ea interpretacao classica. Nesse caso, quando cada um dos resultados (eventoselementares) tem igual chance de ocorrer definimos a probabilidade de umevento A ocorrer como a razao entre o numero de resultados favoraveis aoevento A e o numero de resultados possıveis.

4.1 Modelo probabilıstico

Um modelo probabilıstico e constituıdo por:1)- Um espaco amostral Ω que consiste em todos os resultados possıveis

para o experimento.Ω = w1, w2, w3, ..., wn, ...

O espaco amostral pode ser finito ou infinito. Qualquer subconjunto deΩ e denominado evento. O evento wi e chamado evento elementar.

2)- Uma probabilidade P(.), definida para cada evento elementar wi emΩ, de tal forma que seja possıvel encontrar a probabilidade P(A) para qual-quer evento A em Ω.

Exemplo 1: Modelo probabilıstico para o lancamento de um dado.

Ω = 1, 2, 3, 4, 5, 6

onde P (wi) = 16, para todo wi ∈ Ω.

Para o evento A: observar face ımpar, temos A=1, 3, 5 e P(A)=1/2.

Exemplo 2: Modelo probabilıstico para o lancamento de um dado e umamoeda.

Page 47: apostilaEB

4 PROBABILIDADE 44

Ω = (c, 1), (c, 2), (c, 3), (c, 4), (c, 5), (c, 6), (k, 1), (k, 2), (k, 3), (k, 4), (k, 5), (k, 6)

onde P (wi) = 112

, para todo wi ∈ Ω.Para o evento B: observar face par e cara, temos B=(c, 2), (c, 4), (c, 6)

e P(B)=1/4.

Axiomas de probabilidade

A funcao de probabilidade do modelo probabilıstico deve satisfazer:

• (1) P (Ω) = 1

• (2) 0 ≤ P (A) ≤ 1, para todo evento A ∈ Ω.

• (3) P (E1 ∪ E2) = P (E1) + P (E2) para E1, E2 ∈ Ω, eventos disjuntos,isto e E1 ∩ E2 = ∅.

A partir dos axiomas anteriores podemos definir algumas propriedadespara a funcao de probabilidade:

• (1) P (A ∪B) = P (A) + P (B)− P (A ∩B), para todo A,B ∈ Ω.

Dem:

P (A ∪B) = P (A−B) + P (A ∩B) + P (B − A)

= P (A)− P (A ∩B) + P (A ∩B) + P (B)− P (A ∩B)

= P (A) + P (B)− P (A ∩B)

• (2) P (Ac) = 1− P (A).

Dem:

P (Ω) = 1 =⇒ P (A ∪ Ac) = 1 =⇒ P (A) + P (Ac) = 1.

• (3) P (∅) = 0.

Dem : Em sala.

• (4) P (⋃ni=1 Ei) =

∑ni=1 P (Ei) . Para toda colecao de eventos E1, E2, ..., En

disjuntos dois a dois isto e Ei ∩ Ej = ∅, para todo i 6= j.

Obs: Os eventos satisfazem as mesmas propriedades para as operacoesentre conjuntos:

Page 48: apostilaEB

4 PROBABILIDADE 45

• a) (A ∩B)c = Ac ∪Bc

• b) (A ∪B)c = Ac ∩Bc

• c) A ∩ ∅ = ∅

• d) A ∪ Ω = A

• e) Ωc = ∅

• f) A ∩ Ac = ∅

• g) A ∪ Ac = Ω

• h) A ∪ ∅ = A, A ∩ Ω = Ω

Exemplo 3: Ao se retirar uma carta do baralho (com 52 cartas) qual ea probabilidade de se obter uma carta vermelha ou um as?

evento A: carta e as.evento B: carta e vermelha.P (A∪B) = P (B) +P (A)−P (A∩B) = 26/52 + 4/52− 2/52 = 28/52 =

7/13.

Exemplo 4: Lancando uma moeda e um dado, qual e a probabilidadede nao se observar o numero 1?

evento A: foi observada a face 1.A = (c, 1), (k, 1)queremos P (Ac) = 1− P (A) = 1− 2/12 = 5/6.

Exercıcio: Suponha que entrevistamos 100 alunos e perguntamos emquais materias eles estavam inscritos. Obtivemos os seguintes valores:

47 alunos inscritos em matematica.31 alunos inscritos em fısica.11 alunos inscritos em estatıstica.20 alunos inscritos em matematica e fısica.7 alunos inscritos em matematica e estatıstica.6 alunos inscritos em fısica e estatıstica.5 alunos inscritos em matematica, fısica e estatıstica.a) Selecionando um aluno ao acaso, qual e a probabilidade de ele estar

inscrito somente em matematica?b) Qual e a probabilidade de ele estar inscrito em matematica ou fısica?c) Qual e a probabilidade de ele estar inscrito em pelo menos 1 materia?

Page 49: apostilaEB

4 PROBABILIDADE 46

Metodos de contagem

Quando estamos trabalhando com um espaco amostral finito e equiprovavelΩ = w1, w2, w3, ..., wn isto e, quando todos os eventos elementares wi temigual probabilidade 1/n de ocorrer, podemos utilizar tecnicas de analise com-binatoria para calcular de uma maneira mais simples a probabilidade de umevento A ocorrer.

P (A) = ]A]Ω

onde ]A e o numero de resultados favoraveis e ]Ω e o numero de resulta-dos possıveis.

Exemplo 5: Suponha que num lote com 20 pecas existam 5 defeituosas.Escolhendo 4 pecas do lote, qual e a probabilidade de 2 pecas serem defeitu-osas e 2 perfeitas?

A: Escolher 2 pecas defeituosas e 2 perfeitas.

]A = C52 .C

152 (numero de casos favoraveis).

]Ω = C204 (numero de casos possıveis).

Logo, P (A) = ]A]Ω

=C5

2 .C152

C204

=5.42!

15.142!

20.19.18.174!

= 0, 2167

Exercıcio: Lancando-se 2 dados, qual e a probabilidade de todos osnumeros aparecerem 2 vezes?

Exercıcio: Em um grupo de 5 medicos e 5 enfermeiras, devemos formaruma equipe com 2 medicos e 2 enfermeiras. Qual e a probabilidade do medicoJose e a enfermeira Maria fazerem parte da mesma equipe?

Exercıcio: Um baralho contem 52 cartas das quais 4 sao ases. Se 4jogadores recebem 13 cartas cada um qual e a probabilidade de cada jogadorreceber 1 as?

4.2 Probabilidade condicional e independencia

Definicao : Para dois eventos A e B ∈ Ω com P (B) > 0, a probabilidadecondicional de A dado B e dada por:

Page 50: apostilaEB

4 PROBABILIDADE 47

P (A|B) = P (A∩B)P (B)

Exemplo 6: Dois dados sao lancados e foi observada a soma das facesımpar. Qual e a probabilidade de que a soma seja menor do que 8?

B: Sair soma ımpar.B = 3, 5, 7, 9, 11A: Soma menor que 8.A = 2, 3, 4, 5, 6, 7

P (A|B) = P (A∩B)P (B)

A ∩B = 3, 5, 7 =

Soma 3− (1, 2); (2, 1)Soma 5− (1, 4); (4, 1); (2, 3); (3, 2)Soma 7− (1, 6); (6, 1); (2, 5); (5, 2); (3, 4); (4, 3)

entao P (A ∩B) = 1236

.

B = 3, 5, 7, 9, 11 =

Soma 3− (1, 2); (2, 1)Soma 5− (1, 4); (4, 1); (2, 3); (3, 2)Soma 7− (1, 6); (6, 1); (2, 5); (5, 2); (3, 4); (4, 3)Soma 9− (3, 6); (6, 3); (4, 5); (5, 4)Soma 11− (5, 6); (6, 5)

entao P (B) = 1836

Logo P (A|B) =12361836

= 1218

= 23

Regra da multiplicacao

Dada a definicao de probabilidade condicional, podemos escrever:

P (A ∩B) = P (A|B)P (B)

Essa regra em geral, vale para mais eventos:

P (A ∩B ∩ C) = P (C|A ∩B)P (B|A)P (A)P (A1 ∩ A2 ∩ A3 ∩ ... ∩ An) = P (An|A1 ∩ ... ∩ An−1)P (An−1|A1 ∩ ... ∩

An−2)...P (A1)

Exemplo 7:Em um lote com 100 lampadas 20 sao defeituosas. Selecionando 2 lampadas

ao acaso e sem reposicao, qual e a probabilidade:a) De serem ambas defeituosas?

Page 51: apostilaEB

4 PROBABILIDADE 48

b) Da segunda lampada ser defeituosa?a) Sejam os eventos A: 1o peca e defeituosa. B: 2o peca e defeituosa.P (A ∩B) = P (B|A).P (A) = 20

100.1999

= 3899

b) P (B) = P (B ∩ A) + P (B ∩ Ac) = P (B|A)P (A) + P (B|Ac)P (Ac) =20100.1999

+ 2099. 80100

= 0, 2

c) Selecionando tres lampadas ao acaso, qual e a probabilidade de reti-rarmos a 1o lampada defeituosa, a 2o e a 3o perfeitas?

Para o evento C: 3o peca e defeituosa.Queremos P (A ∩Bc ∩ Cc) = P (Cc|A ∩Bc)P (Bc|A)P (A) = 79

988099

20100

Definicao (Particao):

Dizemos que os eventos A1, A2, A3, ..., An formam uma particao para Ωse:

• (i) Ω = A1 ∪ A2 ∪ A3 ∪ ... ∪ An

• (ii) Ai ∩ Aj = ∅, ∀i 6= j, i, j ∈ 1, 2, ..., n

Teorema: Lei da probabilidade total

Seja B um evento e A1, A2, A3, ..., An uma particao do espaco amostralΩ, entao:

P (B) = Σni=1P (B|Ai)P (Ai)

Demonstracao:

P (B) = P (B ∩ Ω) = P (B ∩ (A1, A2, A3, ..., An))

= P ((B ∩ A1) ∪ (B ∩ A2) ∪ ... ∪ (B ∩ An))

= P (B ∩ A1) + P (B ∩ A2) + ...+ P (B ∩ An)

= P (B|A1)P (A1) + P (B|A2)P (A2) + ...+ P (B|An)P (An)

=n∑i=1

P (B|Ai)P (Ai)

Page 52: apostilaEB

4 PROBABILIDADE 49

Podemos verificar na figura abaixo como interpretar a lei da probabilidadetotal.

Quando o evento B pode ser formado pela uniao de varias partes sem in-tersecao (eventos disjuntos) e, sabemos calcular a probabilidade de cada umadessas partes, podemos calcular a probabilidade total do evento B ocorreratraves da soma das probabilidades de todas as partes que unidas formam oevento B.

Page 53: apostilaEB

4 PROBABILIDADE 50

Exemplo 8:Em uma fabrica, duas maquinas A e B operam em dias alternados. A

maquina A opera em 20 por cento dos dias e a probabilidade de produzir umitem defeituoso e 0,3, ja para a maquina B essa probabilidade e de 0,1. Se-lecionando dois equipamentos produzidos em um dia, qual e a probabilidadede serem ambos defeituosos?

Pela lei da probabilidade total temos:

C: Selecionar 2 equipamentos defeituososA : Maquina A ativa.B : Maquina B ativa.P (C) = P (C|A)P (A)+P (C|B)P (B) = (0, 3)2.0, 2+(0, 1)2.0, 8= 0,018+0,008=0,026.

Independencia

Dizemos que dois eventos A e B ∈ Ω, sao independentes se

P (A ∩B) = P (A).P (B)

Exemplo 9:Uma urna contem 2 bolas brancas e 3 vermelhas. Suponha que sejam

retiradas 2 bolas sem reposicao.Nesse caso, para o evento A: retirar uma bola branca na segunda extracao

temosA = (v, b), (b, b)

e para o evento C: retirar uma bola branca na 1o extracao temosA = (b, v), (b, b)

Os eventos A e C sao independentes? Para responder, vamos descrever oespaco amostral e as probabilidades.

Resultados Probabilidade(b,b) 2/5.1/4=2/20(b,v) 2/5.3/4=6/20(v,b) 3/5.2/4=6/20(v,v) 3/5.2/4=6/20

entao P (A) = P (b, b) +P (v, b) = 2/20 + 6/20 = 2/5, P (C) = P (b, b) +P (b, v) = 2/20+6/20 = 2/5 e P (A∩C) = P (b, b) = 2/20 6= P (A).P (C) =4/25.

Page 54: apostilaEB

4 PROBABILIDADE 51

Logo os eventos A e C nao sao independentes.

Se tivessemos retirado duas bolas com reposicao terıamos

Resultados Probabilidade(b,b) 2/5.2/5=4/25(b,v) 2/5.3/5=6/25(v,b) 3/5.2/5=6/25(v,v) 3/5.3/5=6/25

P (C) = P (b, b) + P (b, v) = 4/25 + 6/25 = 10/25, P (A) = P (b, b) +P (v, b) = 4/25 + 6/25 = 10/25

entaoP (A ∩ C) = P (b, b) = 4/25 = P (A).P (C) = 10/25.2/5 = 4/25Logo, nesse caso os eventos A e C sao independentes.

Exemplo 10:Lancando um dado e uma moeda, os eventos: obter cara e obter um

numero menor que 3 sao independentes?A: obter cara.B: obter um numero menor que 3.A=(c, 1), (c, 2), (c, 3), (c, 4), (c, 5), (c, 6)B=(c, 1), (k, 1), (c, 2), (k, 2)P (A ∩B) = 2/12, P (A) = 6/12 e P (B) = 4/12Como P (A ∩ B) = 2/12 = P (A).P (B) = 1/6, temos que os eventos A e

B sao independentes.

Obs: Se os eventos A e B sao independentes entao Ac e Bc tambem saoindependentes.

P (Ac ∩Bc) = P ((A ∪B)c) = 1− P (A ∪B)

= 1− [P (A) + P (B)− P (A ∩B)]

= 1− P (A)− P (B) + P (A)P (B)

= 1− P (A)− P (B)[1− P (A)]

= [1− P (A)][1− P (B)]

= P (Ac)P (Bc)

Exemplo 11:

Page 55: apostilaEB

4 PROBABILIDADE 52

Se uma maquina A e uma maquina B operam de maneira independentee a probabilidade da maquina A falhar e de 0,4 e para a maquina B essaprobabilidade e de 0,1. Qual e a probabilidade de ambas funcionarem corre-tamente?

resp: 0,6.0,9=0,54.

4.3 Teorema de Bayes

Exemplo 12:Se temos duas urnas, a urna 1 com 2 bolas brancas e 1 vermelha e a urna

2 com 1 bola branca e 1 vermelha. Se selecionamos uma bola vermelha, quale a probabilidade de ela ter vindo da urna 1?

C: A urna 1 e selecionada.V: Uma bola vermelha e selecionada.

Queremos saber P (C|V ), mas sabemos calcular P (V |C). Como podemosusar essa informacao?

Podemos usar o fato de P (C|V ) = P (C∩V )P (V )

= P (V |C)P (C)P (V )

e alem disso, peloteorema da probabilidade total sabemos que

P (V ) = P (V |C)P (C) + P (V |Cc)P (Cc)

entao P (C|V ) = P (V |C)P (C)P (V |C)P (C)+P (V |Cc)P (Cc)

=23

12

23

12

+ 12

12

= 47.

Podemos generalizar a formula acima da seguinte maneira:

Para A1, A2, ..., An uma particao de Ω, considere B um evento qualquerem Ω. Suponhamos conhecidas P (B|Ai) e P (Ai) entao temos:

Teorema de BayesA probabilidade de ocorrencia do evento Ai dada a ocorrencia do evento

B e:

P (Ai|B) = P (B|Ai)P (Ai)∑ni=1 P (B|Ai)P (Ai)

Page 56: apostilaEB

4 PROBABILIDADE 53

Podemos pensar em A1, A2, ..., An como um conjunto de hipoteses.Dado que B ocorreu, a probabilidade inicial de Ai, P (Ai) e modificada parase obter P (Ai|B).

Chamamos P (Ai)- Probabilidade a priori.P (Ai|B)- Probabilidade a posteriori.

Para se obter P (Ai|B) multiplicamos P (Ai) por:

P (B|Ai)∑ni=1 P (B|Ai)P (Ai)

Exemplo 12:Supondo que um teste para uma certa doenca pode resultar em positivo

ou negativo e que a probabilidade do teste dar positivo, dado que a pessoaesta doente e 0,9 e, de dar negativo dado que a pessoa nao esta doente e 0,9.Sabendo ainda que a incidencia da doenca na populacao e de 1/100, se umindividuo desta populacao faz o teste e resulta positivo, qual e a probabili-dade de realmente ele estar doente?

A: teste resultou positivoB: individuo esta doente

P (B|A) = P (A|B)P (B)P (A|B)P (B)+P (A|Bc)P (Bc)

= 0,9.0,010,9.0,01+0,1.0,99

= 0, 08Antes de fazer o teste o indivıduo tinha uma chance de 1 por cento de ter

a doenca, como o teste deu positivo, temos um aumento na probabilidade,que passou para 8 por cento.

Page 57: apostilaEB

4 PROBABILIDADE 54

4.4 Exercıcios - lista 05

Probabilidade e suas propriedadesQuestao 1 Defina um modelo probabilıstico para os experimentos abaixo

(espaco amostral e probabilidades para cada elemento do espaco amostral):

• a) Um dado e lancado duas vezes e a ocorrencia de face par ou ımpare observada.

• b) Dois dados sao lancados simultaneamente e a soma e observada.

• c) Uma urna contem 10 bolas azuis e 10 vermelhas, 4 bolas sao sele-cionadas ao acaso e com reposicao e as cores sao anotadas.

• d) Idem ao anterior mas sem reposicao.

Questao 2Para o exercıcio anterior, de a probabilidade para os seguintes eventos:

• a) Observar pelo menos 1 face ımpar em 1a).

• b) Observar soma multipla de 3 em 1b).

• c) Observar primeira e segunda bolas azuis e terceira e quartas vermel-has em 1c).

• d) Observar duas bolas azuis e duas vermelhas em 1c).

• e) Observar primeira e segunda bolas azuis e terceira e quata vermelhasem 1d).

• f) Observar duas bolas azuis e duas vermelhas em 1d).

Questao 3Uma universidade tem 10 mil alunos dos quais 4 mil sao considerados

esportistas. Temos ainda que 500 alunos sao do curso de biologia diurno,700 da biologia noturno, 100 sao esportistas e da biologia diurno e 200 saoesportistas e da biologia noturno. Um aluno e escolhido ao acaso e pergunta-se a probabilidade de:

• a) Ser esportista.

• b) Ser esportista e aluno da biologia noturno.

• c) Nao ser da biologia.

Page 58: apostilaEB

4 PROBABILIDADE 55

• d) Ser esportista ou aluno da biologia.

• e) Nao ser esportista nem aluno da biologia.

Questao 4Sejam A e B dois eventos em um dado espaco amostral, tais que P(A)=0,2,

P(B)=p, P(AUB)=0,5 e P(A⋂

B)=0,1. Determine o valor de p.Questao 5Uma fabrica produz molas de tamanhos 1,2,3,4,5 e 6 cm. Sabendo que

a probabilidade de a mola resistir a uma forca empregada e proporcional aocomprimento e a constante de proporcionalidade e a mesma para cada mola,qual e a probabilidade da mola de 2cm resistir a forca?

Questao 6Uma moeda e viciada de modo que a probabilidade de sair cara e 4 vezes

a probabilidade de sair coroa. Para 2 lancamentos dessa moeda determinar:

• a) O espaco amostral.

• b) A probabilidade de sair somente uma cara.

• c) A probabilidade de sair pelo menos uma cara.

• d) A probabilidade de dois resultados iguais.

Questao 7Sorteamos ao acaso, com reposicao, 2 numeros dentre 4 dos quais dois

sao positivos, dois sao negativos e nenhum deles e zero. Determine a proba-bilidade de:

• a) Um deles ser negativo.

• b) O quociente ser negativo.

• c) Os dois numeros terem o mesmo sinal.

Questao 8Pecas produzidas por uma maquina sao classificadas como defeituosas, re-

cuperaveis ou perfeitas com probabilidade de 0.1,0.2 e 0.7, respectivamente.De um grande lote dessas pecas foram sorteamdas duas delas e sua classi-ficacao e observada. Determine a probabilidade de:

• a) Duas serem defeituosas.

• b) Pelo menos uma ser perfeita.

Page 59: apostilaEB

4 PROBABILIDADE 56

• c) Uma ser recuperavel e uma ser perfeita.

Probabilidade condicionalQuestao 9Dois armarios guardam as bolas de voleibol e basquete. O armario 1 tem

3 bolas de voleibol e 1 de basquete, enquanto o armario 2 tem 3 de voleibole 2 de basquete. Escolhendo-se ao acasoum armario e, em seguida, uma desuas bolas, calcule a probabilidade dela ser:

• a) De voleibol, sabendo-se que o armario 1 foi escolhido.

• b) De basquete, sabendo-se que o armario 2 foi escolhido.

• c) De basquete.

Questao 10Duas caixas contem lapis e canetas, a primeira contem 60 lapis e 40

canetas, a segunda contem 10 lapis e 20 canetas. Suponha que uma caixa eselecionada e um objeto e escolhido, qual e a probabilidade de escolher umacaneta?

Questao 11Tres diferentes maquinas sao utilizadas para produzir uma peca. Sabendo

que a maquina 1 produz 20 por cento das pecas das quais 1 por cento saodefeituosas. A maquina 2 produz 30 por cento das pecas das quais 2 por centosao defeituosas e, a maquina 3 produz 50 por cento das pecas das quais 3 porcento sao defeituosas. Selecionando 1 item ao acaso, qual e a probabilidadede ele ser defeituoso? Se selecionarmos 2 itens, qual e a probabilidade dosdois serem defeituosos?

Questao 12Dois dados equilibrados sao lancados, calcule a probabilidade de:

• a) Obter o par (3,4), sabendo-se que ocorreu face ımpar no primeirodado.

• b) Ocorrer face ımpar no segundo dado sabendo-se que ocorreu facepar no primeiro dado.

Questao 13Uma companhia que fura pocos artesianos trabalha em uma regiao escol-

hendo aletoriamente o ponto de furo e nao encontrando agua sorteia outrolocal para a perfuracao e assim por diante ate no maximo 3 tentativas. Ad-mitindo que a probabilidade de encontrar agua em uma perfuracao e 0.7,calcule a probabilidade de:

Page 60: apostilaEB

4 PROBABILIDADE 57

• a) Encontrar agua no segundo furo.

• b) Encontrar agua no terceiro furo.

• c) Encontrar agua.

Questao 14Suponha que existam duas pastas de dente no mercado: A e B. Suponha

que para cada escolha depois da primeira, a probabilidade que ele escolha amesma pasta e 1/3 e que ele mude de pasta e 2/3. Se e igualmente provavelele escolher a pasta 1 ou 2 na primeira escolha, qual e a probabilidade que aprimeira e a segunda sejam do tipo A e as terceiras e quarta do tipo B?

Independencia entre eventosQuestao 15Dois estudantes A e B esao matriculados em um certo curso. Se o estu-

dante A frequenta 80 por cento das aulas, e o estudante B 60 por cento e asausencias sao independentes, qual e a probabilidade de:

• a) Ao menos 1 dos estudantes esteja presente na aula um certo dia?

• b) Dado que ao menos 1 dos estudantes esteja presente na aula umcerto dia qual e a probabilidade que A esteja presente nesse dia?

Questao 16Suponha que a probabilidade de uma partıcula emitida por um material

radioativo atingir um campo e 0,01. Se 10 partıculas sao emitidas qual e aprobabilidade de apenas 1 delas atingir o campo?

Questao 17Dois garotos lancam uma bola de basquete. Suponha que a probabilidade

do menino A acertar a cesta e 1/3 e para o menino B essa probabilidade e1/4. Suponha tambem que o menino A inicia os lancamentos e os dois vao sealternando. Qual e a probabilidade de o primeiro acerto ocorres no terceirolancamento do menino A?

Questao 18Se tres dados sao lancados, qual e a probabilidade que os 3 numeros sejam

os mesmos?Teorema de BayesQuestao 19Numa certa regiao, a probabilidade de chuva em um dia de primavera e

0,1. Um meteorologista acerta sua previsao em 80 por cento dos dias quechove e 90 por cento dos dias em que nao chove.

• a) Qual e a probabilidade de um meteorologista acertar sua previsao?

Page 61: apostilaEB

4 PROBABILIDADE 58

• b) Se houver acerto na previsao, qual e a probabilidade de ter sido umdia de chuva?

Questao 20Uma caixa contem 3 cartas, uma e vermelha em ambos os lados, outra

e verde em ambos os lados e, a terceira e verde de um lado e vermelha deoutro. Uma carta e selecionada e um de seus lados e observado. Se esse ladoe verde, qual e a probabilidade que o outro lado seja tambem verde?

Questao 21Acredita-se que numa certa populacao 20 por cento de seus habitantes sao

considerados alergicos. Sendo alergico, a probabilidade de sofrer um tipo dereacao a um certo antibiotico e 0,5. Para os nao alergicos essa probabilidadee 0,05. Uma pessoa e dessa populacao teve reacao ao ingerir o antibiotico.

• a) Qual e a probabilidade de ele ser do grupo alergico?

• b) E do grupo nao alergico?

Questao 22Uma caixa contem 2 moedas, uma tem cara em ambos os lados e a outra

e honesta. Uma moeda e selecionada e lancada, se obtivemos cara qual e aprobabilidade que a moeda seja honesta?

Page 62: apostilaEB

5 VARIAVEIS ALEATORIAS DISCRETAS 59

5 Variaveis aleatorias discretas

Ate agora, estudamos alguns modelos probabilısticos por meio de espacosamostrais bem simples e obtivemos algumas propriedades da funcao de prob-abilidade.

Para situacoes mais gerais, precisamos de modelos que possam representaros tipos de variaveis que estudamos, qualitativas e quantitativas.

Para as variaveis qualitativas as nocoes de probabilidade associadas aeventos definidas anteriormente adaptam-se muito bem. Ja para as variaveisquantitativas discretas e contınuas precisamos de alguns artifıcios matematicos.

Os modelos probabilısticos para as variaveis quantitativas sao muito im-portantes para inferencia estatıstica e a partir deles podemos extrair con-clusoes sobre a populacao.

Variaveis aleatorias

Uma quantidade X associada a cada possıvel resultado do espaco amostrale denominada variavel aleatoria discreta se assume valores num conjuntoenumeravel (finito ou infinito) com certa probabilidade. Por outro lado, seradenominada variavel aleatoria contınua se o conjunto de valores assumido equalquer intervalo de numeros reais, que sao conjuntos nao enumeraveis.

Como ja vimos anteriormente, existem variaveis que sao naturalmentedefinidas como discretas ou contınuas. Por exemplo, o numero de filhos ediscreta e o tempo de reacao a um certo medicamento e contınua.

De forma geral, as definicoes de variaveis quantitativas discretas e contınuasfeitas anteriormente no capitulo 1 permanecem, e a palavra aleatoria e intro-duzida para indicar que a cada valor ou intervalo possıvel atribuımos umaprobabilidade de ocorrencia.

No caso discreto, a atribuicao e similar a tabela de frequencia relativa. Jano caso contınuo vamos utilizar uma generalizacao do conceito de histograma.

Variaveis aleatorias discretas

Seja X uma variavel aleatoria discreta e x1, x2, x3, ... seus valores possıveis.A funcao que atribui a cada valor possıvel de X uma probabilidade e chamadafuncao de probabilidade.

5.1 Funcao de Probabilidade

Para uma variavel aleatoria discreta X assumindo valores x1, x2, x3, ... defin-imos a funcao de probabilidade de X por:

Page 63: apostilaEB

5 VARIAVEIS ALEATORIAS DISCRETAS 60

P (X = xi) = p(xi) para todo i ∈ 1, 2, 3, ...

que satisfaz

(i) 0 ≤ p(xi) ≤ 1(ii)

∑∞i=0 p(xi) = 1

Na maioria dos casos que estudaremos, X tera apenas um numero finitode valores possıveis e assim, a verificacao de que a soma das probabilidadese igual a 1 e feita atraves de uma soma finita.

As variaveis discretas sao completamente caracterizadas pelas funcoes deprobabilidade.

Exemplo 1:Uma assistente social constatou, analisando as famılias de um bairro, que

20 por cento nao tinham filhos, 30 por cento tinham 1 filho, 35 por centodois filhos a os restantes se dividiam igualmente entre tres, quatro e cinco fil-hos. Construa uma funcao de probabilidade para a variavel numero de filhos.

Como X e uma variavel aleatoria discreta e os possıveis valores paraX sao 0,1,2,3,4,e 5 e P(X=0)=0.2, P(X=1)=0.3, P(X=2)=0.35 temos pelapropriedade da funcao de probabilidade:

p(0)+p(1)+p(2)+p(3)+p(4)+p(5)=1 entao0.2+0.3+0.35+p(3)+p(4)+p(5)=1 logop(3)+p(4)+p(5)=0.15 como p(3)=p(4)=p(5)temos p(3)=p(4)=p(5)=0.05.Entao a funcao de probabilidade para X e:

Exemplo 2:Considere o experimento em que cada vez que uma moeda e lancada ob-

servamos se e cara ou coroa. Construa a funcao de probabilidade para avariavel numero de caras obtido em dois lancamentos.

Se denotarmos por X: o numero de caras em dois lancamentos. X e umavariavel aleatoria discreta com possıveis valores 0 ,1 e 2.

Page 64: apostilaEB

5 VARIAVEIS ALEATORIAS DISCRETAS 61

Para determinar a probabilidade de cada um dos valores, assumimos quea moeda e honesta isto e, p(cara)=p(coroa)=1/2. Alem disso assumimostmbem que os lancamentos sao independentes isto e a ocorrencia de umaface no 1o lancamento nao interfere no 2o lancamento.

Como Ω = (c, c), (c, k), (k, c), (k, k) e cada elemento de Ω tem proba-bilidade 1/4, temos:

P(X=0)=P(k,k)=1/4P(X=1)=P(c,k)+P(k,c)=2/4=1/2P(X=2)=P(c,c)=1/4A funcao de probabilidade e dada por:

Exemplo 3:Um dado equilibrado e lancado. Construa a funcao de probabilidade para

a variavel face observada.Para X: face observada em um lancamento de um dado, temos:

5.2 Funcao de distribuicao acumulada

Em varias situacoes e util calcular a probabilidade acumulada ate um certovalor. Para isso, usamos a funcao de distribuicao acumulada de probabili-dade.

Funcao de distribuicao acumulada

A funcao de distribuicao acumulada para uma variavel discreta X e definidapara qualquer numero real x pela seguinte funcao:

Page 65: apostilaEB

5 VARIAVEIS ALEATORIAS DISCRETAS 62

F (x) = P (X ≤ x)

Exemplo 4:Lancamento de duas moedas, observando-se o numero de caras, construa

F(x) e o grafico de F(x).

Como vimos anteriormente, X e uma variavel aleatoria discreta comfuncao de probabilidade dada por:

e o grafico para essa funcao de probabilidade

entao a funcao de distribuicao acumulada e dada por:

F (x) =

0, x < 0P (X ≤ 0) = 1/4, 0 ≤ x < 1P (X ≤ 1) = 3/4, 1 ≤ x < 2P (X ≤ 2) = 1, x ≥ 2

e o grafico para essa funcao de distribuicao

Page 66: apostilaEB

5 VARIAVEIS ALEATORIAS DISCRETAS 63

Exemplo 5:Para o lancamento de um dado, definimos a variavel X: face observada

no lancamento. Para essa variavel, vimos que a funcao de probabilidade edada por:

e o grafico

A funcao de distribuicao para X

F (x) =

0, x < 11/6, 1 ≤ x < 22/6, 2 ≤ x < 33/6, 3 ≤ x < 44/6, 4 ≤ x < 55/6, 5 ≤ x < 61, x ≥ 6

e o grafico

Page 67: apostilaEB

5 VARIAVEIS ALEATORIAS DISCRETAS 64

Exemplo 6:Uma variavel aleatoria X tem a seguinte funcao de distribuicao:

F (x) =

0, x < 100, 2, 10 ≤ x < 120, 5, 12 ≤ x < 130, 9, 13 ≤ x < 251, x ≥ 25

Determine:a) A funcao de probilidade de x.b)P (X ≥ 12)c)P (X < 12)d)P (12 ≤ X ≥ 20)e) P (X ≥ 18)

a)

b)P (X ≤ 12) = 0, 5c)P (X < 12) = 0, 2d)P (12 ≤ X ≥ 20) = 0, 7e) P (X ≥ 18) = 0, 1

5.3 Valor esperado e variancia

O valor medio de uma variavel aleatoria discreta e tambem denominadoesperanca ou valor esperado e e definido por:

Page 68: apostilaEB

5 VARIAVEIS ALEATORIAS DISCRETAS 65

Definicao: Dada X uma variavel aleatoria discreta assumindo os val-ores x1, x2, ..., xn, chamamos de valor medio de X ou esperanca matematicao valor:

E(X) =∑n

i=1 xip(xi)

Essa formula para a media nao e nova para nos. Anteriormente, cal-culavamos a media atraves da formula E(X) =

∑ni=1 xifi, com a frequencia

relativa no lugar da probabilidade. Podemos definir entao maneiras semel-hantes para calcular variancia e desvio padrao para as variaveis discretas.

Definicao: Dada X uma variavel aleatoria discreta assumindo os valoresx1, x2, ..., xn, chamamos variancia de X o valor:

var(X) =∑n

i=1(xi − E(X))2p(xi)

Como definimos anteriormente, o desvio padrao e dado por:

dp(X) =√var(X).

Exemplo 7:Para X a variavel aleatoria que descreve o numero de caras obtidas em

dois lancamentos temos:

E(X) =∑3

i=1 xip(xi) = 1.1/2 + 0.1/4 + 2.1/4 = 1

var(X) =∑3

i=1(xi − E(X))2p(xi) = (1 − 1)2.1/2 + (0 −1)2.1/4 + (2− 1)2.1/4 = 0 + 1/4 + 1/4 = 1/2

dp(X) =√

1/2

Exemplo 8:Para X a variavel aleatoria que descreve a face obtida em um lancamento

de um dado, vamos calcular a E(X) e a var(X).

E(X) =∑6

i=1 xip(xi) = 1.1/6 + 2.1/6 + 3.1/6 + 4.1/6 +5.1/6 + 6.1/6 = 7/2

var(X) =∑6

i=1(xi−E(X))2p(xi) = (−5/2)2.1/6+(−3/2)2.1/6+(−1/2)2.1/6 + (5/2)2.1/6 + (3/2)2.1/6 + (1/2)2.1/6 = 35/12

Page 69: apostilaEB

5 VARIAVEIS ALEATORIAS DISCRETAS 66

dp(X) =√

35/12

Propriedades da esperanca e variancia

1) E(aX) = aE(X)2) E(X + c) = E(X) + c3) var(aX) = a2var(X)4) var(X + c) = var(X)5) var(X) = E(X2)− [E(X)]2

Vale ressaltar que para uma variavel aleatoria discreta X com funcao deprobabilidade p(xi), se quisermos a esperanca da variavel Z = h(X) fazemosE(Z) = E(h(x)) =

∑ni=1 h(xi)p(xi).

Exemplo 9:Para X a variavel aleatoria que descreve a face obtida em um lancamento

de um dado, poderıamos ter calculado a var(X) atraves da formula E(X2)−[E(X)]2.

E(X2) = 1.1/6 + 4.1/6 + 9.1/6 + 16.1/6 + 25.1/6 + 36.1/6 = 7/2

Portanto E(X2)− [E(X)]2 = 91/6− 49/4 = 35/12.

Alguns tipos de variaveis aparecem com mais frequencia e por isso re-querem um estudo mais aprofundado. Vamos ver agora os principais modelosde variaveis aleatorias discretas.

Alguns modelos para variaveis aleatorias discretas

5.4 Modelo uniforme discreto

Seja X uma variavel aleatoria discreta cujos possıveis valores sao represen-tados por x1, x2, ..., xk. Dizemos que X segue o modelo uniforme discretocom parametro k, se atribui a mesma probabilidade 1/k a cada um de seusk valores. Isto e, se sua funcao de probabilidade e dada por:

P (X = xi) = 1k

para todo i=1,2,3,...,k.

Obs: No modelo uniforme a probabilidade esta uniformemente distribuidaentre os valores que a variavel assume.

Page 70: apostilaEB

5 VARIAVEIS ALEATORIAS DISCRETAS 67

Exemplo 10:

Uma rifa tem 10 bilhetes numerados de 1 a 10. Supondo que todos osbilhetes tem iguais probabilidades de serem sorteados, definimos X: numerodo bilhete sorteado. Um modelo para X e o modelo uniforme com k=10. Afuncao de probabilidade se X e:

Funcao de distribuicao acumulada de uma variavel aleatoriauniforme

Como a funcao de probabilidade e dada por P (xi) = 1/k para todoi=1,2,...,k temos que a funcao de distribuicao e dada por:

F (x) =∑

xi≤x 1/k

Esperanca e variancia

Se X segue o modelo uniforme com parametro k entao:

E(X) =∑k

i=1 xi.1/k

var(X) = E(X2)−[E(X)]2 = (∑k

i=1 x2i ).1/k−(

∑ki=1 xi)

2.1/k2

Exemplo 11:

Usando o exemplo anterior temos a seguinte funcao de distribuicao:

F (x) =∑

x≤k 1/10 =

0, x < 11/10, 1 ≤ x < 22/10, 2 ≤ x < 33/10, 3 ≤ x < 44/10, 4 ≤ x < 5...1, x ≥ 10

Page 71: apostilaEB

5 VARIAVEIS ALEATORIAS DISCRETAS 68

A esperanca e variancia de X sao dadas por:

E(X) =∑10

i=1 xi.1/10 = 55/10 = 5, 5

var(X) = E(X2) − [E(X)]2 = (∑10

i=1 x2i ).1/10 − (5, 5)2 =

38, 5− 30, 25 = 8, 25

5.5 Modelo Bernoulli

Quando em um experimento temos resultados do tipo sucesso ou fracasso,defeituoso ou nao defeituoso, resultados que chamamos de dicotomicos, istoe, quando estamos observando se uma determinada caracterıstica foi ou naoobservada no experimento, podemos usar o modelo Bernoulli. Por exemplo:

. Lancamento de uma moeda, observamos a ocorrencia de cara.

. Selecionamos uma peca de um lote com pecas defeituosas e perfeitas eobservamos se a peca e perfeita.

. Um dado e lancado e observamos se saiu face 5.

. Uma pessoa e selecionada de um grupo com 100 pessoas saudavei edoentes e e observado se a pessoa esta saudavel.

A esses experimentos damos o nome de ensaios de Bernoulli.

Modelo Bernoulli

Dizemos que uma variavel X segue o modelo Bernoulli com parametro p,se assume apenas os valores 0 ou 1 (associados respectivamente a ocorrenciade sucesso ou fracasso) e sua funcao de probabilidade e dada por:

P(X=1) = pP(X=0) = 1-p

ou de modo resumido

Page 72: apostilaEB

5 VARIAVEIS ALEATORIAS DISCRETAS 69

P (X = x) = px(1− p)1−x x=0,1.

Notacao : X ∼ Bernoulli(p), onde p e o parametro, que e a probabili-dade de sucesso.

Se X ∼ Bernoulli(p) entao:E(X) =

∑x=0,1 x.p(x) = 0(1− p) + 1.p = p

var(X) = E(X2)− [E(X)]2 = 02(1− p) + 12p− p2 = p(1− p)

A funcao de distribuicao e dada por:

F (x) =

0, x < 01− p, 0 ≤ x < 11, x ≥ 1

Exemplo 12:

Lancando uma moeda, observamos a ocorrencia de cara. Definindo sucessocomo a ocorrencia de cara e fracasso como a ocorrencia de coroa temos:

X =

0, se cara1, se coroa

entao P (X = x) = px(1− p)1−x com p = 1/2 temos

P (x) =

1/2, x = 01/2, x = 1

5.6 Modelo Binomial

Agora imaginamos que repetimos um ensaio de Bernoulli n vezes de maneiraindependente entao a variavel aleatoria X que conta o numero de sucessosnesses n ensaios Bernoulli e uma variavel aleatoria que segue o modelo Bino-mial. Antes de definir a funcao de probabilidade para o modelo, vamos verum exemplo:

Exemplo 13:Sabe-se que a eficiencia de uma vacina e de 80 por cento. Se um grupo

de 3 indivıduos e sorteado dentre a populacao vacinada, qual e a funcao deprobabilidade da variavel que descreve o numero de indivıduos imunizadosneste grupo?

Se a imunizacao em cada um dos indivıduos e independente dos outrosindivıduos da populacao, entao para cada um dos 3 indivıduos escolhidos

Page 73: apostilaEB

5 VARIAVEIS ALEATORIAS DISCRETAS 70

temos a probabilidade de 0,8 de estar imunizado e 0,2 de nao estar imunizado.Para cada indivıduo temos um ensaio Bernoulli com parametro 0,8.

Para X a variavel que descreve o numero de indivıduos imunizados temosos valores possıveis:

X=0,1,2,3.

A probabilidade de X=0, 1,2 ou 3 e igual a probabilidade de selecionar0,1,2 ou 3 indivıduos imunizados.

As selecoes possıveis sao:

selecao X P(X=k)III 3 0, 83

IINI 2 0, 82.0, 2INII 2 0, 82.0, 2

ININI 1 0, 8.0, 22

NIII 2 0, 82.0, 2NIINI 1 0, 8.0, 22

NINII 1 0, 8.0, 22

NININI 0 0, 23

Entao a funcao de probabilidade e dada por:

Podemos resumir a funcao de probabilidade para X por:P (X = k) = C3

k(0, 8)k(0, 2)3−k k = 0, 1, 2, 3

Definicao do modelo Binomial

Page 74: apostilaEB

5 VARIAVEIS ALEATORIAS DISCRETAS 71

Considere a repeticao de n ensaios Bernoulli, independentes e todos coma mesma probabilidade de sucesso p. A variavel aleatoria que conta o numerototal de sucessos segue o modelo binomial com parametros n e p e, sua funcaode probabilidade e dada por:

P (X = k) = Cnk p

k(1− p)n−k k = 0, 1, 2, ..., n.

ja que Cnk e o numero de sequencias diferentes com k sucessos e n-k fra-

cassos e pk(1− p)n−k e a probabilidade de cada sequencia.

Notacao: X ∼ B(n, p)

O nome da distribuicao e derivado da expansao binomial:

(a+ b)n =∑n

k=0 Cnk a

kbn−k

Representando X = X1 + X2 + X3 + ... + Xn onde Xi representa cadaensaio Bernoulli e X a variavel aleatoria Binomial. Podemos verificar que:

E(X) = E(X1) + E(X2) + E(X3) + ...+ E(Xn) = npvar(X) = var(X1) + var(X2) + var(X3) + ...+ var(Xn) = np(1− p)

Exemplo 14:A taxa de imunizacao de uma vacina e de 80 por cento. Se um grupo de

20 pessoas foram vacinadas. Queremos saber qual e o numero esperado depessoas imunizadas.

Se definirmos X = numero de pessoas imunizadas no grupo. Temos que Xsegue o modelo binomial com parametros 20 e 0,8. Portanto E(X)=20.0,8=16.

Exemplo 15:Suponha que selecionamos uma amostra com 10 pecas de um lote em que

a probabilidade de cada peca ser defeituosa e de 0,2. Defina um modelo parao numero de pecas defeituosas na amostra e de o numero esperado de pecasdefeituosas.

O modelo para X=numero de pecas defeituosas na amostra eX ∼ B(10, 0.2).A funcao de probabilidade para X:P (X = k) = C10

k (0.2)k(0.8)10−k, k = 0, 1, 2, 3, ..., 10

E(X)=n.p=10.0,2=2.

Page 75: apostilaEB

5 VARIAVEIS ALEATORIAS DISCRETAS 72

5.7 Modelo Poisson

Dizemos que uma variavel aleatoria X tem distribuicao Poisson com parametroλ, λ > 0 se sua funcao de probabilidade for a seguinte:

P (X = k) =

e−λλk

k!, k = 0, 1, 2, ...

0, caso contrario

Notacao:X Poisson(λ)

Podemos calcular E(X) e var(X).

E(X) =∑∞

k=0 kP (X = k) =∑∞

k=1ke−λλk

k!= λ

∑∞k=1

ke−λλk−1

(k−1)!= λ

∑∞y=0

ke−λλy

y!=

λ

Para calcular var(X) vamos primeiramente calcular primeiramente

E(X(X − 1)) =∑∞

k=2k(k−1)e−λλk

k!=∑∞

k=2e−λλk

(k−2)!= λ2

∑∞y=0

e−λλy

y!= λ2

Portanto E(X2)− E(X) = λ2 ⇒ E(X2) = λ2 + λ ⇒var(X) = E(X2)− (E(X))2 = λ2 + λ− λ2 = λ

Exemplo 16:O numero de mensagens recebidas por minuto por um provedor em horario

comercial foi modelado por uma variavel Poisson com taxa 15. De a funcaode probabilidade e o numero esperado de mensagens recebidas.

P (X = k) =

e−1515k

k!, k = 0, 1, 2, 3, ...

0, caso contrarioE(X) = 15

O modelo Poisson e muito utilizado quando desejamos contar o numerode eventos de certo tipo que ocorrem num determinado intervalo de tempo.Por exemplo:

1) O numero de chamadas telefonicas recebidas em 5 minutos.2) O numero de falhas em um computador em 1 dia.3) O numero de relatorios de acidentes em 1 dia de trabalho.

Exemplo 17:Se o numero de chamadas telefonicas recebidas por uma central telefonica

pode ser modelada por uma variavel aleatoria Poisson com media 5, qual e

Page 76: apostilaEB

5 VARIAVEIS ALEATORIAS DISCRETAS 73

a probabilidade de que a central nao receba ligacoes em 1 minuto?

P (N = 0) = 50e−5

0!= e−5

Qual e a media (numero esperado de ligacoes recebidas) em 4 minutos?Qual e a probabilidade de a central nao receber ligacoes em 4 minutos?

Para Y; Numero de ligacoes recebidas em 4 minutos temos:E(Y ) = 20P (Y = 0) = 200e−20

0!= e−20

Page 77: apostilaEB

5 VARIAVEIS ALEATORIAS DISCRETAS 74

5.8 Exercıcios - lista 06

Questao 1Para uma determinada moeda, a probabilidade de se obter cara e tres

vezes maior que a de se obter coroa. Lancamos essa moeda 3 vezes e onumero de caras e observado. Para X, a variavel aleatoria que descreve onumero de caras, estabeleca a funcao de probabilidade e de distribuicao econstrua os graficos correspondentes.

Questao 2Extraımos duas bolas sem reposicao de uma urna contendo duas bolas

brancas e tres vermelhas. Definimos X, a variavel aleatoria que descreve onumero de bolas vermelhas obtidas nas duas extracoes. Construa a funcaode probabilidade e de distribuicao para X e os respectivos graficos.

Questao 3Para a variavel aleatoria X com a funcao de probabilidade abaixo.

• a) Calcule P(X=-2).

• b) Para a variavel Y = X2 encontre a funcao de probabilidade e afuncao de distribuicao de Y.

Questao 4Encontre a media e variancia para as variaveis das questoes 1 e 2 acima.Questao 5Suponha que uma variavel aleatoria tem a seguinte funcao de probabili-

dade:

Page 78: apostilaEB

5 VARIAVEIS ALEATORIAS DISCRETAS 75

Encontre a esperanca e a variancia de X.Questao 6A funcao de distribuicao para uma variavel aleatoria X e dada por:

• a) Qual e a funcao de probabilidade de X?

• b) Calcule P(−5 ≤ X < 15).

• b) Calcule P(X > 10).

Questao 7Um caminho para se chegar a uma festa pode ser dividido em tres etapas.

Se nao houver enganos o trajeto e feito em 1 hora. Se enganos acontecemna primeira etapa demoramos 10 minutos a mais para chegar a festa. Para asegunda etapa o acrescimo e de 20 minutos e para a terceira e de 30 minutos.Admita que a probabilidade de se cometer engano na primeira etapa e 0,1.Na segunda etapa e 0,2 e, na terceira etapa e 0,3. Admita tambem que osenganos podem acontecer em uma etapa ou mais. Determine:

• a) A funcao de probabilidade para o tempo de atraso.

• b) O tempo medio de atraso.

• b) A probabilidade do atraso ser de ate 40 minutos.

Questao 8Seja X uma variavel seguindo o modelo uniforme discreto com valores no

conjunto 1, 2, 3, ..., 10. Determine:

• a) P(X ≥ 7).

• b) P(X < 2 ou X ≥ 8).

• b) P(X > 3 e X < 6).

Page 79: apostilaEB

5 VARIAVEIS ALEATORIAS DISCRETAS 76

• d) P(X ≤ 9 | X ≥ 6).

Questao 9Um fabricante de pecas de automoveis garante que uma caixa de suas

pecas contera no maximo duas pecas defeitusos. Se o processo de fabricacaoproduz 5 por cento das pecas defeituosas e, se cada caixa contem 18 pecas,qual e a probabilidade de que a uma caixa satisfaca a garantia?

Questao 10Um curso de treinamento aumenta a produtividade em 80 por cento dos

casos. Para um grupo de 10 funcionarios que participaram desse curso en-contre a probabilidade:

• a) De sete funcionerios aumentarem a produtividade.

• b) Pelo menos dois funcionarios terem aumentado a produtividade.

• c) Qual e a media do numero de funcionarios que aumentam a produ-tividade?

Questao 11Uma variavel aleatoria Y segue o modelo Poisson com parametro λ = 2.

Calcule:

• a) P(Y=1).

• b) P(Y<2).

• b) P(Y>0).

Questao 12Numa central telefonica, o numero de chamadas chega segundo uma dis-

tribuicao Poisson com media de 8 chamadas por minuto. Calcule a probabil-idade de a central:

• a) Nao receber ligacoes em 1 minuto.

• b) Nao receber ligacoes em 5 minutos.

• c) Receber no maximo 2 chamadas em 5 minutos.

• d) Qual o numero medio de chamadas recebidas em 15 minutos.

Questao 13A chegada de avioes a um aeroporto se da segundo um modelo poisson

com taxa 1 por minuto.

Page 80: apostilaEB

5 VARIAVEIS ALEATORIAS DISCRETAS 77

• a) Determine a probabilidade de chegarem 3 avioes em um minuto.

• b) Se o aeroporto pode atender 2 avioes por minuto, qual e a probabil-idade de haver avioes sem atendimento imediato?

• c) As previsoes para os proximos anos indicam que o trafego deve dobrarnesse aeroporto, enquanto que a capacidade de atendimento pode serampliada em no maximo 50 por cento. Como ficara a probabilidade deespera por atendimento?

Page 81: apostilaEB

6 VARIAVEIS ALEATORIAS CONTINUAS 78

6 Variaveis aleatorias contınuas

Agora iremos estudar modelos probabilısticos para variaveis aleatoriascontınuas ou seja variaveis para as quais os valores possıveis pertencem a umintervalo de numeros reais. Por exemplo, renda, salario, tempo de duracaode um experimento, area atingida por uma praga agrıcola, sao quantidadesque podem ser modeladas por variaveis aleatorias contınuas.

De forma semelhante aquela desenvolvida para variaveis aleatorias disc-retas precisamos estabelecer probabilidades para as variaveis contınuas. Noentanto, agora as variaveis podem assumir um numero infinito de valoresdiferentes.

Vamos ver um exemplo de como podemos atribuir probabilidades parauma variavel contınua.

Exemplo 1:

Suponha que em uma determinada regiao, e conhecida a existencia de umgrande lencol de agua no subsolo. No entanto, sua profundidade e descon-hecida sabendo-se apenas que se situa entre 20 e 100 metros.

Denotando por X a profundidade em que o lencol esta situado, temosque X pode ser qualquer numero entre 20 e 100. Assim consideramos quetodos os pontos entre 20 e 100 sao igualmente provaveis, mas se utilizarmosa mesma ideia das variaveis discretas de atribuir a cada valor possıvel umaprobabilidade teremos uma dificuldade extra pois existem infinitos valorespossıveis. Desta forma, se a cada um dos valores possıveis atribuirmos umaprobabilidade, a soma das probabilidades sera infinita e nao 1, como devesatisfazer a funcao de probabilidade.

Em situacoes como essas, nao e de interesse considerar apenas 1 valor paraa variavel aleatoria mas, intervalos de valores na atribuicao de probabilidades.

Nesse caso, sabemos que o espaco amostral corresponde ao intervalo[20,100] e as profundidades sao igualmente provaveis.

Suponha que dividimos o intervalo em 8 partes de comprimento 10 entao,e razoavel atribuir a cada uma dessas partes uma probabilidade de 1/8 jaque devemos distribuir a probabilidade 1 da mesma maneira para cada umdos intervalos.

Se dividirmos o intervalo em 80 partes de comprimento igual a 1 entaodevemos atribuir a cada uma dessas partes uma probabilidade de 1/80. Dessamaneira podemos atribuir probabilidades a qualquer subconjunto de [20,100].

Assim como a densidade de massa nos diz como distribuir massa em cadaunidade do volume considerado, a densidade de probabilidade nos diz comoe possıvel distribuir o total de probabilidade 1, em cada unidade do intervalo

Page 82: apostilaEB

6 VARIAVEIS ALEATORIAS CONTINUAS 79

considerado como espaco amostral.No exemplo acima, a densidade de probabilidade e 1/80. Podemos cal-

cular por exemplo, a probabilidade de encontrar agua entre 20 e 40 metrosmultiplicando 20 por 1/80, analogamente entre 35 e 50 metros temos a prob-abilidade de 15/80. De forma geral, podemos calcular a probabilidade deencontrar agua em qualquer trecho atraves da area sobre a de densidade:

Agora podemos caracterizar a atribuicao de probabilidades no caso contınuo.Ela sera definida pela area abaixo de uma funcao positiva denominada funcaode densidade de probabilidade. A funcao de densidade em si nao e uma prob-abilidade mas nos auxilia no calculo das probabilidades.

Para a variavel do exemplo anterior, X representando a profundidade dolencol de agua, temos a seguinte funcao de densidade de probabilidade:

f(x) =

1/80, 20 ≤ X ≤ 1000, caso contrario

Dessa forma podemos calcular a probabilidade do lencol estar localizadoem um dado intervalo de profundidade. Por exemplo P (25 ≤ X ≤ 30) =5/80.

6.1 Funcao de densidade de probabilidade

Podemos formalizar as ideias anteriores atraves da seguinte definicao:

Definicao: funcao de densidade de probabilidade

Dizemos que f(x) e uma funcao de densidade de densidade de probabili-dade para uma variavel aleatoria X contınua se satisfaz:

• (i) f(x) ≥ 0 para x ∈ (−∞,∞)

• (ii) A area definida por f(x) e igual a 1.

Podemos caracterizar a condicao (ii) por∫∞−∞ f(x)dx = 1.

Page 83: apostilaEB

6 VARIAVEIS ALEATORIAS CONTINUAS 80

Da mesma forma, para calcular probabilidades temos para a ≤ b:

P (a ≤ X ≤ B) =∫ baf(x)dx

A integral acima indica a area sob a funcao de densidade f(x) no intervalo[a,b]. Pela forma como atribuımos as probabilidades temos P (X = k) = 0 jaque temos area zero sobre qualquer valor individual de X, portanto, a prob-abilidade de ocorrencia de um valor

Exemplo 2:Se uma reacao quımica tem o tempo T modelado por uma funcao contınua

com funcao de densidade:

f(t) =

2t, 0 ≤ t ≤ 10, caso contrario

Calcule a P (0 ≤ T ≤ 1/2)

P (0 ≤ T ≤ 1/2) =∫ 1/2

02tdt = t2 |1/20 = 1/4.

Exemplo 3:A area atingida por uma praga e uma variavel aleatoria contınua com

funcao de densidade de probabilidade dada por:

f(x) =

1/4, 0 ≤ x < 21/8, 2 ≤ x ≤ 60, caso contrario

Determine:

Page 84: apostilaEB

6 VARIAVEIS ALEATORIAS CONTINUAS 81

• a) P (X > 3)

• b) P (1 < X ≤ 4)

• c) P (X < 3|X > 1)

• a) P (X > 3) =∫ 6

31/8dx = 3/8

• b) P (1 < X ≤ 4) =∫ 2

11/4dx+

∫ 4

21/8dx = 1/4 + 2/8 = 1/2

• c) P (X < 3|X > 1) = P (1≤X<3)P (X≥1)

=∫ 21 1/4dx+

∫ 32 1/8dx∫ 2

1 1/4dx+∫ 62 1/8dx

= 3/86/8

= 1/2

Exemplo 4:Determine c tal que f(x) seja uma funcao de densidade:

f(x) =

0, x < 0cx, 0 ≤ x < 1/2c(1− x), 1/2 ≤ x < 10, x ≥ 1

Para que f(x) seja uma funcao de densidade devemos ter:

• (i) f(x) ≥ 0

• (ii)∫∞−∞ f(x)dx = 1

Para c ≥ 0 (i) vale.

Para que (ii) aconteca devemos ter:∫ 1/2

0cxdx +

∫ 1

1/2c(1 − x)dx = 1

⇒ cx2

2|1/20 +c[x− x2

2] |11/2= 1 ⇒ c/8 + c/8 = 1 ⇒ c = 4

6.2 Funcao de distribuicao acumulada

Dada uma variavel aleatoria X com funcao de densidade de probabi lidadef(x), podemos definir a funcao de distribuicao F(x) de maneira analoga a quefizemos para as variaveis discretas:

F (x) =∫ x−∞ f(t)dt, −∞ < x <∞

Portanto, F (x) =∫ x−∞ f(t)dt, para todo x real.

Page 85: apostilaEB

6 VARIAVEIS ALEATORIAS CONTINUAS 82

Exemplo 5:Para a variavel com funcao de densidade estudada no exemplo 2,

f(t) =

2t, 0 ≤ t ≤ 10, caso contrario

temos a seguinte funcao de distribuicao

F (t) =

0, t < 0∫ t

02xdx, 0 ≤ t ≤ 1∫ 1

02xdx+

∫ t0

0dx, t > 1

entao

F (t) =

0, t < 0t2, 0 ≤ t ≤ 11, t > 1

Exemplo 6:Para a funcao de densidade definida no exemplo 3:

f(x) =

1/4, 0 ≤ x < 21/8, 2 ≤ x ≤ 60, caso contrario

temos a seguinte funcao de distribuicao:

F (x) =

0, x < 0∫ x

01/4dt = x/4, 0 ≤ x < 2∫ 2

01/4dt+

∫ x0

1/8dt = 1/4 + x/8, 2 ≤ x ≤ 61, x ≤ 6

Page 86: apostilaEB

6 VARIAVEIS ALEATORIAS CONTINUAS 83

Propriedades da funcao acumulada

• (i) 0 ≤ F (x) ≤ 1

• (ii) limx→−∞F (x) = 0

• (iii) limx→∞F (x) = 1

Proposicao: Para os valores de x para os quais F(x) e derivavel temos:

F ′(x) = dF (x)dx

= f(x)

Exemplo 7:Suponha que X seja uma variavel aleatoria contınua com a seguin te

funcao de distribuicao acumulada:

F (x) =

0, x < 01− e−x, se x ≥ 0

Construa a funcao de densidade para a variavel X.De acordo com a proposicao acima temos:

f(x) =

0, x < 0e−x, se x > 0

Exemplo 8:Seja X uma variavel aleatoria contınua com funcao de distribuicao dada

por:

Page 87: apostilaEB

6 VARIAVEIS ALEATORIAS CONTINUAS 84

F (x) =

0, x < 0x2, 0 ≤ x < 1/23x/2− 1/2, 1/2 ≤ x < 11, se x ≥ 1

Construa a funcao de densidade.Temos

f(x) =

2x, 0 ≤ x < 1/23/2, 1/2 ≤ x ≤ 10, caso contrario

6.3 Media e variancia para variaveis aleatorias contınuas

Quando X era uma variavel aleatoria discreta, calculavamos

E(X) =∑n

i=1 xip(xi).Agora, para X uma variavel contınua vamos usar uma generalizacao desta

definicao.Suponha que X seja uma variavel contınua definida no intervalo [a,b]

como na figura abaixo. Vamos discretizar a variavel X e calcular a esperancaatraves de um processo de limite.

Page 88: apostilaEB

6 VARIAVEIS ALEATORIAS CONTINUAS 85

Denotemos por Y uma variavel aleatoria discreta que assume os valores x1,x2,..., xn com probabilidades aproximadamente hf(x1), hf(x2),..., hf(xn).Pela definicao de esperanca de variavel discreta temos:

E(Y ) =∑n

i=1 xihf(xi)

que sera uma aproximacao para a esperanca de X. Para melhorar essaaproximacao, aumentamos o numero de parcelas diminuindo a amplitude h.No limite teremos:

E(x) = limn⇒∞E(Y ) = limn⇒∞∑n

i=1 xif(xi)h =∫ baxf(x)dx.

Notacao: E(X) = µ =∫∞−∞ xf(x)dx

Variancia

Para X uma variavel aleatoria contınua com densidade de probabilidadef(x), a variancia e definida por:

σ2 =∫∞−∞(x− µ)2f(x)dx

Como no caso discreto, a variancia e a medida de dispersao mais utilizadana pratica. Aqui tambem podemos utilizar a expressao que utilizamos comas variaveis discretas:

σ2 = E(X2)− µ2

onde E(X2) =∫∞−∞ x

2f(x)dx.

O desvio padrao tambem e calculado da mesma forma dp(X) =√var(X) =

σ.

Exemplo 9:Vamos calcular a esperanca e variancia para a variavel X dada no exemplo

2.A funcao de densidade de X era:

f(x) =

2x, 0 ≤ x < 10, caso contrario

Portanto a esperanca e dada por E(X) =∫ 1

0x2xdx = 2x3

3|10= 2/3.

E a variancia var(X) = E(X2) − E(X)2 = E(X2) − 4/9 mas E(X2) =∫ 1

0x22xdx = 2x4

4|10= 2/4

entao

Page 89: apostilaEB

6 VARIAVEIS ALEATORIAS CONTINUAS 86

var(X) = 1/2− 4/9 = 1/18 e dp(X) =√

1/18.

Exemplo 10:No exemplo 3, a variavel X contınua tinha a seguinte funcao de densidade:

f(x) =

1/4, 0 ≤ x < 21/8, 2 ≤ x ≤ 60, caso contrario

A esperanca e dada por:E(X) =

∫ 2

0x1/4dx+

∫ 6

2x1/8dx = x3

12|20 +x3

24|62= 8

12+ 208

24= 224

24

E a variancia e o desvio padrao var(X) = E(X2) − E(X)2 = 224/24 −25/4 = 74/24, dp(X) =

√37/12.

Alguns modelos para variaveis aleatorias contınuas

Alguns exemplos de variaveis aleatorias contınuas estao relacionados aalgum processo de mensuracao, por exemplo: peso, altura, tempo de vida deuma lampada, erros de medidas em experimentos.

Em muitos casos podemos usar modelos especıficos para modelar as variaveisem estudo. Agora vamos estudar os modelos mais frequentes para as variaveisaleatorias contınuas. Para cada um deles, estaremos interessados em determi-nar a funcao de densidade, a funcao de distribuicao, a esperanca e a variancia.

6.4 Modelo uniforme contınuo

O modelo uniforme e o modelo mais simples para as variaveis contınuas, elee uma generalizacao do modelo uniforme que estuda mos para variaveis disc-retas.

Definicao:Uma variavel aleatoria X segue o modelo uniforme contınuo no intervalo

[a,b] se sua funcao de densidade de probabilidade e dada por:

f(x) =

1/(b− a), a ≤ x ≤ b0, caso contrario

Notacao: X ∼ U [a, b]. Nao ha restricoes para a, b ∈ R exceto o fato dea < b.

Page 90: apostilaEB

6 VARIAVEIS ALEATORIAS CONTINUAS 87

O modelo uniforme pressupoe que a probabilidade da variavel pertencera intervalos de mesmo comprimento e igual.

O valor esperado e a variancia sao dados por:

E(X) =∫∞−∞ xf(x)dx =

∫ bax 1

(b−a)dx = 1

(b−a)

∫ baxdx = 1

(b−a)x2

2|ba= b2−a2

2(b−a)=

b+a2

var(X) = E(X2)− E(X)2 = E(X2)− ( b+a2

)2

Vamos calcular E(X2).

E(X2) =∫ bax2 1

(b−a)dx = x3

3(b−a)|ba= b3−a3

3(b−a)= (b−a)(b2+ab+a2)

3(b−a)= b2+ab+a2

3

Portanto, var(X) = b2+ab+a2

3− (b2+2ab+a2)

4= 4b2+4ab+4a2

12− (3b2+6ab+3a2)

12=

(b2−2ab+a2)12

= (b−a)2

12.

A funcao de distribuicao e dada por:

F (x) = P (X ≤ x) =∫ x−∞ f(x)dx =

0, x < a(x− a)/(b− a), a ≤ x < b1, x ≥ b

Exemplo 1:Suponha que estamos interessados em inspecionar a resistencia de um

tubo de PVC a pressao de agua. O tubo tem 6 metros e a probabilidadede ocorrer vazamento em um determinado ponto e a mesma para todos ospontos do tubo. Fixemos uma extremidade do tubo e denotemos por X adistancia do primeiro furo a essa extremidade. Entao X pode ser modeladapor uma uniforme no intervalo [0,6].

Page 91: apostilaEB

6 VARIAVEIS ALEATORIAS CONTINUAS 88

X ∼ U [0, 6]

f(x) =

1/6, 0 ≤ x ≤ 60, caso contrario

A distancia esperada para a ocorrencia do primeiro furo e E(X) = (b+a)2

=6/2 = 3.

e a variancia e var(X) = (b−a)2

12= 36

12= 3

A funcao de distribuicao e dada por:

F (x) =

0, x < 0x/6, 0 ≤ x < 61, x ≥ 6

Podemos atraves da funcao de distribuicao, calcular a probabilidade dofuro acontecer a uma distancia menor que dois metros ou maior que 4 metros.

Queremos P (X < 2 ∪ X > 4) = P (X < 2) + P (X > 4) = P (X <2) + (1− P (X ≤ 4)) = 1/3 + 1− 2/3 = 2/3.

6.5 Modelo exponencial

Uma variavel aleatoria contınua, assumindo valores nao negativos segue omodelo exponencial com parametro α > 0 se sua densidade e dada por:

f(x) =

αe−αx, x ≤ 00, caso contrario

Notacao: X ∼ exp(α)

Page 92: apostilaEB

6 VARIAVEIS ALEATORIAS CONTINUAS 89

A funcao de distribuicao para X e dada por:

F (x) =

0, x < 0∫ x

0αe−αtdt = −e−αt |x0= (1− e−αx), x ≥ 0

A esperanca e a variancia sao calculadas atraves de uma tecnica de inte-gracao conhacida como integracao por partes e resultam em:

E(X) = 1α

var(X) = 1α2

O modelo exponencial e muito utilizado em experimentos nos quais o ob-jetivo e calcular a vida util de equipamentos, tempos de falha, tempos desobrevivencia etc.

Exemplo 2:Uma industria fabrica lampadas que ficam em operacao continuamente e

oferece a seus clientes a garantia de reposicao se elas durarem menos que 50horas. Sabendo que a vida util dessas lampadas e modelada por uma expo-nencial com parametro (1/8000). Determine a probabilidade de um lampadaser trocada e o tempo esperado de duracao de uma lampada.

Se X ∼ exp(1/8000) entao sua funcao de densidade a dada por:

f(x) =

1/8000e−x/8000, x ≤ 00, caso contrario

Para uma lampada ser trocada ele deve durar menos de 50 horas. Entaoa probabilidade de haver troca e:

P (X < 50) =∫ 50

01/8000e−x/8000dx = −e−x/8000 |50

0 = 1− e−5/800 =

1− e−1/160

E o tempo esperado de duracao e:

E(X) = 8000 horas.

Page 93: apostilaEB

6 VARIAVEIS ALEATORIAS CONTINUAS 90

Uma propriedade importante da exponencial e a falta de memoria. Issoquer dizer que se quisermos calcular a probabilidade de uma lampada durarum tempo maior ou igual a 7 horas sabendo que ela durou pelo menos 5 horaspodemos calcular a probabilidade da lampada durar pelo menos 2 horas. Issoequivale a fazer uma translacao no tempo e assumir que a origem do tempoe 5. Vamos fazer as contas e verificar que P (X ≥ 2) = P (X ≥ 7 | X ≥ 5).

P (X ≥ 2) =∫∞

21/8000e−x/8000dx = −e−x/8000 |∞2 = e−2/8000

P (X ≥ 7 | X ≥ 5) = P (X≥7∪X≥5)P (X≥5)

=∫∞7 1/8000e−x/8000dx∫∞5 1/8000e−x/8000dx

= e−7/8000

e−5/8000 =

e−2/8000

De uma forma geral se X ∼ exp(α) temos:

P (X ≥ t + s | X ≥ s) = P (X≥t+s∪X≥s)P (X≥s) =

∫∞t+s αe

αdx∫∞s αe−αdx

= e−α(t+s)

e−αs= e−αt =

P (X ≥ t)

Podemos fazer a seguinte interpretacao para a falta de memoria:Supondo que X representa o tempo de vida (em anos) de um equipamento

e X ∼ exp(α), a probabilidade do equipamento durar pelo menos t+s anossabendo que ele ja durou s anos e igual a probabi lidade de um equipamentonovo durar pelo menos t anos. Isso significa que podemos ”esquecer” a idadedo equipamento, o que importa para o calculo das probabilidades sao quantosanos queremos que ele dure.

6.6 Modelo Normal

Dizemos que uma variavel aleatoria contınua X segue o modelo normal comparametros µ e σ2 se sua funcao de densidade e dada por:

f(x) = 1√2πσ2

e−(x−µ)2

2σ2 , −∞ < x <∞

Notacao: X ∼ N(µ, σ2)

Page 94: apostilaEB

6 VARIAVEIS ALEATORIAS CONTINUAS 91

Podemos observar as seguintes propriedades:

• (i) f(x) e simetrica com relacao a µ.

• (ii) f(x)→ 0 quando x→+− ∞.

• (iii) O valor maximo de f(x) ocorre para x = µ.

Quando µ = 0 e σ2 = 1, dizemos que X e normal padrao. Os parametrosµ e σ2 descrevem o perfil da curva da normal, µ e o ponto de simetria e σ2

nos diz o quanto achatada e a curva, um valor maior de σ2 nos da uma curvamais achatada, com ”caudas” mais grossas.

Atraves de algumas manipulacoes utilizando a tecnica de integracao con-hecida por integral por partes, podemos calcular a esperanca e a varianciade uma variavel aleatoria com X distribuicao normal com parametros µ e σ2:

E(X) = µvar(X) = σ2

Para construir a funcao de distribuicao e calcular as probabilidades pre-cisamos calcular integrais:

P (a ≤ X ≤ b) =∫ ba

1√2πσ2

e−(x−µ)2

2σ2 dx

Mas a integral acima nao pode ser calculada analiticamente, apenas pormetodos numericos, por essa razao, as probabilidades da normal sao calcu-ladas atraves de uma tabela. Para evitar a construcao de varias tabelas, umapara cada valor de µ e σ2, utilizamos uma transformacao que sempre nos levaao calculo de probabilidades em uma normal com µ = 0 e σ2 = 1. A esseprocedimento damos o nome de padronizacao.

Vamos descrever esse procedimento:Considere X ∼ N(µ, σ2), definimos uma nova variavel Z = X−µ

σ, vamos

verificar que Z ∼ N(0, 1).

E(Z) = E(x−µσ

) = E(xσ− µ

σ) = 1

σE(X)− µ

σ= µ

σ− µ

σ= 0

var(Z) = var(x−µσ

) = var(xσ− µ

σ) = 1

σ2var(X) = σ2

σ2 = 1

Alem disso, podemos verificar que essa transformacao nao afeta a nor-malidade. Dessa forma:

Z ∼ N(0, 1)

Page 95: apostilaEB

6 VARIAVEIS ALEATORIAS CONTINUAS 92

Dizemos que Z tem distribuicao normal padrao e podemos calcularP (Z ≤ z) = Φ(z) atraves da tabela. Entao, para uma variavel X ∼ N(µ, σ2),podemos calcular probabi lidades P (a ≤ X ≤ b) fazendo uma transformacaoX → Z para usar a tabela da normal padrao. O procedimento e o seguinte:

P (a ≤ X ≤ b) = P (a−µσ≤ X−µ

σ≤ b−µ

σ) = P (a−µ

σ≤ Z ≤ b−µ

σ)

Exemplo 3:Calcule P (2 < X < 5) para X ∼ N(2, 9).Se X ∼ N(2, 9) devemos padronizar X para calcular a probabilidade de-

sejada atraves da tabela da normal padrao.

P (2 < X < 5) = P (2−23< X−2

3< 5−2

3) = P (0 < Z < 1) = 0, 8413−0, 5 =

0, 3413

Atraves da padronizacao transformamos a variavel X na variavel Z nor-mal padrao. Ao fazer isso identificamos o intervalo correspon dente ao (2,5)na normal padrao, isto e, calcular a probabilidade de X pertencer ao inter-valo (2,5) onde X ∼ N(2, 9) e equivalente a calcular a probabilidade de Zpertencer ao intervalo (0,1), onde Z ∼ N(0, 1).

Vamos calcular P (0 ≤ X < 2).P (0 ≤ X < 2) = P (0−2

3≤ X−2

3< 2−2

3) = P (−2

3≤ Z < 0) = P (0 ≤ Z <

23) = 0, 7486− 0, 5 = 0, 2486

Podemos ainda calcular a probabilidade em intervalos com extremos neg-ativos na normal padrao utilizando os correspondentes intervalos da partepositiva, pela simetria da distribuicao normal. Segue da simetria da normalpadrao que a probabilidade de ocorrer valores acima ou abaixo de zero e 0,5.

Um outro recurso importante no uso da tabela e a utilizacao do comple-mentar.

Para X definida no exemplo acima vamos calcular P (X > 3).

Page 96: apostilaEB

6 VARIAVEIS ALEATORIAS CONTINUAS 93

P (X > 3) = P (X−23

> 3−23

) = P (Z > 13) = 1−P (Z ≤ 1

3) = 1− 0, 6293 =

0, 3707

A tabela da normal padrao pode tambem ser utilizada no sentido inverso,isto e, podemos dar uma probabilidade e descobrir qual o valor que a origi-nou. Por exemplo, para Z ∼ N(0, 1), desejamos saber qual e o valor c tal que:

P (0 < Z < c) = 0, 4

Procurando na tabela, vemos que o valor que mais se aproxima de c e1,28.

Um outro exemplo neste sentido:Suponha que desejamos descobrir o valor de d tal que P (Z > d) = 0, 8Primeiramente verificamos que d tem que ser negativo pois a probabili-

dade deixada a direita de d e maior que 1/2. Pela simetria da normal, bastaencontrar k tal que P (0 < Z < k) = 0, 3 e fazer d=-k.

Pela tabela k=0,84. Portanto d=-0,84.

Exemplo 4:Doentes sofrendo uma certa molestia sao submetidos a um tratamento

e o tempo de cura e uma variavel aleatoria normal com media 15 e desviopadrao 2 (em dias). Determine:

• a) Qual a proporcao desses pacientes que demora mais de 17 dias parase curar?

• b) Qual e a probabilidade de que um paciente escolhido ao acaso apre-sente o tempo de cura inferio a 2 semanas?

• c) Qual e o tempo de cura necessario para recuperar 25 por cento dospacientes?

• d) Se 100 pacientes forem escolhidos ao acaso, qual seria o numeroesperado de doentes curados em menos de 11 dias?

a) Pelas informacoes do problema temos X ∼ N(15, 4). Queremos P (X >17).

P (X > 17) = P (X−152

> 17−152

) = P (Z > 1) = 1 − P (Z ≤ 1) =1− 0, 8413 = 0, 1587

b) P (X < 14) = P (X−152

< 14−152

) = P (Z < −12) = P (Z > 1

2) =

1− P (Z ≤ 12) = 1− 0, 6915 = 0, 3085

Page 97: apostilaEB

6 VARIAVEIS ALEATORIAS CONTINUAS 94

c) Essa pergunta pode ser reescrita como:Qual e o tempo mınimo necessario para que a probabilidade de uma

pessoa se curar seja de 25 por cento?Assim a proporcao para o grupo de pacientes pode ser interpretada como

a probabilidade para um unico paciente genericamente escolhido. Precisamosentao obter t tal que P (X < t) = 0, 25.

P (X < t) = 0, 25⇒ P (X−152

< t− 152) = 0, 25⇒ P (Z < t−152

) = 0, 25Pela tabela temos t−15

2= −0, 67 entao t = 13, 66. Aproximadamente 14

dias.

d) Obteremos a probabilidade de um paciente generico ser curado emmenos de 11 dias. Essa probabilidade pode ser interpretada como a proporcaode pacientes que se curaram em menos de 11 dias. Essa probabilidade podeser interpretada como a proporcao de pacientes que se curaram em menos de11 dias.

P (X < 11) = P (X−152

< 11− 152) = P (Z < −42

) = P (Z < −2) = 0, 0227Entao, a proporcao de pessoas curadas nesse grupo de 100 pessoas e

0,0227. Portanto0, 0227 = N

100⇒ N = 2, 27. Aproximadamente 2 pacientes.

Uma propriedade muito importante do modelo normal, que nao demostraremosaqui e que qualquer combinacao linear de variaveis normais independentestera distribuicao normal. Em outras palavras, se X1, X2, ..., Xn sao variaveisaleatorias normais independetes tais que Xi ∼ N(µi, σ

2i ), a variavel aleatoria

definida por W =∑n

i=1 αiXi tera distribuicao normal com media e varianciadadas por:

E(W ) = E(∑n

i=1 αiXi) =∑n

i=1 αiE(Xi) =∑n

i=1 αiµiV ar(W ) = V ar(

∑ni=1 αiXi) =

∑ni=1 α

2iV ar(Xi) =

∑ni=1 α

2iσ

2i

logo, Z ∼ N(∑n

i=1 αiµi,∑n

i=1 α2iσ

2i ).

Este fato sera muito utilizado em testes de hipoteses, juntamente com oteorema central do limite e os modelos X 2 e t-student.

Page 98: apostilaEB

6 VARIAVEIS ALEATORIAS CONTINUAS 95

6.7 Exercıcios - lista 07

Questao 1O tempo em minutos de digitacao de um texto pode ser considerado uma

variavel aleatoria contınua com a seguinte funcao de densidade:f(x) = 1/4, se 0 ≤ x < 2

1/8, se 2 ≤ x < 60, caso contrario

Determine:

• a) P(X>3).

• b) P(1<X≤4).

• c) A funcao de distribuicao de probabilidade para a variavel x.

• d) Um numero b tal que P(X> b)=0,6.

• e) O valor esperado e a variancia de X.

Questao 2A quantia gasta anualmente em milhoes de reais na manutencao do asfalto

em uma cidade e representada pela variavel Y com densidade dada por:f(y) = 8y/9− 4/9, se 0, 5 ≤ y < 2

0, caso contrarioObtenha:

• a) P(Y<0,8).

• b) P(Y> 1, 5 | Y ≥ 1).

• c) O valor esperado e a variancia de Y.

Questao 3O grafico abaixo representa a funcao de densidade de uma variavel aleatoria

X.

Page 99: apostilaEB

6 VARIAVEIS ALEATORIAS CONTINUAS 96

• a) Obtenha o valor a.

• b) Determine P(X> 0 | X < 3).

• c) Construa a funcao de distribuicao de X.

Questao 4A demanda diaria de arroz num supermecado, em centenas de quilos, e

uma variavel aleatoria com funcao de densidade dada por:f(x) = 2x/3, se 0 ≤ x < 1

1− x/3, se 1 ≤ x < 30, caso contrario

• a) Qual e a probabilidade de se vender mais de 150 Kg em um diaescolhido ao acaso?

• b) Construa a funcao de distribuicao de probabilidade para x.

• c) Em 30 dias quanto o supermercado espera vender?

• d) Qual e a quantidade de arroz que deve ser deixada estocada paraque nao falte arroz em 95 por cento dos dias?

Questao 5O tempo necessario para um medicamento contra dor fazer efeito foi

modelado de acordo com a densidade uniforme no intervalo de 5 a 15 min-utos tendo por base experimentos em animais. Um paciente que estejasofrendo dor recebe o remedio e, supondo valido o modelo mencionado acima,pergunta-se:

• a) Qual e a probabilidade de a dor cessar em ate 10 minutos?

• b) E de Demorar pelo menos 12 minutos?

• c) Qual o tempo esperado para o medicamento fazer efeito?

Questao 6Uma viga de ferro e soldada em toda a sua extensao. Falhas na soldagem

podem ocorrer com probabilidade 0,1 ou nao ocorrer com probabilidade 0,9.Se a falha ocorre entao o ponto em que ocorre e modelada por uma variaveluniforme contınua. Se a viga tem 6 metros de extensao, determine a proba-bilidade:

• a) Sabendo-se que uma falha ocorreu, ela ser distante das extremidadesde no maximo 1 metro.

Page 100: apostilaEB

6 VARIAVEIS ALEATORIAS CONTINUAS 97

• b) Ocorrer uma falha de solda nos dois metros centrais da viga.

Questao 7O tempo em minutos de utilizacao de um caixa eletronico por clientes de

um certo banco, foi modelado por uma variavel T com densidade exponencialcom parametro 3. Determine:

• a) P(T < 1).

• b) P(T > 1 | T ≤ 2).

• b) Um numero a tal que P(T < a)=0,4.

Questao 8O tempo necessario para eliminar o perigo de contaminacao de certo pes-

ticida apos aplicacao em um pomar e uma variavel aleatoria exponencial deparametro 2 (em meses). Tendo em vista esse comportamento as autoridadessanitarias recomendam que o consumo das frutas seja evitado algum tempoapos a pulverizacao. Calcule a probabilidade de a fruta estar ainda contami-nada 1 mes apos a pulverizacao. Qual e a probabilidade de a fruta poder serconsumida com seguranca 2 meses apos a pulverizacao?

Questao 9Uma clınica de emagrecimento recebe adultos com pesos seguindo uma

distribuicao Normal com media 130 Kg e desvio padrao 20 Kg. Para deter-minar um tratamento adequado os 25 por cento pacientes de menor peso saoclassificados como de baixo risco enquanto os 25 por cento de maior pesosao classificados como de alto risco. Determine os valores que delimitam asclassificacoes de baixo e alto risco.

Questao 10Um teste de aptidao feito por pilotos de aeronaves em treinamento requer

que uma serie de testes. O tempo necessario para completar os testes segueuma distribuicao normal com media 90 e desvio padrao 20 minutos.

• a) Qual e a probabilidade de o candidato ser aprovado se para passar noteste ele deve completa-lo em menos de 80 minutos. Se 60 candidatosfazem o teste, quantos candidatos sao esperados passar no teste.

• b) Se os 5 por cento melhores candidatos serao alocados para aeronavesmaiores, qual deve ser o tempodo candidato para obter essa posicao.

Page 101: apostilaEB

7 INFERENCIA ESTATISTICA 98

7 Inferencia estatıstica

A inferencia estatıstica baseia-se no processo de a partir de uma amostra,obter informacoes a respeito de toda populacao. E a amostra que contem oselementos que podem ser observados e e onde podemos medir as quantidadesde interesse. A inferencia trata de dois problemas basicos que abordaremosao longo deste capıtulo: estimacao e testes de hipoteses.

Primeiramente, vamos estudar como podemos estimar os parametros de-sconhecidos da populacao atraves dos valores obtidos na amostra. Em seguida,vamos estudar como esses estimadores se comportam e quais serao suas dis-tribuicoes amostrais. Finalmente falaremos um pouco sobre estimacao porintervalo e testes de hipoteses para a media populacional com base na dis-tribuicao amostral da media.

7.1 Populacao e amostra

Aprendemos anteriormente sobre alguns modelos probabilısticos que nosauxiliam no estudo e caracterizacao de determinados experimentos e fenomenosde interesse.

Na pratica, o pesquisador frequentemente tem alguma ideia sobre a formada distribuicao que pode ser utilizada para modelar o fenomeno mas nao temos valores exatos dos parametros que a especificam.

Por exemplo, suponha que desejamos criar um modelo para as alturasdos alunos de uma universidade. Se atraves das informacoes sobre os dados,graficos, histogramas, box-plot, for razoavel supor que a distribuicao podeser representada por um modelo normal, precisarıamos entao conhecer osparametros (media e variancia) para determinar o modelo.

Se pudessemos medir a altura de todos os alunos, poderıamos obter adistribuicao exata. Na pratica, e inviavel obter a informacao de toda a pop-ulacao, geralmente coletamos dados de uma amostra (subconjunto da pop-ulacao) e atraves dessa amostra estimamos os parametros de interesse, queneste caso sao media e variancia.

A primeira questao que surge e como podemos selecionar um subconjuntode uma populacao, isto e, como podemos selecionar uma amostra que possarepresentar, de maneira mais verossımel possıvel, a populacao.

A segunda questao e como podemos utilizar a informacao obtida naamostra para encontrar valores para a media e variacia do modelo.

Vamos responder a primeira questao e, na proxima secao, falaremos umpouco sobre estimacao.

Existem varias maneiras de obter uma amostra para estimar os parametros,uma delas e a amostragem aleatoria simples.

Page 102: apostilaEB

7 INFERENCIA ESTATISTICA 99

A amostragem aleatoria simples consiste em um sorteio de uma determi-nada quantidade de elementos da populacao. Por exemplo, se a populacao econstituida de N elementos e desejamos obter uma amostra com n elementosn ≤ N sorteamos n elementos dentre os N da populacao. Quando a pop-ulacao e muito grande geralmente usamos softwares para gerar a amostra.Este processo e um dos mais simples para se obter uma amostra, alem deleexistem muitas outras maneiras de selecionar uma amostra mas nao falare-mos aqui.

7.2 Parametros e estimadores

As quantidades da populacao sobre as quais temos interesse e, que em geralsao desconhecidas, sao denominadas parametros. Representamos usualmentepor letras gregas como θ, µ, σ entre outras.

Os estimadores sao funcoes da amostra coletada que nos fornecem in-formacoes sobre os valores dos parametros que estamos interessados em de-scobrir para especificar o modelo.

Na maioria dos casos estaremos interessados em estimar a media e avariancia da populacao, parametros µ e σ2 respectivamente. Para isso, us-aremos a informacao obtida na amostra para construir os estimadores paraos parametros. Vamos voltar a questao deixada na secao anterior.

Exemplo 1:Suponha que estamos interessados em criar um modelo para a altura de

jovens em uma universidade para isso, coletamos uma amostra com 10 jovens.Admitindo que o modelo normal seja proposto, os parametros de interesse

para nos sao a media e a variancia.Se conhecemos apenas parte da populacao, a amostra X1, X2, ..., X10,

como podemos usar essa informacao para estimar a media e a variancia dapopulacao, µ e σ2 ?

Precisamos de funcoes de X1, X2, ..., X10 que nos digam algo sobre µ e σ2,isto e precisamos de estimadores.

Para estimar a media µ podemos usar qualquer funcao dos dados. Porexemplo, podemos dizer que um estimador para µ e µ = X1 ou µ = X1+X2

2,

ou qualquer outra funcao. A mais utilizada e a media da amostra:

µ =∑ni=1Xin

= x

Para a variancia, o estimador mais utilizado e a variancia amostral:

Page 103: apostilaEB

7 INFERENCIA ESTATISTICA 100

σ2 =∑ni=1(xi−x)2

n−1

Geralmente usamos µ = x e σ2 =∑ni=1(xi−x)2

n−1porque eles sao estimadores

que possuem boas propriedades como veremos mais adiante.Entao se tivessemos os 10 valores seguintes de alturas na amostra:

1.6, 1.7, 1.75, 1.8, 1.9, 1.58, 1.6, 1.68, 1.84, 1.72

poderıamos dizer que um estimador para µ e

µ =∑10i=1 xi10

= 1.717

e para σ2:

σ2 =∑10i=1(xi−x)2

9= 0.0116

e usar esses valores como parametros do modelo normal.Mas podemos nos perguntar: E se selecionarmos outra amostra, os val-

ores dos estimadores provavelmente serao diferentes, sera que esses valoresescolhidos como parametros sao confiaveis?

Para testar os valores escolhidos como parametros usamos os testes dehipoteses que falaremos mais adiante.

Exemplo 2: Suponha que entrevistamos 400 pessoas em varias capitaispara saber sobre o apoio a um projeto governamental de reforma agraria.

A nossa amostra consiste em 400 respostas (sim ou nao). Se estamosinteressados em medir o apoio ao projeto, entao queremos saber qual a prob-abilidade de uma pessoa ser favoravel.

Um modelo razoavel a ser utilizado neste caso e o modelo bernoulli. Aamostra pode ser pensada como um vetor de variaveis X1, X2, ..., X400, cadauma delas assumindo o valor 1 para sucesso (resposta sim) e 0 para fracasso(resposta nao).

Entao estamos interessados no parametro p do modelo, probabilidade deuma pessoa ser favoravel ao projeto ou probabilidade de sucesso. Um esti-mador razoavel para p e a proporcao de pessoas favoraveis que encontramosna amostra. Assim, um estimador para p e:

p = numero de entrevistados favoraveis400

=∑400i=1Xi400

Podemos resumir o que estudamos ate agora da seguinte forma:

Page 104: apostilaEB

7 INFERENCIA ESTATISTICA 101

Para uma amostra de tamanho n representada pelas variaveis aleatorias(X1, X2, ..., Xn) denote os parametros media, variancia e proporcao da pop-ulacao da qual foi extraıda a amostra por µ, σ2 e p respectivamente. Osestimadores mais utilizados para esses parametros sao as correspondentesmedia, variancia e proporcao calculadas na amostra. Representamos por µ,σ2 e p.

Exemplo 3: Suponha que para uma amostra de 10 jovens obtivemos osseguintes nıveis de colesterol:

180, 190, 170, 180, 170, 160, 170, 180, 190, 170

E que a partir desses dados queremos estimar o nıvel medio de colesterolna populacao jovem.

Como nao temos acesso a populacao jovem toda, vamos estimar a mediaµ pela media observada na amostra.

µ = X = 176

Entao o nıvel de colesterol estimado para a populacao jovem com basenessa amostra e 176.

Se quisessemos estimar a proporcao de jovens na populacao com taxa decolesterol acima de 180 usarıamos a proporcao observada na amostra.

p = 210

= 0, 2

7.3 Distribuicoes amostrais

Vimos que estimadores sao funcoes de variaveis aleatorias e portanto saotambem variaveis aleatorias. Agora vamos estudar a distribuicao de prob-abilidades de alguns estimadores mais utilizados, particularmente, estamosinteressados na distribuicao de X porque atraves dessa distribuicao poder-emos construir intervalos de confianca e testes de hipoteses para a mediapopulacional µ.

Exemplo 4: Suponha que uma variavel X pode assumir dois valores -1e 1 com iguais probabilidades. Para uma amostra de tamanho 2 determinea funcao de probabilidade de X.

Como X = X1+X2

2temos

Page 105: apostilaEB

7 INFERENCIA ESTATISTICA 102

(X1, X2) X prob(-1,-1) -1 1/4(-1,1) 0 1/4(1,-1) 0 1/4(1,1) 1 1/4

Portanto temos a seguinte funcao de probabilidade para X:

Nem sempre e facil encontrar a distribuicao de estimadores. Por exemplo,se X fosse uma variavel contınua uniforme entre -1 e 1, terıamos X1 e X2

tambem com distribuicao uniforme em [-1,1] mas, a natureza contınua dasvariaveis nao nos possibilitaria enumerar todas as amostras possıveis comofizemos no exemplo anterior. Como fazer entao para encontrar a distribuicaode X nesse caso? Vamos estudar mais a frente o teorema central do limiteque nos ajudara a estudar o comportamento de X para uma amostra muitogrande, independente da natureza de X.

Antes de falar do teorema central do limite, vamos ver um exemplo dedistribuicao de X quando as variaveis na amostra tem distribuicao normal.

Exemplo 5: Consideremos a variavel X que descreve o peso em criancasde um determinado colegio. Suponha que X tem distribuicao normal commedia 32 e variancia 36. Selecionamos um grupo com 100 criancas de maneiraindependente e queremos saber a probabilidade do peso medio no grupo sermaior que 33 kg.

Queremos saber P (X > 33). Para calcular essa probabilidade, precisamossaber qual e a distribuicao de X. Vimos no capıtulo anterior que qualquercombinacao linear de normais tambem segue o modelo normal.

Como X =∑100i=1Xi100

, X tambem segue o modelo normal, resta descobrir amedia e a variancia.

E(X) = E(∑100i=1Xi100

) = 1100E(∑100

i=1Xi) = 1100

[E(X1) + E(X2) + ... +E(X100)] = 1

100[100.32] = 32

Page 106: apostilaEB

7 INFERENCIA ESTATISTICA 103

var(X) = var(∑100i=1Xi100

) = 1(100)2

var(∑100

i=1Xi) = 1(100)2

[var(X1)+var(X2)+

...+ var(X100)] = 1(100)2

[100.36] = 36100

Entao X ∼ N(32, 36100

). Agora podemos calcular P (X > 33) = P ( X−326/10

>33−326/10

) ≈ 0.0475.

De uma forma geral para uma populacao normal com media µ e varianciaσ2, se selecionarmos uma amostra de tamanho n, (X1, ..., Xn), X tera dis-tribuicao normal com media µ e variancia σ2

n.

Discutimos acima dois exemplos muito particulares de amostras retiradasde uma populacao com distribuicoes de probabilidades bem conhecidas e porisso, construımos de maneira bem simples a distribuicao de X. Na pratica,nao temos informacoes sobre a distribuicao das variaveis que constituem aamostra e trabalhamos com amostras muito grandes o que dificulta a con-strucao da distribuicao de X.

Felizmente, satisfeitas certas condicoes, podemos demonstrar que parauma amostra sufucientemente grande, a distribuicao da media amostral podeser aproximada por uma distribuicao normal. Esse e um dos teoremas maisimportantes da probabilidade, denominado teorema central do limite.

Teorema central do limite

Para uma amostra aleatoria simples (X1, X2, ..., Xn) de tamanho n re-tirada de uma populacao com media µ e variancia σ2 finita temos:

X−µσ√n

→ Z quando n→∞

onde Z ∼ N(0, 1).

O TCL nos diz que para n suficientemente grande a distribuicao amostralda media aproxima-se de uma distribuicao normal com media igual a mediada populacao e variancia igual a variancia da populacao dividida por n. Re-pare que a distribuicao da populacao nao e especificada.

A velocidade de convergencia depende da populacao da qual a amostrafoi retirada, para populacoes com distribuicao simetrica a convergencia emais rapida, ou seja precisamos de uma amostra menor para garantir umaboa aproximacao pela distribuicao normal. Estudos envolvendo simulacoesmostram que para n ao redor de 30 a aproximacao pode ser considerada boapara aplicacoes praticas.

Page 107: apostilaEB

7 INFERENCIA ESTATISTICA 104

Exemplo 6: Suponha que a aceitacao em um lote de 10000 sacos deacucar ocorre apenas se o peso medio de uma amostra aleatoria com 100sacos retirados do lote estiver entre 498 e 502 gramas. Sabe-se que o pesodos sacos e uma variavel aleatoria com media 500 e variancia 100. Qual e aprobabilidade de aceitarmos o lote?

Se definirmos Xi como o peso do i-esimo saco retirado do lote parai=1,2,...,100. temos pelo TCL que a media dos pesos da amostra repre-sentada por X tera distribuicao aproximadamente normal com media 500 edesvio padrao 1. Logo a probabilidade de aceitarmos o lote e:

P (498 ≤ X ≤ 502) = P (498−5001≤ X−500

1≤ 502−500

1) = P (−2 ≤ Z ≤ 2) ≈

0, 95

Portanto, dificilmente o lote seria rejeitado.

Exemplo 7: Suponha que a proporcao de pecas fora de especificacaoem um lote e de 40 por cento. Tomada uma amostra de tamanho 30, qual ea proba bilidade de que a proporcao das pecas defeituosas seja menor que 0,5?

Queremos calcular P (p < 0, 5). Sabemos que a proporcao de pecas de-feituosas pode ser vista como a media amostral se considerarmos a populacaomodelada por uma bernoulli com probabilidade de sucesso 0,4.

Para a amostra X1, ..., X30 tal que Xi ∼ bernoulli(0, 4) temos pelo TCLque p = X tera distribuicao aproximadamente normal com media 0,4 evariancia (0, 4.0, 6)/30 = 0, 24/30 = 0, 008.

Portanto P (p < 0, 5) = P ( p−0,4√0,008

< 0,5−0,4√0,008

) = P (Z < 1, 12) ≈ 0, 868.

7.4 Estimacao por intervalo

Estudamos ate agora alguns estimadores pontuais para a media, variancia eproporcao populacionais. Como falamos anteriormente, quando selecionamosuma amostra e a partir dela um estimador para o parametro populacionalnao temos a dimensao do erro que estamos cometendo quando dizemos queo valor calculado na amostra pode ser extrapolado para toda a populacao.O intervalo de confianca e os testes de hipoteses nos dizem um pouco sobrea dimensao desse erro.

Page 108: apostilaEB

7 INFERENCIA ESTATISTICA 105

Vamos construir agora intervalos de confianca para a media populacionalque fornecerao estimativas pontuais e informacoes sobre a variacao do parametro.Os intervalos de confianca sao construıdos atraves da distribuicao amostraldo estimador.

Vamos comecar com uma populacao normal com media µ desconhecidae variancia σ2 conhecida, depois contruıremos intervalos para µ para pop-ulacoes com distribuicoes desconhecidas usando o TCL.

No exemplo 5 vimos que para uma amostra aleatoria de tamanho n,(X1, ..., Xn), retirada de uma populacao normal com media µ e varianciaσ2, X tem distribuicao normal com media µ e variancia σ2

n.

Suponha que apos selecionarmos a amostra, queremos obter um intervaloque contenha o parametro µ com uma probabilidade α.

Entao queremos encontrar a e b tais que P (a ≤ µ ≤ b) = α. Como Xtem distribuicao normal com media µ e variancia σ2

n.

Z = X−µσ√n

∼ N(0, 1)

Entao fixando uma probabilidade 0 < α < 1, podemos encontrar umvalor zα/2 na tabela tal que:

α = P (| Z |≤ zα/2) = P (−zα/2 ≤ Z ≤ zα/2)

Graficamente, queremos encontrar zα/2 tal que:

Dividimos α por 2 pois os intervalos simetricos sao os intervalos de menorcomprimento, assim nos da maior precisao para o parametro µ. Poderıamoster dividido de maneira diferente encontrando outros intervalos, mas os com-primentos seriam maiores.

O valor zα/2 pode ser obtido na tabela da normal padrao da seguintemaneira: primeiro localizamos a probabilidade α/2 no corpo da tabela edepois identificamos zα/2 nas margens correspondentes.

Page 109: apostilaEB

7 INFERENCIA ESTATISTICA 106

Conhecendo zα/2 podemos encontrar a e b:

α = P (| Z |≤ zα/2) = P (−zα/2 ≤ Z ≤ zα/2) = P (−zα/2 ≤ X−µσ√n

≤ zα/2) =

P (X − zα/2 σ√n≤ µ ≤ X + zα/2

σ√n)

Entao a = X − zα/2 σ√n

e b = X + zα/2σ√n.

Assim o intervalo de confianca para µ com probabilidade α e:

IC(µ, α) = [X − zα/2 σ√n; X + zα/2

σ√n]

Dizemos entao que a probabilidade do intervalo conter o valor verdadeirode µ e α.

A amplitude do intervalo e dada pela diferenca entre os extremos dointervalo, 2zα/2

σ√n, e e uma medida da precisao da estimacao. O erro ao

estimar µ com X, E =| X − µ | e no maximo zα/2σ√n

com probabilidade α.

Podemos observar tambem que para mesmos tamanho de amostra e valorde σ quanto maior a confianca, maior sera o tamanho do intervalo e portantomenor sera sua precisao. Podemos construir intervalos mais precisos paraum determinado nıvel de confianca escolhendo amostras maiores.

Exemplo 8: Suponha que estamos testando a energia de impacto de ma-teriais metalicos a uma determinada temperatura. Dez medidas de energiade impacto em Joules foram coletadas:

64.1, 64.7, 64.5, 64.6, 64.5, 64.3, 64.6, 64.8, 64.2, 64.3

Assumindo que a energia de impacto tem distribuicao normal com desviopadrao 1. Construa um intervalo de confianca 95 por cento para µ.

Page 110: apostilaEB

7 INFERENCIA ESTATISTICA 107

Pela tabela da normal vemos que z0.475 = 1.96, alem disso, X = 64.46. OIC 95 por cento para µ e dado por:

IC(µ, 0.95) = [X − z0.475σ√n; X + z0.475

σ√n] = [64.46 − 1.96 1√

10; 64.46 +

1.96 1√10

] = [63.84; 65.08]

Entao temos 95 por cento de confianca para o intervalo [63.84; 65.08] con-ter o verdadeiro valor de µ.

7.5 Intervalo de confianca para µ para amostras grandes

A aplicacao do teorema central do limite permite a obtencao de intervalosde confianca para µ mesmo quando a distribuicao das variaveis aleatoriasque constituem a amostra nao e dada por um modelo Normal. Neste caso,o intervalo de confianca tera um coeficiente de confianca aproximadamenteigual a α, e a aproximacao sera tanto melhor quanto maior for a amostra.Vimos anteriormente que para n=30 a aproximacao pela normal pode serconsiderada boa.

Exemplo 9: Um provedor de acesso a internet esta monitorando a du-rancao do tempo das conexao de seus clientes. Suponha que a distribuicaodos tempos de duracao e desconhecida, assim como a media, sendo con-hecido apenas o desvio padrao

√50 minutos. Uma amostra com duracao de

500 conexoes foi observada e o valor medio foi calculado, resultando em 25minutos. Construa um IC 92 por cento para a media.

Apesar de nao sabermos se a distribuicao da duracao dos tempos e nor-mal, podemos usar o TCL pois a amostra e grande. Neste sentido, um IC 92por cento para a media sera dado por:

IC(µ, 0.92) = [X−z0.46σ√n; X+z0.46

σ√n] = [25−1.75 50√

100; 25+1.75 50√

100] =

[24.45; 25.55]

Entao, esse intervalo contem a media com probabilidade 92 por cento.

Vimos acima que para n ≥ 30 podemos construir um IC para a media µ deuma populacao com variancia σ2 conhecida, mesmo quando desconhecemosa distribuicao usando a aproximacao pela normal dada pelo TCL.

Alem disso, quando a variancia da populacao e desconhecida e n e grande,

Page 111: apostilaEB

7 INFERENCIA ESTATISTICA 108

podemos ainda construir IC para a media trocando σ por S, o desvio padraoamostral. O IC fica da seguinte maneira:

IC(µ, α) = [X − zα/2 S√n; X + zα/2

S√n]

Para usar esse resultado e aconselhavel ter n ≥ 40. O TCL gealmentevale para n ≥ 30 mas um tamanho maior de amostra e aconselhavel porquetracando σ por S estamos adicionando mais variabilidade.

7.6 Teste de hipotese para media µ com variancia con-hecida

Vamos estudar agora um dos principais topicos de inferencia estatısticaconhecido como teste de hipoteses.

Feita determinada afirmacao sobre uma populacao (usualmente sobre umparametro desta), desejamos saber se os resultados provenientes de umaamostra contrariam ou nao tal afirmacao.

O objetivo do teste estatıstico de hipoteses e fornecer uma metodologiaque nos permita verificar se os dados amostrais trazem evidencias que apoiamou nao uma hipotese (estatıstica) formulada.

O procedimento basico de um teste de hipoteses sobre um parametro deuma populacao e supor verdadeira a hipotese em questao e verificar se aamostra observada e ”verossımil” nessas condicoes.

Vamos comecar com um exemplo para mostrar a utilidade e os tipos dequestoes que um teste de hipoteses procura responder.

Suponha que para pessoas sadias o nıvel de uma substancia no sanguee modelado por uma distribuicao normal com media 14 uni/ml e desviopadrao 6 uni/ml. Pessoas sofrendo uma determinada doenca tem a concen-tracao dessa substancia alterada com a media aumentando para 18 uni/ml.Admitimos que a distribuicao normal com desvio padrao 6 uni/ml aindamodela bem o comportamento da substancia em pessoas com a doenca.

Suponha que desejamos testar se um tratamento para essa doenca e eficaz.Para isso, selecionamos um grupo de 30 pessoas que receberam esse trama-mento. O nıvel da substancia para cada uma dessas pessoas e denotado porX1, X2, ..., X30 baseado no valor medio observado no grupo, X decidiremosse o tratamento e eficaz ou nao. Se o valor da media encontrado for proximode 18, teremos evidencias de que o tratamento nao e eficaz. Por outro lado,se esse valor for proximo de 14 entao seriamos levados a acreditar na eficaciado tratamento. O quao ”proximo” o valor deve estar para decidirmos de-pende da variabilidade da populacao. O teste de hipoteses respondera a essa

Page 112: apostilaEB

7 INFERENCIA ESTATISTICA 109

e outras perguntas.

Principais Conceitos

A construcao de um teste de hipoteses inicia-se com a determinacao deduas hipoteses, as quais chamaremos de hipotese nula (denotada por H0) ehipotese alternativa (denotada por H1).

A hipotese nula e a hipotese que estamos colocando a prova. Portanto,o teste nos fara verificar, atraves da amostra obtida, se rejeitamos H0 ounao rejeitamos H0, isto e, verificar se os resultados provenientes da amostracontrariam ou nao a hipotese nula. A hipotese alternativa contempla todosos valores que sao considerados aceitaveis caso rejeitemos H0.

Exemplo 10: Queremos testar a media de horas de sono dos alunos daUFRRJ. Acredita-se que µ, a media de horas de sono de todos os alunos, gireem torno de 6 horas. Com base em uma amostra de 49 alunos, obtivemosmedia amostral X = 5,6 horas (ou seja, 5 horas e 36 minutos). Portanto,sejam as hipoteses

H0 : µ = 6,

H1 : µ 6= 6.

Neste caso, X = 5, 6 e o que chamaremos de estatıstica de teste, isto e, ovalor que o estimador para o parametro de interesse (neste caso, µ) assume.Para decidir se nao rejeitamos H0 ou rejeitamos H0, precisamos definir achamada regiao crıtica (ou regiao de rejeicao), que denotaremos por RC, deforma que:

Se X ∈ RC, entao optaremos por rejeitar H0; ese X /∈ RC, optaremos por nao rejeitar H0.

Isto e o que chamamos de uma regra de decisao. Por exemplo, se deter-minassemos RC = (−∞ ; 5, 5) ∪ (6, 5 ; ∞), entao essa amostra nos levaria anao rejeitar H0 : µ = 6. Ja se determinassemos RC = (−∞ ; 5, 8)∪(6, 2 ; ∞),entao essa amostra nos levaria a rejeitar H0 : µ = 6.

Mas como determinar a regiao crıtica de maneira mais coer-ente, isto e, nao tao ”arbitraria”?

Primeiramente note que, em uma regra de decisao, podemos tanto fazeruma escolha certa como uma escolha errada. Quanto as escolhas erradas,

Page 113: apostilaEB

7 INFERENCIA ESTATISTICA 110

podemos: (i) decidir rejeitar H0 quando H0 e, na realidade, verdadeira; ou(ii) decidir nao rejeitar H0 quando H0 e, na realidade, falsa. Tecnicamente,estes erros sao chamados respectivamente de erro de tipo I e erro de tipo II.

O ideal seria entao determinar uma regra de decisao que minimizasse aprobabilidade de ambos os erros. Entretanto, o que fazemos em geral (e o quefaremos neste curso!) e fixar um valor para α = P (cometer erro do tipo I), eobter a regiao de rejeicao (RC) baseada neste valor. Chamaremos α de nıvelde significancia do teste.

OBS.: Chamamos de γ = 1 − α o nıvel de confianca do teste, cuja in-terpretacao e a mesma de nıvel de confianca para intervalos de confianca.Como ja estamos acostumados a trabalhar com γ, vamos continuar trabal-hando com ele ao inves de trabalhar com α, pois uma vez fixado um valorpara α, entao γ tambem estara fixado. A regiao crıtica e construıda de formaque, para X distribuıdo conforme H0,

P (X ∈ RC) = 1− γ (ou, equivalentemente,P (X ∈ RC) = α),

P (X /∈ RC) = γ (ou, equivalentemente,P (X /∈ RC) = 1− α).

Passos para a Construcao de um Teste de Hipoteses

Passo 1: Fixar qual a hipotese H0 a ser testada e qual a hipotese alternativaH1.

Passo 2: Decidir qual estimador (estatıstica de teste) sera usado para testarH0.

Passo 3: Fixar o valor de γ e, daı, construir a regiao crıtica conforme vimosacima.

Passo 4: Usar as observacoes da amostra para calcular o valor da estatısticade teste na amostra.

Passo 5: Se o valor que a estatıstica de teste assume nao pertencer aregiao crıtica, nao rejeitar H0; caso contrario, rejeitar H0.

Teste de Hipoteses (bilateral) para a media populacionalµ quando a variancia populacional σ2 e conhecida

Page 114: apostilaEB

7 INFERENCIA ESTATISTICA 111

Usado quando queremos testar se a media populacional µ e igual a umvalor µ0 contra µ ser diferente de µ0.

Passo 1:H0 : µ = µ0,H1 : µ 6= µ0.

Passo 2: Estatıstica de teste: X

Passo 3: γ fixado ⇒ RC =(−∞ ; µ0 − z 1+γ

2

σ√n

]∪[µ0 + z 1+γ

2

σ√n

; ∞)

Passo 4: Obter x, isto e, a media na amostra.

Passo 5: Se x /∈ RC, nao rejeite H0; se x ∈ RC, rejeite H0.

Exemplo 11: Queremos testar (ao nıvel γ = 0, 95 de confianca) aafirmacao de que a media de horas de sono dos alunos da UFRRJ e 6 horas,onde sabemos que σ2 = 1. De uma amostra de 49 alunos, obtivemos mediaamostral X = 5,6 horas. Portanto,

Passo 1:H0 : µ = 6,H1 : µ 6= 6.

Passo 2: Estatıstica de teste: X

Passo 3: γ = 0, 95⇒ RC =(−∞ ; 6− 1, 96×

√1√49

]∪[6 + 1, 96×

√1√49

; ∞)

=

(−∞ ; 5, 72] ∪ [6, 28 ; ∞)

Passo 4: x = 5, 6 (este problema ja nos da o valor de X na amostra).

Passo 5: x = 5, 6 ∈ (−∞ ; 5, 72] ∪ [6, 28 ; ∞)⇒ rejeito H0.

Conclusao: Ao nıvel de 95% de confianca, a amostra obtida fornece evidenciaspara rejeitarmos a hipotese de que a media de sono dos alunos da UFRRJ ede 6 horas.

Page 115: apostilaEB

7 INFERENCIA ESTATISTICA 112

EXERCICIO: Se coletassemos uma nova amostra (tambem de 49 alunos)que retornasse X = 5,8 horas, qual seria a decisao do teste acima ainda aonıvel de 95% de confianca? E ao nıvel 99% de confianca?

Teste de Hipoteses (unilateral a direita) para a media pop-ulacional quando a variancia populacional σ2 e conhecida

Usado quando queremos testar se a media populacional µ e igual a umvalor µ0 contra µ ser maior que µ0.

Passo 1:H0 : µ = µ0,H1 : µ > µ0.

Passo 2: Estatıstica de teste: X

Passo 3: γ fixado ⇒ RC =[µ0 + zγ

σ√n

; ∞)

Passo 4: Obter x, isto e, a media na amostra.

Passo 5: Se x /∈ RC, nao rejeite H0; se x ∈ RC, rejeite H0.

Page 116: apostilaEB

7 INFERENCIA ESTATISTICA 113

Exemplo 12: Queremos testar (ao nıvel γ = 0, 95 de confianca) se osalunos da UFRRJ tem dormido mais de 6 horas, onde sabemos que σ2 = 1.De uma amostra de 25 alunos, obtivemos media amostral X = 6,2 horas.Portanto,

Passo 1:H0 : µ = 6,H1 : µ > 6.

Passo 2: Estatıstica de teste: X

Passo 3: γ = 0, 95⇒ RC =[6 + 1, 65×

√1√25, ; ∞

)= [6, 33 ; ∞)

Passo 4: x = 6, 2 (este problema ja nos da o valor de X na amostra).

Passo 5: x = 6, 2 /∈ [6, 33 ; ∞)⇒ nao rejeito H0.

Conclusao: Ao nıvel de 95% de confianca, a amostra obtida nao forneceevidencias suficientes para rejeitarmos a hipotese de que a media de sono dosalunos da UFRRJ e de 6 horas.

EXERCICIO: Se coletassemos uma nova amostra (tambem de 25 alunos)que retornasse X = 6,4 horas, qual seria a decisao do teste acima ainda ao

Page 117: apostilaEB

7 INFERENCIA ESTATISTICA 114

nıvel de 95% de confianca? E ao nıvel 99% de confianca?

Teste de Hipoteses (unilateral a esquerda) para a media pop-ulacional quando a variancia populacional σ2 e conhecida

Usado quando queremos testar se a media populacional µ e igual a umvalor µ0 contra µ ser menor que µ0.

Passo 1:H0 : µ = µ0,H1 : µ < µ0.

Passo 2: Estatıstica de teste: X

Passo 3: γ fixado ⇒ RC =(−∞ ; µ0 − zγ σ√

n

]Passo 4: Obter x, isto e, a media na amostra.

Passo 5: Se x /∈ RC, nao rejeite H0; se x ∈ RC, rejeite H0.

Page 118: apostilaEB

7 INFERENCIA ESTATISTICA 115

Exemplo 13: Queremos testar (ao nıvel γ = 0, 95 de confianca) se osalunos da UFRRJ tem dormido menos de 6 horas, onde sabemos que σ2 = 1.De uma (outra!) amostra de 25 alunos, obtivemos media amostral X = 5,5horas. Portanto,

Passo 1:H0 : µ = 6,H1 : µ < 6.

Passo 2: Estatıstica de teste: X

Passo 3: γ = 0, 95⇒ RC =(−∞ ; 6− 1, 65×

√1√25

]= (−∞ ; 5, 67]

Passo 4: x = 5, 5 (este problema ja nos da o valor de X na amostra).

Passo 5: x = 5, 5 ∈ (−∞ ; 5, 67]⇒ rejeito H0.

Conclusao: Ao nıvel de 95% de confianca, a amostra obtida fornece evidenciaspara rejeitarmos a hipotese de que a media de sono dos alunos da UFRRJ ede 6 horas.

EXERCICIO: Se coletassemos uma nova amostra (tambem de 25 alunos)que retornasse X = 5,8 horas, qual seria a decisao do teste acima ainda ao

Page 119: apostilaEB

7 INFERENCIA ESTATISTICA 116

nıvel de 95% de confianca? E ao nıvel 99% de confianca?

Page 120: apostilaEB

7 INFERENCIA ESTATISTICA 117

OBS: Como fizemos anteriormente para os intervalos de confianca, aquitambem podemos construir testes de hipoteses para a media quando a varianciae conhecida mesmo que distribuicao nao seja normal. Para isso, tambem pre-cisamos que n ≥ 30 para usar o TCL. Quando a variancia e desconhecidaprecisamos que n ≥ 40 para substituir σ por S. As regioes crıticas sao asmesmas que as construıdas acima, exceto quando desconhecemos σ e temosuma amostra suficientemente grande para podermos substituir σ por seuestimador S.

7.7 Exercıcios - lista 08

Questao 1Um fabricante deseja estudar a duracao de baterias que sao utilizadas

na fabricacao em relogios de pulso. Uma amostra de varios lotes fabricadospor uma mesma companhia foi submetida a testes e produziram os seguintestempos de duracao em anos:

2; 2; 3; 1; 4; 5; 3; 4; 5; 6; 5; 3; 4; 3; 4; 2; 4; 3; 5; 2.Determine os valores dos estimadores para a media e a variancia.Questao 2Uma amostra com dois elementos de uma variavel X, que segue o modelo

Bernoulli com probabilidade de sucesso p, e selecionada. Determine a funcaode probabilidade da media amostral.

Questao 3O consumo mensal de agua por residencia em um certo bairro e assumido

ter distribuicao Normal com media 10 e desvio padrao 2 (em m3). Para umaamostra de 25 residencias, qual e a probabilidade da media amostral nao seafastar da verdadeira media por mais de 1 m3?

Questao 4A duracao de um ”tonner” de uma maquina de fotocopias pode ser mod-

elado como normal com media 15 e desvio padrao 2 (em milhres de copias).Para uma amostra de 12 maquinas a duracao do ”tonner” e observada. Quale a probabilidade de em media, durar:

• a)Menos que 16 mil copias?

• b)Mais de 13 mil copias?

• c) Entre 13 e 14 mil copias?

Questao 5Um fabricante afirma que sua vacina contra gripe imuniza em 80 por

cento dos casos. Uma amostra de 25 indivıduos que tomaram essa vacina foi

Page 121: apostilaEB

7 INFERENCIA ESTATISTICA 118

escolhida e testes foram feitos para verificar a imunizacao desses indivıduos.Se o fabricante estiver correto, qual e a probabilidade da proporcao dos imu-nizados na amostra ser inferior a 0,75? e superior a 0,85?

Questao 6Uma amostra em 100 cidades brasileiras indicou que o valor medio da hora

aula para professores de escolas publicas e 2,5 reais. Obtenha um intervalode confianca 95 por cento para o valor medio da hora aula baseado no fatode que o desvio padrao em estudos anteriores foi 1,1.

Questao 7O tempo de duracao de um certo tipo de lampada pode ser modelada por

uma normal com desvio padrao σ = 25 horas. Uma amostra com 20 lampadasfoi selecionada e observamos a media de X = 1014 horas. Construa um IC95 % para a media.

Questao 8Uma industria produz aneis de aco que integram equipamentos automo-

tivos. O diametro desses aneis e uma variavel com desvio padrao σ = 0, 001.Uma amostra com 36 aneis e selecionada e o diametro medio encontrado foiX = 74, 03. Construa os IC 99% e 95 % para a media.

Questao 9Um agronomo esta interessado em estimar o nıvel de calcio em uma

plantacao. Para isso, coletou uma amostra com 49 unidades e encontroua media de calcio em mg igual a X = 68, 3 e o desvio padrao amostral foi deS = 5, 87. Construa IC 92% e 99% para a media de calcio da plantacao.

Questao 10Considere um experimento quımico cujo rendimento pode ser modelado

por uma normal com desvio padrao σ = 3. Esse experimento foi repetido 5vezes e os rendimentos foram anotados:

91.6, 88.75, 90.8, 89.95, 91.3

Para o nıvel de significancia α = 0.05, queremos testar se o rendimentoda reacao e de 90 %. Qual conclusao chegamos com a amostra acima?

Questao 11O tempo para um medicamento fazer efeito pode ser modelado por uma

normal com desvio padrao σ = 1.25. Uma amostra aleatoria com 10 temposde efeito para 10 pacientes foi coletada e resultou media de X = 40.5 horas.Existe evidencia de que o tempo necessario para o medicamento fazer efeitoe maior que 40 horas? (use α = 0.05)

Questao 12Um engenheiro estuda a tensao suportada por vigas de alumınio. Sabe-

se que a tensao nas vigas segue um modelo normal com desvio padrao de

Page 122: apostilaEB

7 INFERENCIA ESTATISTICA 119

σ = 60. Uma amostra aleatoria com a tensao de 12 vigas foi analisada eresultou em uma tensao media de X = 3250. Para α = 0.01 aceitarıamos ourejeitarıamos a media de tensao de 3500?

Page 123: apostilaEB

7 INFERENCIA ESTATISTICA 120

Referencias

Bussab, Morettin. Estatıstica basica. Editora Saraiva.

Magalhaes. Nocoes de probabilidade e estatıstica.

Montgomery. Applied statistics and probability for engineers

Triola. Estatıstica basica