70
CE-002: Estat´ ıstica I Primeiro Semestre de 2005 Paulo Justiniano Ribeiro Junior ´ Ultimaatualiza¸c˜ ao: 16 de junho de 2005 1 Usando o LINUX no LABEST Nesta aula ´ e feita uma introdu¸c˜ ao ao sistema operacional LINUX que vem sendo adotado no LABEST. ´ E ainda mostrado como rodar o programa R neste sistema. 1.1 Comandos b´ asicos do LINUX Aqui est˜ ao alguns comandos b´asicos do LINUX: Todos os comandos s˜ao documentados com man e possuem diversas outras op¸ c˜oes. Por exemplo para ver a documenta¸c˜ ao e op¸ c˜oes do comando tail digite: man tail Para sair da tela de ajuda co comando basta digitar a tecla q 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no bot˜ao xterm) e fa¸caoseguinte, utilizando os comandos da tabela acima. 1. inspecione o conte´ udo do diret´orio com o comando ls 2. use o editor nano para criar um arquivo chamando arquivo.txt. Para abrir o editor digite no prompt do Linux: nano Digite o texto abaixo no editor: Este ´e um texto digitado no Linux usando o editor nano. 3. grave o arquivo e saia do editor. Para isto veja as op¸c˜oes na parte de baixo da tela do nano. Note que o caracter ^ corresponde `a tecla CTRL. Portanto para gravar o arquivo voce vai precisar teclar CTRL-O (tecla “control” mais o caracter “O”) 4. inspecione novamente o conte´ udo do diret´orio com o comando ls 5. troque o nome do arquivo de arquivo.txt para arq1.txt 6. use o comando more para visualizar o conte´ udo do arquivo 1

CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

Embed Size (px)

Citation preview

Page 1: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I

Primeiro Semestre de 2005Paulo Justiniano Ribeiro Junior

Ultima atualizacao: 16 de junho de 2005

1 Usando o LINUX no LABEST

Nesta aula e feita uma introducao ao sistema operacional LINUX que vem sendo adotadono LABEST. E ainda mostrado como rodar o programa R neste sistema.

1.1 Comandos basicos do LINUX

Aqui estao alguns comandos basicos do LINUX:Todos os comandos sao documentados com man e possuem diversas outras opcoes.

Por exemplo para ver a documentacao e opcoes do comando tail digite:man tail

Para sair da tela de ajuda co comando basta digitar a tecla q

1.2 Praticando alguns comandos

Entre em sua conta, abra um terminal (clique no botao xterm) e faca o seguinte, utilizandoos comandos da tabela acima.

1. inspecione o conteudo do diretorio com o comando ls

2. use o editor nano para criar um arquivo chamando arquivo.txt. Para abrir o editordigite no prompt do Linux:

nano

Digite o texto abaixo no editor:

Este e um texto digitado no Linux usando o editor nano.

3. grave o arquivo e saia do editor. Para isto veja as opcoes na parte de baixo da tela donano. Note que o caracter ^ corresponde a tecla CTRL. Portanto para gravar o arquivovoce vai precisar teclar CTRL-O (tecla “control” mais o caracter “O”)

4. inspecione novamente o conteudo do diretorio com o comando ls

5. troque o nome do arquivo de arquivo.txt para arq1.txt

6. use o comando more para visualizar o conteudo do arquivo

1

Page 2: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 2

Tabela 1: Alguns comandos basicos do LINUXwho mostra os usuarios logados no sistemaw tambem mostra os usuarios logados no sistemaquota -v mostra informacoes sobre cotas na area do usuariodu -hs * mostra o espaco usado por cada arquivo/diretorio de usuariols lista conteudo do diretorio localls -l mostra conteudo detalhadols -a mostra arquivos escondidosmkdir cria diretoriocp copia arquivocp -r copia recursivamente (para copiar diretorios)mv mover ou renomear arquivo/diretoriorm apaga arquivorm -r apaga recursivamenterm -rf apaga recursivamente sem confirmacao (use com cuidado!)cd muda de diretoriopwd mostra o diretorio atualcat, more ou less mostram conteudos de arquivotail mostra final de arquivohead mostra comeco de arquivozip e unzip comprime/descomprime arquivos .zipgzip e gunzip comprime/descomprime arquivos .gzgv mostra arquivos postscript (.ps)xpdf mostra arquivos em ¨portable document format¨ (.pdf)ssh acessa outra maquina Linux via protocolo seguro SSHscp copia arquivos entre maquinas Linux via protocolo segurogrep procura por palavra ou expressao em um ou mais arquivosrgrep procura por palavra ou expressao recursivamentechmod muda permissao de arquivos e diretorioslocate procura por um nome de arquivo/diretoriopasswd troca a senhanano abre o editor nanoemacs abre o editor emacskile abre o editor kile adequado para edicao de textos em LATEXmozilla abre o browser Mozilla

opera abre o browser Operaooffice abre o OpenOfficceR abre o programa Rdisquete∗ abre programa para transferencia de arquivos

da area do usuario para disquete inserido em drive localO sımbolo ∗ indica comando exclusivo para uso nos terminais do LABEST.

7. crie um diretorio chamando aula1

8. copie o arquivo arq1.txt para dentro deste diretorio

9. digite pwd e veja (e entenda) o que sai na tela

10. entre no diretorio aula1

Page 3: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 3

11. digite novamente pwd e veja o que sai na tela

12. volte para o seu diretorio “raiz” usando o comando cd

13. digite pwd de novo e veja “onde voce esta agora” (em qual diretorio)

14. digite o comando ls e veja o resultado

15. apague o arquivo arq1.txt

16. digite novamente o comando ls e veja o resultado

17. entre no diretorio aula1

18. use o comando pwd para ver se voce esta no diretorio correto

19. abra agora um novo arquivo chamando arq2.R usando o emacs

20. digite neste arquivo as seguinte linhas:

x <- rnorm(100)

summary(x)

hist(x)

sum(x > 0)

21. grave o arquivo e feche o editor emacs

22. veja o conteudo do diretorio com o comando ls

23. abra o editor openoffice e digite o seguinte texto

Este e um texto digitado no Linux usando o editor OpenOffice.

O Openoffice e uma alternativa ao MS-Office.

24. grave o texto num arquivo com o nome arq3 no formato do openoffice

25. grave o texto num arquivo com o nome arq3 no formato do MS-Word (extensao .doc)

26. feche o editor e retorne a linha de comando

27. liste os arquivos agora exitentes em seu diretorio aula1

28. use o Openoffice para criar uma planilha com os seguinte dados

A 12

A 13

A 11

A 10

B 14

B 15

B 12

B 13

29. salve esta planilha num arquivo com o nome arq4 no formato openoffice

Page 4: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 4

30. salve esta planilha num arquivo com o nome arq4 no formato do MS-Excel

31. feche o programa openoffice

32. liste os arquivos nos seu diretorio

33. volte ao seu diretorio raiz.

1.3 Alguns links

Alguns links com material introdutorio sobre o LINUX:

Apostila preparada por Stonebank e um excelente material introdutorio.

A Apostila preparada pelo PET-Informatica e um excelente material introdutorio.

O Linux e um sıtio copm muitas dicas e tutoriais.

Links para algumas distribuicoes LINUX:

Kurimin Linux e um Linux que voce pode rodar a partir de um CD-ROM.

Debian-Linux e a distribuicao usada no LABEST.

Documentacao do Conectiva-Linux. O Conectiva e uma distribuicao cuja a sede e emCuritiba-PR.

e veja tambem a documentacao do Mandrake Linux

1.4 Rodando o programa R no LINUX

O programa R pode ser rodado no LINUX de duas formas:

1. na linha do comando do LINUX (console) – basta digitar R na linha de comando do Linux.

2. dentro do editor Xemacs (ou emacs), assim como e feito no Windows. Para isto inicieo editor com o comando emacs & e depois inicie o Rcom a combinacao de teclas ESC

SHIFT-X SHIFT-R.

Neste curso sera dada preferencia a segunda forma, i.e. rodar o R dentro do Emacs. Maioresdetalhes sobre este mecanismo sao fornecidos no Tutorial de Introducao ao R.

2 Distribuicoes de Probabilidade

O programa R inclui funcionalidade para operacoes com distribuicoes de probabilidades.Para cada distribuicao ha 4 operacoes basicas indicadas pelas letras:

d calcula a densidade de probabilidade f(x) no ponto

p calcula a funcao de probabilidade acumulada F (x) no ponto

q calcula o quantil correspondente a uma dada probabilidade

r retira uma amostra da distribuicao

Para usar os funcoes deve-se combinar uma das letras acima com uma abreviatura donome da distribuicao, por exemplo para calcular probabilidades usamos: pnorm() para nor-mal, pexp() para exponencial, pbinom() para binomial, ppois() para Poisson e assim pordiante.

Vamos ver com mais detalhes algumas distribuicoes de probabilidades.

Page 5: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 5

2.1 Distribuicao Normal

A funcionalidade para distribuicao normal e implementada por argumentos que combinamas letras acima com o termo norm. Vamos ver alguns exemplos com a distribuicao normalpadrao. Por default as funcoes assumem a distribuicao normal padrao N(µ = 0, σ2 = 1).

> dnorm(-1)

[1] 0.2419707

> pnorm(-1)

[1] 0.1586553

> qnorm(0.975)

[1] 1.959964

> rnorm(10)

[1] -1.7098545 1.0432674 -0.5028886 -1.5223558 0.3146623 0.9766815 1.0738923

[8] -0.9990163 -1.3565772 -0.4120919

O primeiro valor acima corresponde ao valor da densidade da normal

f(x) =1√

2πσ2exp− 1

2σ2(x− µ)2

com parametros (µ = 0, σ2 = 1) no ponto−1. Portanto, o mesmo valor seria obtido substituindox por −1 na expressao da normal padrao:

> (1/sqrt(2 * pi)) * exp((-1/2) * (-1)^2)

[1] 0.2419707

A funcao pnorm(-1) calcula a probabilidade P (X ≤ −1).O comando qnorm(0.975) calcula o valor de a tal que P (X ≤ a) = 0.975.Finalmente o comando rnorm(10) gera uma amostra de 10 elementos da normal padrao. Noteque os valores que voce obtem rodando este comando podem ser diferentes dos mostrados acima.

As funcoes acima possuem argumentos adicionais, para os quais valores padrao (default)foram assumidos, e que podem ser modificados. Usamos args() para ver os argumentos deuma funcao e help() para visualizar a documentacao detalhada:

> args(rnorm)

function (n, mean = 0, sd = 1)

NULL

As funcoes relacionadas a distribuicao normal possuem os argumentos mean e sd para definirmedia e desvio padrao da distribuicao que podem ser modificados como nos exemplos a seguir.Note nestes exemplos que os argumentos podem ser passados de diferentes formas.

> qnorm(0.975, mean = 100, sd = 8)

[1] 115.6797

Page 6: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 6

> qnorm(0.975, m = 100, s = 8)

[1] 115.6797

> qnorm(0.975, 100, 8)

[1] 115.6797

Para informacoes mais detalhadas pode-se usar a funcao help. O comando

> help(rnorm)

ira exibir em uma janela a documentacao da funcao que pode tambem ser chamada com ?rnorm.Note que ao final da documentacao sao apresentados exemplos que podem ser rodados pelousuario e que auxiliam na compreensao da funcionalidade.Note tambem que as 4 funcoes relacionadas a distribuicao normal sao documentadas conjunta-mente, portanto help(rnorm), help(qnorm), help(dnorm) e help(pnorm) irao exibir a mesmadocumentacao.

Calculos de probabilidades usuais, para os quais utilizavamos tabelas estatısticas podem serfacilmente obtidos como no exemplo a seguir.

Seja X uma v.a. com distribuicao N(100, 100). Calcular as probabilidades:

1. P [X < 95]

2. P [90 < X < 110]

3. P [X > 95]

Calcule estas probabilidades de forma usual, usando a tabela da normal. Depois compare comos resultados fornecidos pelo R. Os comandos do R para obter as probabilidades pedidas sao:

> pnorm(95, 100, 10)

[1] 0.3085375

> pnorm(110, 100, 10) - pnorm(90, 100, 10)

[1] 0.6826895

> 1 - pnorm(95, 100, 10)

[1] 0.6914625

> pnorm(95, 100, 10, lower = F)

[1] 0.6914625

Note que a ultima probabilidade foi calculada de duas formas diferentes, a segunda usandoo argumento lower que implementa um algorıtmo de calculo de probabilidades mais estavelnumericamente.

A seguir vamos ver comandos para fazer graficos de distribuicoes de probabilidade. Vamosfazer graficos de funcoes de densidade e de probabilidade acumulada. Estude cuidadosamenteos comandos abaixo e verifique os graficos por eles produzidos. A Figura 1 mostra graficosda densidade (esquerda) e probabilidade acumulada (direita) da normal padrao, produzidoscom os comandos a seguir. Para fazer o grafico consideramos valores de X entre -3 e 3 quecorrespondem a +/- tres desvios padroes da media, faixa que concentra 99,73% da massa deprobabilidade da distribuicao normal.

Page 7: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 7

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

x

dnor

m (

x)

−3 −2 −1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

xpn

orm

(x)

Figura 1: Funcoes de densidade e probabilidade da distribuicao normal padrao.

> plot(dnorm, -3, 3)

> plot(pnorm, -3, 3)

A Figura 2 mostra graficos da densidade (esquerda) e probabilidade acumulada (direita) daN(100, 64). Para fazer estes graficos tomamos uma sequencia de valores de x entre 70 e 130e para cada um deles calculamos o valor das funcoes f(x) e F (x). Depois unimos os pontos(x, f(x)) em um grafico e (x, F (x)) no outro.

> x <- seq(70, 130, len = 100)

> fx <- dnorm(x, 100, 8)

> plot(x, fx, type = "l")

> Fx <- pnorm(x, 100, 8)

> plot(x, Fx, type = "l")

Note que, alternativamente, os mesmos graficos poderiam ser produzidos com os comandos aseguir.

> plot(function(x) dnorm(x, 100, 8), 70, 130)

> plot(function(x) pnorm(x, 100, 8), 70, 130)

Comandos usuais do R podem ser usados para modificar a aparencia dos graficos. Por exemplo,podemos incluir tıtulos e mudar texto dos eixos conforme mostrado na grafico da esquerda daFigura 3 e nos dois primeiros comandos abaixo. Os demais comandos mostram como colocardiferentes densidades em um mesmo grafico como ilustrado a direita da mesma Figura.

> plot(dnorm, -3, 3, xlab = "valores de X", ylab = "densidade de probabilidade")

> title("Distribuic~ao Normal\nX ~ N(100, 64)")

> plot(function(x) dnorm(x, 100, 8), 60, 140, ylab = "f(x)")

> plot(function(x) dnorm(x, 90, 8), 60, 140, add = T, col = 2)

> plot(function(x) dnorm(x, 100, 15), 60, 140, add = T, col = 3)

> legend(110, 0.05, c("N(100,64)", "N(90,64)", "N(100,225)"), fill = 1:3)

Page 8: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 8

70 80 90 100 110 120 130

0.00

0.01

0.02

0.03

0.04

0.05

x

fx

70 80 90 100 110 120 130

0.0

0.2

0.4

0.6

0.8

1.0

xF

x

Figura 2: Funcoes de densidade de probabilidade (esquerda) e funcao de distribuicao acumulada(direita) da N(100, 64).

2.2 Distribuicao Binomial

Calculos para a distribuicao binomial sao implementados combinando as letras basicas vistasacima com o termo binom. Vamos primeiro investigar argumentos e documentacao com args()

e dbinom().

> args(dbinom)

function (x, size, prob, log = FALSE)

NULL

> help(dbinom)

Seja X uma v.a. com distribuicao Binomial com n = 10 e p = 0.35. Vamos ver os comandosdo R para:

1. fazer o grafico das funcao de densidade

2. idem para a funcao de probabilidade

3. calcular P [X = 7]

4. calcular P [X < 8] = P [X ≤ 7]

5. calcular P [X ≥ 8] = P [X > 7]

6. calcular P [3 < X ≤ 6] = P [4 ≤ X < 7]

Note que sendo uma distribuicao discreta de probabilidades os graficos sao diferentes dosobtidos para distribuicao normal e os calculos de probabilidades devem considerar as proba-bilidades nos pontos. Os graficos das funcoes de densidade e probabilidade sao mostrados naFigura 4.

Page 9: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 9

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

valores de X

dens

idad

e de

pro

babi

lidad

eDistribuicão Normal

X ~ N(100, 64)

60 80 100 120 140

0.00

0.01

0.02

0.03

0.04

0.05

xf(

x)

N(100,64)N(90,64)N(100,225)

Figura 3: Grafico com texto nos eixos e tıtulo (esquerda) e varias distribuicoes em um mesmografico (direita).

> x <- 0:10

> fx <- dbinom(x, 10, 0.35)

> plot(x, fx, type = "h")

> Fx <- pbinom(x, 10, 0.35)

> plot(x, Fx, type = "S")

As probabilidades pedidas sao obtidas com os comandos a seguir.

> dbinom(7, 10, 0.35)

[1] 0.02120302

> pbinom(7, 10, 0.35)

[1] 0.9951787

> sum(dbinom(0:7, 10, 0.35))

[1] 0.9951787

> 1 - pbinom(7, 10, 0.35)

[1] 0.004821265

> pbinom(7, 10, 0.35, lower = F)

[1] 0.004821265

> pbinom(6, 10, 0.35) - pbinom(3, 10, 0.35)

[1] 0.4601487

> sum(dbinom(4:6, 10, 0.35))

[1] 0.4601487

Page 10: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 10

0 2 4 6 8 10

0.00

0.05

0.10

0.15

0.20

0.25

x

fx

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

xF

x

Figura 4: Funcoes de probabilidade (esquerda) e distribuicao acumulada (direita) daB(10, 0.35).

2.3 Exercıcios

Nos exercıcios abaixo iremos tambem usar o R como uma calculadora estatıstica para re-solver alguns exemplos/exercıcios de probabilidade tipicamente apresentados em um curso deestatıstica basica.

Os exercıcios abaixo com indicacao de pagina foram retirados de:Magalhaes, M.N. & Lima, A.C.P. (2001) Nocoes de Probabilidade e Estatıstica. 3 ed.

Sao Paulo, IME-USP. 392p.

1. (Ex 1, pag 67) Uma moeda viciada tem probabilidade de cara igual a 0.4. Para quatrolancamentos independentes dessa moeda, estude o comportamento da variavel numero decaras e faca um grafico de sua funcao de distribuicao.

2. (Ex 5, pag 77) Sendo X uma variavel seguindo o modelo Binomial com parametro n = 15e p = 0.4, pergunta-se:

P (X ≥ 14)

P (8 < X ≤ 10)

P (X < 2 ou X ≥ 11)

P (X ≥ 11 ou X > 13)

P (X > 3 e X < 6)

P (X ≤ 13 | X ≥ 11)

3. (Ex 8, pag 193) Para X ∼ N(90, 100), obtenha:

P (X ≤ 115)

P (X ≥ 80)

Page 11: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 11

P (X ≤ 75)

P (85 ≤ X ≤ 110)

P (|X − 90| ≤ 10)

O valor de a tal que P (90− a ≤ X ≤ 90 + a) = γ, γ = 0.95

4. Faca os seguintes graficos:

da funcao de densidade de uma variavel com distribuicao de Poisson com parametroλ = 5

da densidade de uma variavel X ∼ N(90, 100)

sobreponha ao grafico anterior a densidade de uma variavel Y ∼ N(90, 80) e outraZ ∼ N(85, 100)

densidades de distribuicoes χ2 com 1, 2 e 5 graus de liberdade.

5. A probabilidade de indivıduos nascerem com certa caracterıstica e de 0,3. Para o nasci-mento de 5 indivıduos e considerando os nascimentos como eventos independentes, estudeo comportamento da variavel numero de indivıduos com a caracterıstica e faca um graficode sua funcao de distribuicao.

6. Sendo X uma variavel seguindo o modelo Normal com media µ = 130 e variancia σ2 = 64,pergunta-se: (a) P (X ≥ 120) (b) P (135 < X ≤ 145) (c) P (X < 120 ou X ≥150)

7. (Ex 3.6, pag 65) Num estudo sobre a incidencia de cancer foi registrado, para cada pacientecom este diagnostico o numero de casos de cancer em parentes proximos (pais, irmaos,tios, filhos e sobrinhos). Os dados de 26 pacientes sao os seguintes:

Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13Incidencia 2 5 0 2 1 5 3 3 3 2 0 1 1

Paciente 14 15 16 17 18 19 20 21 22 23 24 25 26Incidencia 4 5 2 2 3 2 1 5 4 0 0 3 3

Estudos anteriores assumem que a incidencia de cancer em parentes proximos pode sermodelada pela seguinte funcao discreta de probabilidades:

Incidencia 0 1 2 3 4 5pi 0.1 0.1 0.3 0.3 0.1 0.1

os dados observados concordam com o modelo teorico?

faca um grafico mostrando as frequencias teoricas (esperadas) e observadas.

8. A distribuicao da soma de duas variaveis aleatorias uniformes nao e uniforme. Verifiqueisto gerando dois vetores x e y com distribuicao uniforme [0, 1] com 3000 valores cadae fazendo z = x + y. Obtenha o histograma para x, y e z. Descreva os comandos queutilizou.

Page 12: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 12

Resistencia 2 3 4 5 6pi 0,1 0,1 0,4 0,2 0,2

9. (extraıdo de Magalhaes e Lima, 2001) A resistencia (em toneladas) de vigas de concretoproduzidas por uma empresa, comporta-se como abaixo:

Simule a resistencia de 5000 vigas a partir de valores gerados de uma uniforme [0,1].(Dica: Use o comando ifelse() do R). Verifique o histograma.

Page 13: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 13

2.4 Exercıcios Bussab, W. & Morettin, P. (2003)

Os exercıcios a seguir foram extraıdos de: Bussab, W. & Morettin, P. (2003) EstatısticaBasica, Atual Editora, 5a Ed.

Probabilidades

1. Uma urna contem duas bolas brancas (B) e tres bolas vermelhas (V). Retira-se uma bolaao acaso da urna. Se for branca, lanca-se uma moeda; se for vermelha, ela e devolvida aurna e retira-se outra. De um espaco amostral para o experimento.

2. Lance um dado ate que a face 5 apareca pela primeira vez. Enumere os possıveis resultadosdesse experimento.

3. Tres jogadores A, B e C disputam um torneio de tenis. Inicialmente, A joga com B e ovencedor joga com C, e assim por diante. O torneio termina quando um jogador ganhaduas vezes em seguida ou quando sao disputadas, ao todo, quatro partidas. Quais sao osresultados possıveis do torneio?

4. Considere uma urna contendo tres bolas pretas e cinco bolas vermelhas. Retire duas bolasda urna, sem reposicao.

(a) Obtenha os resultados possıveis e as respectivas probabilidades

(b) Mesmo problema, para extracoes com reposicao

5. No problema anterior, calcule as probabilidades dos eventos:

(a) Bola preta na primeira e segunda extracoes.

(b) Bola preta na segunda extracao.

(c) Bola vermelha na primeira extracao

6. A probabildade de que A resolva um problema e de 2/3, e a probabilidade de que Bo resolva e de 3/4. Se ambos tentarem independentemente, qual a probabilidade de oproblema ser resolvido?

7. Um dado e viciado, de tal forma que a probabilidade de sair um certo ponto e proporcionalao seu valor. Calcular:

(a) a probabilidade de sair 5, sabendo-se que o ponto que saiu e ımpar;

(b) a probabilidade de tirar um numero par, sabendo-se que saiu um numero maior que3.

8. Na tabela a seguir, verifique se A e B sao independentes.

B BC TotalA 0,04 0,06 0,10AC 0,08 0,82 0,90

Total 0,12 0,88 1,00

Page 14: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 14

9. As probabilidades de tres motoristas serem capazes de guiar ate em casa com segurancadepois de beber, sao de 1/3, 1/4 e 1/5, respectivamente. Se decidirem guiar ate em casa,depois de beber numa festa, qual a probabilidade de todos os tres motoristas sofreremacidentes? Qual a probabilidade de pelo menos um dos motoristas guiar ate em casasalvo?

10. Suponhamos que 10.000 bilhetes sejam vendidos em uma loteria e 5.000 em outra, cadauma tendo apenas um ganhador. Um homem tem 100 bilhetes de cada. Qual a probabi-lidade de que:

(a) ele ganhe exatamente um premio?

(b) ele ganhe alguma coisa?

11. Em media, 5% dos produtos vendidos por uma loja sao devolvidos. Qual a probabilidadede que, das quatro proximas unidades vendidas desse produto, duas sejam devolvidas?

12. Tres alarmes estao dispostos de tal maneira que qualquer um deles funcionara indepen-dentemente quando qualquer coisa indesejavel ocorrer. Se cada alarme tem probabilidade0,9 de trabalhar eficientemente, qual e a probabilidade de se ouvir o alarme quando ne-cessario?

13. Num teste com duas marcas que lhe sao apresentadas em ordem aleatoria, um experi-mentador de vinhos faz tres identificacoes corretas em tres tentativas.

(a) Qual a probabilidade de isso ocorrer, se na realidade ele nao possuir habilidadealguma para distingui-los?

(b) E se a probabilidade de distinguir corretamente e de 90% em cada tentativa?

Um grupo de 12 homens e 8 mulheres concorre a tres premios atraves de um sorteio,sem reposicao de seus nomes. Qual a probabilidade de:

(a) nenhum homem ser sorteado?

(b) um premio ser ganho por homem?

(c) dois homens serem premiados?

14. Considere uma urna contendo tres bolas vermelhas e cinco pretas. Retire tres bolas, semreposicao, e defina a v.a. X igual ao numero de bolas pretas. Obtenha a distribuicao deX.

15. Repita o problema anterior, mas considerando extracoes com reposicao.

16. Suponha qye uma moeda perfeita e lancada ate que cara apareca pela primeira vez. SejaX o numero de lancamento ate que isso aconteca. Obtenha a distribuicao de X. (Observeque, nesse problema, pelo menos teoricamente, X pode assumir um numero infinito devalores).

17. Uma moeda perfeita e lancada quatro vezes. Seja Y o numero de caras obtidas. Calculea distribuicao de Y.

18. Considere uma urna contendo 3 bolas vermelhas e 5 pretas. Retira-se 3 bolas, sem repo-sicao, e defina a v.a.X igual ao numero de bolas pretas, obtenha as distribuicoes das v.a.X, 3X e X2.

Page 15: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 15

v 0 1p(v) q 1-q

19. Suponha que a v.a. V tem a distribuicao seguinte:

Obtenha E(V ) e V arV

20. Para os exercıcios (a) e (e) abaixo, considere o enunciado:

Das variaveis abaixo descritas, assinale quais sao binomiais, e para essas de os respectivoscampos de definicao e funcao de probabilidade. Quando julgar que a variavel nao ebinominal, aponte as razoes de sua conclusao.

(a) De uma urna com dez bolas brancas e 20 pretas, vamos extrair, com reposicao, cincobolas. X e o numero de bolas brancas nas cinco extracoes.

(b) Refaca o problema anterior, mas dessa vez as n extracoes sao sem reposicao.

(c) Temos cinco urnas com bolas pretas e brancas e vamos extrair uma bola de cadaurna. Suponha qeu X seja o numero de bolas brancas obtidas no final.

(d) Vamos realizar uma pesquisa em dez cidades brasileiras, escolhendo ao acaso umhabitante de cada uma delas e classificando-o em pro ou contra um certo projetofederal. Suponha que X seja o numero de indivıduos contra o projeto no final dapesquisa.

(e) Em uma industria existem 100 maquinas que fabricam determinada peca. Cada pecae classificada como boa ou defeituosa. Escolhemos ao acaso um instante de tempo everificamos uma peca de cada uma das maquinas. Suponha que X seja o numero depecas defeituosas.

21. Se X b(n, p), sabendo-se que a media E(X) = 12 e a variancia σ2 = 3, determinar:

(a) n

(b) p

(c) P (X < 12)

(d) P (X ≥ 14)

(e) E(Z) e V ar(Z), onde Z = (X − 12)/sqrt3

(f) P (Y ≥ 14/16), onde Y = X/n

(g) P (Y ≥ 12/16), onde Y = X/n

22. Numa central telefonica, o numero de chamadas chega segundo uma distribuicao de Pois-son, com a media de oito chamadas por minuto. Determinar qual a probabilidade que setenha:

(a) 10 ou mais chamadas

Page 16: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 16

(b) menos do que 9 chamadas

(c) entre 7 (inclusive) e 9 (exclusive)

4. Num certo tipo de fabricacao de fita magnetica, ocorrem cortes a uma taxa de um por2.000 pes. Qual a probabilidade de que um rolo com 2.000 pes de fita magnetica tenha:

(a) nenhum corte?

(b) no maximo dois cortes?

(c) pelo menos dois cortes?

23. Suponha que a probabilidade de que um item produzido por uma maquina seja defeituosoe de 0,2. Se dez itens produzidos por essa maquina sao selecionados ao acaso, qual aprobabilidade de que mais do que um defeituoso seja encontrado? Use a binomial e adistribuicao de Poisson e compare os resultados.

24. Examinaram-se 2.000 ninhadas de cinco porcos cada uma, segundo o numero de machos.Os dados estao representados na tabela abaixo.

No de Machos No de Ninhadas0 201 3602 7003 6804 2005 40

Total 2.000

(a) Calcule a proporcao media de machos.

(b) Calcule, para cada valor de X, o numero de ninhadas que voce deve esperar seX b(5, p), onde p e a proporcao media de machos calculada em (a).

25. Se X tem distribuicao binomial com parametros n = 5 e p = 1/2, faca os graficos dedistribuicoes de X e da f.d.a. F(x).

26. Considere, agora, n = 5 e p = 1/4. Obtenha o grafico da distribuicao de X. Qual adiferenca entre esse grafico e o correspondente do problema anterior? O que ocasionou adiferenca?

27. Refaca o problema anterior, com n = 6 e p = 1/2.

28. Na manufatura de certo artigo, e sabido que um entre dez artigos e defeituoso. Qual aprobabilidade de que uma amostra casual de tamanho quatro contenha:

(a) nenhum defeituoso?

(b) exatamente um defeituoso?

Page 17: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 17

(c) exatamente dois defeituoso

(d) nao mais do que dois defeituosos?

29. Um fabricante de pecas de automoveis garante que uma caixa de suas pecas contera, nomaximo, duas defeituosas. Se a caixa contem 18 pecas, e a experiencia tem demostradoque esse processo de fabricacao produz 5% das pecas defeituosas, qual a probabilidade deque uma caixa satisfaca a garantia?

30. Um curso de treinamento aumenta a produtividade de uma certa populacao de funciona-rios em 80% dos casos. Se dez funcionarios quaisquer participam desse curso, encontre aprobabilidade de:

(a) exatamente sete funcionario aumentarem a produtividade;

(b) nao mais do que oito funcionarios aumentarem a produtividade; e

(c) pelo menos tres funcionarios nao aumentarem a produtividade.

31. O numero de petroleiros que chegam a uma refinaria emcada dia ocorre segundo umadistribuicao de Poisson, com λ = 2. As atuais instalacoes podem atender, no maximo, atres petroleiros por dia. Se mais de tres aportarem num dia, o excesso e enviado a outroporto

(a) Em um dia, qual a probabilidade de se enviar petroleiros para outro porto?

(b) De quanto deverao ser aumentadas as instalacoes para permitir atender a todos osnavios que chegarem pelo menos em 95% dos dias?

(c) Qual o numero medio de petroleiros que chegam por dia?

32. Na tabela a seguir, X significa o numero de filhos homens em famılias com 12 filhos.Calcule para cada valor da variavel o numero de famılias que voce deveria esperar seX b(12; 0, 5).

X No observado de famılias0 61 292 1603 5214 1.1985 1.9216 2.3607 2.0338 1.3989 79910 29811 6012 7

Total 10.690

Voce acha que o modelo binomial e razoavel para explicar o fenomeno?

Page 18: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 18

33. Determinado tipo de parafuso e vendido em caixas com 1.000 pecas. E uma caracterısticada fabricacao produzir 10% com defeito. Normalmente, cada caixa e vendida por $13,50.Um comprador faz a seguinte proposta: de cada caixa, ele escolhe uma amostra de 20pecas; se a caixa nao tiver parafusos defeituosos, ele paga $20,00; um ou dois defeituosos,ele para $10,00; tres ou mais defeituosos, ele paga $8,00. Qual alternativa e a maisvantajosa para o fabricante? Justifique.

34. Uma certa regiao florestal foi dividida em 109 quadrados para estudar a distribuicao dePrimula simenses Selvagem. A priori, supomos que esse tipo distribua-se aleatoriamentena regiao. O quadro abaixo indica o numero de quadrados com X Primula simenses; onumero medio de plantas por quadrado foi de 2,2.

X No observado de famılias0 2001 1522 603 304 135 96 77 58 4

(a) Se as plantas realmente se distribuem aleatoriamente na regiao, qual a probabilidadede encontrarmos pelo menos duas Primulas?

(b) De as frequencias esperadas para os valores de X = 0, X =1 e X = 2.

(c) Apenas comparando os resultados de (b) com as frequencias observadas, qual aconclusao a que voce chegaria?

Distribuicoes teoricas (contınuas)

1. Em uma prova de estatıstica, a media foi 7.25 e o desvio padrao, 0.55. Determine onumero de alunos que fizeram a prova, dado que as notas foram normalmente agrupadasem cinco graus e que os sete alunos cujas notas estavam entre 7.8 e 8.4 obtiveram grauB. (supor a distribuicao normal).

2. A maquina M produz esferas para rolamentos. Se o diametro das esferas puder ser con-siderado uma variavel aleatoria com distribuicao nomal com media 5mm e desvio padrao0.05 mm, quantas terao diametro superior a 5.07mm ? Se o controle de qualidade refugaros itens que se afastem mais do que 0.1 mm da media, quantas esferas serao rejeitadas ?

3. A renda per capita da Republica das Bahanaz e normalmente distribuıda, com media$5000,00 e desvio padrao de $800.

(a) Qual a renda maxima de 80% da populacao mais pobre ?

(b) Qual porcentagem de pessas que recebem por ano

Page 19: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 19

i. menos de $4000

ii. mais de $ 6500

iii. entre $ 3750 e $ 6750

4. Dado que o volume de agua que caiu em maio sobre Sao Paulo variou de modo uniformeentre 1.3 e 59.7 mm, determine a percentagem de dias com pluviosidade:

(a) acima de 50,5 mm

(b) abaixo de 10,5 mm

(c) entre 15,3 e 45,7 mm

5. Uma empresa produz automoveis e garante a restituicao da quantia paga se qualquerautomovel apresentar algum defeito grave no prazo de seis meses. A empresa produzautomoveis dos tipo A comum e do tipo B de luxo, com um lucro de R$ 1000,00 eR $ 2000,00, respectivamente, caso nao haja restituicao, e com prejuızo de R$3000,00 eR$8000,00, respectivamente se houver restituicao. Suponha que o tempo para a ocorrenciade algum defeito grave seja, em ambos os casos, uma variavel com distribuicao normal,respectivamente com medias 9 meses e 12 meses, e variancias 4 meses e 9 meses. Se tivesseque planejar uma estrategia de marketing para a empresa, voce incentivaria a venda deautomoveis do tipo A ou do tipo B. Justifique.

2.5 Exercıcios de Barros, M.

Os exercıcios a seguir foram extraıdos de: Barros, M. Probabilidade - um curso Intro-dutorio

1. Voce esta numa sessao de cinema na qual ocorre uma promocao de um provedor deinternet, que esta dando 6 meses de acesso gratuito. Existem 80 pessoas no cinema,das quais apenas 30 possuem e computador e portanto poderiam estar interessadas nestapromocao. O provedor seleciona aleatoriamente 5 espectadores. Qual a probabilidade de 3ou mais espectadores se interessarem pela promocao (isto e, 3 ou mais terem computador)?

2. Considere um jogo no qual voce pode ganhar 0, 1 ou 2 reais, ou perder 2 ou 1 reais comas probabilidades especificadas abaixo: Encontre a media e a variancia dos ganhos neste

x P (X = x)-2 2/10-1 1/100 4/101 1/102 2/10

jogo.

R: media igual a zero e variancia igual a 1.8

3. Uma empresa aerea sabe que 20 % das pessoas que fazem reserva aereas cancelam suasreservas. A empresa vende 50 passagens para um voo que contem 46 lugares. Supondo queas pessoas cancelam ou nao suas reservas de maneira independente, calcule a probabilidadede que havera assentos para todos os passageiros.

Page 20: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 20

r P (R = r)-5 % 0.400% 0.155% 0.2510% 0.1515% 0.05

4. O retorno mensal de certo investimento de risco pode ser modelado pela seguinte variavelaleatoria R com funcao de probabilidade dada a seguir :

Calcule o retorno esperado (em %) do investimento, sua variancia e desvio padrao.

Page 21: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 21

3 Analise descritiva

3.1 Descricao univariada

Nesta sessao vamos ver alguns (mas nao todos!) comandos do R para fazer uma analisedescritiva de um conjunto de dados.

Uma boa forma de iniciar uma analise descritiva adequada e verificar os tipode de variaveisdisponıveis. Variaveis podem ser classificadas da seguinte forma:

qualitativas

– nominais

– ordinais

quantitativas

– discretas

– contınuas

e podem ser resumidas por tabelas, graficos e/ou medidas.

3.2 Descrevendo o conjunto de dados “milsa” de Bussab & Morettin

O livro Estatıstica Basica de W. Bussab e P. Morettin traz no primeiro capıtulo um conjuntode dados hipotetico de atributos de 36 funcionarios da companhia “Milsa”. Os dados estaoreproduzidos na tabela 3.2. Veja o livro para mais detalhes sobre este dados.

O que queremos aqui e ver como, no programa R:

entrar com os dados

fazer uma analise descritiva

Estes sao dados no ”estilo planilha”, com variaveis de diferentes tipos: categoricas e nume-ricas (qualitativas e quantitativas). Portanto o formato ideal de armazenamento destes dadosno R e o data.frame. Para entrar com estes dados no diretamente no R podemos usar o editorque vem com o programa. Para digitar rapidamente estes dados e mais facil usar codigos paraas variaveis categoricas. Desta forma, na coluna de estado civil vamos digitar o codigo 1 parasolteiro e 2 para casado. Fazemos de maneira similar com as colunas Grau de Instrucao e Regiaode Procedencia. No comando a seguir invocamos o editor, entramos com os dados na janela quevai aparecer na sua tela e quanto saımos do editor (pressionando o botao QUIT) os dados ficamarmazenados no objeto milsa. Apos isto digitamos o nome do objeto (milsa) e podemos ver oconteudo digitado, como mostra a tabela 3.2. Lembre-se que se voce precisar corrigir algo nadigitacao voce pode faze-lo abrindo a planilha novamente com o comando fix(milsa).

> milsa <- edit(data.frame())

> milsa

> fix(milsa)

Page 22: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 22

Tabela 2: Dados de Bussab & MorettinFuncionario Est. Civil Instrucao No Filhos Salario Ano Mes Regiao1 solteiro 1o Grau - 4.00 26 3 interior2 casado 1o Grau 1 4.56 32 10 capital3 casado 1o Grau 2 5.25 36 5 capital4 solteiro 2o Grau - 5.73 20 10 outro5 solteiro 1o Grau - 6.26 40 7 outro6 casado 1o Grau 0 6.66 28 0 interior7 solteiro 1o Grau - 6.86 41 0 interior8 solteiro 1o Grau - 7.39 43 4 capital9 casado 2o Grau 1 7.59 34 10 capital10 solteiro 2o Grau - 7.44 23 6 outro11 casado 2o Grau 2 8.12 33 6 interior12 solteiro 1o Grau - 8.46 27 11 capital13 solteiro 2o Grau - 8.74 37 5 outro14 casado 1o Grau 3 8.95 44 2 outro15 casado 2o Grau 0 9.13 30 5 interior16 solteiro 2o Grau - 9.35 38 8 outro17 casado 2o Grau 1 9.77 31 7 capital18 casado 1o Grau 2 9.80 39 7 outro19 solteiro Superior - 10.53 25 8 interior20 solteiro 2o Grau - 10.76 37 4 interior21 casado 2o Grau 1 11.06 30 9 outro22 solteiro 2o Grau - 11.59 34 2 capital23 solteiro 1o Grau - 12.00 41 0 outro24 casado Superior 0 12.79 26 1 outro25 casado 2o Grau 2 13.23 32 5 interior26 casado 2o Grau 2 13.60 35 0 outro27 solteiro 1o Grau - 13.85 46 7 outro28 casado 2o Grau 0 14.69 29 8 interior29 casado 2o Grau 5 14.71 40 6 interior30 casado 2o Grau 2 15.99 35 10 capital31 solteiro Superior - 16.22 31 5 outro32 casado 2o Grau 1 16.61 36 4 interior33 casado Superior 3 17.26 43 7 capital34 solteiro Superior - 18.75 33 7 capital35 casado 2o Grau 2 19.40 48 11 capital36 casado Superior 3 23.30 42 2 interior

Page 23: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 23

Tabela 3: Dados digitados usando codigos para variaveis

civil instrucao filhos salario ano mes regiao1 1 1 NA 4.00 26 3 12 2 1 1 4.56 32 10 23 2 1 2 5.25 36 5 24 1 2 NA 5.73 20 10 35 1 1 NA 6.26 40 7 36 2 1 0 6.66 28 0 17 1 1 NA 6.86 41 0 18 1 1 NA 7.39 43 4 29 2 2 1 7.59 34 10 210 1 2 NA 7.44 23 6 311 2 2 2 8.12 33 6 112 1 1 NA 8.46 27 11 213 1 2 NA 8.74 37 5 314 2 1 3 8.95 44 2 315 2 2 0 9.13 30 5 116 1 2 NA 9.35 38 8 317 2 2 1 9.77 31 7 218 2 1 2 9.80 39 7 319 1 3 NA 10.53 25 8 120 1 2 NA 10.76 37 4 121 2 2 1 11.06 30 9 322 1 2 NA 11.59 34 2 223 1 1 NA 12.00 41 0 324 2 3 0 12.79 26 1 325 2 2 2 13.23 32 5 126 2 2 2 13.60 35 0 327 1 1 NA 13.85 46 7 328 2 2 0 14.69 29 8 129 2 2 5 14.71 40 6 130 2 2 2 15.99 35 10 231 1 3 NA 16.22 31 5 332 2 2 1 16.61 36 4 133 2 3 3 17.26 43 7 234 1 3 NA 18.75 33 7 235 2 2 2 19.40 48 11 236 2 3 3 23.30 42 2 1

Page 24: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 24

Atencao: Note que alem de digitar os dados na planilha digitamos tambem o nome queescolhemos para cada variavel. Para isto basta, na planilha, clicar no nome da variavel e escolhera opcao CHANGE NAME e informar o novo nome da variavel.

A planilha digitada como esta ainda nao esta pronta. Precisamos informar para o programaque as variaveis civil, instrucao e regiao, NAO sao numericas e sim categoricas. No Rvariaveis categoricas sao definidas usando o comando factor(), que vamos usar para redefinirnossas variaveis conforme os comandos a seguir. Inicialmente inspecionamos as primeiras linhasdo conjunto de dados. A seguir redefinimos a variavel civil com os rotulos (labels) solteiro ecasado associados aos nıveis (levels) 1 e 2. Para variavel instrucao usamos o argumento adici-onal ordered = TRUE para indicar que e uma variavel ordinal. Na variavel regiao codificamosassim: 2=capital, 1=interior, 3=outro. Ao final inspecionamos as primeiras linhas do conjuntode dados digitando usando head().

> head(milsa)

funcionario civil instrucao filhos salario ano mes regiao

1 1 1 1 NA 4.00 26 3 1

2 2 2 1 1 4.56 32 10 2

3 3 2 1 2 5.25 36 5 2

4 4 1 2 NA 5.73 20 10 3

5 5 1 1 NA 6.26 40 7 3

6 6 2 1 0 6.66 28 0 1

> milsa$civil <- factor(milsa$civil, label = c("solteiro", "casado"),

+ levels = 1:2)

> milsa$instrucao <- factor(milsa$instrucao, label = c("1oGrau",

+ "2oGrau", "Superior"), lev = 1:3, ord = T)

> milsa$regiao <- factor(milsa$regiao, label = c("capital", "interior",

+ "outro"), lev = c(2, 1, 3))

> head(milsa)

funcionario civil instrucao filhos salario ano mes regiao

1 1 solteiro 1oGrau NA 4.00 26 3 interior

2 2 casado 1oGrau 1 4.56 32 10 capital

3 3 casado 1oGrau 2 5.25 36 5 capital

4 4 solteiro 2oGrau NA 5.73 20 10 outro

5 5 solteiro 1oGrau NA 6.26 40 7 outro

6 6 casado 1oGrau 0 6.66 28 0 interior

Em versoes mais recentes do R foi introduzida a funcao transform() que pode ser usadaalternativamente aos comandos mostrados acima para modificar ou gerar novas variaveis. Porexemplo, os comandos acima poderiam ser substituıdos por:

> milsa <- transform(milsa, civil = factor(civil, label = c("solteiro",

+ "casado"), levels = 1:2), instrucao = factor(instrucao, label = c("1oGrau",

+ "2oGrau", "Superior"), lev = 1:3, ord = T), regiao = factor(regiao,

+ label = c("capital", "interior", "outro"), lev = c(2, 1,

+ 3)))

Vamos ainda definir uma nova variavel unica idade a partir das variaveis ano e mes queforam digitadas. Para gerar a variavel idade em anos fazemos:

Page 25: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 25

> milsa <- transform(milsa, idade = ano + mes/12)

> milsa$idade

[1] 26.25000 32.83333 36.41667 20.83333 40.58333 28.00000 41.00000 43.33333

[9] 34.83333 23.50000 33.50000 27.91667 37.41667 44.16667 30.41667 38.66667

[17] 31.58333 39.58333 25.66667 37.33333 30.75000 34.16667 41.00000 26.08333

[25] 32.41667 35.00000 46.58333 29.66667 40.50000 35.83333 31.41667 36.33333

[33] 43.58333 33.58333 48.91667 42.16667

Uma outra forma de se obter o mesmo resultado seria:

> milsa$idade <- milsa$ano + milsa$mes/12

Agora que os dados estao prontos podemos comecar a analise descritiva. A seguir mostramoscomo fazer analises descritivas uni e bi-variadas. Inspecione os comandos mostrados a seguire os resultados por eleas produzidos. Sugerimos ainda que o leitor use o R para reproduzir osresultados mostrados no texto dos capıtulos 1 a 3 do livro de Bussab & Morettin relacionadoscom este exemplo.

Inicialmente verificamos que o objeto milsa e um data-frame, usamos names() para ver osnomes das variaveis, e dim() para ver o numero de linhas (36 indivıduos) e colunas (9 variaveis).

> is.data.frame(milsa)

[1] TRUE

> names(milsa)

[1] "funcionario" "civil" "instrucao" "filhos" "salario"

[6] "ano" "mes" "regiao" "idade"

> dim(milsa)

[1] 36 9

Como na sequencia vamos fazer diversas analises com estes dados usaremos o commandattach() para anexar o objeto ao caminho de procura para simplificar a digitacao.

> attach(milsa)

NOTA: este comando deve ser digitado para que os comandos mostrados a seguir tenhamefeito.

3.2.1 Analise Univariada

A analise univariada consiste basicamente em, para cada uma das variaveis individualmente:

classificar a variavel quanto a seu tipo: qualitativa (nominal ou ordinal) ou quantitativa(discreta ou contınua)

obter tabela, grafico e/ou medidas que resumam a variavel

A partir destes resultados pode-se montar um resumo geral dos dados.A seguir vamos mostrar como obter tabelas, graficos e medidas com o R. Para isto vamos

selecionar uma variavel de cada tipo para que o leitor possa, por analogia, obter resultados paraas demais.

Page 26: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 26

Variavel Qualitativa Nominal A variavel civil e uma qualitativa nominal. Desta formapodemos obter: (i) uma tabela de frequencias (absolutas e/ou relativas), (ii) um grafico desetores, (iii) a ”moda”, i.e. o valor que ocorre com maior frequencia.

Vamos primeiro listar os dados e checar se estao na forma de um fator, que e adequada paravariaveis deste tipo.

> civil

[1] solteiro casado casado solteiro solteiro casado solteiro solteiro

[9] casado solteiro casado solteiro solteiro casado casado solteiro

[17] casado casado solteiro solteiro casado solteiro solteiro casado

[25] casado casado solteiro casado casado casado solteiro casado

[33] casado solteiro casado casado

Levels: solteiro casado

> is.factor(civil)

[1] TRUE

A seguir obtemos frequencias absolutas e relativas (note duas formas fiferentes de obter asfrequencias relativas. Note ainda que optamos por armazenar as frequencias absolutas em umobjeto que chamamos de civil.tb.

> civil.tb <- table(civil)

> civil.tb

civil

solteiro casado

16 20

> 100 * table(civil)/length(civil)

civil

solteiro casado

44.44444 55.55556

> prop.table(civil.tb)

civil

solteiro casado

0.4444444 0.5555556

O grafico de setores e adequado para representar esta variavel conforme mostrado naFigura 3.2.1.

> pie(table(civil))

NOTA: Em computadores antigos e de baixa resolucao grafica (como por exemplo emalguns computadores da Sala A do LABEST/UFPR) o grafico pode nao aparecer de formaadequada devido limitacao de memoria da placa de vıdeo. Se este for o caso use o comandomostrado a seguir ANTES de fazer o grafico.

> X11(colortype = "pseudo.cube")

Finalmente encontramos a moda para esta variavel cujo valor optamos por armazenar noobjeto civil.mo.

> civil.mo <- names(civil.tb)[civil.tb == max(civil.tb)]

> civil.mo

[1] "casado"

Page 27: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 27

solteiro

casado

Figura 5: Grafico de setores para variavel civil.

Variavel Qualitativa Ordinal Para exemplificar como obter analises para uma variavelqualitativa ordinal vamos selecionar a variavel instrucao.

> instrucao

[1] 1oGrau 1oGrau 1oGrau 2oGrau 1oGrau 1oGrau 1oGrau 1oGrau

[9] 2oGrau 2oGrau 2oGrau 1oGrau 2oGrau 1oGrau 2oGrau 2oGrau

[17] 2oGrau 1oGrau Superior 2oGrau 2oGrau 2oGrau 1oGrau Superior

[25] 2oGrau 2oGrau 1oGrau 2oGrau 2oGrau 2oGrau Superior 2oGrau

[33] Superior Superior 2oGrau Superior

Levels: 1oGrau < 2oGrau < Superior

> is.factor(instrucao)

[1] TRUE

As tabelas de frequencias sao obtidas de forma semelhante a mostrada anteriormente.

> instrucao.tb <- table(instrucao)

> instrucao.tb

instrucao

1oGrau 2oGrau Superior

12 18 6

Page 28: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 28

> prop.table(instrucao.tb)

instrucao

1oGrau 2oGrau Superior

0.3333333 0.5000000 0.1666667

O grafico de setores nao e adequado para este tipo de variavel por nao expressar a ordemdos possıveis valores. Usamos entao um grafico de barras conforma mostrado na Figura 3.2.1.

> barplot(instrucao.tb)

1oGrau 2oGrau Superior

05

1015

Figura 6: Grafico de barras para variavel instrucao.

Para uma variavel ordinal, alem da moda podemos tambem calcular outras medidas, taiscomo a mediana conforme exemplificado a seguir. Note que o comando median() nao funcionacom variaveis nao numericas e por isto usamos o comando seguinte.

> instrucao.mo <- names(instrucao.tb)[instrucao.tb == max(instrucao.tb)]

> instrucao.mo

[1] "2oGrau"

> median(as.numeric(instrucao))

[1] 2

> levels(milsa$instrucao)[median(as.numeric(milsa$instrucao))]

[1] "2oGrau"

Page 29: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 29

Variavel quantitativa discreta Vamos agora usar a variavel filhos (numero de filhos)para ilustrar algumas analises que podem ser feitas com uma quantitativa discreta. Note queesta deve ser uma variavel numerica, e nao um fator.

> filhos

[1] NA 1 2 NA NA 0 NA NA 1 NA 2 NA NA 3 0 NA 1 2 NA NA 1 NA NA 0 2

[26] 2 NA 0 5 2 NA 1 3 NA 2 3

> is.factor(filhos)

[1] FALSE

> is.numeric(filhos)

[1] TRUE

Frequencias absolutas e relativas sao obtidas como anteriormente.

> filhos.tb <- table(filhos)

> filhos.tb

filhos

0 1 2 3 5

4 5 7 3 1

> filhos.tbr <- prop.table(filhos.tb)

> filhos.tbr

filhos

0 1 2 3 5

0.20 0.25 0.35 0.15 0.05

O grafico adequado para frequencias absolutas de uma variavel discreta e mostrado naFigura 3.2.1 o obtido com os comandos a seguir.

> plot(filhos.tb)

Outra possibilidade seria fazer graficos de frequencias relativas e de prequencias acumuladasconforme mostrado na Figura 3.2.1.

> plot(filhos.tbr)

> filhos.fac <- cumsum(filhos.tbr)

> filhos.fac

0 1 2 3 5

0.20 0.45 0.80 0.95 1.00

> plot(filhos.fac, type = "S")

Sendo a variavel numerica ha uma maior diversidade de medidas estatısticas que podem sercalculadas.

A seguir mostramos como obter algumas medidas de posicao: moda, mediana, media emedia aparada. Note que o argumento na.rm=T e necessario porque nao ha informacao sobrenumero de filhos para alguns indivıduos. O argumento trim=0.1 indica uma media aparadaonde foram retirados 10% dos menores e 10% dos maiores dados. Ao final mostramos comoobter os quartis, mınimo e maximo.

Page 30: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 30

01

23

45

67

filhos

filho

s.tb

0 1 2 3 5

Figura 7: Grafico de frequencias absolutas para variavel filhos.

0.00

0.10

0.20

0.30

filhos

filho

s.tb

r

0 1 2 3 5 1 2 3 4 5

0.2

0.4

0.6

0.8

1.0

Index

filho

s.fa

c

Figura 8: Grafico de frequencias relativas (esquerda) e frequencias acumuladas para variavelfilhos.

Page 31: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 31

> filhos.mo <- names(filhos.tb)[filhos.tb == max(filhos.tb)]

> filhos.mo

[1] "2"

> filhos.md <- median(filhos, na.rm = T)

> filhos.md

[1] 2

> filhos.me <- mean(filhos, na.rm = T)

> filhos.me

[1] 1.65

> filhos.me <- mean(filhos, trim = 0.1, na.rm = T)

> filhos.me

[1] 1.5625

> filhos.qt <- quantile(filhos, na.rm = T)

Passando agora para medidas de dispersao vejamos como obter maximo e mınimo daı aamplitude, variancia e desvio padrao, coeficiente de variacao. Depois obtemos os quartis e daıa amplitude interquartılica.

> range(filhos, na.rm = T)

[1] 0 5

> filhos.A <- diff(range(filhos, na.rm = T))

> filhos.A

[1] 5

> var(filhos, na.rm = T)

[1] 1.607895

> filhos.dp <- sd(filhos, na.rm = T)

> filhos.dp

[1] 1.268028

> filhos.cv <- 100 * filhos.dp/filhos.me

> filhos.cv

[1] 81.15379

> filhos.qt <- quantile(filhos, na.rm = T)

> filhos.ai <- filhos.qt[4] - filhos.qt[2]

> filhos.ai

75%

1

Finalmente, notamos que ha comandos para se obter varias medidas de uma sa vez. Inspe-cione os resultados dos comandos abaixo.

> summary(filhos)

Min. 1st Qu. Median Mean 3rd Qu. Max. NA's0.00 1.00 2.00 1.65 2.00 5.00 16.00

> fivenum(filhos)

[1] 0 1 2 2 5

Page 32: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 32

Variavel quantitativa Contınua Para concluir os exemplos para analise univariada vamosconsiderar a variavel quantitativa contınua salario. Comecamos mostrando os valores davariavel e verificando o seu tipo no R.

> salario

[1] 4.00 4.56 5.25 5.73 6.26 6.66 6.86 7.39 7.59 7.44 8.12 8.46

[13] 8.74 8.95 9.13 9.35 9.77 9.80 10.53 10.76 11.06 11.59 12.00 12.79

[25] 13.23 13.60 13.85 14.69 14.71 15.99 16.22 16.61 17.26 18.75 19.40 23.30

> is.factor(salario)

[1] FALSE

> is.numeric(salario)

[1] TRUE

Para se fazer uma tabela de frequencias de uma contınua e preciso primeiro agrupar osdados em classes. Nos comandos mostrados a seguir verificamos inicialmente os valores maximoe mınimo dos dados, depois usamos o criterio de Sturges para definir o numero de classes,usamos cut() para agrupar os dados em classes e finalmente obtemos as frequencias absolotase relativas.

> range(salario)

[1] 4.0 23.3

> nclass.Sturges(salario)

[1] 7

> args(cut)

function (x, ...)

NULL

> args(cut.default)

function (x, breaks, labels = NULL, include.lowest = FALSE, right = TRUE,

dig.lab = 3, ...)

NULL

> salario.tb <- table(cut(salario, seq(3.5, 23.5, l = 8)))

> prop.table(salario.tb)

(3.5,6.36] (6.36,9.21] (9.21,12.1] (12.1,14.9] (14.9,17.8] (17.8,20.6]

0.13888889 0.27777778 0.22222222 0.16666667 0.11111111 0.05555556

(20.6,23.5]

0.02777778

Na sequencia vamos mostrar dois possıveis graficos para variaveis contınuas: histograma ebox-plot conforme Figura 3.2.1.

Page 33: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 33

Histogram of salario

salario

Fre

quen

cy

5 10 15 20

02

46

8

510

1520

Figura 9: Histograma (esquerda) e boxplot (direita) para a variavel salario.

> hist(salario)

> boxplot(salario)

Uma outra representacao grafica para variaveis numericas e o diagrama ramo-e-folhas quepode ser obtido conforme mostrado a seguir.

> stem(salario)

The decimal point is at the |

4 | 0637

6 | 379446

8 | 15791388

10 | 5816

12 | 08268

14 | 77

16 | 0263

18 | 84

20 |

22 | 3

Finalmente medidas s obtidas da mesma forma que para variaveis discretas. Veja algunsexemplos a seguir.

> salario.md <- median(salario, na.rm = T)

> salario.md

[1] 10.165

> salario.me <- mean(salario, na.rm = T)

> salario.me

Page 34: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 34

[1] 11.12222

> range(salario, na.rm = T)

[1] 4.0 23.3

> salario.A <- diff(range(salario, na.rm = T))

> salario.A

[1] 19.3

> var(salario, na.rm = T)

[1] 21.04477

> salario.dp <- sd(salario, na.rm = T)

> salario.dp

[1] 4.587458

> salario.cv <- 100 * salario.dp/salario.me

> salario.cv

[1] 41.24587

> salario.qt <- quantile(salario, na.rm = T)

> salario.ai <- salario.qt[4] - salario.qt[2]

> salario.ai

75%

6.5075

> summary(salario)

Min. 1st Qu. Median Mean 3rd Qu. Max.

4.000 7.553 10.160 11.120 14.060 23.300

> fivenum(salario)

[1] 4.000 7.515 10.165 14.270 23.300

3.2.2 Analise Bivariada

Na analise bivariada procuramos identificar relaccoes entre duas variaveis. Assim como naunivariada estas relacoes podem ser resumidas por graficos, tabelas e/ou medidas estatıstica.O tipo de resumo vai depender dos tipos das variaveis envolvidas. Vamos considerar trespossibilidades:

qualitativa vs qualitativa

qualitativa vs quantitativa

quantitativa vs qualitativa

Salienta-se ainda que:

as analise mostradas a seguir nao esgotam as possibilidades de analises envolvendo duasvariaveis e devem ser vistas apenas como uma sugestao inicial

relacoes entre duas variaveis devem ser examinadas com cautela pois podem ser mascara-das por uma ou mais variaveis adicionais nao considerada na analise. Estas sao chamadasvariaveis de confundimento. Analises com variaveis de confundimento nao serao discuti-das neste ponto.

Page 35: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 35

Qualitativa vs Qualitativa Vamos considerar as variaveis civil (estado civil) e instrucao

(grau de instrucao). A tabela envolvendo duas variaveis e chamada tabela de cruzamento epode ser apresentada de varias formas, conforme ilustrado abaixo. A forma mais adequadavai depender dos objetivos da analise e da interpretacao desejada para os dados. Iniciamenteobtemos a tabela de frequencias absolutas. Depois usamos prop.table() para obter frequenciaralativas globais, por linha e por coluna.

> civ.gi.tb <- table(civil, instrucao)

> civ.gi.tb

instrucao

civil 1oGrau 2oGrau Superior

solteiro 7 6 3

casado 5 12 3

> prop.table(civ.gi.tb)

instrucao

civil 1oGrau 2oGrau Superior

solteiro 0.19444444 0.16666667 0.08333333

casado 0.13888889 0.33333333 0.08333333

> prop.table(civ.gi.tb, margin = 1)

instrucao

civil 1oGrau 2oGrau Superior

solteiro 0.4375 0.3750 0.1875

casado 0.2500 0.6000 0.1500

> prop.table(civ.gi.tb, margin = 2)

instrucao

civil 1oGrau 2oGrau Superior

solteiro 0.5833333 0.3333333 0.5000000

casado 0.4166667 0.6666667 0.5000000

Na Figura 3.2.2 mostramos dois graficos de barras.

> barplot(civ.gi.tb, legend = T)

> barplot(civ.gi.tb, beside = T, legend = T)

Medidas de associacao entre duas variaveis qualitativas incluem o Chi-quadrado dado por:

χ2 =k∑

i=1

(oi − ei)2

ei

,

onde oi e ei sao, respectivamente, frequencias observadas e esperadas nas k posicoes da tabelade cruzamento das variaveis. Outras medidas derivadas desta sao o o coeficiente de contingenciaC e o coeficiente de contingencia modificado C1 dados por:

C =

√χ2

χ2 + n, C1 =

C

[(t− 1)/t]2,

onde n e o numero de observacoes e t e o mınimo entre o numero de linas e colunas da tabela.Os comandos a seguir mostram como obter todas estas medidas.

Page 36: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 36

1oGrau 2oGrau Superior

casadosolteiro

05

1015

1oGrau 2oGrau Superior

solteirocasado

02

46

810

12Figura 10: Dois tipos de graficos de barras ilustrando o cruzamento das variaveis civil einstrucao.

> summary(civ.gi.tb)

Number of cases in table: 36

Number of factors: 2

Test for independence of all factors:

Chisq = 1.9125, df = 2, p-value = 0.3843

Chi-squared approximation may be incorrect

> names(summary(civ.gi.tb))

[1] "n.vars" "n.cases" "statistic" "parameter" "approx.ok" "p.value"

[7] "call"

> chisq <- summary(civ.gi.tb)$stat

> chisq

[1] 1.9125

> n <- sum(civ.gi.tb)

> n

[1] 36

> C <- sqrt(chisq/(chisq + n))

> C

[1] 0.2245999

> t <- min(dim(civ.gi.tb))

> C1 <- C/((t - 1)/t)^2

> C1

Page 37: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 37

[1] 0.8983995

Muitas vezes e necessario reagrupar categorias porque algumas frequencias sao muito baixas.Por exemplo vamos criar uma nova variavel para agrupar 2o Grau e Superior usando ifelse()

e depois podemos refazer as analises do cruzamento com esta nova variavel

> instrucao1 <- ifelse(instrucao == "1oGrau", 1, 2)

> instrucao1 <- factor(instrucao1, label = c("1oGrau", "2o+Superior"),

+ lev = 1:2, ord = T)

> table(instrucao1)

instrucao1

1oGrau 2o+Superior

12 24

> table(civil, instrucao1)

instrucao1

civil 1oGrau 2o+Superior

solteiro 7 9

casado 5 15

> summary(table(civil, instrucao1))

Number of cases in table: 36

Number of factors: 2

Test for independence of all factors:

Chisq = 1.4062, df = 1, p-value = 0.2357

Qualitativa vs Quantitativa Para exemplificar este caso vamos considerar as variaveisinstrucao e salario.

Para se obter uma tabela de frequencias e necessario agrupar a variavel quantitativa emclasses. No exemplo a seguir vamos agrupar a variavel salario em 4 classes definidas pelosquartis usando cut(). Apos agrupar esta variavel obtemos a(s) tabela(s) de cruzamento comomostrado no caso anterior.

> quantile(salario)

0% 25% 50% 75% 100%

4.0000 7.5525 10.1650 14.0600 23.3000

> salario.cl <- cut(salario, quantile(salario))

> ins.sal.tb <- table(instrucao, salario.cl)

> ins.sal.tb

salario.cl

instrucao (4,7.55] (7.55,10.2] (10.2,14.1] (14.1,23.3]

1oGrau 6 3 2 0

2oGrau 2 6 5 5

Superior 0 0 2 4

> prop.table(ins.sal.tb, margin = 1)

Page 38: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 38

1oGrau 2oGrau Superior

510

1520

Figura 11: Boxplot da variavel salario para cada nıvel da variavel instrucao.

salario.cl

instrucao (4,7.55] (7.55,10.2] (10.2,14.1] (14.1,23.3]

1oGrau 0.5454545 0.2727273 0.1818182 0.0000000

2oGrau 0.1111111 0.3333333 0.2777778 0.2777778

Superior 0.0000000 0.0000000 0.3333333 0.6666667

No grafico vamos considerar que neste exemplo a instrucao deve ser a variavel explicativae portanto colocada no eixo-X e o salario e a variavel resposta e portanto no eixo-Y. Istoe, consideramos que a instrucao deve explicar, ainda que parcialmente, o salario (e nao ocontrario!). Vamos entao obter um boxplot dos salarios para cada nıvel de instrucao. Note queo funcao abaixo usamos a notacao de formula do R, com salario instrucao indicando que avariavel salario e explicada (∼) pela variavel instrucao.

> boxplot(salario ~ instrucao)

Poderıamos ainda fazer graficos com a variavel salario agrupada em classes, e neste casoos graficos seriam como no caso anterior com duas variaveis qualitativas.

Para as medidas o usual e obter um resumo da quantitativa como mostrado na analiseunivariada, porem agora infromando este resumo para cada nıvel do fator qualitativo. A seguirmostramos alguns exemplos de como obter a media, desvio padrao e o resumo de cinco numerosdo salario para cada nıvel de instrucao.

> tapply(salario, instrucao, mean)

Page 39: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 39

1oGrau 2oGrau Superior

7.836667 11.528333 16.475000

> tapply(salario, instrucao, sd)

1oGrau 2oGrau Superior

2.956464 3.715144 4.502438

> tapply(salario, instrucao, quantile)

$"1oGrau"

0% 25% 50% 75% 100%

4.0000 6.0075 7.1250 9.1625 13.8500

$"2oGrau"

0% 25% 50% 75% 100%

5.7300 8.8375 10.9100 14.4175 19.4000

$Superior

0% 25% 50% 75% 100%

10.5300 13.6475 16.7400 18.3775 23.3000

Quantitativa vs Quantitativa Para ilustrar este caso vamos considerar as variaveis salarioe idade. Para se obter uma tabela e necessario agrupar as variaveis em classes conforma fizemosno caso anterior. Nos comandos abaixo agrupamos as duas variaveis em classes definidas pelosrespectivos quartis gerando portanto uma tabela de cruzamento 4 × 4.

> idade.cl <- cut(idade, quantile(idade))

> table(idade.cl)

idade.cl

(20.8,30.7] (30.7,34.9] (34.9,40.5] (40.5,48.9]

8 9 9 9

> salario.cl <- cut(salario, quantile(salario))

> table(salario.cl)

salario.cl

(4,7.55] (7.55,10.2] (10.2,14.1] (14.1,23.3]

8 9 9 9

> table(idade.cl, salario.cl)

salario.cl

idade.cl (4,7.55] (7.55,10.2] (10.2,14.1] (14.1,23.3]

(20.8,30.7] 2 2 2 1

(30.7,34.9] 1 3 3 2

(34.9,40.5] 1 3 2 3

(40.5,48.9] 3 1 2 3

> prop.table(table(idade.cl, salario.cl), mar = 1)

Page 40: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 40

salario.cl

idade.cl (4,7.55] (7.55,10.2] (10.2,14.1] (14.1,23.3]

(20.8,30.7] 0.2857143 0.2857143 0.2857143 0.1428571

(30.7,34.9] 0.1111111 0.3333333 0.3333333 0.2222222

(34.9,40.5] 0.1111111 0.3333333 0.2222222 0.3333333

(40.5,48.9] 0.3333333 0.1111111 0.2222222 0.3333333

Caso queiramos definir um numero menos de classes podemos fazer como no exemplo aseguir onde cada variavel e dividida em 3 classes e gerando um tabela de cruzamento 3 × 3.

> idade.cl1 <- cut(idade, quantile(idade, seq(0, 1, len = 4)))

> salario.cl1 <- cut(salario, quantile(salario, seq(0, 1, len = 4)))

> table(idade.cl1, salario.cl1)

salario.cl1

idade.cl1 (4,8.65] (8.65,12.9] (12.9,23.3]

(20.8,32.1] 3 5 2

(32.1,37.8] 4 3 5

(37.8,48.9] 3 4 5

> prop.table(table(idade.cl1, salario.cl1), mar = 1)

salario.cl1

idade.cl1 (4,8.65] (8.65,12.9] (12.9,23.3]

(20.8,32.1] 0.3000000 0.5000000 0.2000000

(32.1,37.8] 0.3333333 0.2500000 0.4166667

(37.8,48.9] 0.2500000 0.3333333 0.4166667

O grafico adequado para representar duas variaveis quantitativas e um diagrama de dis-persao. Note que se as variaveis envolvidas puderem ser classificadas como ”explicativa”e ”res-posta”devemos colocar a primeira no eixo-X e a segunda no eixo-Y. Neste exemplo e razoaveladmitir que a idade deve explicar, ao menos parcialmente, o salario e portanto fazemos o graficocom idade n eixo-X.

> plot(idade, salario)

Para quantificar a associacao entre variaveis deste tipo usamos um coeficiente de correlacao.A funcao cor() do R possui opcao para tres coeficientes tendo como default o coeficiente decorrelacao linear de Pearson.

> cor(idade, salario)

[1] 0.3651397

> cor(idade, salario, method = "kendall")

[1] 0.214456

> cor(idade, salario, method = "spearman")

[1] 0.2895939

Lembre que ao iniciar as analises com este conjunto de dados anexamos os dados com ocomando attach(milsa). Portanto ao terminar as analises com estes dados devemos desanexareste conjunto de dados com o detach()

> detach(milsa)

Page 41: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 41

20 25 30 35 40 45 50

510

1520

idade

sala

rio

Figura 12: Diagrama de dispersao para as variaveis salario e idade.

Page 42: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 42

3.3 Uma demonstracao de recursos graficos do R

O R vem com algumas demonstracoes (demos) de seus recursos “embutidas” no programa.Para listar as demos disponıveis digite na linha de comando:

> demo()

Para rodar uma delas basta colocar o nome da escolhida entre os parenteses. As demos saouties para termos uma ideia dos recursos disponıveis no programa e para ver os comandos quedevem ser utilizados.

Por exemplo, vamos rodar a demo de recursos graficos. Note que os comandos vao aparecerna janela de comandos e os graficos serao automaticamente produzidos na janela grafica. Acada passo voce vai ter que teclar ENTER para ver o proximo grafico.

no “prompt” do programa R digite:

> demo(graphics)

Voce vai ver a seguinte mensagem na tela:

demo(graphics)

---- ~~~~~~~~

Type <Return> to start :

pressione a tecla ENTER

a “demo” vai ser iniciada e uma tela grafica ira se abrir. Na tela de comandos seraomostrados comandos que serao utilizados para gerar um grafico seguidos da mensagem:

Hit <Return> to see next plot:

inspecione os comandos e depois pressione novamente a tecla ENTER.Agora voce pode visualizar na janela grafica o grafico produzido pelos comandos mostradosanteriormente. Inspecione o grafico cuidadosamente verificando os recursos utilizados(tıtulo, legendas dos eixos, tipos de pontos, cores dos pontos, linhas, cores de fundo, etc).

agora na tela de comandos apareceram novos comandos para produzir um novo grafico ea mensagem:

Hit <Return> to see next plot:

inspecione os novos comandos e depois pressione novamente a tecla ENTER.Um novo grafico surgira ilustrando outros recursos do programa.Prossiga inspecionando os graficos e comandos e pressionando ENTER ate terminar a”demo”.Experimente outras demos como demo(persp) e demo(image), por exemplo.

Page 43: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 43

3.4 Outros dados disponıveis no R

Ha varios conjuntos de dados incluıdos no programa R como, por exemplo, o conjuntomtcars. Estes conjuntos sao todos documentados, isto e, voce pode usar a funcao help paraobter uma descricao dos dados. Para ver a lista de conjuntos de dados disponıveis digite data().Por exemplo tente os seguintes comandos:

> data()

> data(women)

> women

> help(woman)

3.5 Mais detalhes sobre o uso de funcoes

As funcoes do R sao documentadas e o uso e explicado e ilustrado usando a help(). Porexemplo, o comando help(mean) vai exibir e documentacao da funcao mean(). Note que nofinal da documentacao ha exemplos de uso da funcao que voce pode reproduzir para entende-lamelhor.

3.6 Exercıcios

1. Experimente as funcoes mean(), var(), sd(), median(), quantile() nos dados mostra-dos anteriormente. Veja a documentacao das funcoes e as opcoes de uso.

2. Faca uma analise descritiva adequada do conjunto de dados women.

3. Carregue o conjunto de dados USArrests com o comando data(USArrests). Examine asua documentacao com help(USArrests) e responda as perguntas a seguir.

(a) qual o numero medio e mediano de cada um dos crimes?

(b) encontre a mediana e quartis para cada crime.

(c) encontre o numero maximo e mınimo para cada crime.

(d) faca um grafico adequado para o numero de assassinatos (murder).

(e) faca um diagrama ramo-e-folhas para o numero de estupros (rape).

(f) verifique se ha correlacao entre os diferentes tipos de crime.

(g) verifique se ha correlacao entre os crimes e a proporcao de populacao urbana.

(h) encontre os estados com maior e menor ocorrencia de cada tipo de crime.

(i) encontre os estados com maior e menor ocorrencia per capta de cada tipo de crime.

(j) encontre os estados com maior e menor ocorrencia do total de crimes.

Page 44: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 44

4 Exercıcios adicionais de estatıstica descritiva

4.1 Exercıcios de Magalhaes & Lima (2005)

Os exercıcios a seguir foram retirados de:Magalhaes, M.N. & Lima, A.C.P. (2005) Nocoes de Probabilidade e Estatıstica. 6a ed.revisada. EDUSP. (Clique aqui para ver o site do livro)

1. Obtenha o conjunto de dados do questionario (questionario.txt) dos alunos e reproduzaas analises mostradas no texto do Capıtulo 1 do livro.

2. Quinze pacientes de uma clınica de ortopedia foram entrevistados quanto ao numero demeses previstos de fisioterapia, se havera (S) ou nao (N) sequelas apos o tratamento e ograu de complexidade da cirurgia realizada: alto (A), medio (M) ou baixo (B). Os dadossao apresentados na tabela abaixo:

Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Fisioterapia 7 8 5 6 4 5 7 7 6 8 6 5 5 4 5Sequelas S S N N N S S N N S S N S N NCirurgia A M A M M B A M B M B B M M A

3. Os dados abaixo referem-se ao salario (em salarios mınimos) de 20 funcionarios adminis-trativos em uma industria

10,1 7,3 8,5 5,0 4,2 3,1 2,2 9,0 9,4 6,13,3 10,7 1,5 8,2 10,0 4,7 3,5 6,5 8,9 6,1

(a) Construa uma tabela de frequencias agrupando os dados em intervalos de amplitude 2a partir de 1.

(b) Construa o histograma e calcule o 1o e 3o quartil.

4. (adaptado) A idade dos 20 ingressantes num certo ano no curso de pos-graduacao emjornalismo de uma univaesidade foi o seguinte: 22, 22, 22, 22, 23, 23, 24, 24, 24, 24, 25,25, 26, 26, 26, 26, 27, 28, 35, 40.

(a) Apresente os dados el uma tabela de frequencias, incluindo frequencias relativas

(b) calcule a media, amplitude e desvio padrao dos dados

(c) calcule mediana, quantis, amplitude interquartılica

(d) faca um boxplot destes dados

(e) idades atıpicas parecem ter ocorrido este ano. Indentifique-as. Apos sua retiradarefaca on itens anteriores. Comente as diferencas encontradas

Veja outros exercıcios no Capıtulo 1 do livro

Page 45: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 45

4.2 Exercıcios de Bussab & Morettin (2003)

Os exercıcios a seguir foram retirados de:Bussab, W.O. & Morettin, P. (2003) Estatıstica Basica. 5a ed. Saraiva.

1. Para cada uma das variaveis abaixo, indique o tipo da variavel

(a) Salarios dos empregados de uma empresa.

(b) Temperatura diaria da cidade de Curitiba.

(c) Nıvel de escolaridade dos empregados de uma empresa.

(d) Idade.

(e) Sexo.

(f) Numero de filhos dos empregados casados.

2. Contou-se o numero de erros de impressao da primeira pagina de um jornal durante 50dias, obtendo-se os resultados abaixo:

8 11 8 12 14 13 11 14 14 156 10 14 19 6 12 7 5 8 810 16 10 12 12 8 11 6 7 127 10 14 5 12 7 9 12 11 914 8 14 8 12 10 12 22 7 15

(a) Faca um histograma e um ramo-e-folhas;

(b) Media;

(c) Mediana

(d) Moda

(e) Variancia;

(f) Desvio-padrao;

(g) Erro-padrao da media;

(f) Coeficiente de variacao;

3. Considere as duas amostras:

Amostra A 15 16 25 20 24Amostra B 115 117 120 123 126

(a) Qual delas e mais homogenea?

4. Um grupo de pedagogos estuda a influencia da troca de escolas no desempenho de alunosdo ensino fundamental. Como parte do levantamento realizado, foi anotado o numerodeescolas cursadas pelos alunos participantes do estudo.

(a) Qual e a porcentagem dos alunos que cursaram mais de uma escola?

(b) Construa o grafico de barras

(c) Classifique os alunos em dois grupos segundo a rotatividade: alta para alunos commais de 2 escolas e baixa para os demais. Obtenha a tabela de frequencia dessa variavel.

Page 46: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 46

Escolas Cursadas frequencia1 462 573 214 155 4

Durabilidade frequencia relativa[0, 3) 0,02[3, 6) 0,05[6, 9) 0,15[9, 12) 0,25[12, 15) 0,30[15, 20) 0,23

5. Vinte baterias para automovies de uma certa marca foram testadas quanto a sua vidautil. O teste simula a utilizacao da bateria, acelerando seu dsgaste de modo a criar umasituacao real. Os resultados da durabilidade (em meses) sao apresentados a seguir:

6. Faca no mesmo grafico um esboco das tres distribucoes descritas abaixo:

(a) Distribuicao das alturas dos brasileiros adultos.

(b) Distribuicao das alturas dos suecos adultos.

(c) Distribuicao das alturas dos japoneses.

7. Os dados a seguir representam as vendas semanais, em classes de salarios mınimos, devendedores de generos alimentıcios:

Vendas semanais N. de vendedores[30, 35) 2[35, 40) 10[40, 45) 18[45, 50) 50[50, 55) 70[55, 60) 30[60, 65) 18[65, 70) 2

8. O que acontece com a mediana, a media e o desvio padrao de uma serie de dados quando:

(a) cada observacao e multiplicada por 2?

(b) soma-se 10 a cada observacao?

(c) subtrai-se a media geral x de cada observacao?

(d) de cada observacao subtrai-se x e divide-se pelo desvio padrao dp(x)?

9. Na companhia A, a media dos salarios e 10.000 unidades e o 3o quartil e 5.000.

Page 47: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 47

(a) Se voce se apresentasse como candidato a funcionario nessa firma e se o seu salariofosse escolhido ao acaso entre todos os possıveis salarios, o que seria mais provavel: ganharmais ou menos que 5.000 unidades?

(b) suponha que a companhia B a media dos salarios seja 7.000 unidades, a varianciapraticamente zero e o salario tambem seja escolhido ao acaso. Em qual companhia vocese apresentaria para procurar emprego?

Page 48: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 48

5 Exercıcios sobre distribuicoes amostrais

5.1 Exercıcios de Bussab & Morettin (2003)

Os exercıcios a seguir foram retirados do Capıtulo 8 de:Bussab, W.O. & Morettin, P. (2003) Estatıstica Basica. 5a ed. Saraiva.

1. Uma v.a. X tem distribuicao normal, com media 100 e desvio padrao 10.

(a) Qual a P (90 < X < 110)?

(b) Se X for a media de uma amostra de 16 elementos retirados dessa populacao, calculeP (90 < X < 110).

(c) Represente, num unico grafico, as distribuicoes de X e X.

(d) Que tamanho deveria ter a amostra para que P (90 < X < 110) = 0, 95?

2. A maquina de empacotar um determinado produto o faz segundo o faz segundo umadistribucao normal, com media µ e desvio padrao 10g.

(a) Em quanto deve ser regulado o peso medio µ para que apenas 10% dos pacotestenham menos do que 500g?

(b) Com a maquina assim regulada, qual a probabilidade de que o peso total de 4 pacotesescolhido ao acaso seja inferior a 2 kg?

3. No exemplo anterior, e apos a maquina estar regulada, programou-se uma carta conrole dequalidade. De hora em hora, sera retirada uma amostra de quatro pacotes e esses pesados.Se a media da amostra for inferior a 495g ou superior a 520g, encerra-se a producao parareajustar a maquina, isto e, reajustar o peso medio.

(a) Qual e a probabilidade de ser feita uma parada desnecessaria?

(b) Se o peso medio da maquina desregulou-se para 500 g, qual e a probabilidade decontinuar a prducao fora dos padroes desejados?

4. A capacidade maxima de um elevador e de 500 kg. Se a distribuicao de X dos pesos dosusuarios for suposta N(70, 100).

(a) Qual e a probabilidade de sete passageiros ultrapassarem esse limite?

(b) E seis passageiros?

5. Sabe-se que 20% das pecas de um lote sao defeituosas. Sorteiam-se oito pecas, comreposicao, e calcula-se a proporcao p de pecas defeituosas na amostra.

(a) Construa a distribuicao exata de (p) (use a tabua da distribuicao binomial).

(b) Construa a aproximacao normal a binomial.

(c) Voce pensa que a segunda distribuicao e uma boa aproximacao da primeira?

(d) Ja sabemos que, para dado p fixo, a aproximacao melhora a medida que n aumenta.Agora, se n for fixo, para qual valor de p a aproximacao e melhor?

6. Um procedimento de controle e qualidade foi planejado para garantir um maximo de 10%de itens defeituosos na producao. A cada 6 horas sorteia-se uma amostra de 20 pecas e,havendo mais de 15% de defeituosas, encerra-se a producao para verificacao do proceso.Qual a probabilidade de uma parada desnecessaria?

Page 49: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 49

7. Suponha que a producao do exemplo anterior esteja sob controle, isto e, p = 10%, e queos itens sejam vendidos em caixas com 100 unidades, qual a probabilidade de que umacaixa:

(a) tenha mais do que 10% de defeituosos?

(b) na tenha itens defeituosos?

(c) Suponha que uma industria farmaceutica deseja saber a quantos voluntarios se devaaplicar uma vacina, de modo que a proporcao de indivıduos imunizados na amostradifira de menos de 2% da proporcao verdadeira de imunizados na populacao, comprobabilidade 90%. Qual o tamanho da amostra a escolher?

8. No problema anterior, suponha que a industria tenha a informacao de que a proporcaode imunizados pela vacina seja p ≥ 0, 80. Qual o novo tamanho de amostra a escolher?Houve reducao?

9. A distribuicao dos comprimentos dos elos da corrente de bicicleta e normal, com media2cm e variancia 0, 01cm2. Para que uma corrente se ajuste a bicicleta, deve ter compri-mento total entre 58 e 61 cm.

(a) Qual e a probabilidade de uma corrente com 30 elos nao se ajustar a bicicleta?

(b) E para uma corrente com 29 elos?

[Observacao: suponha que os elos sejam selecionados ao acaso para compor a corrente,de modo que se tenha independencia.]

10. Cada secao usada para a construcao de um oleoduto tem comprimento medio de 5m edesvio padrao de 20 cm. O comprimento total do oleoduto sera de 8 km.

11. Se a firma construtora do oleoduto encomendar 1.600 secoes, qual e a probabilidade deela ter de comprar mais do que uma secao adicional (isto e, de as 1.600 secoes somaremmenos do que 7.995 m)?

(a) Qual e a probabilidade do uso exato de 1.599 secoes, isto e, a soma das 1.599 secoesestar entre 8.000 m e 8.005 m?

12. Um distribuidor de sementes determina, por meio de testes, que 5% das sementes naogerminam. Ele vende pacotes com 200 sementes com garantia de 90% de germinacao.Qual e a probabilidade de que um pacote nao satisfaca a garantia?

5.2 Exercıcios de Magalhaes & Lima (2005)

Os exercıcios a seguir foram retirados das paginas 227-228 de:Magalhaes, M.N. & Lima, A.C.P. (2005) Nocoes de Probabilidade e Estatıstica. 6a ed.revisada. EDUSP. (Clique aqui para ver o site do livro)

1. Coleta-se uma amostra de 10 observacoes independentes de um N(2, 2). Determine aprobabilidade de a media amostral:

(a) Ser inferior a 1

(b) Ser superior a 2,5

(c) Estar entre 0 e 2

Page 50: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 50

2. Um fabricante afirma que sua vacina contra gripe imuniza em 80% dos casos. Umaamostra de 25 indivıduos que tomaram a vacina foi sorteada e testes foram feitos paraverificar a imunizacao ou nao destes indivıduos. Se o fabricante estiver correto, qual e aprobabilidade da proporccao de imunizados na amostra ser inferior a 0,75? E superior a0,85?

3. A resistencia de vigas de madeira utilizadas na construcao esta sendo estudada. O for-necedor atesta que, em media, cada viga resiste a 3 toneladas com desvio padrao deaproximadamente 2 toneladas. Vinte destas vigas serao sorteadas para serem utilizadasnuma obra. Considerando que e verdadeira a informacao do fornecedor e supondo que omodelo Normal e adequado, pergunta-se:

(a) Qual a probabilidade de uma destas vigas suportar menos do que 1 tonelada?

(b) Qual a probabilidade de as 20 vigas suportarem, em media, pelo menos 2,5 toneladas?

(c) Qual a probabilidade em (b), considerando agora 40 vigas e sem fazer a suposicaode normalidade dos dados?

Veja outros exercıcios no Capıtulo 7 do livro

Page 51: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 51

6 Intervalos de confianca e testes de hipotese

Nesta sessao vamos verificar como utilizar o R para obter intervalos de confianca e testarhipoteses sobre parametros de interesse.

6.1 Media de uma distribuicao normal com variancia desconhecida

Considere resolver o seguinte problema:

Exemplo 1 O tempo de reacao de um novo medicamento pode ser considerado como tendo

distribuicao Normal e deseja-se fazer inferencia sobre a media que e desconhecida obtendo

um intervalo de confianca. Vinte pacientes foram sorteados e tiveram seu tempo de reacao

anotado. Os dados foram os seguintes (em minutos):

2.9 3.4 3.5 4.1 4.6 4.7 4.5 3.8 5.3 4.94.8 5.7 5.8 5.0 3.4 5.9 6.3 4.6 5.5 6.2

Neste primeiro exemplo, para fins didaticos, vamos mostrar duas possıveis solucoes:

1. fazendo as contas passo a passo, utilizando o R como uma calculadora

2. usando uma funcao ja existente no R.

Entramos com os dados com o comando

> tempo <- c(2.9, 3.4, 3.5, 4.1, 4.6, 4.7, 4.5, 3.8, 5.3, 4.9, 4.8,

+ 5.7, 5.8, 5, 3.4, 5.9, 6.3, 4.6, 5.5, 6.2)

Sabemos que o intervalo de confianca para media de uma distribuicao normal com media des-conhecida e dado por: (

x− tα/2

√S2

n, x + t1−α/2

√S2

n

)

Vamos agora obter a resposta de duas formas diferentes.

6.1.1 Fazendo as contas passo a passo

Nos comandos a seguir calculamos o tamanho da amostra, a media e a variancia amostral.

> n <- length(tempo)

> n

[1] 20

> t.m <- mean(tempo)

> t.m

[1] 4.745

> t.v <- var(tempo)

> t.v

Page 52: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 52

[1] 0.992079

Com isto podemos montar o intervalo utilizando os quantis da distribuicao t.

> t.ic <- t.m + qt(c(0.025, 0.975), df = n - 1) * sqrt(t.v/length(tempo))

> t.ic

[1] 4.278843 5.211157

6.1.2 Usando a funcao t.test

Mostramos a solucao acima para ilustrar a flexibilidade e o uso do programa. Entretanto naoprecisamos fazer isto na maioria das vezes porque o R ja vem com varias funcoes ja disponıveispara procedimentos estatısticos usuais.

Para este exemplo especıfico a funcao t.test() pode ser utilizada como vemos no resultadodo comando a sequir que coincide com os obtidos anteriormente.

> t.test(tempo)

One Sample t-test

data: tempo

t = 21.3048, df = 19, p-value = 1.006e-14

alternative hypothesis: true mean is not equal to 0

95 percent confidence interval:

4.278843 5.211157

sample estimates:

mean of x

4.745

O resultado da funcao mostra a estimativa obtida da media (19), o intervalo de confianca a 95etesta a igualdade de media a zero (p-value = 1.00642487153941e-14), em um teste bilateral.

Os valores definidos no IC e teste de hipotese acima sao defaults que podem ser modificados.Por exemplo, para obter um IC a 99

> t.test(tempo, alt = "greater", mu = 3, conf.level = 0.99)

One Sample t-test

data: tempo

t = 7.835, df = 19, p-value = 1.140e-07

alternative hypothesis: true mean is greater than 3

99 percent confidence interval:

4.179408 Inf

sample estimates:

mean of x

4.7452

Page 53: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 53

6.2 Teste χ2 de independencia

Quando estudamos a relacao entre duas variaveis qualitativas em geral fazemos uma tabelacom o resultado do cruzamento desta variaveis. Em geral existe interesse em verificar se asvariaveis estao associadas e para isto calcula-se uma medida de associacao tal como o χ2,coeficiente de contingencia C, ou similar. O passo seguinte e testar se existe evidencia que aassociacao e significativa. Uma possıvel forma de fazer isto e utilizando o teste χ2.

Exemplo Para ilustrar o teste vamos utilizar o conjunto de dados HairEyeColor que ja vemdisponıvel com o R. Para carregar e visualizar os dados use os comando abaixo.

> data(HairEyeColor)

> HairEyeColor

, , Sex = Male

Eye

Hair Brown Blue Hazel Green

Black 32 11 10 3

Brown 38 50 25 15

Red 10 10 7 7

Blond 3 30 5 8

, , Sex = Female

Eye

Hair Brown Blue Hazel Green

Black 36 9 5 2

Brown 81 34 29 14

Red 16 7 7 7

Blond 4 64 5 8

Para saber mais sobre estes dados veja help(HairEyeColor) Note que estes dados ja vem “re-sumidos” na forma de uma tabela de frequencias tri-dimensional, com cada uma das dimensoescorrespondendo a um dos atributos - cor dos cabelos, olhos e sexo.

Para ilustrar aqui o teste χ2 vamos verificar se existe associacao entre 2 atributos: cor dosolhos e cabelos entre os indivıduos do sexo feminino. Portanto as hipoteses sao:

H0 : nao existe associacaoHa : existe associacao

Vamos adotar α = 5% como nıvel de significancia. Nos comandos abaixo primeiro isolamosapenas a tabela com os indivıduos do sexo masculino e depois aplicamos o teste sobre estatabela.

> HairEyeColor[, , 2]

Eye

Hair Brown Blue Hazel Green

Black 36 9 5 2

Brown 81 34 29 14

Red 16 7 7 7

Blond 4 64 5 8

Page 54: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 54

> chisq.test(HairEyeColor[, , 1])

Pearson's Chi-squared test

data: HairEyeColor[, , 1]

X-squared = 42.1633, df = 9, p-value = 3.068e-06

O p−value sugere que a associacao e significativa. Entretanto este resultado deve ser visto comcautela pois a mensagem de alerta (Warning message) emitida pelo programa chama atencaoao fato de que ha varias caselas com baixa frequencia na tabela e portanto as condicoes para avalidade do teste nao sao perfeitamente satisfeitas.

Ha duas possibilidades de contornar este problema: a primeira e agrupar categorias natabela. Uma outra (e usualmente melhor) possibilidade e entao usar o p− value calculado porsimulacao, ao inves do resultado assintotico usado no teste tradicional.

> chisq.test(HairEyeColor[, , 1], sim = T)

Pearson's Chi-squared test with simulated p-value (based on 2000

replicates)

data: HairEyeColor[, , 1]

X-squared = 42.1633, df = NA, p-value = 0.0004998

Note que agora a mensagem de alerta nao e mais emitida e que a significancia foi confirmada(p-valor < 0.05). Note que se voce rodar este exemplo podera obter um p − value um poucodiferente porque as simulacoes nao necessariamente serao as mesmas.

Lembre-se de inspecionar help(chisq.test) para mais detalhes sobre a implementacaodeste teste no R.

2

6.3 Teste χ2 para aderencia a uma certa distribuicao

Exemplo Uma certa hipotese genetica, se verdadeira deve produzir indivıduos com 4 fenoti-pos (A, B, C e D) na populacao seguindo a relacao 9:3:3:1. Para verificar se a hipotese geneticae plausıvel foi coletada uma amostra de indivıduos na populacao e obteve-se o seguinte numerode indivıduos para cada fenotipo:

Fenotipo A B C DNo indivıduos 190 50 63 20

Teste a hipotese de que a hipotese genetica e plausıvel com nıvel de significancia de 5%.Portanto as hipoteses sao:

H0 : segue a distribuicao esperadaHa : nao segue a distribuicao esperada

O nıvel de significancia foi definido como α = 5% e a estatıstica de teste χ2c =

∑i

(oi−ei)2

ei

tem distribuicao χ2(3). Os comandos para efetuar este teste no R sao:

> o <- c(190, 50, 63, 22)

> e <- c(9, 3, 3, 1)/16

> chisq.test(o, p = e)

Page 55: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 55

Chi-squared test for given probabilities

data: o

X-squared = 2.4557, df = 3, p-value = 0.4833

Portanto a conclusao e que nao rejeita-se H0 ao nıvel de 5%, ou seja, a hipotese genetica eplausıvel.

2

6.4 Teste para o coeficiente de correlacao linear de Pearson

Quando temos duas variaveis quantitativas podemos utilizar o coeficiente de correlacaolinear de Pearson para medir a associacao entre as variaveis, desde que a relacao entre elas sejalinear.

Exemplo Para ilustrar o teste para o coeficiente linear de Pearson vamos estudar a relacao entreo peso e rendimento de carros. Para isto vamos usar as variaveis wt (peso) e mpg (milhas por galao)do conjunto de dados mtcars para testar se existe associacao entre estas duas variaveis.

As hipoteses sao:

H0 : nao existe associacao (ρ = 0)Ha : existe associacao (ρ 6= 0)

Vamos ainda fixar o nivel de significancia em 5%. Os comandos para efetuar o teste e osresultados sao mostrados a seguir.

> data(mtcars)

> with(mtcars, cor(wt, mpg))

[1] -0.8676594

> with(mtcars, cor.test(wt, mpg))

Pearson's product-moment correlation

data: wt and mpg

t = -9.559, df = 30, p-value = 1.294e-10

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

-0.9338264 -0.7440872

sample estimates:

cor

-0.8676594

Portanto o p-valor acima mostra que a correlacao encontrada de -0.867659376517228 diferesignificativamente de zero, ou seja existe evidencia de associacao (negativa) entre estas duasvariaveis.

OBS: Note que uma analise mais cuidadosa deveria incluir o exame do grafico entre estasduas variaveis para ver se o coeficiente de correlacao linear e adequado para medir a associacao.

2

Page 56: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 56

6.5 Comparacao de duas medias

Quando temos uma variavel qualitativa com dois nıveis e outra quantitativa o interesse emgeral esta em comparar as medias da quantitativa para cada grupo da qualitativa. Para istopodemos utilizar o testeT . Ha diferentes tipos de teste T: para amostras independentes comvariancias iguais ou desiguais, ou para amostras pareadas.

Exemplo Os dados a seguir correspondem a teores de um elemento indicador da qualidade

de um certo produto vegetal. Foram coletadas 2 amostras referentes a 2 metodos de producao

e deseja-se comparar as medias dos metodos fazendo-se um teste t bilateral, ao nıvel de 1% de

significancia e considerando-se as variancias iguais.

Metodo 1 0.9 2.5 9.2 3.2 3.7 1.3 1.2 2.4 3.6 8.3Metodo 2 5.3 6.3 5.5 3.6 4.1 2.7 2.0 1.5 5.1 3.5

As hipoteses sao:

H0 : µ1 = µ2

Ha : µ1 6= µ2

Vamos ainda fixar o nivel de significancia em 5%. Abaixo os comandos para efetuar o testebilateral com variancias iguais.

> m1 <- c(0.9, 2.5, 9.2, 3.2, 3.7, 1.3, 1.2, 2.4, 3.6, 8.3)

> m2 <- c(5.3, 6.3, 5.5, 3.6, 4.1, 2.7, 2, 1.5, 5.1, 3.5)

> t.test(m1, m2, var.eq = TRUE, conf = 0.99)

Two Sample t-test

data: m1 and m2

t = -0.3172, df = 18, p-value = 0.7547

alternative hypothesis: true difference in means is not equal to 0

99 percent confidence interval:

-3.324208 2.664208

sample estimates:

mean of x mean of y

3.63 3.96

Os resultados mostram que nao ha evidencias para rejeitar a hipotese de igualdade entre asmedias ao nıvel de 1%.

2

6.6 Exercıcios

1. Revisite os dados milsa visto na aula de estatıstica descritiva e selecione pares de variaveisadequadas para efetuar:

(a) um teste χ2

(b) um teste para o coeficiente de correlacao

(c) um teste t

Page 57: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 57

2. Queremos verificar se machos e femeas de uma mesma especie possuem o mesmo com-primento (em mm) Para isso, foram medidos 6 exemplares de cada sexo e obtivemos osseguintes comprimentos:

Machos 145 127 136 142 141 137Femeas 143 128 132 138 142 132

Obtenha intervalos de confianca para a razao das variancias e para a diferenca das mediasdos dois grupos.

Dica: Use as funcoes var.test() e t.test()

3. Carregue o conjunto de dados iris usando o comando data(iris).Veja a descricao dos dados em help(iris).Use a funcao cor.test() para testar a correlacao entre o comprimento de sepalas epetalas.

Page 58: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 58

7 Exercıcios sobre intervalos de confianca

7.1 Exercıcios de Bussab & Morettin (2003)

Os exercıcios a seguir foram retirados do Capıtulo 9 de:Bussab, W.O. & Morettin, P. (1987) Estatıstica Basica. 4a ed. Atual.

1. Obtenha a distribuicao de p quando p = 0, 2 e n = 5. Depois calcule E(p) e V ar(p).

2. Calcule o intervalo de confianca para a media de uma N(µ, σ2) em cada um dos casos:

Media Tamanho Desvio Padrao CoeficienteAmostral da amostra da Populacao de Confianca170 cm 100 15 cm 95%165 cm 184 30 cm 85%180 cm 225 30 cm 70%

3. De 50.000 valvulas fabricadas por uma companhia retira-se uma amostra de 400 valvulas,e obtem a vida media de 800 horas e o desvio padrao de 100 horas.

(a) Qual o intervalo de confianca de 99% para a vida media da populacao?

(b) Com que intervalo dir-se-ia que a vida media e 800± 0, 98?

(c) Que tamanho deve ter a amostra para que seja de 95% a confianca na estimativa800± 7, 84?

(Que suposicao voce fez para responder as questoes acima?)

4. Qual deve ser o tamanho de uma amostra cujo desvio padrao e 10 para que a diferencada media amostral para a media da populacao, em valor absoluto, seja menor que 1, comcoeficiente de confianca igual a:

(a) 95% (b) 99%

5. Considere uma amostra de uma distribuicao normal com desvio padrao igual a 10.

(a) Que tamanho deve ter uma amostra para que, com probabilidade 8%, o erro emestimar a media seja superior a uma unidade?

(b) Supondo-se colhida a amostra no caso anterior, qual o intervalo de confianca, sex = 50?

6. Uma amostra aleatoria de 625 donas de casa revela que 70% delas preferem a marca A dedetergente. Construir um intervalo de confianca para p = proporcao das donas de casasque preferem A com coeficiente de confianca γ = 90%.

7. Encontre os intervalos de confiancas para p se k/n = 0, 3, com coeficiente de confiancaγ = 95%, com n = 400.

8. Antes de uma eleicao, um determinado partido esta interessado em estimar a proporcaop de eleitores favoraveis ao seu candidato. Uma amostra piloto de tamanho 100 revelouque 60% dos eleitores eram favoraveis ao candidato em questao.

Page 59: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 59

(a) Determine o tamanho da amostra necessario para que o erro cometido na estimacaoseja de, no maximo, 0,01 com probabilidade de 80%.

(b) Se na amostra final, com tamanho igual ao obtido em (a), observou-se que 55%dos eleitores eram favoraveis ao candidato em questao, construa um intervalo deconfianca para a proporcao p. Utilize γ = 95%.

9. Suponha que estejamos interessados em estimar a porcentagem de consumidores de certoproduto. Se a amostra de tamanho 300 forneceu 100 indivıduos que consomem o dadoproduto, determine:

(a) o intervalo de confianca de p, com coeficiente de confianca de 95% (interprete oresultado);

(b) o tamanho da amostra para que o erro da estimativa nao exceda a 0,02 unidadescom probabilidade de 95% (interprete o resultado).

10. De experiencias passadas, sabe-se que o desvio padrao da altura de criancas da 5a seriedo 1o grau e 5 cm.

(a) Colhendo uma amostra de 36 dessas criancas, observou-se a media de 150 cm. Qualo intervalo de confianca de 95% para a media populacional?

(b) Que tamanho deve ter uma amostra par que o intervalo 150 ± 0, 98 tenha 95% deconfianca?

11. Um pesquisador esta estudando a resistencia de um determinado material sob eterminadascondicoes. Ele sabe que essa variavel e normalmente distribuıda com desvio padrao deduas unidades.

(a) Utilizando os valores 4,9; 7,0; 8,1; 4,5; 5,6; 6,8; 7,2; 5,7; 6,2 unidades, obtidos deuma amostra de tamanho 9, determine o intervalo de confianca para a resistenciamedia com um coeficiente de confianca γ = 0, 90.

(b) Qual o tamanho da amostra necessaria para que o erro cometido, ao estimarmos aresistencia media, nao fosse superior a 0,01 unidade com probabilidade 0,90?

(c) Suponha que o item(a) nao fosse conhecido o desvio padrao. Como voce procederiapara determinar o intervalo e confianca, e que suposicoes voce faria para isso?

12. Estime o salario medio dos empregados de uma industria textil, sabendo-se que umaamostra de 100 indivıduos apresentou os seguintes resultados:

Salario Frequencia150, 00| − 250, 00 8250, 00| − 350, 00 22350, 00| − 450, 00 38450, 00| − 550, 00 2650, 00| − 750, 00 2

Use γ = 0, 95.

13. Numa pesquisa de mercado para estudar a preferencia da populacao de uma cidade emrelacao a um determinado produto, colheu-se uma amostra aleatoria de 300 indivıduos,dos quais 180 preferiam esse produto.

Page 60: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 60

(a) Determine um intervalo de confianca para a proporcao da populacao que prefere oproduto em estudo; tome γ = 0, 95.

(b) Determine a probabilidade de que a estimativa pontual dessa proporcao nao difirado verdadeiro valor em mais de 0,001.

(c) E possıvel obter uma estimativa pontual dessa proporcao que nao difira do valorverdadeiro em mais de 0,0005 com probabilidade 0,95? Caso contrario, determine oque deve ser feito.

14. Uma amostra de 10.000 itens de um lote de producao foi inspicionada, e o numero dedefeituos por item foi registrado na tabela a seguir.

No de defeitos 0 1 2 3 4Quantidade de pecas 6.000 3.200 600 150 50

(a) Determine os limites de confianca para a proporcao de itens defeituosos na populacao,

com coeficientes de 98%. Use p− z(γ)√4n≤ p ≤ p + z(γ)√

4n.

(b) Mesmo problema, usando p− z(γ)√pq/n

≤ p ≤ p + z(γ)√pq/n

15. Antes de uma eleicao em que existiam dois candidatos, A e B, foi feita uma pesquisacom 400 eleitores escolhidos ao acaso, e verificou-se que 208 deles pretendiam votar nocandidato A. Construa um intervalo de confianca, com c.c. γ = 0, 95, para a porcentagemde eleitores favoraveis ao candidato A na epoca das eleicoes.

16. Encontre o c.c. de um intervalo de confianca para p, se n = 100, p = 0, 6 e a amplitudedo intervalo deve ser igual a 0,090.

17. Estao sendo estudado dois processos para conservar alimentos, cuja principal variavel deinteresse e o tempo de duracao destes. No processo A, o tempo X de duracao segue adistribuicao N(µA, 100), e no processo B o tempo Y obdece a distrbuicao N(µB, 100).Sorteiam-se duas amostras independentes: a com A, com 16 latas, apresentou tempomedio de duracao igual a 50, e a de B, com 25 latas, duracao media igual a 60.

(a) Construa um IC para µA e µB, separadamente.

(b) Para verificar se os dois processos podem ter o mesmo desempenho, decidiu-se cons-truir um IC para a diferenca µA − µB. Caso o zero pertenca ao intervalo, pode-seconcluir que existe evidencia de igualdade dos processos. Qual seria sua resposta?

18. Numa pesquisa sobre a opiniao dos moradores de duas cidades, A e B, com relacao a umdeterminado projeto, obteve-se:

Cidade A BNo de entrevistados 400 600

No de favoraveis 180 350

Construa um IC para a diferenca de proporcoes de opinioes nas duas cidades

Page 61: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 61

7.2 Exercıcios de Magalhaes & Lima (2005)

Os exercıcios a seguir foram retirados das paginas 234-242 de:Magalhaes, M.N. & Lima, A.C.P. (2005) Nocoes de Probabilidade e Estatıstica. 6a ed.revisada. EDUSP. (Clique aqui para ver o site do livro)

1. Uma amostra de 25 observacoes de uma Normal(µ, 16) foi coletada e forneceu uma mediaamostral de 8. Construa intervalos de confianca a 80%, 85%, 90% e 95% para a mediapopulacional. Comente as diferencas encontradas.

2. Sera coletada uma amostra de uma populacao Normal com desvio padrao igual a 9. Paraconfianca de γ = 0.90, determine a amplitude do intervalo de confianca para a mediapopulacional nos casos em em o tamanha da amostra e 30, 50 ou 100. Comente asdiferencas.

3. Uma amostra em 100 cidades brasileiras, de ate 20 mil habitantes, indicou que o valormedio da hora aula para professores do ensino fundamental em escolas municipais e deR$2,5. Obtenha um intervalo de confianca para o valor medio nacional da hora aula emcidades do tipo mencionado. Baseado em estudos anteriores o desvio padrao assumidodeve ser igual a R$1,10. Use γ = 0.95

4. Numa pesquisa com 50 eleitores o candidato Jose Joao obteve uma proporcao de 0,34da preferencia dos eleitores. Construa, para confianca de 94%, os intervalos otimista econservador de confianca para a proporcao de votos a serem recebidos pelo candidatomencionado, supondo que a eleicao fosse neste momento.

5. Numa pesquisa de mercado, desejamos estimar a proporcao de pessoas que compram osabonete Bom-Cheiro.

(a) Que tamanho de amostra devemos colher para que, com probabilidade 0,9; a pro-porcao amostral nao se desvie do verdadeiro valor por mais de 0,05?

(b) Se tivermos a informacao adicional de que a aceitacao do sabonete Bom-Cheiro e nomınimo 0,8, qual deve ser entao o tamanho da amostra?

(c) Decidimos colher uma amostra de tamanho 81. Qual o erro maximo que cometemoscom probabilidade 0.90 ?

(d) Para uma amostra de tamanho 81, qual a probabilidade de que o erro maximo seja0,08?

Page 62: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 62

8 Exercıcios sobre testes de hipotese

8.1 Exercıcios de Bussab & Morettin (2003)

1. Para decidirmos se os habitantes de uma ilha sao descendentes da civilizacao A ou B,iremos proceder do seguinte modo:

i selecionamos uma amostra de 100 moradores adultos da ilha, e determinamos aaltura media deles;

ii se essa altura media for superior a 176, diremos que sao descendentes de B; casocontrario, sao descendentes de A.

Os parametros das alturas das duas civilizacao sao:

A: µ = 175 e σ = 10;

B: µ = 177 e σ = 10

Definimos:

Erro I: dizer que os habitantes da ilha sao descendentes de B quando, na realidade, sao deA.

Erro II: dizer que sao de A quando, na realidade, sao de B.

(a) Qual a probabilidade do erro de tipo I? E do erro de tipo II?

(b) Qual deve ser a regra de decisao se quisermos fixar a probabilidade do erro de tipo Iem 5%? Qual a probabilidade do erro de tipo II, nesse caso?

(c) se σA = 5, como ficariam as respostas de (b)?

(d) Quais as probabilidades do erro de tipo II, nas condicoes da questao (b), se amedia µB = 178? E µB = 180? E µB = 181? Coloque num grafico os pares(µB, P (erroII|µB)).

2. Nas situacoes abaixo, escolha como hipotese nula, H0, aquela que para voce leva a umerro tipo I mais importante. Descreva quais os dois erros em cada caso.

(a) O trabalho de um operador de radar e detectar aeronaves inimigas.Quando surgealguma coisa estranha na tela, ele deve decidir entre as hipoteses:

1. esta comecando um ataque;

2. tudo bem, apenas uma leve interferencia.

(b) Num juri, um indivıduo esta sendo julgado por um crime. As hipoteses sujeitas aojuri sao:

1. o acusado e inocente;

2. o acusado e culpado.

(c) Um pesquisador acredita que descobriu uma vacina contra refriado. Ele ira conduziruma pesquisa de laboratorio para vereficar a veracidade da afirmacao. De acordocom o resultado, ele lancara ou nao a vacina no mercado. As hipoteses que podetestar sao:

1. a vacina e eficaz;

2. a vacina nao e eficaz.

Page 63: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 63

3. A variavel X, custo de manuntencao de um tear, pode ser considerada como tendo dis-tribuicao normal de media µ e desvio padrao 20 unidades. Os valores possıveis de µpodem ser 200 ou 210. Para verifiar qual dos dois valores e o mais provavel, usar-se-auma amostra de 25 teares. Defina:

(a) Uma hipotese a ser testada.

(b) Uma regra de decisao e encontre as probabilidades dos erros de tipo I e II.

4. Sabe-se que o consumo mensal per capita de um produto tem distribuicao normal, comdesvio padrao 2 kg. A diretoria de uma firma que fabrica esse produto resolveu queretiraria o produto da linha de producao se a media de consumo per capita fosse menorque 8 kg. Caso contrario, continuaria a fabrica-lo. Foi realizada uma pesquisa de mercado,tomando-se uma amostra de 25 indivıduos, e verificou-se que

∑25i=1 Xi = 180kg, onde Xi

representa o consumo mensal do i-esimo indivıduo da amostra.

(a) Construa um teste de hipotese adquado, utilizando α = 0, 05, e com base na amostracolhida determine a decisao a ser tomada pela diretoria.

(b) Qual a probabilidade β de se tomar uma decisao errada se, na realidade, a mediapopulacional for µ = 7, 8 kg.

(c) Se a diretoria tivesse fixado α = 0, 01, a decisao seria a mesma? (Justifique suaresposta.)

(d) Se o desvio da populacao fosse 4kg, qual seria a decisao, com α = 0, 05? (Justifiquesua resposta.)

5. A associacao dos proprietarios de industrias metalurgicas esta muito preocupada como tempo perdido com acidentes de trabalho, cuja media, nos ultimos tempos, tem sidoda ordem de 60 horas/homem por ano e desvio padrao de 20 horas/homem. Tentou-seum programa de prevencao de acidentes, apos o qual foi tomada uma amostra de noveindustrias e medido o numero de horas/homens perdidas por acientes, que foi de 50 horas.Voce diria, no nıvel de 5%, que ha evidencia de melhoria?

6. O salario medio dos empregados das industrias siderurgicas e de 2,5 salarios mınimos,com um desvio padrao de 0,5 salarios mınimos. Se uma firma particular emprega 49empregados com um salario medio de 2,3 salarios menimos, podemos afirmar que essaindustria paga salarios inferiores, ao nıvel de 5%?

7. Uma companhia de cigarros anuncia que o ındice medio de nicotina dos cigarros quefabrica apresenta-se abaixo de 23 mg por cigarro. Um laboratorio realiza 6 analisesdesses ındices, obtendo: 27, 24, 21, 25, 26, 22. Sabe-se que o ındice de nicotina sedistribui normalmente, com variancia igual a 486mg2. Pode-se aceitar, no nıvel de 10%,a afirmacao do fabricante?

8. Uma pessoa gaba-se de advinhar qual sera o resultado do lance de uma moeda, mas epreciso que os presentes nao o pertubem com pensamentos duvidosos. Para testar talcapacidade, lancou uma moeda perfeita 6 vezes, e o advinhador acertou 5. Qual seria suaconclusao?

9. O consumidor de um certo produto acusou o fabricante, dizendo que mais de 20% dasunidades fabricadas apresentam defeito. Para confirmar sua acusacao, ele usou umaamostra de tamanho 50, onde 27% das pecas eram defeituosas. Mostre como o fabricantepoderia refutar a acusacao. Utilize um nıvel de significancia de 10%.

Page 64: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 64

10. Um fabricante garante que 90% dos equipamentos que fornece a uma fabrica estao deacordo com as especificacoes exigidas. O exame de uma amostra de 200 pecas desseequipamento revelou 25 defeituosas. Teste a afirmativa, nos nıveis de 5% e 1%.

11. Os produtores de um programa de televisao pretendem modifica-lo se for assistido regular-mente por menos de um quarto dos possuidores de televisao. Uma pesquisa encomendadaa uma empresa especializada mostrou que, de 400 famılias entrevistadas, 80 assistem aoprograma regularmente. Com base nos dados, qual deve ser a decisao dos produtores?

12. O tempo medio, por operario, para executar uma tarefa, tem sido 100 minutos, com umdesvio padrao de 15 minutos. Introduziu-se uma modificacao para diminuir esse tempo,e apos certo perıodo, sorteou-se uma amostra de 16 oeprarios, medindo-se o tempo deexecucao de cada um. O tempo medio da amostra foi 85 minutos, e o desvio padrao foi12 minutos. Estes resultados trazem evidencia estatısticas da melhora desejada?Em casoafirmativo, estime o novo tempo medio de execucao. (Apresente as suposicoes teoricasusadas para resolver o problema.)

13. A precipitacao pluviometrica anual numa certa tem desvio padrao σ = 3, 1 e mediadesconhecida. Para os ultimos 9 anos, foram obtidos os seguintes resultados: 30,5; 34,1;27,9; 35,0; 26,9; 30,2; 28,3; 31,7; 25,8.

(a) Construa um teste de hipotese para saber se a media da precipitacao pluviometricaanual e maior que 30,0 unidades. Utilize um nıvel de significancia de 5%.

(b) Discuta o mesmo problema, considerando σ desconhecido.

(c) Supondo que, na realidade, µ = 33, 0, qual a probabilidade de tirarmos uma conclu-sao errada?

14. Uma fabrica de automoveis anuncia que seus carros consomem, em media, 11 litros por100 km, com desvio padrao de 0,8 litros. Uma revista resolve testar essa afirmacao eanalisa 35 automoveis dessa marca, obtendo 11,3 litros por 100 km como consumo medio(considerar distribucao normal). O que a revista pode concluir sobre o anuncio da fabrica,ao nıvel de 10%?

15. Duas maquinas, A e B, sao usadas para empacotar po de cafe. A experiencia passadagarante que o desvio padrao para ambas e de 10 g. Porem, suspeita-se que elas temmedias diferentes. Para verificar, sortearam-se duas amostras: uma com 25 pacotes damaquina A e outra com 16 pacotes da maquina B. As medias foram, respectivamente,xA = 502, 74g e xB = 496, 60g. Com esses numeros, e com o nıvel de 5%, qual seria acoclusao do teste H0 : µA = µB?

16. O numero medio diario de clientes de um posto de gasolina tem sido 250, com um desviopadrao de 80 clientes. Durante uma campanha de 25 dias, em que os clientes recebiamum brinde, o numero medio de clientes foi 280, com um desvio padrao de 50. Voce diriaque a campanha modificou a distribuicao do numero de clientes do posto? Descreva assuposicoes feitas para a resolucao do problema.

17. A porcentagem media da receita municipal dos quase 600 municıpios de um estado temsido 7%. O governo pretende melhorar esse ındice e, para isso, esta estudando algunsincentivos. Para verificar os efeitos desses incentivos, sorteou 10 cidades e estudou quaisseriam as porcentagem investigadas neles. Os resultados foram: 8, 10, 9, 11, 8, 12, 16, 9,12, 13.

Page 65: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 65

Admitindo-se que esses numeros realmente venham a ocorrer, os dados trazem evidenciade melhoria? Caso altere a media do estado, de um intervalo de confianca para a novamedia.

18. A prefeitura de uma cidade quer estimar a proporcao p dos moradores favoraveis a mu-danca do horario comercial, com o intuito de economizar combustıvel. Essa proporcaodevera ser estimada com um erro maximo de 5%, a um nıvel de 90% de confianca.

(a) Que tamaho devera ter a amostra se a proporcao p esperada deve estar entre 20% e50%? (Justifique a resposta).

(b) Numa amostra de 400 moradores, 160 foram favoraveis a mudanca; qual seria ointervalo de confianca para p, nesse caso, com γ = 0, 95?

19. Numa pesquisa realizada com 2.000 propetarios de carros na cidade de Sao Paulo, 800responderam que pretendem mudar de carro no decorrer do proximo ano. De um IC de90% para a proporcao de todos os propetarios de carros de Sao Paulo que pretendemmudar de carro no proximo ano.

20. Um fabricante de um certo tipo de aco especial afirma que seu produto tem um severoservico de controle de qualidade, traduzido pelo desvio padrao da resistencia a tensao,que nao e maior do que 5 kg por cm2. Um comprador, querendo verificar a veracidadeda afirmacao, tomou uma amostra de 11 cabos e submeteu-a a um teste de tensao. Osresultados foram os seguintes: x = 263 e s2 = 48. Estes resultados trazem algumaevidencia contra a afirmacao do fabricante? Use α = 0, 05.

21. Um escritorio de investimento acredita que o rendimento das diversas acoes movimenta-das por ele foi de 24%. Mais ainda, a nova estrategia definida deve garantir uma maioruniformidade nos rendimentos das diversas acoes. No passado, o desvio padrao do rendi-mento era da ordem de 5%. Para verificar as duas hipoteses, tomaram-se 8 empresas aoacaso, obtendo -se os seguintes rendimentos (dados em %): 23,6; 22,8; 25,7; 24,8; 26,4,24,3; 23,9 e 25. Quais seriam as conclusoes?

22. Num estudo comparativo do tempo medio de adaptacao, um amostra aleatoria, de 50homens e 50 mulheres de um grande complexo industrial, produziu os seguintes resultados:

Estatıstica Homens MulheresMedias 3,2 anos 3,7 anos

Desvios padroes 0,8 anos 0,9 anos

Que conclusoes voce poderia tirar para a populacao de homens e mulheres dessa industria?(Indique as suposicoes feitas para resolver o problema.)

23. Diversas polıticas em relacao as filiais de uma rede de supermercados estao associados aogasto medio dos clientes em cada compra. Deseja-se comparar esse parametro para duasnovas filiais, por meio de duas amostras de 50 clientes cada. As medias obtidas foram 62 e71, respectivamente. Sabe-se que o desvio padrao, em ambos os casos, deve ser da ordemde 20 unidades. E possıvel afirmar que o gasto medio nas duas filiais seja o mesmo? Casocontrario, de um intervalo de cobranca para a diferenca.

Page 66: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 66

24. Uma fabrica de embalagens para produtos quımicos esta estudando dois processos paracombater a corrosao de suas latas especiais. Para verificar o efeito dos tratamentos, foramusadas amostras cujos resultados estao no quadro abaixo (em porcentagem de corrosaoeleminada). Qual seria a conclusao sobre os dois tratamento?

Metodo Amostra Media Desvio PadraoA 15 48 10B 12 52 15

25. Para investigar a influencia da opcao profissional sobre o salario incial de recem-formados,investigaram-se dois grupos de profissionais: um de liberais em geral e outro de forman-dos em Administracao de Empresas. Com os resultados abaixo, expressos em salariosmınimos, quais seriam suas conclusoes?

Liberais 6,6 10,3 10,8 12,9 9,2 12,3 7,0Administradores 8,1 9,8 8,7 10,0 10,2 8,2 8,7 10,1

26. Para verificar a importancia de um cartaz nas compras de certo produto, procedeu-se daseguinte modo:

(a) formaram-se sete pares de lojas;

(b) os pares foram formados de modo que tivessem as mesmas caracterısticas quanto alocalizacao, ao tamanho e ao volume de vendas;

(c) num dos elementos do par, colocou-se o cartaz; no outro, nao;

(d) as vendas semanais foram registradas, e os resultados estao a seguir.

Qual seria a sua conclusao sobre a eficiencia do cartaz? Use o teste t, fazendo assuposicoes necessarias.

VendasPares Sem cartaz com cartaz

1 13 162 18 243 14 184 16 145 19 266 12 177 22 29

27. Os dados abaixo refere-se a medidas de determinada variavel em 19 pessoas antes e depoisde uma cirurgia. Verifique se as medidas pre e pos-operatorias apresentam a mesma media.Que suposicoes voce faria para resolver o problema?

Page 67: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 67

Pessoas Pre Pos Pessoas Pre Pos1 50,0 42,0 10 40,0 50,02 50,0 42,0 11 50,0 48,03 50,0 78,0 12 75,0 52,04 87,5 33,0 13 92,5 74,05 32,5 96,0 14 38,0 47,56 35,0 82,0 15 46,5 49,07 40,0 44,0 16 50,0 58,08 45,0 31,0 17 30,0 42,09 62,5 87,0 18 35,0 60,010 19 39,4 28,0

28. Uma empresa deseja estudar o efeito de uma pausa de dez minutos para um cafezinhosobre a produtividade de seus trabalhadores. Para isso, sorteou seis operarios, e contouo numero de pecas produzidas durante uma semana sem interavalo e uma semana comintervalo. Os resultados sugerem se ha ou nao melhora na produtividade? Caso hajamelhora, qual deve ser o acrescimo medio de producao para todos os trabalhadores dafabrica?

Operario 1 2 3 4 5 6Sem intervalo 23 35 29 33 43 32Com intervalo 28 38 29 37 42 30

29. Numa industria deseja-se testar se a produtividade media dos operarios do perıodo diurnoe igual a produtividade media dos operarios do perıodo noturno. Para isso, colheram-seduas amostras, uma de cada perıodo, observando-se a producao de cada operario. Osresultados obtidos forma os seguintes:

n∑

xi

∑x2

i

Diurno 15 180 2.660Noturno 15 150 2.980

De acordo com esses resultados, quais seriam suas conclusoes?

30. Num levantamento feito com os operarios da industria mecanica, chegou-se aos seguintesnumeros: salario medio = 3,64 salarios mınimos e desvio padrao = 0,85 salario mınimo.Supeita-se que os salarios de subclasse formada pelos torneiros mecanicos sao diferentesdos salarios do conjunto todo, tanto na media como na variancia. Que conclusoes voceobteria se uma amostra de 25 torneiros apresentasse salario medio igual a 4,22 salariosmınimos e desvio padrao igual a 1,25 salario mınimo?

31. Deseja-se testar se dois tipos de ensino profissional sao igualmente eficazes. Para isso,sortearam-se duas amostras de operarios; a cada uma, deu-se um dos tipos de treinamentoe, no final, submeteram-se os dois grupos a um mesmo teste. Que tipo de conclusao vocepoderia tirar, baseando-se nos resultados abaixo?

Amostra No de elementos Media Desvio PadraoTipo I 12 75 5Tipo II 10 74 10

Page 68: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 68

32. A torrefacao Guarany esta querendo comprar uma nova ensacadora de cafe. Apos con-sultar o mercado, ficou indecisa entre comprar da marca A ou a de marca B. Quanto aocusto, facilidade de pagamento, tamanho, etc. elas sao equivalentes. O fator que decidira acompra sera a precisao em encher os pacotes (medido pela variancia). Deseja-se construirregioes crıticas bilaterais, unilaterias a direita ou a esquerda, dependendo do objetivo.Indique qual seria a regiao crıtica mais favoravel as sequintes pessoas: (Justifique.)

(a) proprietario da torrefacao;

(b) fabricante de A; e

(c) fabricante de B.

33. Um medico deseja saber se uma certa droga reduz a pressao arterial media. Para isso,mediu a pressao arterial em cinco voluntarios, antes e depois da ingestao da droga, ob-tendo os dados do quadro abaixo. Voce acha que existe evidencia estatıstica de que adroga realmente reduz a pressao arterial media? Que suposicoes voce fez para resolver oproblema?

Voluntario A B C D EAntes 68 80 90 72 80Depois 60 71 88 74 76

34. Um partido afirma que a porcentagem de votos masculinos a seu favor sera de 10 % a maisdo que a procentagem de votos femininos. Numa pesquisa feita entre 400 homens, 170votariam no partido, enquanto entre 625 mulheres, 194 lhe seriam favoraveis. A afirmacaodo partido e verdaeira ou nao?

35. Uma amostra de 100 lampadas eletricas produzidas pela fabrica A indica uma vida mediade 1.190 horas, com desvio padrao de 90 horas. Uma amostra de 75 lampadas produzidaspela fabrica B indica uma vida media de 1.230 horas, com desvio padrao de 120 horas.Admitindo que as variancias populacionais sejam diferentes, voce acha que existe diferencaentre as vidas medias populacionais das lampadas produzidas pelas fabricas A e B?

36. De 400 moradores sorteadados de uma grande cidade industrial, 300 sao favoraveis a umprojeto governamental, e de uma amostra de 160 moradores de uma cidade cuja principalatividade e o turismo, 120 sao contra.

(a) Voce diria que a diferenca de opinioes nas duas cudades e estatisticamente signifi-cante?

(b) Qual seria o IC de 90% para a proporcao de favoraveis ao projeto nas duas cidades?(Suponha que o numero de pessoas nas duas cidades seja aproximadamente igual.)

37. Para verificar o grau de adesao de uma nova cola para vidros, preparam-se dois tipos demontagem: cruzado (A), onde a cola e posta em forma de X, e quadrado (B), onde a colae posta apenas nas quatro bordas. Os resultados da resistencia para as duas amostras de10 cada estao abaixo. Que tipo de conclusao poderia ser tirada?

Metodo A 16 14 19 18 19 20 15 18 17 18Metodo B 13 19 14 17 21 24 10 14 13 15

Page 69: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 69

38. Um dado foi lancado 1.000 vezes com os seguintes resultados:

Ocorrencia 1 2 3 4 5 6Frequencia 158 186 179 161 141 175

Teste a hıpotese que o dado e babanceado.

39. Supoe-se que uma moeda favoreca cara, na proporcao de duas caras para tres coroas.Para testar tal hipotese, lanca-se uma moeda quatro vezes, contando se o numero decaras. Repete-se esse experimento 625 vezes. Os resultados estao na tabela abaixo. Essesdados confirmam ou nao a suposicao?

Ocorrencia 0 1 1 3 4 TotalFrequencia 72 204 228 101 20 625

40. Suponha que tenhamos razoes para crer que as notas obtidas por estudantes de escolaspublicas sejam menores que as notas obtidas por estudantes de escolas particulares, aotomarem o exame vestibular para uma Universidade. Para testar essa hipotese, foramselecionadas duas amostras de estudantes que prestaram o vestibular, suas medias geraisforam anotadas e obteve-se a tabela a seguir.

Escola (0;2,5] (2,5;5,0] (5,0;7,5] (7,5;10,0] TotalPublica 15 22 18 3 58

Particular 6 10 20 6 42Total 21 32 38 9 100

Teste a hipotese que as duas populacoes sao homogeneas, para o nıvel de significancia deα = 0, 01. Obtenha o p-valor α.

41. Cem estudantes foram divididos em duas classes de 50 cada e o objetivo era testar umnovo metodo de ensinar Probabilidades. Uma classe recebeu um metodo tradicional ea outra, o novo metodo. Apos o curso, foi pedido que os estudantes resolvessem umproblema tıpico de probabilidades. Os resultados foram os seguintes:

Exercıcio correto Exercıcio erradoMetodo convencional 33 17

Metodo novo 37 13

Ha razoes para acreditar que o novo metodo e superior?

42. Duas novas drogas vao ser testadas em 160 pessoas portadora de rinite alergica. Metadedas pessoas recebe a droga A e a outra metade recebe a droga B. Obtem-se a tabelaabaixo. Teste a hipotese de que as duas drogas sao igulamente eficazes para tratar adoenca.

Eficaz Nao eficazDroga A 55 25Droga B 48 32

43. Um produto novo e lancado por uma empresa, e, para verificar a sua aceitacao, doisgrupos de pessoas sao consultados. De 100 pessoas da cidade A, 32 gostaram do produtoe, de 50 pessoas da cidade B, 12 gostram do produto. Ha evidencia que o produto sejaigualmente aceito nas duas cidades?

Page 70: CE-002: Estat´ıstica I - leg.ufpr.brleg.ufpr.br/~paulojus/CE002/pratica/pratica.pdf · 1.2 Praticando alguns comandos Entre em sua conta, abra um terminal (clique no botao xterm)

CE-002: Estatıstica I 70

Sobre este texto

Este material e produzido e disponibilizado usando exclusivamente recursos de SOFT-WARE LIVRE

O texto foi editado em LATEX e combinado com codigo R usando o recurso do SweaveA versao para WEB foi obtida convertendo o documento LATEXpara xhtml usando o

TeX4ht. A opcao de conversao utilizada produz documentos em formato .xml que utilizammathml para impressao de formulas, equacoes e sımbolos matematicos.

Para visualizacao pela WEB sugerimos o uso do ”browser”Mozilla Firefox(http://www.mozilla.org/products/firefox/start/). Este documento pode nao ser bemvisualizado em alguns ”browsers”que nao possuam suporte a mathml.

Todo o material foi produzido em ambiente Debian-Linux (http://www.debian.org). Apagina WEB e disponibilizada usando um servidor APACHE (http://www.apache.org) rodandoem um Debian-Linux.