Lista de Exercício - Estatísticacamilo/estatistica/exerc/lista02_2017.pdf · 2a Lista de Exercício ... O coeficiente de correlação pode ser expresso em porcentagem e representa

2a Lista de Exercício – Estatística 2017

1. Uma pessoa está com as seguintes dúvidas conceituais. Explique.

a) O que significa o termo “valor-p” encontrado em análises estatísticas? Para que serve?

b) Já que o nível de significância representa a probabilidade de rejeitar indevidamente a hipótese

nula, por que não podemos utilizar níveis de significância iguais a zero num teste estatístico?

c) Se quiser comparar duas variâncias, por que uso uma estatística baseada na razão de variâncias e

não para diferença de variâncias?

d) Como sei que devo usar o t homocedástico ou o t heterocedástico para testar a hipótese de que

duas médias são iguais?

2. Uma determinada empresa garante que seu sistema de reconhecimento automático de padrões erra no

máximo em 5% das identificações de um determinado alvo. A fim de verificar a veracidade desta

afirmação, analisaram-se 1000 objetos escolhidos aleatoriamente observando-se que 62 deles não

foram corretamente identificadas pelo sistema. Com base nesse resultado, podemos afirmar que, de

fato, o sistema analisado erra mais do que o afirmado pela empresa?

3. Duas imagens, A e B, são obtidas e para uma mesma classe temática são retiradas amostras de

tamanho nA=40 e nB=50, chegando-se aos valores amostrais 53XA , 27s2A , 56XB e 35s2

B .

Testar a hipótese da existência de diferença significativa entre os valores médios na referida classe

temática entre as imagens A e B, adotando nível de significância de 5%. Qual a probabilidade de se

rejeitar H0 indevidamente neste caso?

4. Uma pessoa comparou o resultado de dois testes t homocedásticos (tabelas abaixo) e constatou certa

incoerência nos resultados. Comparando-se as médias de A e B, cuja diferença foi de 6,2, chegou-se a

conclusão que estas médias eram diferentes a 5%. Já quando foram comparadas as médias C e D, cuja

diferença foi de 30,0, chegou-se a conclusão que estas médias eram iguais, considerando-se também

5% de significância. Como explicar que médias "mais distantes", como C e D, podem ser mais

parecidas entre si, do que médias "mais próximas", como A e B?

A B C D

Média 12,8 19,0 Média 10,2 40,2 Variância 6,7 7,0 Variância 900,2 900,2 Observações 5 5 Observações 5 5 Variância agrupada 6,85 Variância agrupada 900,2 Hipótese da diferença de média 0

Hipótese da diferença de média 0

Gl 8 gl 8 Stat t -3,7456 Stat t -1,5810 P(T<=t) uni-caudal 0,0028 P(T<=t) uni-caudal 0,0763

t crítico uni-caudal 1,8595 t crítico uni-caudal 1,8595

5. Dois mapas, A e B, foram avaliados a partir de 100 pontos escolhidos aleatoriamente e

independentemente para cada mapa. Determinou-se que 83 e 76 pontos de A e B, respectivamente,

correspondiam corretamente à classe de uso segundo a referência adotada. Testar a hipótese de que

ambos os mapas apresentam a mesma exatidão global.

6. Uma tabela ANOVA incompleta é fornecida a seguir:

Fonte de

variação

Soma dos

Quadrados

Graus de

Liberdade

Quadrado

Médio

F Valor-P

Tratamento 307,67

Erro 40

Total 750,89 44

Complete a tabela e responda:

a) Quantas médias estão sendo comparadas neste teste? Qual é a hipótese nula?

b) Adotando-se o nível de significância de 5%, todas as médias são iguais entre si?

c) O que representam os quadrados médios? Em que circunstâncias, o quadrado médio do tratamento

será superior ao quadrado médio do erro?

d) Por que este teste é sempre unilateral?

7. Um pesquisador testou a eficiência de um determinado fertilizante em aumentar a produtividade de

uma cultura qualquer. Para tanto, testou diferentes dosagens desse adubo (inclusive dosagem zero – o

que define o grupo controle) em diferentes talhões (10 talhões para cada dosagem). Ao final do ciclo

de cada talhão, a produção foi pesada e foi calculada a produtividade (em kg/m2). Procedeu-se a

análise de variância de um fator, o que indicou resultado significativo a 5%. Em seguida, realizou-se o

teste de Tukey a fim de verificar qual ou quais médias eram diferentes entre si. O resultado deste teste

é sumarizado abaixo. Nesse caso, letras iguais indicam não haver diferença significativa entre as

médias a 5%. O que você conclui? Podemos indicar qual é o tratamento (incluindo o grupo controle –

dosagem igual a zero) que resultou numa menor e numa maior produtividade?

8. Para cada item abaixo, responda verdadeiro ou falso e justifique sua escolha.

a) O modelo de regressão linear simples é representado por E(Yi) = 0 + 1Xi + i;

b) O coeficiente de correlação pode ser expresso em porcentagem e representa a fração da variação

total que é explicada pela regressão, ou seja, o quanto da variação total é reduzido ao se adotar a

regressão;

c) O coeficiente de correlação tem o mesmo sinal do coeficiente angular de uma regressão linear

simples;

d) Um alto coeficiente de determinação indica que as variáveis dependente e independente tem

necessariamente uma relação linear forte;

e) Numa regressão linear simples, o teste F e o teste t para o coeficiente angular são correspondentes;

f) As melhores estimativas de Y numa regressão linear simples são obtidas próximas de X = 0.

g) A variância do erro i deve ser a mesma para todos os valores de Xi.

110,2

115,3

117,4

119,6

104

106

108

110

112

114

116

118

120

122

controle dose 1 dose 2 dose 3

pro

du

tiv

idad

e (

kg

/m2

)

a b bc c

9. Para avaliar a relação linear entre duas variáveis X e Y, 10 pontos foram coletados sobre dois alvos

distintos A e B. Verifique se os alvos possuem a mesma relação e, caso afirmativo, qual o modelo que

representa a relação entre estas variáveis? Dica: utilize uma variável indicadora para gerar um único

modelo para os alvos a fim de testar a hipótese de que ambos possuem a mesma relação.

Alvo A

Alvo B

Y X

Y X

30,96 7,61

53,79 14,97

22,94 6,13

35,70 8,09

51,08 13,84

47,79 14,09

45,71 12,07

46,67 11,94

44,71 13,35

35,23 10,50

35,16 10,65

47,40 14,11

33,13 7,88

24,93 5,64

34,54 9,71

27,98 7,81

40,64 11,68

28,52 6,60

34,32 10,65

30,47 8,34

10. De acordo com os dados abaixo, determine o melhor modelo que relaciona a variável independente Y

com as variáveis independentes X1, X2 e X3. Observe que nem todas as variáveis independentes

necessitam ser utilizadas no modelo. Faça a análise dos resíduos a fim de constatar se o modelo

encontrado parece adequado.

Y X1 X2 X3

0,02 1,31 6,13 0,96

8,98 0,53 4,33 4,02

9,87 1,12 13,29 7,12

13,68 3,30 11,65 1,71

17,48 4,97 16,24 7,07

17,61 7,03 28,70 0,54

20,34 5,38 25,51 4,83

20,46 5,51 23,11 4,97

26,00 9,54 30,09 9,77

26,15 10,11 38,52 8,64

27,42 11,32 38,89 1,70

28,16 7,96 32,56 5,19

29,96 11,03 37,29 6,53

45,25 13,34 45,74 8,88

49,55 14,78 47,90 3,82

65,41 15,06 50,60 4,67

68,64 16,55 56,97 1,94

80,39 17,22 58,75 8,13

92,27 19,17 66,17 6,83

96,59 19,88 65,63 8,78

Documents

Lista de Exercício - Estatísticacamilo/estatistica/exerc/lista02_2017.pdf · 2a Lista de Exercício ... O coeficiente de correlação pode ser expresso em porcentagem e representa