Upload
haxuyen
View
223
Download
9
Embed Size (px)
Citation preview
2a Lista de Exercício – Estatística 2017
1. Uma pessoa está com as seguintes dúvidas conceituais. Explique.
a) O que significa o termo “valor-p” encontrado em análises estatísticas? Para que serve?
b) Já que o nível de significância representa a probabilidade de rejeitar indevidamente a hipótese
nula, por que não podemos utilizar níveis de significância iguais a zero num teste estatístico?
c) Se quiser comparar duas variâncias, por que uso uma estatística baseada na razão de variâncias e
não para diferença de variâncias?
d) Como sei que devo usar o t homocedástico ou o t heterocedástico para testar a hipótese de que
duas médias são iguais?
2. Uma determinada empresa garante que seu sistema de reconhecimento automático de padrões erra no
máximo em 5% das identificações de um determinado alvo. A fim de verificar a veracidade desta
afirmação, analisaram-se 1000 objetos escolhidos aleatoriamente observando-se que 62 deles não
foram corretamente identificadas pelo sistema. Com base nesse resultado, podemos afirmar que, de
fato, o sistema analisado erra mais do que o afirmado pela empresa?
3. Duas imagens, A e B, são obtidas e para uma mesma classe temática são retiradas amostras de
tamanho nA=40 e nB=50, chegando-se aos valores amostrais 53XA , 27s2A , 56XB e 35s2
B .
Testar a hipótese da existência de diferença significativa entre os valores médios na referida classe
temática entre as imagens A e B, adotando nível de significância de 5%. Qual a probabilidade de se
rejeitar H0 indevidamente neste caso?
4. Uma pessoa comparou o resultado de dois testes t homocedásticos (tabelas abaixo) e constatou certa
incoerência nos resultados. Comparando-se as médias de A e B, cuja diferença foi de 6,2, chegou-se a
conclusão que estas médias eram diferentes a 5%. Já quando foram comparadas as médias C e D, cuja
diferença foi de 30,0, chegou-se a conclusão que estas médias eram iguais, considerando-se também
5% de significância. Como explicar que médias "mais distantes", como C e D, podem ser mais
parecidas entre si, do que médias "mais próximas", como A e B?
A B C D
Média 12,8 19,0 Média 10,2 40,2 Variância 6,7 7,0 Variância 900,2 900,2 Observações 5 5 Observações 5 5 Variância agrupada 6,85 Variância agrupada 900,2 Hipótese da diferença de média 0
Hipótese da diferença de média 0
Gl 8 gl 8 Stat t -3,7456 Stat t -1,5810 P(T<=t) uni-caudal 0,0028 P(T<=t) uni-caudal 0,0763
t crítico uni-caudal 1,8595 t crítico uni-caudal 1,8595
5. Dois mapas, A e B, foram avaliados a partir de 100 pontos escolhidos aleatoriamente e
independentemente para cada mapa. Determinou-se que 83 e 76 pontos de A e B, respectivamente,
correspondiam corretamente à classe de uso segundo a referência adotada. Testar a hipótese de que
ambos os mapas apresentam a mesma exatidão global.
6. Uma tabela ANOVA incompleta é fornecida a seguir:
Fonte de
variação
Soma dos
Quadrados
Graus de
Liberdade
Quadrado
Médio
F Valor-P
Tratamento 307,67
Erro 40
Total 750,89 44
Complete a tabela e responda:
a) Quantas médias estão sendo comparadas neste teste? Qual é a hipótese nula?
b) Adotando-se o nível de significância de 5%, todas as médias são iguais entre si?
c) O que representam os quadrados médios? Em que circunstâncias, o quadrado médio do tratamento
será superior ao quadrado médio do erro?
d) Por que este teste é sempre unilateral?
7. Um pesquisador testou a eficiência de um determinado fertilizante em aumentar a produtividade de
uma cultura qualquer. Para tanto, testou diferentes dosagens desse adubo (inclusive dosagem zero – o
que define o grupo controle) em diferentes talhões (10 talhões para cada dosagem). Ao final do ciclo
de cada talhão, a produção foi pesada e foi calculada a produtividade (em kg/m2). Procedeu-se a
análise de variância de um fator, o que indicou resultado significativo a 5%. Em seguida, realizou-se o
teste de Tukey a fim de verificar qual ou quais médias eram diferentes entre si. O resultado deste teste
é sumarizado abaixo. Nesse caso, letras iguais indicam não haver diferença significativa entre as
médias a 5%. O que você conclui? Podemos indicar qual é o tratamento (incluindo o grupo controle –
dosagem igual a zero) que resultou numa menor e numa maior produtividade?
8. Para cada item abaixo, responda verdadeiro ou falso e justifique sua escolha.
a) O modelo de regressão linear simples é representado por E(Yi) = 0 + 1Xi + i;
b) O coeficiente de correlação pode ser expresso em porcentagem e representa a fração da variação
total que é explicada pela regressão, ou seja, o quanto da variação total é reduzido ao se adotar a
regressão;
c) O coeficiente de correlação tem o mesmo sinal do coeficiente angular de uma regressão linear
simples;
d) Um alto coeficiente de determinação indica que as variáveis dependente e independente tem
necessariamente uma relação linear forte;
e) Numa regressão linear simples, o teste F e o teste t para o coeficiente angular são correspondentes;
f) As melhores estimativas de Y numa regressão linear simples são obtidas próximas de X = 0.
g) A variância do erro i deve ser a mesma para todos os valores de Xi.
110,2
115,3
117,4
119,6
104
106
108
110
112
114
116
118
120
122
controle dose 1 dose 2 dose 3
pro
du
tiv
idad
e (
kg
/m2
)
a b bc c
9. Para avaliar a relação linear entre duas variáveis X e Y, 10 pontos foram coletados sobre dois alvos
distintos A e B. Verifique se os alvos possuem a mesma relação e, caso afirmativo, qual o modelo que
representa a relação entre estas variáveis? Dica: utilize uma variável indicadora para gerar um único
modelo para os alvos a fim de testar a hipótese de que ambos possuem a mesma relação.
Alvo A
Alvo B
Y X
Y X
30,96 7,61
53,79 14,97
22,94 6,13
35,70 8,09
51,08 13,84
47,79 14,09
45,71 12,07
46,67 11,94
44,71 13,35
35,23 10,50
35,16 10,65
47,40 14,11
33,13 7,88
24,93 5,64
34,54 9,71
27,98 7,81
40,64 11,68
28,52 6,60
34,32 10,65
30,47 8,34
10. De acordo com os dados abaixo, determine o melhor modelo que relaciona a variável independente Y
com as variáveis independentes X1, X2 e X3. Observe que nem todas as variáveis independentes
necessitam ser utilizadas no modelo. Faça a análise dos resíduos a fim de constatar se o modelo
encontrado parece adequado.
Y X1 X2 X3
0,02 1,31 6,13 0,96
8,98 0,53 4,33 4,02
9,87 1,12 13,29 7,12
13,68 3,30 11,65 1,71
17,48 4,97 16,24 7,07
17,61 7,03 28,70 0,54
20,34 5,38 25,51 4,83
20,46 5,51 23,11 4,97
26,00 9,54 30,09 9,77
26,15 10,11 38,52 8,64
27,42 11,32 38,89 1,70
28,16 7,96 32,56 5,19
29,96 11,03 37,29 6,53
45,25 13,34 45,74 8,88
49,55 14,78 47,90 3,82
65,41 15,06 50,60 4,67
68,64 16,55 56,97 1,94
80,39 17,22 58,75 8,13
92,27 19,17 66,17 6,83
96,59 19,88 65,63 8,78