View
220
Download
0
Category
Preview:
Citation preview
IV.4 – Análise de Dados da Avaliação
1
IV – AVALIAÇÃO
IV.4 – ANÁLISE DE DADOS DA AVALIAÇÃO
Interactive System Design, Cap. 10, William Newman
1
Melhor e Pior?
2
IV.4 – Análise de Dados da Avaliação
2
Resumo Aula Anterior
o Testes com utilizadores
o Fases do Teste
o Análise dos dados
3
Sumário
o Análise dos dados por métodos
estatísticos
Teste t
Intervalos de Confiança
Chi Quadrado
4
IV.4 – Análise de Dados da Avaliação
3
As Bases – Estatística Descritiva
Média
Soma dos quadrados das diferenças
Variância
Desvio Padrão
5
No Excel…
AVERAGE(range)
VAR(range)
STDEV(range)
MEDIAN(range)
MODE(range)
6
IV.4 – Análise de Dados da Avaliação
4
Não Chega!
7
TESTES ESTATÍSTICOS!
8
IV.4 – Análise de Dados da Avaliação
5
Testes Estatísticos
Solução A melhor que a B?
Alteração no tipo de menus (PullDown vs Pie)
Caligráfico vs Menus
Solução cumpre os objectivos?
Os nossos objectivos de usabilidade são
atingidos?
9
Para quê este trabalho todo…
Questão: a tarefa leva menos do que 30 segundos?
10
IV.4 – Análise de Dados da Avaliação
6
Para quê este trabalho todo…
Testes com 10 utilizadores:
Média: 29.6
11
Para quê este trabalho todo…
Testes com 10 utilizadores:
29.6 < 30
12
IV.4 – Análise de Dados da Avaliação
7
Para quê este trabalho todo…
Testes com 10 utilizadores:
29.6 < 30
13
Para quê este trabalho todo…
Média: 29.6 StDev: 8.7
Problema 1: Grande dispersão!
14
IV.4 – Análise de Dados da Avaliação
8
Para quê este trabalho todo…
Média: 29.6 StDev: 8.7
0
5
10
15
20
25
30
35
40
45
50
15
Para quê este trabalho todo…
Média: 29.6 StDev: 8.7
0
5
10
15
20
25
30
35
40
16
IV.4 – Análise de Dados da Avaliação
9
Para quê este trabalho todo…
Média: 29.6 StDev: 8.7
0
5
10
15
20
25
30
35
40
17
Para quê este trabalho todo…
Problema 2: amostra pequena!
0
5
10
15
20
25
30
35
40
18
IV.4 – Análise de Dados da Avaliação
10
Para quê este trabalho todo…
Média: 31.3 StDev: 5.1
0
5
10
15
20
25
30
35
40
19
Para quê este trabalho todo…
Mas mesmo assim não chega!
20
IV.4 – Análise de Dados da Avaliação
11
Para quê este trabalho todo…
Mas mesmo assim não chega!
0
5
10
15
20
25
30
35
40
21
Para quê este trabalho todo…
Média: 29.1 StDev: 4.5
0
5
10
15
20
25
30
35
40
22
IV.4 – Análise de Dados da Avaliação
12
Para quê este trabalho todo…
Então??
23
Para quê este trabalho todo…
Acreditamos na média?
24
IV.4 – Análise de Dados da Avaliação
13
Para quê este trabalho todo…
Acreditamos na média?
É melhor olhar para os dados…
25
Para quê este trabalho todo…
Acreditamos na média?
É melhor olhar para os dados…
Mas… Só temos uma amostra!
26
IV.4 – Análise de Dados da Avaliação
14
Universo vs Amostra
Média, desvio padrão da população
Da amostra…
27
Significado Variância/Desvio Padrão
28
IV.4 – Análise de Dados da Avaliação
15
Há sempre mais um…
29
Procedimento
1. Escolha da amostra representativa Público alvo
30
IV.4 – Análise de Dados da Avaliação
16
Procedimento
1. Escolha da amostra representativa
2. Formulação da hipótese nula (H0)
31
Procedimento – Hipótese Nula
Hipótese H0 – Hipótese Nula
“Não há diferenças, o tempo é igual” Ex. A mudança de menus não afecta o
desempenho
Hipótese H1 - Hipótese experimental
Diz o que queremos verificar Ex. Os novos menus melhoram o desempenho
32
IV.4 – Análise de Dados da Avaliação
17
Procedimento – Grau de Confiança
α = Probabilidade de parecer que H1 se verifica, mas afinal estarmos errados (“apanhámos esquisitos”)
Grau de Confiança = (1 - α )
33
Procedimento – Grau de Confiança
Aceitável: α = 0.05, grau de confiança = 95%
Melhor: α = 0.01, grau de confiança = 99%
34
IV.4 – Análise de Dados da Avaliação
18
Procedimento – Grau de Confiança
Objectivo rejeitar H0 para um determinado α
35
Procedimento
1. Escolha da amostra representativa
2. Formulação da hipótese nula (H0)
3. Realização dos testes Recolher os dados
36
IV.4 – Análise de Dados da Avaliação
19
Realizar os testes
Inter-Grupos Dois grupos de teste
Cada grupo usa apenas um dos sistemas
Intra-Grupos Um grupo de utilizadores
Cada pessoa usa ambos os sistemas Não podem usar as mesmas tarefas ou pela mesma ordem (aprendizagem)
37
Realizar os testes
Maiores Amostras
Melhores Resultados
38
IV.4 – Análise de Dados da Avaliação
20
Procedimento
1. Escolha da amostra representativa
2. Formulação da hipótese nula (H0)
3. Realização dos testes
4. Aplicar tratamento estatístico
39
Três testes diferentes…
t-student para médias
intervalos de confiança
chi-quadrado
40
IV.4 – Análise de Dados da Avaliação
21
t T-STUDENT
41
Objectivo: Médias Iguais?
Atalhos Menus
3 2
2 3
3 4
4 3
3 4
4 4
3 3
2 4
3 2
1 3
4 1
Média 2.9 3
D.Pad. 0.94 1
Atalhos é melhor que Menus?
42
IV.4 – Análise de Dados da Avaliação
22
Objectivo: Médias Iguais?
Atalhos Menus
3 2
2 3
3 4
4 3
3 4
4 4
3 3
2 4
3 2
1 3
4 1
Média 2.9 3
D.Pad. 0.94 1
Atalhos é melhor que Menus?
Não Sabemos!!
Valores próximos, grande desvio padrão
43
O t-student para médias
Definir
H0 44
IV.4 – Análise de Dados da Avaliação
23
Bicaudal e Unicaudal
45
Unicaudal
46
IV.4 – Análise de Dados da Avaliação
24
Bicaudal
47
O t-student para médias
H0 As médias são iguais
48
IV.4 – Análise de Dados da Avaliação
25
O t-student para médias
Se rejeitarmos H0:
A probabilidade de (não parecerem iguais e) serem é menor que α.
49
O t-student para médias
Se rejeitarmos H0:
Posso dizer que são diferentes com uma confiança de (1- α).
50
IV.4 – Análise de Dados da Avaliação
26
Presusposto: Normalidade
Amostra segue uma distribuição normal
51
E agora?
testes de normalidade
D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk test …
52
IV.4 – Análise de Dados da Avaliação
27
E agora?
testes de normalidade
D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk test …
53
O Universo é Porreiro
54
IV.4 – Análise de Dados da Avaliação
28
É Verdade que…
Valores medidos na natureza tendem para a normalidade!
Amostras de pelo menos 20
55
Como se calcula?
Variância combinada
Desvio padrão da
diferença
Valor de t
56
IV.4 – Análise de Dados da Avaliação
29
Conclusão!
Se t > tH0 (da tabela) rejeitamos H0 (para α)
57
Exemplo: Bilheteira
Objectivo: Comparar Bilheteira com Máquina
Hipótese nula:
a forma de aquisição do bilhete não tem influência
no tempo da tarefa (α = 0.05)
Medidas
bilheteira: 28, 25, 23, 26, 30, 32 segundos
máquina: 32, 41, 37, 40, 30 segundos
Médias
bilheteira: 29 s máquina: 36 s 58
IV.4 – Análise de Dados da Avaliação
30
Teste de t - Bilheteira
TTEST(…)
Type: 3 (se inter-grupos)
Type: 1 (se intra-grupos)
59
Teste de t - Bilheteira
Resultado: probabilidade com que não
poderiamos rejeitar H0
0.036 < 0.05
60
IV.4 – Análise de Dados da Avaliação
31
Teste de t - Bilheteira
Resultado: probabilidade com que não
poderiamos rejeitar H0
0.036 < 0.05
Rejeita-se H0! 61
Teste de t - Bilheteira
Conclusão
A compra de bilhetes em máquina é 24% (36/29)
mais lenta do que na bilheteira, com uma
probabilidade de 96,4%
62
IV.4 – Análise de Dados da Avaliação
32
[0, 1] INTERVALOS DE CONFIANÇA
63
Objectivo: Atingimos um valor?
Atalhos
3
2
3
4
3
4
3
2
3
1
4
Média 2.9
D.Pad. 0.94
O tempo para usar os atalhos é inferior a 3s?
64
IV.4 – Análise de Dados da Avaliação
33
Objectivo: Atingimos um valor?
Atalhos
3
2
3
4
3
4
3
2
3
1
4
Média 2.9
D.Pad. 0.94
O tempo para usar os atalhos é inferior a 3s?
Não Sabemos!!
Grande desvio padrão
65
lembram-se disto?
Média: 29.1 StDev: 4.5
0
5
10
15
20
25
30
35
40
66
IV.4 – Análise de Dados da Avaliação
34
Intervalo de Confiança
A média da população
está dentro do intervalo
com uma dada probabilidade.
67
Intervalo de Confiança
Evitar este
68
IV.4 – Análise de Dados da Avaliação
35
Intervalo de Confiança
Exemplo
Uma operação não deve demorar mais
do que 25s
Intervalo totalmente abaixo de 25 s
69
Como se calcula?
1. Calcular variância (s2)
2. Desvio padrão da média
3. Determinar t bicaudal para a probabilidade pretendida e grau de liberdade da amostra (N-1)
4. O intervalo estará compreendido entre
70
IV.4 – Análise de Dados da Avaliação
36
Intervalo de Confiança (Ex.)
Métrica: Nº de Erros Objectivo: Nº erros <= 15 (α = 0.05)
Amostra: 13, 6, 8, 11
Média: 9,5 Variância: 9,67
71
Intervalo de Confiança (Ex.)
Desvio padrão da média:
Para p=0,05 t=3.182 (da tabela ou usando TINV ())
Intervalo xmin = 9,5 – 3,182 x 1,55 = 5,84
xmax = 9,5 + 3,182 x 1,55 = 13,15
72
IV.4 – Análise de Dados da Avaliação
37
Intervalo de Confiança (Ex.)
Intervalo abaixo de 15
Conclusão:
Nº erros da população
inferior a 15 c/ 95% de certeza
73
χ2 CHI-QUADRADO
74
IV.4 – Análise de Dados da Avaliação
38
Objectivo: Frequências esperadas = observadas?
Achamos que: 40% usa menus 60% usa atalhos
Medimos: 45% usam menus 55% usam atalhos
75
Objectivo: Frequências esperadas = observadas?
40% != 45% 60% != 55%
Afinal é 45/55 em vez de 40/60?
76
IV.4 – Análise de Dados da Avaliação
39
Objectivo: Frequências esperadas = observadas?
40% != 45% 60% != 55%
Afinal é 45/55 em vez de 40/60?
Não sabemos!
77
Chi-Quadrado
H0 As frequências observadas
são as esperadas 78
IV.4 – Análise de Dados da Avaliação
40
Como se calcula?
diferença entre freq. observadas e esperadas
Se > H0 (da tabela) rejeitamos H0
(para α)
79
Tabela do chi Quadrado
80
IV.4 – Análise de Dados da Avaliação
41
Teste do Chi Quadrado (Exemplo)
Objectivo: Qual a opção preferida de entre as 3?
Hipótese Nula: As freqs. 5,16,9 (observadas) são iguais a 10,10,10 (esperadas)
30 utilizadores
Opção f esperada
f observada
Diferença Quad. Da Diferença
/ f esperada
A 10 5 -5 25 2,5
B 10 16 6 36 3,6
C 10 9 -1 1 0,1
81
Teste do Chi Quadrado (Exemplo)
Graus de liberdade: N-1 = 3-1 = 2
Da tabela obtemos 5,99 para α =0,05
Rejeita-se a hipótese nula (6.2 > 5.99)
= 6.2
Opção f esperada
f observada
Diferença Quad. Da Diferença
/ f esperada
A 10 5 -5 25 2,5
B 10 16 6 36 3,6
C 10 9 -1 1 0,1
82
IV.4 – Análise de Dados da Avaliação
42
Chi Quadrado no Excel
0.045 < 0.05 -> Rejeitar H0 83
CHI-Quadrado (Ex.)
Conclusão:
Uma das opções é preferida relativamente às outras,
com 95% de certeza.
84
IV.4 – Análise de Dados da Avaliação
43
Foi fácil!
85
Escolha de testes
Funções estatísticas disponíveis em : Matlab, SPSS, R, ou mesmo Excel
Essencial: escolher método apropriado
86
IV.4 – Análise de Dados da Avaliação
44
Escolha de testes: resumo!
t-student: Duas médias são diferentes? “A é mais rápido/lento que B” “Os utilizadores do grupo A cometem
menos erros do que os do grupo B”
intervalos de confiança: atingimos um dado valor? “A tarefa leva mais/menos do que x
segundos?” 87
Escolha de testes: resumo!
chi-quadrado: vimos as frequências que esperávamos? “Metade dos utilizadores prefere menus e
a outra teclas de atalho?” “70% das vezes escolhe-se usar a toolbar,
20% o menu de contexto e 10% a tecla de atalho”
88
IV.4 – Análise de Dados da Avaliação
45
Resumo
Os testes mais conclusivos devem ser realizados com utilizadores reais
Os testes devem ser planeados e aprovados previamente
Devem ser recolhidos dados qualitativos e quantitativos
Dados numéricos só são conclusivos se validados por testes estatísticos
Escolhido o método estatístico adequado
89
Próxima Aula
o Factores Humanos HCI, Cap. 1 , Alan Dix
o Modelo Humano de Processamento Subsistema de Percepção • Visão
• Audição
• Tacto
Subsistema Motor 90
Recommended