Upload
marcelo-goncalves-garrido
View
224
Download
0
Embed Size (px)
Citation preview
1
TEORIA DA RESPOSTA AO ITEM: Conceitos, Modelos e Aplicações
Dalton F. Andrade Departamento de Informática e Estatística – [email protected]/~dandrade
IASI - X Seminario de Estadística Aplicada – Rosario 2006martes 11-13 y 14-16 miércoles 8:30-10:30
2
Tópicos Introdução:
Estatística em Avaliação Educacional Teoria da Resposta ao Item - TRI:
ConceitosPrincipais ModelosAplicações em Educação e outras áreas
Estimação na TRI e outros modelos Equalização Construção e interpretação da escala de proficiência Aspectos computacionais
3
Referências iniciais: TRI Lord, F.M., Norvick, M.R. (1968). Statistical Theories of
Mental Test Score. Reading: Addison-Wesley Lord, F.M. (1980). Applications of Item Response Theory
to Practical Testing Problems. Hillsdale: Lawrence Erlbaum Associates
Hambleton, R.K., Swaminathan, H., Rogers, H.J. (1991). Fundamentals of Item Response Theory. Newburry Park: Sage Publications.
Andrade, D.F., Tavares, H.R., Cunha, R.V. (2000). Teoria da Resposta ao Item: Conceitos e Aplicações. São Paulo: Associação Brasileira de Estatística.
4
Introdução: Estatística em Avaliação Educacional
Sistema Nacional de Avaliação da Educação Básica – SAEB (http://www.inep.gov.br/basica/saeb/ Planejamento Amostragem Medida de Proficiência Estudo de Fatores Associados - HLM
5
Introdução: Estatística em Avaliação Educacional Foco nas gestões dos sistemas educacionais Realizado desde 1990. A partir 1995, passou a fazer uso da
TRI. 1995, 1997, ..., 2003, 2005 (em análise). 4a. e 8a. séries do Ensino Fundamental e 3a. Série do Ensino
Médio. Disciplinas: Português, Matemática, ... Amostra de estudantes Proficiência do estudante Fatores Associados: como características dos estudantes,
professores e escolas estão relacionadas com a proficiências dos estudantes
6
Introdução: Estatística em Avaliação EducacionalProvas/Planejamento
O número de itens (questões) requerido pelos especialistas, para cada série e disciplina, é maior do que um estudante pode responder em 2 horas.
Equalização: obter resultados comparáveis (mesma escala) para as 4a., 8a. and 3a. séries e também ao longo do tempo.
Matemática, 3a. série: 169 itens. - 13 conjuntos com 13 itens cada (169=132)
- Provas: cadernos de provas com 3 conjuntos, total de 39=3x13 itens
- Total de 26 cadernos de provas - Itens de 8a. Série e também de anos anteriores
7
Cadernos de Provas: Planejamento em Blocos Incompletos Balanceados - BIB
Cadernos de provas
Conjuntos de itens Cadernos de provas
Conjuntos de itens
1 1 2 5 14 1 3 8 2 2 3 6 15 2 4 9 3 3 4 7 16 3 5 10 4 4 5 8 17 4 6 11 5 5 6 9 18 5 7 12 6 6 7 10 19 6 8 13 7 7 8 11 20 7 9 1 8 8 9 12 21 8 10 2 9 9 10 13 22 9 11 3
10 10 11 1 23 10 12 4 11 11 12 2 24 11 13 5 12 12 13 3 25 12 1 6 13 13 1 4 26 13 2 7
> Cada conjunto de 13 itens aparece em 6 cadernos de provas > Cada conjunto de itens aparece duas vezes em cada uma das 3 posições nos cadernos de provas > Um par de conjuntos de itens aparece somente uma vez em um caderno de provas
Estudantes de mesma série respondem diferentes cadernos de provas, mas os cadernos de provas possuem itens comuns
8
Introdução: Estatística em Avaliação EducacionalAmostragem
Dados de 2002
Amostragem por conglomerado (escola) em dois estágios, dentro de cada estrato:
Estágio 1: escola Estágio 2: estudantes das escolas selecionadas
Série
Alunos
Escolas
4a.
4.304.217
142.495
8a.
3.338.529
42.579
3 a.
2.181.158
17.958
Total
9.823.904
214.188
9
Introdução: Estatística em Avaliação Educacional Medindo a Proficiência
Medir a proficiência do estudante. Obter resultados comparáveis entre séries (4a., 8a.
EF e 3a. EM). Obter resultados comparáveis entre anos para a
mesma série. Diferentes provas entre anos, entre séries e entre
estudantes de uma mesma série. Teoria Clássica (TC) Teoria da Resposta ao Item (TRI)
10
Introdução: Estatística em Avaliação Educacional Análise de Fatores Associados
Como as características dos estudantes, professores e escola estão relacionadas com a proficiência dos estudantes.
Modelos de regressão com estruturas especiais de dependência.
Referências Básicas: GOLDSTEIN, H. (2003). Multilevel Statistical Models. 3a ed.
London: Edward Arnold.
RAUDENBUSH, S. W. e BRYK, A. S. (2002). Hierarchical Linear Models. 2a ed. Newbury Park: Sage.
11
Introdução: Estatística em Avaliação Educacional Análise de Fatores Associados
Modelo de regressão: Y = f(X1, ..., Xp, W1, ..., Wq) + Erro
X: características do estudante (gênero,idade, anos de escolaridade dos pais, tempo dedicado aos estudos fora da escola,...)
W: características da escola (tipo de escola, localização, práticas pedagógicas, atitudes do diretor,...)
Erro: independente, distribuição normal
12
Introdução: Estatística em Avaliação Educacional Análise de Fatores Associados
Modelagem hierárquica/multinível
Model nulo:
Nível 1: estudante (i)proficij = 0j + eij
eij: i.i.d. N(0,σ2)
Nível 2: escola (j)0j = 00 + u0j
u0j: i.i.d. N(0,τ00), independente de eij
Variância total : σ2 + τ00 , Cov(proficij, profici’j) = τ00
13
Introdução: Estatística em Avaliação Educacional Análise de Fatores Associados
Alguns resultados do SAEB 2001
Decomposição da variância Disciplina Série
Escola Estudante
4ª 37,13% 62,87%
8ª 37,71% 62,29% Matemática
11ª 43,36% 56,64%
4ª 31,28% 68,72%
8ª 30,50% 69,50% Português
11ª 34,72% 65,28%
14
Introdução: Estatística em Avaliação Educacional Análise de Fatores Associados
Alguns resultados do SAEB 2001 : Matemática Grade
Fator 4th 8th 11th
Intercepto (β0) 172,63 (1,75) 240,31 (1,48) 277,05 (2,07)
Gênero 3,86 (0,32) 14,27 (0,37) 18,93 (0,46)
Raça 1,04 (0,34) 3,16 (0,38) 2,52 (0,48)
Defasagem idade -4,15 (0,18) -6,72 (0,21) -8,25 (0,23)
Nível sócio-econômico 3,63 (0,21) 3,97 (0,25) 1,02 (0,30)
Tipo de escola 25,13 (1,10) 24,57 (1,23) 19,57 (1,46)
Nível sócio-econômico 13,62 (0,62) 14,27 (0,71) 20,77 (1,00)
Defasagem média -3,70 (0,49) -10,68 (0,49) -13,80 (0,70)
Procedimento seleção 3,27 (1,50) 12,89 (1,61) 17,28 (1,70)
15
Teoria Clássica Baseada no escore total: número de acertos Seus parâmetros dependem do grupo de respondentes Parâmetro de dificuldade: proporção de acertos Correlação bisserial Parâmetro de discriminação:
proporção de acertos grupo superior – grupo inferior Como comparar/representar proporção acertos aluno 4a.
série com a proporção de acertos aluno 5a. Série ? Modelo:
X = T + Erro
16
Teoria da Resposta ao Item (TRI)1. O foco é no item e não no escore total, como na Teoria
Clássica. 2. São modelos que relacionam um ou mais traços latentes de
um indivíduo, com a probabilidade dele apresentar uma certa resposta ao item.
3. Traço Latente: proficiência/habilidade em Matemática, Português, Ciências etc.
4. Baseado nas respostas dadas por um ou mais grupos de indivíduos, a um conjunto de itens, desejamos: - estimar os parametros dos itens (processo de calibração)
- estimar as proficiências dos indivíduos - estimar a proficiência média de um ou mais grupos de indivíduos
17
Teoria da Resposta ao Item (TRI)5. A probabilidade de uma certa resposta a um item é
modelada como função da proficiência do indivíduo e os parâmetros que representam algumas propriedades dos item.
6. Modelo acumulativo: quanto maior a proficiência do indivíduo, maior a probabilidade de uma resposta correta.
7. Propriedade da invariância: os parâmetros dos itens e as proficiências são invariantes, exceto pela escolha da escala (métrica).
18
Modelos da TRI
Os modelos dependem do tipo do item
Itens do tipo certo/errado (dicotômico) ou corrigido como certo/errado (múltipla escolha, aberto)
Modelo Logístico : unidimensional, um grupo, com 1 (Rasch), 2 ou 3 parâmetros.
)(11)1()|1(
iji baiijijij eccUPP
19
Modelo Logístico de 3 Parâmetros
Curva Característica do Item - CCI
0,0
0,2
0,4
0,6
0,8
1,0
-4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 4,0Proficiência
b
a
c
iiiiiiii
a: parâmetro de discriminação b: parâmetro de dificuldade (medido na mesma escala da proficiência) c: parâmetro de acerto casual (probabilidade de que um estudante
com baixa proficiência responda corretamente)
20
Modelo Logístico de 3 Parâmetros
(a=2,5; b=1,2; c=0,2)
0
0,2
0,4
0,6
0,8
1
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6
proficiência
prob
abili
dade
P1 P0
21
Modelos da TRI
Modelo Nominal : modela todas as categorias de resposta s=1,2, ...,mi.
onde ais e bis são como no modelo logístico.
im
hihjih
isjisjijs
ba
baUP
1
)](exp[
)](exp[)|1(
22
Modelo Nominal
a=(-2,-1,1,0) e b=(-2,-1,2,1)
0,0
0,2
0,4
0,6
0,8
1,0
-4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 4,0
proficiência
prob
abili
dade
P1 P2 P3 P4
23
Modelos da TRIModelo de Resposta Gradual (categorias ordinais)
)](exp[11
)](exp[11
)|1(
)1(
siji
isjijijs
ba
baUP
iimii bbb ...21
24
Modelo de Resposta Gradual
a=1,2 e b=(-2,-1,1)
0,0
0,2
0,4
0,6
0,8
1,0
-4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 4,0
proficiência
prob
abili
dade
P0 P1 P2 P3
25
Outros Modelos da TRI Modelo de Crédito Parcial : Modelo de resposta gradual
sem o parâmetro a (Rasch). Modelo de Escala Gradual: Modelo de resposta gradual
com bis = bi – ds Modelo dos Grupos Múltiplos (dois ou mais grupos).
Bock, R.D., Zimowski, M.F. (1997). Multiple group IRT. In Handbook of Modern Item Response Theory. W.J. van der Linden and R.K. Hambleton Eds. New York: Springer-Verlag
)b(aiikjij ikjie11)c1(c)|1U(P
26
Aplicações em Avaliação Educacional PISA – Programme for International Student Assessment
(Programa Internacional de Avaliação de Alunos)- anos: 2000(Leitura), 2003(Matemática), 2006(Ciências)
- alunos com 15 anos (independente da série)- itens de múltipla escolha e itens abertos (corrigidos 0,1,2)- modelo de 1 parâmetro (somente parâmetro b: dificuldade)- esquema BIB- 32 países em 2000 – OCDE + convidados- http://www.inep.gov.br/internacional/pisa/
27
Aplicações em Avaliação Educacional Públicas: Estaduais/Municipais
SARESP (São Paulo)SPAECE (Ceará)SAEPE (Pernambuco)Município do Rio de JaneiroMunicípio de São Paulo
PrivadasSIMA: Sistema Marista de AvaliaçãoFundação Bradesco
28
Outras Aplicações da TRI em Educação Educação Estatística θ: extensão do uso de estatística no local de
trabalho. Questionário com 46 técnicas estatísticas e
métodos de pesquisa (itens).Harraway, J.A. and Barker, R.J. (2005). Statistics in the
workplace: a survey of use by recent graduates with higher degrees. Statistics Education Research Journal, 4(2), 43-58, http://www.stat.auckland.ac.nz/serj
Harraway, J.A., Andrade, D.F.(2006). An item response analysis of statistics use in the workplace. (apresentado no ICOTS7, Salvador)
29
Outras Aplicações da TRI em Educação Educação Médica
Avaliar o desempenho do aluno de curso de medicina
Prova realizada uma vez por ano por todos os alunos (1a.-6a.)
Comissão de avaliação do curso de medicina da UEL, PR: Sakai, M., Mashima, D., Ferreira Filho, O.F., Matsuo, T.
30
Aplicações da TRI em outras áreas Qualidade de VidaMesbah, M., Cole, B.F. and Lee, M.L.T.(2002). Ed.
Statistical methods for quality of life studies: design, measurements and analysis. Boston: Kluwer Academic Publishers
31
Aplicações da TRI em outras áreas HIT (Headache Impact Test): medir o impacto
causado por dor de cabeça em diferentes situações (no trabalho, em casa e em ocasiões sociais).
Ware, J.E., Bjorner, J. B., Kosinski, M. (2000). Practical Implications of Item Response Theory and Computerized Adaptive Testing. A Brief Summary of Ongoing Studies of Widely Used Headache Impact Scales. Medical Care, v.38.
www.amihealthy.com
32
Aplicações da TRI em outras áreas Medir o Grau de Satisfação do ConsumidorCosta, M.B.F. (2001). Técnica derivada da teoria da
resposta ao item aplicada ao setor de serviços. Dissertação de Mestrado – PPGMUE/UFPR
Bortolotti, S.L.V. (2003). Aplicação de um modelo de desdobramento da teoria da resposta ao item – TRI. Dissertação de Mestrado. EPS/UFSC.
Bayley, S. (2001). Measuring customer satisfaction. Evaluation Journal of Australasia, v. 1, no. 1, 8-16.
33
Aplicações da TRI em outras áreas Psiquiatria/PsicologiaEscalas psiquiátricas:
Inventário de depressão de Beck (BDI)Escala de sintomas Depressivos (CES-D)Escala de rastreamento de dependência de sexo (ERDS)
Schaeffer, N. C. (1988). An Application of Item Response to the Measurement of Depression. Sociological Methodology, 18, 271–307.
Embretson, S. E. and Reise, S. P. (2000). Item response theory for psychologists. New Jersey: Lawrence Erlbaum Associates, Inc., Publishers..
34
Aplicações da TRI em outras áreas Psiquiatria/PsicologiaColeman, M. J., Matthysse, S., Levy, D. L., Cook, S., Lo, J. B.
Y.,Rubin, D. B. and Holzman, P. S. (2002). Spatial and object working memory impairments in schizophrenia patients: a bayesian item-response theory analysis. Journal of Abnormal Psychology, 111, number 3, 425-435.
Hays, R., Morales, L. S. e Reise, S. P. (2000). Item response theory and health outcomes measurement in the 21st century, Medical Care, v.38.
Kirisci, L., Hsu, T. C. e Tarter, R. (1994). Fitting a two-parameter logistic item response model to clarify the psychometric properties of the drug use screening inventory for adolescent alcohol and drug abusers, Alcohol Clin. Exp. Res 18: 1335–1341.
35
Aplicações da TRI em outras áreas Psiquiatria/Psicologia
Langenbucher, J. W., Labouvie, E., Sanjuan, P. M., Bavly, L., Martin, C. S. e Kirisci, L. (2004). An application of item response theory analysis to alcohol, cannabis and cocaine criteria in DSM-IV, Journal of Abnormal Psychology 113: 72–80.
Yesavage JA, Brink TL Rose TL et al. (1983). Development and validation of a geriatric depression screening scale: a preliminary report. J Psychiat Res, 17:37-49.
36
Aplicações da TRI em outras áreas NutriçãoDiagnóstico de insegurança alimentar: Escala Brasileira
de Medida de Segurança Alimentar - EBIA.Profa. Ana Maria Segall Corrêa – Dep. Medicina
Preventiva e Social – FCM/UNICAMP
Parke E. Wilde, Gerald J. and Dorothy R. Friedman (2004). Differential Response Patterns Affect Food-Security Prevalence Estimates for Households with and without Children. J. Nutr.134: 1910–1915.
37
Aplicações da TRI em outras áreas Serviço MédicoJishnu Das, Jeffrey Hammer (2005). Which doctor?
Combining vignettes and item response to measure clinical competence. Journal of Development Economics 78, 348-383
GenéticaTavares, H. R.; Andrade, D. F.; Pereira, C.A. (2004)
Detection of determinant genes and diagnostic via item response theory. Genetics and Molecular Biology, v. 27, n. 4, p. 679-685.
38
Aplicações da TRI em outras áreas Gestão pela Qualidade TotalAlexandre, J.W.C., Andrade, D.F., Vasconcelos, A.P. e
Araújo, A.M.S.(2002). Uma proposta de análise de um construto para a medição dos fatores críticos da gestão pela qualidade através da teoria da resposta ao item. Gestão & Produção, v.9, n.2, p.129-141
39
Estimação na TRI
Independência entre as respostas dos estudantes. Independência entre as respostas dadas aos itens,
para uma dada proficiência (local ou condicional).
Baker, F.B., Kim, S-H.(2004). Item Response Theory: parameter estimation techniques. New Yook: Marcel Dekker, Inc. 2nd Edition.
40
Estimação na TRI Uma população
Máxima verossimilhança conjunta:
onde U=(uij) é a matriz das respostas (NxI) e ξ é o vector(qIx1)
dos parâmetros dos itens. Para o modelo logístico de 3 parâmetros, q=3.
N
j
I
iijijijij
N
j
I
i
uij
uij
PuPuL
PPUobL ijij
1 1
1 1
1
)1log()1(loglog
)1(),|(Pr),(
41
Estimação na TRI Máxima verossimilhança conjunta Precisamos encontrar os valores de θ and ξ que maximizam
logL.
Técnica Iterativa Newton-Raphson.
Precisamos das derivadas parciais de 1a. e 2a. de logL com respeito a θ e ξ.
Indeterminação: existem diferentes valores de θ e b que fornecem o mesmo valor de Pij.
Uma solução: θ’s com média 0 e desvio padrão 1, escala (0,1)
42
Estimação na TRI Máxima verossimilhança marginal A idéia básica é “libertar” o processo de estimação
dos parâmetros dos itens de sua dependência de θ.
Passo 1: estimação dos parâmetros dos itens.
Passo 2: assumindo que as estimativas dos parâmetros dos itens são seus verdadeiros valores, estimamos os θ’s.
43
Estimação na TRI Máxima verossimilhança marginal
g(θ|η) é a distribuição de θ, com parâmetros η=(μ,σ2)’. Em geral, consideramos a normal padrão (μ =0 e σ=1).
n
jj
jj
I
i
uij
uijj
UobUobL
dgUobUob
PPUob ijij
1
1
1
),|(Pr),|(Pr),(
),(),|(Pr),|(Pr
)1(),|(Pr
44
Estimação na TRI Máxima verossimilhança marginal
As estimativas dos parâmetros dos itens são os valores de ξ que maximizam L(ξ,η).
Algoritmo EM: U e θ são os dados completos, e U é dado observado.
Assumindo ξ “conhecido”, voltamos para L(ξ,θ) = L(θ) e maximizamos para θ.
45
Estimação na TRI Estimação Bayesiana
Distribution a priori para a: Lognormal Distribution a priori para b: Normal Distribution a priori para c: Beta
Fornece estimativas para todos os itens com u=1 or u=0 para todos os respondentes. A estimação por máxima verossimilhança não fornece.
O mesmo para todos os respondentes que reponderam u=1 or u=0 para todos os itens.
46
Estimação na TRI Duas ou mais populações
Caso 1: Estimação para cada população em separado. requer uma “equalização a posteriori” para termos todos os
resultados na mesma escala (métrica).
Caso 2: Estimação envolvendo todas as populações ao mesmo tempo.
Enfoque de Grupos Múltiplos: Estabelecemos uma das populações (grupos) como a referência, e obtemos todos os resultados na mesma escala. Por exemplo, estabelecemos a escala (0,1) para a população 1, e todos os resultados das outras populações estarão na mesma escala.
47
Resultados do SAEB
Matemática - Brasil
150
200
250
300
1995 1997 1999 2001 2003
ano
prof
iciê
ncia
méd
ia
4a. 8a. 3a.
48
Modelos mais recentes da TRI
Modelos Longitudinais : estudantes são acompanhados ao longo do tempo.
Andrade, D.F. Tavares, H.R. ( 2005). Item response theory for longitudinal data: population parameter estimation. Journal of Multivariate Analysis 95,1– 22.
Tavares, H.R., Andrade, D.F.(2006). Item response theory for longitudinal data; item and population ability parameters estimation. Test 15(1), 97-123.
49
Exemplo Dados Longitudinais International Project on Mathematical Attainment -
IPMA (Profa. Ednéia Consolin Poli – UEL) 1999 2000 2001 2002 2003
G1-1ª.
G1-2ª.
G2-1ª.
G1-3ª.
G2-2ª.
G1-4ª.
G2-3ª.
G2-4ª.
Professores 22 22 22 20 18 24 16 17
Alunos 568 557 512 395 309 307 282 270
Escolas 8 8 6 8 6 8 6 6
No. de itens 20 40 20 60 40 80 60 80
Fatores Assoc. - - - - - sim - sim
50
Modelos mais recentes da TRI
Modelando a Proficiência Média: curva de crescimento
μk = f(tk,α)
Tavares, H.R., Andrade, D.F.(2005). Growth curve models for longitudinal item response data. Presented at AERA2005 in Montreal.
51
Modelos mais recentes da TRI Modelos de Desdobramento São modelos não acumulativos São bastante utilizados em estudos de atitudesRoberts, J. S., Laughlin, J. E. A.(1996) Unidimensional item response
model for unfolding responses from a graded disagree-agree response scale. Applied Psychological Measurement, 20, p. 231-255.
Roberts, J. S., Donoghue, J.R., Laughlin, J. E.(2000) A general model for unfolding Unidimensional polychromous responses using item response theory. Applied Psychological Measurement, 24, p. 3-32.
Roberts, J. S., LIN, Y., Laughlin, J. E.(2001) Computerized adaptive testing with the generalized graded unfolding model. Applied Psychological Measurement, 25, p. 177-196.
52
Modelos mais recentes da TRI
Modelos Multidimensionais: mais de uma dimensão para representar o traço latente
Mislevy, R.J. (1986). Recent development in the factor analysis of categorical data. Journal of Educational Statistics, 11, 3-31.
Wood, R., Wilson, D., Gibbons, R., Schilling, S., Muraki, E., Bock, D. (2003). Testfact 4: Test Scoring, Item Statistics and Item Factor Analysis. Chicago: scientific Software, Inc.
53
Modelos mais recentes da TRI
Modelos Multidimensionais: mais de uma dimensão para representar o traço latente
Reckase, M. D. (1997). A linear logistic multidimensional model for dichotomous item response data. In W. J. Linden & R. K. Hambleton (Eds.), Handbook of modern item response theory (pp. 271-286). New York: Springer.
Nojosa, R. T. (2001). Modelos Multidimensionais para a Teoria da Resposta ao Item. Dissertação de Mestrado. Departamento de Estatística. Universidade Federal de Pernambuco.
54
Modelos mais recentes da TRI
Modelos Multivariados: mais de um traço latente para o mesmo aluno: matemática e português.
Matos, G. S. (2001). Teoria da Resposta ao Item: Uma Proposta de Modelo Multivariado. Dissertação de Mestrado. Departamento de Estatística. Universidade Federal de Pernambuco.
Exemplo: Projeto FUNDESCOLA / INEP-MEC Alunos de 4a. série (1999) acompanhados até a 8a. série (2003) - LongitudinalDisciplinas: matemática e Português - BivariadoDados Incompletos: alunos podem sair e entrar
55
Equalização
Resultados de diferentes provas em uma mesma escala
Exemplo: SAEB (entre séries e anos) Como obter resultados comparáveis? Itens comuns entre séries e anos
Kolen, M.J., Brennan, R.L. (2004). Test Equating: Methods and Practices (2nd ed.). New York: Springer.
56
Equalização Calibração (estimação dos parâmetros dos itens) em
separado para cada uma das populações envolvidas Equalização pelo princípio da invariância: a posteriori Exemplo: dados do SARESP (estado de São Paulo) 3a. série 96 – 28 itens (abril) 4a. série 97 – 30 itens (abril) 3a. série 97 – 32 itens (novembro)
11 itens comuns entre 3a. 96 e 3a. 97 21 itens comuns entre 4a. 96 e 3a. 97
57
Equalização
Exemplo: dados do SARESP Estimativas dos parâmetros dos itens comuns aos grupos 3ª série 96 e 97.
Parâmetro a Parâmero b Parâmetro c Item 3ª. 96 3ª 97 3ª. 96 3ª 97 3ª. 96 3ª 97
C3S01 1,30 1,07 -2,25 -3,40 0,07 0,15 C3S02 1,71 1,55 -2,01 -3,04 0,08 0,17 C3S03 1,36 1,61 -2,35 -3,24 0,07 0,17 C3S04 1,04 0,65 0,32 -0,09 0,10 0,08 C3S05 1,05 0,57 0,95 -0,06 0,14 0,08 C3S06 1,38 0,82 0,91 0,16 0,14 0,08 C3S07 0,87 1,06 -0,81 -1,49 0,07 0,09 C3S08 1,01 1,48 -0,14 -1,09 0,09 0,09 C3S09 1,41 1,07 -1,23 -2,12 0,05 0,11 C3S10 2,37 1,37 -0,30 -0,88 0,05 0,09 C3S11 2,29 1,20 0,08 -0,18 0,05 0,08
58
Equalização
Exemplo: dados do SARESP
Gráfico dos itens comuns
y = 1,1084x - 0,7159R2 = 0,968
-4
-3
-2
-1
0
1
-3 -2 -1 0 1
b96
b97
59
Equalização Calibração simultânea: Modelo dos Grupos
Múltiplos
Questões: - Número e distribuição de itens comuns- Como ¨posicionar¨ novos grupos em uma escala já construída- Avaliações Estaduais e outras: itens calibrados + itens novos
Andrade, D.F. (2001). Desempenhos de grupos de alunos por intermédio da teoria da resposta ao item. Estudos em Avaliação Educacional, no. 23, 31-70.
)b(aiikjij ikjie11)c1(c)|1U(P
60
Construindo e Interpretando Escala
Beaton, A.E., Allen, N.L. (1992). Interpreting scales through scale anchoring. Journal of Educational Statistics, 17, 191-204.
Valle, R.C. (2001). Construção e interpretação de escalas de conhecimento: um estudo de caso. Estudos em Avaliação Educacional, no. 23, 71-92.
61
Construindo e Interpretando Escala
Educação Estatística θ: extensão do uso de estatística no local de trabalho. Questionário com 46 técnicas estatísticas e métodos de
pesquisa (itens).Harraway, J.A. and Barker, R.J. (2005). Statistics in the workplace: a
survey of use by recent graduates with higher degrees. Statistics Education Research Journal, 4(2), 43-58, http://www.stat.auckland.ac.nz/serj
Harraway, J.A., Andrade, D.F.(2006). An item response analysis of statistics use in the workplace. (apresentado no ICOTS7, Salvador)
62
Construindo e Interpretando Escala Educação Estatística
100 100 77 49 21 3 0 0
Topic a b 5 20 35 50 65 80 95 110GRAPH 0,08 39,21 0,06 0,17 0,41 0,71 0,89 0,97 0,99 1,00TESTS 0,12 49,72 0,01 0,03 0,15 0,51 0,85 0,97 0,99 1,00SLREG 0,12 50,26 0,01 0,03 0,14 0,49 0,85 0,97 0,99 1,00ANOVA 0,14 54,92 0,00 0,01 0,06 0,34 0,80 0,97 1,00 1,00POSTHOC 0,11 61,53 0,00 0,01 0,05 0,22 0,60 0,89 0,98 1,00MULTREG 0,11 61,78 0,00 0,01 0,05 0,21 0,59 0,89 0,98 1,00FACTDES 0,09 69,31 0,00 0,01 0,05 0,16 0,41 0,71 0,90 0,97PCA 0,13 69,48 0,00 0,00 0,01 0,07 0,36 0,80 0,97 0,99MANOVA 0,10 69,81 0,00 0,01 0,03 0,13 0,39 0,73 0,92 0,98NONLREG 0,09 70,00 0,00 0,01 0,04 0,13 0,38 0,72 0,91 0,98REPMEAS 0,09 70,22 0,00 0,01 0,04 0,14 0,38 0,71 0,91 0,97LOGREG 0,08 71,84 0,00 0,01 0,04 0,14 0,36 0,66 0,87 0,96POWER 0,08 73,84 0,00 0,01 0,04 0,13 0,33 0,62 0,84 0,95NONPREG 0,10 74,21 0,00 0,01 0,02 0,09 0,29 0,63 0,88 0,97RANDEFTS 0,11 74,39 0,00 0,00 0,01 0,06 0,26 0,65 0,91 0,98CLUSTER 0,08 74,48 0,00 0,01 0,04 0,13 0,32 0,61 0,83 0,94BLOCKING 0,08 75,30 0,00 0,01 0,04 0,12 0,31 0,59 0,82 0,94DISCRIM 0,11 76,79 0,00 0,00 0,01 0,05 0,22 0,59 0,88 0,97EXPLORFA 0,07 79,84 0,00 0,01 0,04 0,10 0,25 0,50 0,75 0,90CANCORR 0,11 80,96 0,00 0,00 0,01 0,03 0,15 0,47 0,82 0,96MDS 0,09 81,02 0,00 0,00 0,02 0,06 0,20 0,48 0,77 0,93CORRESP 0,11 81,85 0,00 0,00 0,01 0,03 0,14 0,45 0,81 0,95PATHANAL 0,07 81,89 0,00 0,01 0,03 0,09 0,23 0,47 0,72 0,88CROSSOV 0,06 84,96 0,01 0,02 0,05 0,11 0,23 0,43 0,65 0,82SURVANAL 0,06 87,65 0,00 0,01 0,03 0,08 0,19 0,38 0,62 0,81META 0,06 88,91 0,01 0,02 0,04 0,09 0,20 0,37 0,59 0,77BAYESIAN 0,06 90,43 0,00 0,01 0,03 0,07 0,17 0,34 0,57 0,78STOCHAST 0,05 94,56 0,01 0,02 0,04 0,09 0,17 0,32 0,51 0,69LGLINMOD 0,08 77,30 0,00 0,01 0,03 0,10 0,27 0,55 0,81 0,93COMPINT 0,06 79,27 0,01 0,03 0,07 0,15 0,30 0,51 0,72 0,86THEORY 0,05 74,15 0,04 0,08 0,14 0,25 0,40 0,57 0,72 0,84MRKRECAP 0,06 87,09 0,01 0,02 0,05 0,11 0,22 0,40 0,61 0,79
Parametros dos itens Níveis da escala (50,15)atingiram o nível
% de respondentes que
63
Escala Nacional de Proficiência – INEP/MEC“Régua (métrica) criada a partir dos resultados do SAEB- Média 250 (rendimento médio dos alunos da 8a. Série em 1997)- Desvio padrão 50- http://www.inep.gov.br/download/saeb/2004/ resultados/BRASIL.pdf
Construindo e Interpretando Escala