Upload
lythuy
View
222
Download
2
Embed Size (px)
Citation preview
Interdisciplinaria
ISSN: 0325-8203
Centro Interamericano de Investigaciones
Psicológicas y Ciencias Afines
Argentina
Aguerri, M. Ester; Zanelli, Marta L.; Galibert, María Silvia; Attorresi, Horacio F.
Evaluación de un método empírico para detectar el funcionamiento diferencial del ítem
Interdisciplinaria, vol. 19, núm. 2, 2002, pp. 185-203
Centro Interamericano de Investigaciones Psicológicas y Ciencias Afines
Buenos Aires, Argentina
Disponible en: http://www.redalyc.org/articulo.oa?id=18019204
Cómo citar el artículo
Número completo
Más información del artículo
Página de la revista en redalyc.org
Sistema de Información Científica
Red de Revistas Científicas de América Latina, el Caribe, España y Portugal
Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto
EVALUACION DE UN METODO EMPIRICO PARA DETECTAR ELFUNCIONAMIENTO DIFERENCIAL DEL ITEM *
M. Ester Aguerri **, Marta lo zanelli ***, M. Silvia Galibert ****y Horacio F. Attorresi *****
Resumen
Se presenta un método empírico basado en la magnituddel estadístico MH-D-D1F y se investiga en qué situacioneses más propenso a detectar funcionamiento d!ferencial delítem (DIF) cuando no lo hay. En la práctica psicométrica seclasifica el grado de DIF de un ítem según el valor y la significancia del estadístico MH-D-D1F. Dicho procedimientose encuentra entre los denominados Métodos de Tablas de
COll1illgencia (Te), en ellos se analiza si los sujetos de diferentes grupos y de un mismo puntaje total, tienen la mismaposibilidad de responder correctamente el ítem. Las respuestas de los sujetos en este estudio fueron simuladas sin D1Fusando el Modelo Logístico de Tres Parámetros. Los grupos
•
••
•••
••••
•••••
Esta investigación fue realizada en el marco de los siguientes proyectos: de la Universidad de Buenos Aires (UBACYT P054/(0), del Consejo Nacional de InvestigacionesCientíficas y Técnicas (PIP 4423/96 y PIP 2426/(0) y de la Agencia Nacional de Promoción Cientifica y Tecnológica (PICT 4704/98).Magister Scientiae en Biometría y Licenciada en Ciencias Matemáticas Profesora Regular Adjunta de Estadística e Investigadora en el Instituto de Investigaciones de la Fa·cultad de Psicología de la Universidad de Buenos Aires. Agrelo 3555 (CI224ABI) Buenos Aires. Argentina. E-Mail: [email protected] Biometry y Estadística. Investigadora en el Instituto de Investigaciones de la Facultad de Psicología de la Universidad de Buenos Aires.E-Mail: [email protected] Scientiae en Biometría y Profesora de Enseñanza Especial en Ciencias Matemáticos. Profesora Regular Adjunta e Investigadora en el In~1ituto de Investigacionesde la Facultad de Psicología de la Universidad de Buenos Aires.E-Mail: [email protected] en Ciencias Matemáticas. Profesor Regular Titular de Estadística y Directorde Proyectos de Investigación en el Instituto de Investigaciones de la Facultad de Psicología, de la Universidad de Buenos Aires. E-Mail: hattorre({.í;psi.uba.ar
INTERDISClPUNARIA, 2002, 19,2, 185-213 185
186
Aguarrl, Z8nelll, G8libarl y Attorras;
de igualo distinto tamafto. se eligieron de poblaciones conla misma habilidad media o en dos situaciones de discrepancia. Los parámetros de los ítem se seleccionaron combinando distintos niveles de discriminación y de dificultad. El parámetro de aciertos por azar se fijó en .25. El tamafto muestral de los grupos incidió levemente en los resultados de estainvestigación. El método empírico mostró una marcada tendencia a no detectar erróneamente DIF si los grupos no difieren en cuanto a la habilidad; si difieren se observa que la proporción de DIF erróneamente detectado es baja (menor queel 5 %) si los ítem no son fáciles. En las condiciones mencionadas el método empírico resulta una herramienta recomendable para detectar DIF ya que sólo requiere de la aplicación de programas de computación estadísticos generalesy cálculos sencillos.
Palabras clave: Funcionamiento diferencial del ítem - MH-DDIF - simulación - modelo logistico de tres parámetros - parámetro de discriminación del ítem - parámetro de dificultad delítem.
Abstract
An empirical method to detect the D(fferential ftemFunctioning (DIF) is presented. It is based on the magnitudeof the MH-D-DIF statistics. and research has been focalizedon situations where in the method is most prone to detectD1F when DfF simply does not existo The method hereproposed is based on a simplification of the DIF-basedclassification of items as set up by the Educational TestingServíce (ETS). They use three categories so that the DIFgrade of items in a given test is evidenced as per the valueand the significance of the MH-D-DlF statistic. Pursuant tothe method suggested herewith. an item evidences DIFwhenever the magnitude of the MH-D-DlF statistíc. inabsolute value. is greater than or equal to 1.5. Such acriterion reduces the requirements set up by ETS to disregardan item on account of its DIF. Since no signification test has
INTERDISCIPLINARIA,2002, 19,2, 185-203
OIF: Evaluacción de un método empl,lco
been performed to find out whether IMH-D-DIFI issignificantly greater than J, it has been decided that thismethod should be caBed empirical me/hod. The empiricalmethod may be considered as one of the Contingency Table(CT) methods, and as such, it only requires the use of thosestatistical packages including contingency table analysis tobe applied; in other words, no specific psychometricsoftware is required. In studies on DIF the responses ofsubjects belonging to different groups to a set of items arecompared. Qne group is identified as the Re/erence Group(RG), and the other group is called the Focal Group (FG).Responses have been simulated for 900-subject and 350subject samples having to answer to a 20-item test. Thismethodology design has been devised so that researchtindings could be applied to the item DIF detection on aVerbal Reasoning Test study with real data. Subjects'responses have been simulated without any DIF according tothe 3-parameter logistic model. Four levels have beenconsidered with regard to the discrimination parameter: Low,Medium-Low, Medium-High, and High. Five levels havebeen considered with regard to the difficulty parameter: VeryEasy, Easy, Medium, Difficult, and Very Difficult. The guessingparameter has been set up at .25. In aIl cases, RG was 900-sized,pertaining to a population whose ability was distributed as astandard normal. FGs combine two possible sample Si7..eS,namely 900-subject and 350-subject, as well as three possibleability means, namely: a) on equal terms with regard to RG, andb) in a discrepancy situation, either b.l) greater than the RGability mean or b.2) less that the one in RG. Therefore,2 x3 x 4 x 5 level combinations have been obtained for thefollowing factors: Sample size, Ability distribution, ltemdiscrimination, and Item difficulty, and each of them had 50repetitions. For each one of the 120 combinations of levels ofaIl factors, one observation, that is the ratio of the erroneouslydetected DIF has been recorded. The erroneously detected DIF
ratio can be understood as an empirical signification level forthis suggested empirical method inasmuch as such a levelevidences the ratio of DIF detection when DIF is nowhere tobe seen. The group sample sizes have a slight influence on the
/NTERD/SC/PL/NARIA,2oo2. 19,2, 185-203 187
Aguarri, Zanal/i, Galibart y Attorrasi
results ofthis study. The empirical method presents a markedtendency of not detecting DIF erroneously when the groupsdo not differ respect to ability; but, when they actually differand the items are not easy, the proportion of DIF erroneouslydetected is low (Iess than 5 %). Under the above mentionedconditions, the empirical method becomes a very meritorioustool to detect DIF since it only requires the use of generalstatistical softwares and simple calculations.
Key words: Differential Ítem functioning - MH-D-DIF simulation - 3-parameter logistic model - item discriminationparameter - item difficulty parameter.
Introducción
En el estudio del funcionamiento diferencial del ítem (DifferentialItem Functioning, DIF) se comparan las respuestas de sujetos de distintosgrupos, a un ítem. Entre los procedimientos estadísticos utilizados para elanálisis del DIF se encuentran los basados en la aplicación de los modelos de la Teoría de Respuesta al Item (TRI) y en los denominados Métodos de Tablas de Contingencia (TC), éstos deben su nombre a la forma depresentar los datos (Camilli & Shepard,1994). En el marco de la TRI sedetecta DIF cuando sujetos de un mismo nivel de habilidad tienen distinta probabilidad de contestar correctamente el ítem, según el grupo de pertenencia.
Para su estudio es imprescindible la utilización de algún programa de com~utación psicométrico como BILOG (Mislevy & Bock, 1984), BILOG-MG M(Zimowski, Muraki, Mislevy & Bock, 1996) o XCALIBRE (AssesmentSystems Corporation, 1996) entre otros, y demandan un trabajo computacional intensivo.
Con los métodos TC se estudia si los sujetos de diferentes grupos yde un mismo puntaje total, tienen la misma posibilidad de responder correctamente el ítem. Para su aplicación se utilizan programas de computación estadísticos como SPSS (1990), SAS (Statistical Analysis System,1989), BMDP (BMDP, 1990) Ydemandan menor tiempo de cálculo compu-
188 INTERDISCIPLINARIA, 2002, 19,2, 185·203
DIF: Evaluacción de un método emplrico
tacional. Las tablas de contingencia resultan de considerar el grupo al quepertenece el sujeto y si su repuesta al ítem fue correcta o no.
En la literatura sobre el DIF un grupo suele denominarse Grupo deReferencia (GR) y el otro grupo Focal (GF). En la Tabla 1 se presenta latabla de 2 x 2 que resulta para un determinado nivelj del puntaje total. Ajindica la cantidad de sujetos del GR, con puntaje total j, que respondió
correctamente un determinado item ¡y B¡ indica la cantidad de sujetos delmismo grupo y puntaje total, que no fespondió correctamente el ítem.
Para el GF tales cantidades están representadas por Cj y Di respectivamente. El total de sujetos de puntaje total j se indica con r,¡.
Cuando en el análisis estadístico se detecta DIF interesa estudiar siéste es real o falso. Una distribución distinta de la habilidad en las poblaciones, los tamaños de muestra utilizados y las características propias delítem podrian conducir a detectar DIF cuando no lo hay.
En los estudios de simulación sobre la detección errónea del DIF sesabe que los ítem no tienen un funcionamiento diferencial; si a partir deun procedimiento se concluye que un ítem tiene DIF, éste seria un caso dedetección errónea. Rogers y Swaminathan (1993), Zwick, Donoghue yGrima (1993), Uttaro y Millsap (1994) y Roussos y Stout (1996) aplicaron distintos métodos Te para detectar DIF cuando los dos grupos tienenigual tamaño y pertenecen a una misma población cuya habilidad se distribuye como una normal estándar, o en situación de desventaja para elgrupo focal. Donoghue, Holland y Thayer (1993) estudiaron los factoresque afectan las medidas del DIF para el caso en que el grupo focal es minoritario y está en desventaja en cuanto a la habilidad.
En el presente trabajo se utiliza un método TC, cuyo antecedente seencuentra en Aguerri (2000) y se investiga en qué situaciones es más propenso a detectar DIF cuando no lo hay, dependiendo de las característicaspropias de los ítem y de que los grupos por comparar difieran, o no, encuanto a sus tamaftos o en cuanto a la habilidad media, considerandosituaciones de marcada discrepancia.
Metodologia
Diseno y simulación de los datos
Se simularon las respuestas según el modelo logístico de tres parámeteos. En este modelo la probabilidad de responder correctamente el item i
INTERDISCIPLINARIA, 2002, 19,2, 185-203 189
Agua,,;, Zanat/i, G8libart y Atto"es;
para un nivel de habilidad O, se expresa en función de dicho nivel de habilidad y de los parámetros del ítem mediante la siguiente relación funcional:
l-c.P.(B) = c. + I
I I 1 -1 7a (B-b)+e ' I ,
donde c¡ es el parámetro de aciertos por azar, oí es el parámetro de dis
criminación y bi es el parámetro de dificultad del ítem ¡(Lord,1980).Los datos tueron simulados con un programa especialmente confeccionado en SAS (Statistical Analysis System, 1989). Este programa requiere la especificación de los parámetros de los ítem para los que se simulan las respuestas de los sujetos. En principio a cada sujeto se le asigna aleatoriamente un nivel de habilidad según la población ala que pertenece. Posteriormente se calcula la probabilidad de que conteste correctamente elítem y se genere para cada sujeto y para cada ítem un número al azar entre O
y 1.a.- Si el número generado es menor o igual que la probabilidad cal
culada, se considera que el sujeto acierta el ítem y se le asigna 1;b.- si es mayor lo falla y se le asigna O.
Así se obtiene una matriz de 1y O, con tantas columnas como ítem ytantas filas como sujetos se consideren.
En cuanto a la habilidad, se consideró que las muestras podían pertenecer a poblaciones con los mismos parámetros o en situación de discrepancia con respecto a la media. En particular, se quiso estudiar cuál es laincidencia en la detección errónea del DIF de niveles de habilidad destacadamente altos o bajos. Los tamaños de las muestras consideradas en el diseño se eligieron con el objetivo de aplicar los resultados de este trabajo ala detección del DIF de ítem de una prueba de razonamiento verbal de 20ítem con datos reales (Galibert, 2000). En todos los casos el GR es de tamaño 900 y pertenece a una población cuya habilidad se distribuye comouna normal estándar. Los Grupos Foca/es combinan dos posibles tamañosde muestras: 900 y 350, y tres posibles medias para la habilidad: en igualdad de condiciones respecto del GR, y en situación de discrepancia, tanto
190 INTERDISCIPLlNARIA, 2002, 19,2,185-203
O/F: EV81u8cción de un método emplrico
que aventaje al GR como que esté en desventaja. En la Tabla 2 se presentan los seis tipos de GF diferenciados por el tamai\o de muestra y la mediade la distribución de la habilidad en la población a la cual pertenecen.
Se consideraron cuatro niveles para el parámetro de discriminación:Bajo, Medio-Bajo, Medio-Alto y Alto, y cinco niveles para el parámetrode dificultad: Muy Fácil, Fácil, Medio, Dificil y Muy Dificil. El parámetro de acierto por azar se fijó en .25 dado que los ítem de la prueba aplicada a los datos reales son del tipo de elección múltiple con cuatro alternativas. Los parámetros de los item se muestran en la Tabla 3.
Se simularon 50 repeticiones para cada una de las 2 x 3 x 4 x 5 combinaciones de los niveles de los factores: Tamaño de muestra, Distribución de la habilidad, Discriminación del ítem y Dificultad del ítem.
Método emprrico propuesto para el análisis del DIF
En este trabajo se muestran los resultados del estudio del OfF con unmétodo empírico que se basa en una clasificación del OIF. El EducationalTesting Service (ETS) clasifica el grado de DIF de los item de una nrueba,según el valor y la significancia del estadístico MH-O-DIF = -2.35 In (ti MH).Este estadistico se calcula en función de una medida del OfF utilizada en elmarco de los métodos Te, el estimador de la razón de las posibilidades de
Mantel-Haenszel, ti MH' que se define en función de las cantidades Ai Bic· Dj Y T· presentadas en la Tabla l. Esta medida fue desarrollada porMantel y Flaenszel (1959) y aplicada a la medición del DIF por Holland yThayer (1988). Para medir el OfF de un ítem de una prueba de k item suexpresión es:
donde s = k-I es la cantidad de tablas de 2 x 2 analizadas, dado que nose consideran los casos de puntaje total O y k.
INTERO/SCIPLlNARIA,2002, 19,2, 185·203 191
Aguarri, Zanalli, Galibarl y Attorras;
Dorans y Holland (1993) Y Zieky (] 993) describen las categorías enlas que puede ubicarse a un ítem según su DIF:
_ Categoría A: Incluye a los ítem en los cuales el estadfstico MH-DDIF no es significativamente distinto de cero, al 5 %, o su valor absolutoes menor que 1. Son aquellos ftem a los que se puede considerar sin DIF.
_ Categoría C: Se ubican los ítem cuyo valor absoluto del estadistico MH-D-DIF es significativamente mayor que 1, al 5 % y mayor o igualque 1.5. Estos son los ítem descartables por su DIF. El resto de los ítemse categoriza en la Categoría B y se los considera sospechosos de DIF.
Según el método propuesto en este trabajo un ítem exhibe DIF cuando la magnitud del estadístico MH-D-DIF, en valor absoluto, es mayor oigual que 1.5.
Este criterio reduce los requerimientos establecidos por el ETS paradesechar a un ftem por su DIF. Dado que no se realiza la prueba de significación para contrastar si el valor absoluto del estadistico MH-D-DIF es significativamente mayor que 1, se decidió denominarlo método empírico.
Pasos a seguir para aplicar el método empírico
a.- Obtener la estimación de la razón común de las posibilidades, a MH
mediante algún programa de computación estadístico. En este trabajo se uti2lizaron los resultados del PROC FREQ de SAS (Statistical Analysis System,1989).
b.- Calcular el valor del estadístico MH-D-DIF = -2.35 In (a MH),
donde In indica el logaritmo natural.C.- Si el valor absoluto de MH-D-DIF es mayor o igual que 1.5 se con
sidera que el ftem presenta DIF.
Evaluación del método empírico
Para evaluar el método se registró la proporción de DIF erróneamente detectado en cada una de las 2 x 3 x 4 x 5 combinaciones de losniveles de los factores. La proporción de DIF erróneo puede interpretarsecomo un nivel de significación empírico para el método propuesto, porque indica la proporción en la que se detecta DIF cuando no lo hay. Con-
192 INTERDISCIPLlNARIA, 2002, 19,2, 185-203
DIF: Evalu8cción de un método emplrico
sideramos que el método falla en las situaciones en las que la proporciónde DIF erróneo es mayor que el nivel significación usual de .05.
Resultados
En la Tabla 4 se ponen de manifiesto las similitudes y diferencias enla proporción de DIF erróneo según las características de los grupos focales. Los pares de grupos que presentaron un comportamiento semejantepara la proporción de DIF erróneo son: GR -GF1. GR - GF4, GR - GF3 YGR - GF6 por un lado, y GR - GF2 YGR - GF5 por otro. El primer grupocorresponde a las situaciones en las cuales GR y GF pertenecen a distintas poblaciones en cuanto a la habilidad. El segundo grupo correspondea la situación en la cual GR y GF pertenecen a una misma población. Entodos los casos se observa que la situación de discrepancia en cuanto altamaño de muestra entre GR y GF incide levemente en la proporción deDIF erróneo. También se observa que el método empírico falló particularmente con los ítem fáciles: 6, 11, 12, 16Y 17 Yque no falló con los ítemde menor discriminación ni con los difíciles, excepto los ítem 10 Y20, donde falló sólo cuando el grupo minoritario está en desventaja en cuanto a lahabilidad.
De los resultados que se presentan en la Tabla 4, puede afirmarse quela proporción de DIF erróneamente detectado con el método empírico nosupera a .05 cuando los grupos no difieren en cuanto a la habilidad, seande igualo distinto tamaño de muestra, salvo que el ítem sea muy fácil yde alta discriminación. Si los grupos difieren en la habilidad media seobserva que la proporción de DIF erróneamente detectado es baja, menorque. 05, cuando los ítem no son fáciles.
Se realizó un estudio de asociación, mediante la prueba estadística,'X} entre lafalla del método según el criterio del 5 %, la habilidad de lossujetos del GR y GF y la dificultad del ítem. En dicho estudio las variables fueron dicotomizadas y se consideró para:
a.- falla del método: valor O si el método no falla y 1 si falta;b.- habilidad de los grupos:valor Osi los grupos no difieren y 1 si di
fieren;c.- dificultad del ítem: valor O si el ítem no es fácil y 1 si es fácil.Se detectó asociación entre las tres variables con p =. 001, como se
muestra en la Tabla 5. Cuando los grupos no difieren en cuanto a la habili-
INTERDISCIPLlNARIA,2002, 19,2, 185-203 193
Aguerr¡, Zane/li, Gslibert y Attorres;
dad media, el método manifiesta una marcada tendencia a no fallar, 92.5 %de las veces. Si los grupos difieren en cuanto a la habilidad media, la tendencia que se manifiesta es a fallar cuando los ítem son fáciles con p = .00 l.
Conclusión
El método empírico presenta una marcada tendencia a no detectarerróneamente DIF si los grupos no difieren en cuanto a la habilidad media, de lo contrario se observa que la proporción de DIF erróneamente detectado es baja, menor que el 5 %, si los item no son fáciles. Para la aplicación del método empírico, es necesario realizar cálculos sencillos a partir de resultados de un programa de computación estadístico general quecalcule el estimador de la razón de las posibilidades de Mantel-Haenszel,es decir no es necesario usar programas de computación psicométricoespecíficos.
En vistas de la asociación observada, si al aplicar este método empírico se detectara DIF en ítem fáciles, respondidos por sujetos de gruposque difieren marcadamente en cuanto a la habilidad, antes de considerara tales ítem efectivamente descartables por su DIF, se recomienda realizarla prueba de significación indicada por el EducationaJ Testing Service, o aplicar algún otro método de detección del DIF.
De este estudio de simulación, se concluye que el método empíricopara detectar DIF (de fácil implementación computacional) ofrece bajoriesgo de detección errónea particularmente cuando los grupos no difieren en cuanto a la habilidad media o bien, cuando los ítem no son fáciles.
194 INTERDISCIPLINARIA, 2002, 19,2, 185-203
DfF: Evaluacción d& un método emplrico
Tabla 1
Tabla de contingencia de 2 x 2 para los sujetos de puntaje total j
Puntaje en el Item estudiado
1
IO
Grupo de Referencia
AjSj nRj
Grupo Focal
CjDj nFj
7J
Tabla 2
Identificación de los Grupos Foca/es según el tamai'\o de muestra y la
media de la habilidad en la población a la cual pertenece (J.1g::)
-1.5
o
1.5
INTERDISCIPLlNARIA,2002, 19,2, 185-203
900
GF1
GF2
GF3
350
GF4
GF5
GF6
195
..•.sTabla 3
Identificación de los ítem según la combinación de los valores de losparámetros de dificultad (b) y de discriminación (a)
-2 -1 o 1 2
0.4Item 1Item 2Item 3Item4Item 5
;e
0.8Item6Item 7Item 8Item9Item 10!TI
~~
~
~
1.2Item 11Item 12Item 13Item 14Item 15 ~..•-~.NI 1.6Item 16Item 17Item 18Item 19Item 20 g:
~~}iC)
gCl>
&~~-=l
!lO
"<:
,!'o)
~- =t
~
o~!e.
~
gJ
~(")
~~:::o
~
~..•!C~
~
Tabla 4
Proporción de DIF erróneo detectado con el método empírico superior a .05 porítem y características del Grupo Focal
Item1l8F
nFGF12 3 4 5 6 7 8 9 10 1112 13 14 15 16 17 18 19 20Total
-1.5
9001- ------ ---sisi---sí sí--- 4
350
4- --- -si - --sisisí---si si--sí 7
O
9002- --- -- ----sí--------- 1
350
5- --- -- ----si----sí--- - 2
1.5
9003- ----sí ----sísisi--si sísí- - 7
350
6- --- -sí sr ---sísisi--sí sisi-- 8
Total
- ----3 1 -- 1642--5 42-1 29
\:)~rn
~III(')
5:~~c:~3lll-O-Cl.oIII
.g~o
~CD...,
Notación Si: la proporción supera a .05- : la proporción es menor o igual a .05
Aguerrl, Zenelll, Gel/bert y Attorresl
Tabla 5
Fragmento de la salida computacional del estudio de la asociación entre lafalla del método emplrico, la situación de discrepancia en cuanto a la
habilidad media y la dificultad delltem dicotomizadas(SAS, Statistical Analysis System, 1989)
TABLE 1 OF FALLA BY DIFICULTAD CONTROLLlNG FOR HABILIDAD = O
FALLADIFICULTAD
DELITEMFrequency PercentRow PctCol Pct
O11
O
24 13
60.00
32.50
64.86
.35.14
100.00
81.25
1
O 3
0.00
7.50
0.00
10000
0.00
18.75
Total
241660.00
40.00
Nota:
Total
37
92.50
37.50
40
100.00
falla del método empirico: O indica que no falla y 1 que falla
situación de discrepancia en cuanto a la habilidad media: O indica que no difieren y 1
que difierendificultad del item: O si no es fácil y 1 si es fácil
(continúa)
198 INTERDISCIPLINARIA,2002, 19,2, 185-203
DIF: Evaluacción de un método emplrlco
Tabla 5 (Continuación)Fragmento de la salida computacional del estudio de la asociación entre la
falla del método emplrico, la situación de discrepancia en cuanto a lahabilidad media y la dificultad delltem dicotomizadas
(SAS, Statistical Analysis System, 1989)
STATISTICS FOR TABLE 2 OF FALLA BY DIFICULTAD CONTROLLlNG FOR
HABILIDAD = 1
Statistía DFValue Prob
Chi-Square
14.665 0.027
Likelihood Ratio Chl-Square
15.666 0.015
Continuity Adj. Chi-Square
12.538 0.111
Mantel-Haenszel Chi-Square
14.743 0.029
Fisher's Exact Test (Left)
1.000
(Right)
0.057
(2-Tail)
0.057
Phi Coefficient0.349
Contingency Coefficient
0.329Cramer's V
0.349
Sample Size = 40
WARNING: 50% of the cells have expected counts less
than 5. Chi-Square may not be a valid test
Nota:
falla del método emplrico: O indica que no falla y 1 que falla
situación de discrepancia en cuanto a la habilidad media: O indica que no difieren y 1
que difieren
dificultad delltem: O si no es fécil y 1 si es fácil
(continúa)
INTERDISCIPLINARIA, 2002, 19,2, 185-203 199
Aguerri, Ztmel1l, Gslibert y Attorresi
Tabla 5 (Continuación)
Fragmento de la salida computacional del estudio de la asociación entre lafalla del método emplrico. la situación de discrepancia en cuanto
a la habililidad media y la dificultad del Item dicotomizadas(SAS, Statistical Analysis System, 1989)
TABLE 2 OF FALLA BY DIFICULTAD CONTROLLlNG FOR HABILIDAD = 1
Nota:
FALLA
FrequencyPercent
Row PclCol Pct
o
1
Total
DIFICULTAD
DEL ITEM
01 1 I
42
12
52.50
15.00
77.78
22.22
87.50
37.50
6
20
7.50
25.00
23.08
76.92
12.50
62.50
48
32
60.00
40.00 Total
54
67.50
2632.50
80100.00
fa1/a del método emplrico: O indica que no falla y 1 que falla
situación de discrepancia en cuanto a la habilidad media: O indica que no difieren y 1
que difierendificultad delltem: O si no es fácil y 1 si es fácil
(continúa)
200 INTERDISCIPLlNARIA,2002, 19,2, 185-203
DIF: Evaluacción de un método empírico
Tabla 5 (Continuación)
Fragmento de la salida computacional del estudio de la asociación entre lafalla del método emplrico, la situación de discrepancia en cuanto
a la habilidad media y la dificultad del ftem dicotomizadas(SAS, Statistical Analysis System, 1989)
STATISTICS FOR TABLE 2 OF FALLA BY DIFICULTAD CONTROLLlNG FOR
Habilidad = 1
StatisticDFValue Prob
Chi-Square
121.880 0.001
Likelihood Ratio Chi-Square
122.383 0.001
Continuity Adj. Chi-Square
119.660 0.001
Mantel-Haenszel Chi-Square
121.607 0.001
Fisher's Exact Test (Left)
1.000
(Right)
3.91E-06
(2-Tail)
5.23E-06
Phi Coefficient
0.523
Contingency Coefficient
0.463
Cramer's V
0.523
Sample Size = 80
SUMMARY STATISTICS FOR FALLA BY DIFICULTAD CONTROLLlNG FOR
Habilidad
Cochran-Mantel-Haenszel Statistics (Based on Table Scores)
Statistic
Altemative HypothesisDFValueProb
1
Nonzero Correlation 126.263 0.001
2
Row Mean Scores Differ126.263 0.001
3
General Association 126.2030.001
INTERDISCIPLlNARIA,2002, 19,2, 185-203201
Aguerrl, lanelll, Gallbert y Attorresl
Referencias bibliogrjficaa
Aguerri, M.E. (2000). Un estudio de simulación acerca del error de tipo 1en la detección de/funcionamiento diferencial del item (A simulationstudy about the type 1 error for the differential item funetioning).Tesis de Magister Scientiae en Biometria. Universidad de BuenosAires. Trabajo Inédito.
Assesment Systems Corporation (1996). User's manual for the item andtest analysis package. St. Paul, Minnesota: Author.
BMDP (1990). B.MD.P Statistical software. Berkeley (California). Universityof California Press: Author.
Camilli, G. & Shepard, L. (1994). Methods for identifying biased testitem. Thousand Oaks, CA: Sage Publieations, Ine.
Donoghue, J., Holland, P. & Thayer, D. (1993). A Monte Carlo study offaetors that affeet the Mantel-Haenszel and standardizationmeasures of differential item funetioning. In P.W. Holland & H.Wainer (Eds.), Differential item functioning (pp. 137-166).Hillsdale, NJ: Erlbaum.
Dorans, N. & Holland, P. (1993). DIF deteetion and deseription: MantelHaenszel and standardization. In P.W. Holland & H. Wainer (Eds.),Differential item functioning (pp. 35-66). Hillsdale, NJ: Erlbaum.
Galibert, M. S. (2000). Modelización psicométrica de un test de razonamiento verbal en los marcos de la Teoría Clásica de Tests y de laTeoría de Respuesta al Ítem (Psyehometrie modalization of areasoning verbal test in the frame of classical test theory and itemresponse theory). Tesis de Magister Scientiae en Biometría. Universidad de Buenos Aires. Inédito.
Holland, P. & Thayer, D. (1988). Differential item performance and theMantel-Haenszel procedure. In H. Wainer & H.1. Braun (Eds.), Testvalidity (pp. 129-145). Hillsdale, NJ: Erlbaum.
Lord, F.M. (1980). Applications of item response theory to practicaltesting problems, Hillsdale: Lawrenee Erlbaum.
Mantel N. & Haenszel, W. (1959). Statistical aspects of the analysis ofdata from retrospeetive studies of disease. Journal of the NationalCancer Institute. 22, 719- 748.
Mislevy, R.J. & Boek, R.D. (1984). BILOG: Maximum likelihood itemanalysis and test scoring with logistic models. Mooresville, IN:Seientifie Software.
202 INTERDISClPUNARIA, 2002, 19,2, 185-203
DIF: Evaluacclón de un método emplrlco
Rogers, H. & Swaminathan, H. (1993). A comparison of the logisticregression and Mantel-Haenszel procedures for detecting differentialitem functioning. Applied Psychological Measurement, 17, 105-116.
Roussos, L. & Stout, W. (1996). Simulation studies of the effects of smallsample size and studied item parameters on SIBTEST and MantelHaenszel type 1 error performance. Journal 01 EducationalMeasurement, 33, 215-230.
SAS Institute Inc. (1989). SAS / STAT® User's Guide. Version 6, (4thed.) Vol. l. Cary, N.C: SAS Institute Inc.
SSPS, Inc. (1990). SPSS relerence guide (Release 4). Chicago: Author.Uttaro, T. & Millsap, R. (1994). Factors influencing the Mantel-Haenszel
procedure in the detection of differential item functioning. AppliedPsychological Measurement. 18, 15-26.
Zieky, M. (I993). Practical questions in the use of DIF statistics in testdevelopment. In P.W. Holland & H. Wainer (Eds.), Differential itemlunctioning (pp. 337-347). Hillsdale, NJ: Erlbaum.
Zimowskhj'J" Muraki, E., Mislevy, R. & Bock, R. (1996). BILOGMG : Multiple-Group IRT Ana/ysis and Test Maintenance lorBinary Items [Computer program). Scientific Software Intemational,Inc.
Zwick, R., Donoghue, J. & Grima, A. (1993). Assessment of differentialitem functioning for performance task. Journal 01 EducationalMeasurement, 30, 235-251.
In..,tituto de Investigaciones
Facultad de Psicología
Universidad de Buenos Aires (UBA)
Buenos Aires - Argentina
Fecha de recepción: 15 de abril de 2002
Fecha de aceptación: 15 de julio de 2002
INTERDISCIPLINARIA, 2002, 19,2, 185-203 203