ƒ³n de un mƒ©todo empƒ­rico para detectar el ... ‚ Evaluaciƒ³n de un mƒ©todo empƒ­rico para detectar el funcionamiento diferencial del ƒ­tem

  • View
    221

  • Download
    2

Embed Size (px)

Text of ƒ³n de un mƒ©todo empƒ­rico para detectar el ... ‚...

  • Interdisciplinaria

    ISSN: 0325-8203

    interdisciplinaria@fibercorp.com.ar

    Centro Interamericano de Investigaciones

    Psicolgicas y Ciencias Afines

    Argentina

    Aguerri, M. Ester; Zanelli, Marta L.; Galibert, Mara Silvia; Attorresi, Horacio F.

    Evaluacin de un mtodo emprico para detectar el funcionamiento diferencial del tem

    Interdisciplinaria, vol. 19, nm. 2, 2002, pp. 185-203

    Centro Interamericano de Investigaciones Psicolgicas y Ciencias Afines

    Buenos Aires, Argentina

    Disponible en: http://www.redalyc.org/articulo.oa?id=18019204

    Cmo citar el artculo

    Nmero completo

    Ms informacin del artculo

    Pgina de la revista en redalyc.org

    Sistema de Informacin Cientfica

    Red de Revistas Cientficas de Amrica Latina, el Caribe, Espaa y Portugal

    Proyecto acadmico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto

    http://www.redalyc.org/revista.oa?id=180http://www.redalyc.org/articulo.oa?id=18019204http://www.redalyc.org/comocitar.oa?id=18019204http://www.redalyc.org/fasciculo.oa?id=180&numero=9729http://www.redalyc.org/articulo.oa?id=18019204http://www.redalyc.org/revista.oa?id=180http://www.redalyc.org

  • EVALUACION DE UN METODO EMPIRICO PARA DETECTAR ELFUNCIONAMIENTO DIFERENCIAL DEL ITEM *

    M. Ester Aguerri **, Marta lo zanelli ***, M. Silvia Galibert ****y Horacio F. Attorresi *****

    Resumen

    Se presenta un mtodo emprico basado en la magnituddel estadstico MH-D-D1F y se investiga en qu situacioneses ms propenso a detectar funcionamiento d!ferencial deltem (DIF) cuando no lo hay. En la prctica psicomtrica seclasifica el grado de DIF de un tem segn el valor y la sig-nificancia del estadstico MH-D-D1F. Dicho procedimientose encuentra entre los denominados Mtodos de Tablas deCOll1illgencia (Te), en ellos se analiza si los sujetos de dife-rentes grupos y de un mismo puntaje total, tienen la mismaposibilidad de responder correctamente el tem. Las respues-tas de los sujetos en este estudio fueron simuladas sin D1Fusando el Modelo Logstico de Tres Parmetros. Los grupos

    Esta investigacin fue realizada en el marco de los siguientes proyectos: de la Univer-sidad de Buenos Aires (UBACYT P054/(0), del Consejo Nacional de InvestigacionesCientficas y Tcnicas (PIP 4423/96 y PIP 2426/(0) y de la Agencia Nacional de Pro-mocin Cientifica y Tecnolgica (PICT 4704/98).Magister Scientiae en Biometra y Licenciada en Ciencias Matemticas Profesora Re-gular Adjunta de Estadstica e Investigadora en el Instituto de Investigaciones de la Facultad de Psicologa de la Universidad de Buenos Aires. Agrelo 3555 (CI224ABI) Bue-nos Aires. Argentina. E-Mail: maguerri@lpsi.uba.arPhD Biometry y Estadstica. Investigadora en el Instituto de Investigaciones de la Fa-cultad de Psicologa de la Universidad de Buenos Aires.E-Mail: mzanelli@arnet.com.arMagister Scientiae en Biometra y Profesora de Enseanza Especial en Ciencias Mate-mticos. Profesora Regular Adjunta e Investigadora en el In~1ituto de Investigacionesde la Facultad de Psicologa de la Universidad de Buenos Aires.E-Mail: galibert@psi.uba.arLicenciado en Ciencias Matemticas. Profesor Regular Titular de Estadstica y Directorde Proyectos de Investigacin en el Instituto de Investigaciones de la Facultad de Psico-loga, de la Universidad de Buenos Aires. E-Mail: hattorre({.;psi.uba.ar

    INTERDISClPUNARIA, 2002, 19,2, 185-213 185

  • 186

    Aguarrl, Z8nelll, G8libarl y Attorras;

    de igualo distinto tamafto. se eligieron de poblaciones conla misma habilidad media o en dos situaciones de discrepan-cia. Los parmetros de los tem se seleccionaron combinan-do distintos niveles de discriminacin y de dificultad. El pa-rmetro de aciertos por azar se fij en .25. El tamafto mues-tral de los grupos incidi levemente en los resultados de estainvestigacin. El mtodo emprico mostr una marcada ten-dencia a no detectar errneamente DIF si los grupos no difie-ren en cuanto a la habilidad; si difieren se observa que la pro-porcin de DIF errneamente detectado es baja (menor queel 5 %) si los tem no son fciles. En las condiciones men-cionadas el mtodo emprico resulta una herramienta reco-mendable para detectar DIF ya que slo requiere de la apli-cacin de programas de computacin estadsticos generalesy clculos sencillos.

    Palabras clave: Funcionamiento diferencial del tem - MH-D-DIF - simulacin - modelo logistico de tres parmetros - par-metro de discriminacin del tem - parmetro de dificultad deltem.

    Abstract

    An empirical method to detect the D(fferential ftemFunctioning (DIF) is presented. It is based on the magnitudeof the MH-D-DIF statistics. and research has been focalizedon situations where in the method is most prone to detectD1F when DfF simply does not existo The method hereproposed is based on a simplification of the DIF-basedclassification of items as set up by the Educational TestingServce (ETS). They use three categories so that the DIFgrade of items in a given test is evidenced as per the valueand the significance of the MH-D-DlF statistic. Pursuant tothe method suggested herewith. an item evidences DIFwhenever the magnitude of the MH-D-DlF statistc. inabsolute value. is greater than or equal to 1.5. Such acriterion reduces the requirements set up by ETS to disregardan item on account of its DIF. Since no signification test has

    INTERDISCIPLINARIA,2002, 19,2, 185-203

  • OIF: Evaluaccin de un mtodo empl,lco

    been performed to find out whether IMH-D-DIFI issignificantly greater than J, it has been decided that thismethod should be caBed empirical me/hod. The empiricalmethod may be considered as one of the Contingency Table(CT) methods, and as such, it only requires the use of thosestatistical packages including contingency table analysis tobe applied; in other words, no specific psychometricsoftware is required. In studies on DIF the responses ofsubjects belonging to different groups to a set of items arecompared. Qne group is identified as the Re/erence Group(RG), and the other group is called the Focal Group (FG).Responses have been simulated for 900-subject and 350-subject samples having to answer to a 20-item test. Thismethodology design has been devised so that researchtindings could be applied to the item DIF detection on aVerbal Reasoning Test study with real data. Subjects'responses have been simulated without any DIF according tothe 3-parameter logistic model. Four levels have beenconsidered with regard to the discrimination parameter: Low,Medium-Low, Medium-High, and High. Five levels havebeen considered with regard to the difficulty parameter: VeryEasy, Easy, Medium, Difficult, and Very Difficult. The guessingparameter has been set up at .25. In aIl cases, RG was 900-sized,pertaining to a population whose ability was distributed as astandard normal. FGs combine two possible sample Si7..eS,namely 900-subject and 350-subject, as well as three possibleability means, namely: a) on equal terms with regard to RG, andb) in a discrepancy situation, either b.l) greater than the RGability mean or b.2) less that the one in RG. Therefore,2 x3 x 4 x 5 level combinations have been obtained for thefollowing factors: Sample size, Ability distribution, ltemdiscrimination, and Item difficulty, and each of them had 50repetitions. For each one of the 120 combinations of levels ofaIl factors, one observation, that is the ratio of the erroneouslydetected DIF has been recorded. The erroneously detected DIFratio can be understood as an empirical signification level forthis suggested empirical method inasmuch as such a levelevidences the ratio of DIF detection when DIF is nowhere tobe seen. The group sample sizes have a slight influence on the

    /NTERD/SC/PL/NARIA,2oo2. 19,2, 185-203 187

  • Aguarri, Zanal/i, Galibart y Attorrasi

    results ofthis study. The empirical method presents a markedtendency of not detecting DIF erroneously when the groupsdo not differ respect to ability; but, when they actually differand the items are not easy, the proportion of DIF erroneouslydetected is low (Iess than 5 %). Under the above mentionedconditions, the empirical method becomes a very meritorioustool to detect DIF since it only requires the use of generalstatistical softwares and simple calculations.

    Key words: Differential tem functioning - MH-D-DIF -simulation - 3-parameter logistic model - item discriminationparameter - item difficulty parameter.

    Introduccin

    En el estudio del funcionamiento diferencial del tem (DifferentialItem Functioning, DIF) se comparan las respuestas de sujetos de distintosgrupos, a un tem. Entre los procedimientos estadsticos utilizados para elanlisis del DIF se encuentran los basados en la aplicacin de los mode-los de la Teora de Respuesta al Item (TRI) y en los denominados Mto-dos de Tablas de Contingencia (TC), stos deben su nombre a la forma depresentar los datos (Camilli & Shepard,1994). En el marco de la TRI sedetecta DIF cuando sujetos de un mismo nivel de habilidad tienen distinta pro-babilidad de contestar correctamente el tem, segn el grupo de pertenencia.

    Para su estudio es imprescindible la utilizacin de algn programa de com~u-tacin psicomtrico como BILOG (Mislevy & Bock, 1984), BILOG-MG M(Zimowski, Muraki, Mislevy & Bock, 1996) o XCALIBRE (AssesmentSystems Corporation, 1996) entre otros, y demandan un trabajo computacio-nal intensivo.

    Con los mtodos TC se estudia si los sujetos de diferentes grupos yde un mismo puntaje total, tienen la misma posibilidad de responder co-rrectamente el tem. Para su aplicacin se utilizan programas de compu-tacin estadsticos como SPSS (1990), SAS (Statistical Analysis System,1989), BMDP (BMDP, 1990) Ydemandan menor tiempo de clculo compu-

    188 INTERDISCIPLINARIA, 2002, 19,2, 185203

  • DIF: Evaluaccin de un mtodo emplrico

    tacional. Las tablas de contingencia resultan