Tema-6 (51).pdf

Embed Size (px)

Citation preview

  • 7/30/2019 Tema-6 (51).pdf

    1/51

    jTEMA 6

    VALIDEZ DE LAS INFERENCIAS {1}

    Mara Isabel Barbero Garca

  • 7/30/2019 Tema-6 (51).pdf

    2/51

    !SUMARIO

    1. Orientaciones didcticas2. Introduccin al concepto de validez y su evolucin histrica3. Validacin de contenido4. Validacin de constructo

    4.1. La matriz multimtodo - multirrasgo4.2. El Anlisis Factorial

    5 . Validacin referida al criterio5.1. El problema de la seleccin y medicin del criterio5.2. Procedimientos estadsticos utilizados en la validacin referida al

    criterio6. Validacin con un nico predictor y un solo indicador del criterio

    6.1 . El coeficiente de validez6.2 . El modelo de regresin lineal

    6.2.1. Ecuaciones de regresin6.2 .2. La varianza residual o varianza error y el error tpico de

    estimacin6.2.3. Intervalos de confianza

    6.3. Interpretacin de la evidencia obtenida acerca de la capacidadpredictiva del test6.3.1. Coeficiente de determinacin6.3 .2. Coeficiente de alienacin

    6.3.3. Coeficiente de valor predictivo6.3.4 . Ejemplo

    7. Ejercicios de autoevaluacin8. Soluciones a los ejercicios de autoeva luacin9. Bibliografa complementaria

  • 7/30/2019 Tema-6 (51).pdf

    3/51

    1. ORIENTACIONES DIDCTICAS

    Cuando en el primer captulo hablamos de la dificultad de medir variables psi-colgicas porque la gran mayora de ellas no pueden ser observadas de forma di-recta y, por lo tanto, no se pueden medir directamente, dimos una solucin al

    problema planteando que la medicin se poda llevar a cabo por medio de in-dicadores. Que queramos decir con esto?, sencillamente que para poder me-dir este tipo de variables, a las que denominamos constructos tericos, variableslatentes o atributos psicolgicos, entre otras acepciones, es necesario seleccio-nar una serie de conductas que representen algn aspecto de ese constructo yque sean consideradas indicadores del mismo. Estas conductas ya s son obser-vables de forma directa y, por lo tanto, pueden ser medidas mediante los instru-

    mentos adecuados elaborados ad hoc . Podremos decir que se ha obtenido unamedida del constructo cuando se obtenga una medida de las conductas selec-cionadas como indicadores.

    Ahora bien, los instrumentos elaborados para medir estas conductas han decumplir una serie de requisitos para que puedan ser utilizados con las suficien-tes garantas de calidad, entre estos requisitos hay dos fundamentales: que pro-porcionen medidas fiables a partir de las cuales se puedan hacer inferencias v-

    lidas.La fiabilidad de las medidas, como se ha visto en el Tema 4, hace referencia

    al grado en que las puntuaciones obtenidas al aplicar los tests a un sujeto, omuestra de sujetos, reflejan su nivel real en el rasgo, o caracterstica medida; esdecir, al grado en que esas puntuaciones estn libres de los errores aleatorios

    presentes en cualquier proceso de medicin . La validez de las inferencias que sepuedan hacer a partir de las puntuaciones obtenidas por los sujetos al aplicarles

    29 3

  • 7/30/2019 Tema-6 (51).pdf

    4/51

    1 PSICOMETRA

    el test, problema que se abordar en ste y en el tema siguiente, se refiere algrado de relacin que se puede establecer entre la evidencia emprica obteniday el concepto terico que se tiene del constructo que se intenta medir .

    Alguna de las crticas que se han hecho en relacin con la construccin yevaluacin de los tests es que muchas veces el proceso ha estado orientado msa la obtencin de instrumentos de medicin fiables que a la obtencin de ins-trumentos vlidos. A nuestro juicio, por muy fiables que sean las medidas queproporciona un test, si stas no se refieren a aquello que se quiere medir difcil-mente se podrn interpretar las puntuaciones obtenidas, de ah la importanciadel tema que vamos a estudiar.

    En este tema, despus de hacer una introduccin al concepto de validez y asu evolucin histrica se exponen las distintas clases de evidencia que se pue-den obtener a la hora de llevar a cabo un proceso de validacin: conten ido,constructo y relativa al criterio, haciendo hincapi en cul sera la ms adecuadaen cada caso y exponiendo los procedimientos estadsticos que van a permitir suobtencin e interpretacin.

    Respecto a los estudios de validacin referida al criterio, nos hemos centradoen la forma de llevarlos a cabo cuando hay un nico predictor y una nica va-riable criterio, dejando para el tema siguiente la forma de llevar a cabo el estu-dio de validacin cuando se cuenta con varios predictores.

    Es necesario que los alumnos aprendan a diferenciar claramente las distin tasformas de llevar a cabo un estudio de validacin y la forma de interpretar l a evi-dencia obtenida; slo as podrn estar en condiciones de interpretar las puntua-

    ciones obtenidas por los sujetos en los tests y, a partir de ellas, tomar decisionescon una cierta garanta de xito.

    2. INTRODUCCIN AL CONCEPTO DE VALIDEZY SU EVOLUCIN HISTRICA

    Al igual que el concepto de Psicometra ha evolucionado a lo largo de losaos con la incorporacin de los conocimientos cientficos que han ido sur-giendo a partir de las investigaciones realizadas; al concepto de validez, que porotra parte es un concepto psicomtrico, le ha ocurrido lo mismo. Mientras quela medicin de las caractersticas fsicas como la longitud, por ejemplo, tal ycomo se viene haciendo, ha probado sus ventajas y utilidad y nadie plantea hoyda seriamente la necesidad de cambiar por otras formas de medicin, no ocu-

    rre lo mismo con las caractersticas psicolgicas (constructos tericos) ya que, en

    29 4

  • 7/30/2019 Tema-6 (51).pdf

    5/51

  • 7/30/2019 Tema-6 (51).pdf

    6/51

    1 PSICOMETRA

    EJEMPLO:

    Supongamos que se desea llevar a cabo una seleccin de vendedores y, ade-ms de otras tcnicas, se piensa utilizar un test en el proceso de seleccin. No

    se sabe si el test es vlido o no, pero para que se pueda decir que el test tienevalidez predictiva, deber permitir diferenciar a los buenos de los malos vende-dores distinguiendo los diferentes grados de pericia o capacidad para las ventas(constructo a medir). Para comprobar la validez predictiva del test es necesarioseleccionar algn indicador (o indicadores) que permita obtener una medida de lcriterio externo; un indicador puede ser, po r ejemplo, el nmero de ventas rea -lizadas en una semana (variable observable relacionada con el constructo) ; una

    vez seleccionado el indicador, se aplicar el test a todos los aspirantes al puestoy, despus de un cursillo sobre tcnicas de ventas, se les pondr a vender duranteuna semana; al cabo de la misma se les evaluar en funcin del nmero de ven-tas realizadas y ese dato ser su medida en el criterio externo. Para comprobarsi el test tiene validez predictiva se calcular la correlacin entre las puntuacio-nes que han obtenido en el test todos los aspirantes y el nmero de ventas rea-lizadas en la semana de prueba; si la correlacin es alta diremos que el test tienevalidez predictiva, puesto que los que hayan obtenido puntuaciones altas en eltest sern tambin los que hayan realizado un mayor nmero de ventas , y los queobtengan puntuaciones bajas en el test habrn realizado un nmero de ventasmenor.

    Ya se puede imaginar el lector la dificultad y el coste que supone el estudiode la validez predictiva de un test. En nuestro ejemplo supone aplicar el test atodos los aspirantes, darles un cursillo de formacin en tcnicas de ventas y te-

    nerles a todos trabajando durante al menos una semana para poder tener una me-dida del criterio externo (el nmero de ventas). Esto a veces es imposible de lle-var a cabo, o no tiene sentido hacerlo; por eso, poco a poco , fue surgiendo otraforma de estudiar la validez de los tests relacionada con criterios externos , la va-

    lidez concurrente, que se diferencia de la validez predictiva en que la recogidade la informacin, tanto del test como del criterio, se hace simultneament e.

    EJEMPLO:

    Vamos a seguir con el ejemplo anterior pero con un enfoque distinto . Que-remos disponer de un test que sirva para hacer una seleccin de vendedores por-que una empresa nos ha solicitado que hagamos una seleccin para cubrir cua-tro puestos de trabajo . Entonces lo que se hace es lo siguiente: a una muestra devendedores de las mismas caractersticas que los que exigen los puestos de tra-bajo a cubrir, se les aplica el test cuya capacidad predictiva se quiere estudiar y,

    al mismo tiempo, se pide a sus jefes directos que los evalen en cuanto a su

    2 9 6

  • 7/30/2019 Tema-6 (51).pdf

    7/51

    VALIDEZ DE LAS INFERENCIAS (1) 1

    grado de pericia para las ventas (por ejemplo el nmero de ventas realizadas enla ltima semana). De esta manera las puntuaciones obtenidas por los vende-dores en el criterio externo (nmero de ventas en la ltima semana) y las que hanobtenido en el test se obtienen en el mismo momento temporal (validacin con-currente). La correlacin entre las dos series de puntuaciones, nos va a indicarsi el test puede ser utilizado posteriormente para hacer la seleccin con ciertasgarantas de xito al avalar, en cierta medida, que los aspirantes que obtenganmejores resultados en el test sern buenos vendedores.

    Hay veces que se puede obtener la medida del criterio con anterioridad a ladel test; en este caso se habla de validez retrospectiva.

    La forma de operativizar la relacin entre el test y el criterio tanto en la vali-dez predictiva como en la concurrente y en la retrospectiva es mediante uncoeficiente de correlacin , tal y como hemos visto.

    Al mismo tiempo, y junto a las concepciones de la validez ligada a criteriosexternos se fue perfilando un nuevo enfoque de la validez relacionada con cri-terios internos al propio test: la validez de contenido. Esta nueva concepcinsurge porque hay muchos contextos en los que no interesa demasiado estudiar

    la utilidad de los tests para predecir otras variables y por lo tanto, no tiene s e n-tido la u i 1 zacin de criterios externos. Esto ocurre, sobre todo , en los tests deconocimientos. En este tipo de tests no se utilizan criterios externos con los quecorrelacionar las puntuaciones obtenidas , el planteamiento es distinto, se tratade estudiar hasta qu punto, a partir del contenido de los tests, se puede inferirel rendimiento en una determinada materia; el test en s mismo constituye supropio criterio.

    EJEMPLO:

    Supongamos que se necesita preparar un test (un examen) para medir el co-nocimiento que los alumnos matriculados en la asignatura de Psicometra tienende la materia. Esto que a primera vista puede parecer sencillo implica un es-fuerzo por definir, en primer lugar, todos los contenidos propios de la Psicome-tra y , en segundo lugar, hacer un muestreo de cada uno de esos contenidos de

    manera que queden reflejados todos ellos en el test. Slo de esta manera po-dremos tener cierta garanta de que el test tiene valide z de contenido. No se po-dra preparar un test (examen) en el que slo hubiera preguntas de fiabilidad,por ejemplo, ya que de las puntuaciones que obtuvieran los sujetos en el test nose podra inferir ms que el grado de conocimientos de los sujetos acerca de lafiabilidad no de la Psicometra , puesto que el dominio, universo o campo decont enidos de la Psicometra es algo mucho ms amplio .

    297

  • 7/30/2019 Tema-6 (51).pdf

    8/51

    1 PSICOMETRA

    Nota: Cuando en el Tema 2 se abord el problema de la construccin de instrumen-tos de medicin psicolgica ya se estudi la forma de elaborarlos de manera que tu-vieran validez de contenido.

    Tanto la validez predictiva como la concurrente dejaban muchos interrogan-tes sin responder, se saba que el test, en nuestro ejemplo, vala para diferenciarrealmente a los buenos de los malos vendedores, tena utilidad prctica para lle-var a cabo la seleccin, pero por qu?, qu es lo que realmente estaba mi-diendo el test?: sera la capacidad de persuasin de los vendedores, su fluidez

    verbal, sus habilidades sociales, su extraversin, etc.? Ya la aparicin de la vali-dez de contenido marc una nueva tendencia en los estudios de la validez al es-tar centrada ms en qu es lo que mide el test que en su utilidad para predecirotras variables. Sin embargo, la respuesta real a todos esos interrogantes vendrde la mano de otra nueva concepcin de la validez, la validez de constructo. Estetipo de validez implica recoger toda la informacin necesaria para poder tenergaranta suficiente de que las conductas observables que se han elegido comoindicadores del constructo que se quiere medir, lo son realmente.

    Todo esto nos hace reflexionar sobre la importancia que tiene, a la hora deconstruir un test, el definir claramente para qu se va a utilizar y qu es lo quese quiere medir; puesto que, en la medida en que el constructo est mejor defi-nido, ser ms fcil especificar qu conductas observables se van a utilizar comoindicadores del mismo y, una vez especificadas estas conductas, se podrn to-mar decisiones acerca de qu tems (qu contenido) se van a incluir en el test

    para medirlas. Ahora bien, como seala Navas (2001 ), el que el constructo estcuidadosamente definido facilita las cosas, pero no nos exime de comprobarque, realmente, las puntuaciones obtenidas al aplicar el test miden esa caracte-rstica o atributo y se pueden utilizar para el objetivo deseado, puesto que pue-den estar midiendo adems alguna caracterstica no prevista e introduciendo unerror sistemtico en las puntuaciones obtenidas en el test.

    EJEMPLO:

    Supongamos que los tems incluidos en el test utilizado en la seleccin devendedores, adems de medir las conductas relacionadas con la capacidad opericia para las ventas, tienen una fuerte carga de rapidez y comprensin lectora;en este caso, los participantes en el proceso de seleccin que sean capaces deleer ms deprisa, y tengan a su vez una mejor comprensin lectora, tendrn unamayor facilidad para contestar a los tems que componen el test, con indepen-

    dencia de que sean mejores en el rasgo que stos intentan medir.298

  • 7/30/2019 Tema-6 (51).pdf

    9/51

    VALIDEZ DE LAS INFERENCIAS (1) 1

    El estudio de la validez de constructo del test permitir responder a las preguntas que se haban planteado anteriormente: mide el test aquello para lo quese construy?, mide slo eso? Tambin en este enfoque de la validez la formade operativizar la relacin entre el test y el constructo suele hacerse mediante

    tcnicas correlacionales.

    Estos cuatro tipos de validez: predictiva, concurrente, de contenido y de cons-tructo, aparecen ya recogidos en el primero de una serie de documentos, publicado en 1954 por la American Psychological Association (APA): Recomenda-ciones tcnicas para los tests psicolgicos y tcnicas de diagnstico (TechnicalRecommendations for Psychological Tests and Diagnostic Techniques), y elaborado por un comit de expertos con el objetivo de unificar, de alguna manera,los criterios que deben reunir los tests para poder ser utilizados como instrumentos cientficos de medicin. El presidente del comit fue Cronbach y uno desus miembros Meehl que, en 1955, publicaron un artculo sobre la validez deconstructo, en el que ya se empezaba a perfilar como el aspecto esencial de lavalidez que englobara a todas las dems.

    En el segundo documento publicado en 1955: Recomendaciones tcnicas

    para Testsde

    rendimiento (TechnicalRecommendations

    forachievement

    test s),intervinieron representantes de la American Educational Research Association(AERA)y el National Council on Measurement Used in Education (NCMUE) y fuepublicado por la National Education Association (NEA).

    El tercero, que vino a reemplazar a los dos anteriores, fue publicado por laAPA en 1966 y preparado por un comit representante de la APA, AERA y elNational Council on Measurement in Education (NCME) y se denomin: Estn-

    dares para tests educativos y psicolgicos y manuales (Standards for Educationaland Psychological Tests and Manuals). En este documento, los cuatro tipos de validez quedaron reducidos a tres: validez de contenido, validez relativa al criterio y validez de constructo. En la validez referida al criterio quedaban subsumidas tanto la validez predictiva como la concurrente; tambin se asume que losdistintos tipos de validez van unidos a objetivos concretos en el uso de los testsde ah la importancia de definir cuales van a ser estos objetivos:

    Determinar el rendimiento o actuacin de un sujeto en un universo de situaciones (contenido).

    Inferir el grado en el que un sujeto posee algn rasgo o atributo (constructo) que se supone vendr reflejado por su ejecucin en el test.

    Predecir el rendimiento o comportamiento futuro (predictiva) o estimar surendimiento actual sobre una variable externa al test (concurrente).

    2 9 9

  • 7/30/2019 Tema-6 (51).pdf

    10/51

    1 PSICOMETRA

    La edicin de 1974, cuyo ttulo fue: Estndares para Tests Educativos y Psi-colgicos (Standards for Educational and Psychological Tests, AERA, APA yNCME), supuso un avance en la definicin del concepto de validez ya que, por

    primera vez, se afirma que /a validez se refiere a la adecuacin de las inferen-cias que se realizan a partir de las puntuaciones de los tests u otras formas demedida; se mantiene la distincin entre los tres tipos de validez y se conside-ran como formas independientes de interpretar las inferencias realizadas. Porotra parte se hace ya referencia explcita a que la validez no es una propiedadimplcita a los tests ya que lo que se trata de validar no es el test en s mismosino las inferencias que se hagan a partir de las puntuaciones obtenidas por los

    sujetos .En los Estndares para la Evaluacin Psicolgica y Educativa (Standards for

    Educational and Psychological Testing, APA,AERAy NCME) de 1985, y en los de1999, ya se defiende una concepcin unitaria de la validez, concepc in quehace referencia al grado en que la evidencia emprica obtenida y los conoci-mientos aportados por las teoras apoyan las inferencias que he hagan a partirde las puntuaciones obtenidas en el test cuando ste se utiliza para un objetivo

    concreto.Parece haber un acuerdo ms o menos generalizado en que, desde el punto

    de vista cientfico, la nica validez que se debe considerar es la validez de con s-

    tructo y que las otras dos, la de contenido y la relativa al criterio, quedaran in-cluidas en sta y seran consideradas estrategias de validacin para comprendermejor lo que mide un test (Messick, 1989).

    Ya no se habla de distintos tipos de validez, la validacin de los tests es unproceso continuo que permite obtener distintos tipos de evidencia emprica, y unproceso de validacin ideal debe incluir los tipos de evidencia implicados en lostres tipos tradicionales de validez: la de contenido, la de constructo y la relativaal criterio. Aunque siempre que se aplique un test psicolgico es necesario lle-var a cabo un estudio de validacin de constructo (difcilmente se puede hacerninguna inferencia si no se sabe lo que mide realmente el test), este tipo de va-lidacin no es siempre suficiente. Segn sea la interpretacin que se vaya a ha-cer de las puntuaciones obtenidas y el objetivo que se pretenda alcanzar al apli-car el test, ser necesario obtener otros tipos de evidencia; as, por ejemplo ,cuando se utilizan los tests en seleccin de personal, si el que una persona seaseleccionada depende de la prediccin que se haga acerca de su rendimiento fu-turo en el trabajo, ser necesario llevar a cabo un estudio de validacin predic-tiva, y en los tests de conocimientos la estrategia fundamental sera la validacinde contenido (Hambleton y Rogers, 1991 ).

    300

  • 7/30/2019 Tema-6 (51).pdf

    11/51

  • 7/30/2019 Tema-6 (51).pdf

    12/51

    1 PSICOMETRA

    presentativas del contructo a medir (especificacin del dominio de conductas);el segundo hace referencia a la necesidad de que todas esas conductas estn representadas en el test (representatividad del dominio).

    EJEMPLO:

    Qu quiere decir esto?

    Vamos a representar el constructo que se quiere medir por una naranja y vamos a suponer que cada uno de los gajos de la naranja es una faceta o aspectodel mismo. Si quisiramos construir un test para medir dicho constructo deberamos hacer un anlisis del tipo de conductas que podran ser tomadas como indi-cadores de cada una de esas facetas (especificacin del dominio de conductas) y,una vez seleccionadas todas esas conductas, deberamos elegir una muestra representativa de tems que permitieran medir cada una de ellas (representatividaddel dominio).

    Partiendo de esto, es fcil darse cuenta de que la distincin entre la validezde constructo y la de contenido es un poco artificial. En lo que se refiere a la es

    pecificacin deldominio

    de conductas, o bien nos limitamos a describirlas simplemente, o en cuanto se intente establecer alguna definicin operativa o formalentre esas conductas y el constructo se entra de lleno en el terreno de la validacin de constructo. En lo referente a la representatividad del dominio, las investigaciones se han centrado, fundamentalmente, en los procedimientos de muestreo del dominio. Messick (1975) afirma que la especificacin y representatividaddel dominio son, en realidad, metas a conseguir a la hora de construir el test ,

    pero que no son garanta de validez pues no proporcionan evidencia empricapara poder interpretar las puntuaciones.

    Sin entrar en la polmica, diremos que cuando se lleva a cabo un estudio devalidacin del contenido de un test es necesario analizar hasta qu punto loselementos que lo componen son una muestra representativa de la clase de problemas o situaciones sobre las que se van a hacer inferencias y extraer conclu-siones.

    En el mbito de la evaluacin educativa, en los tests referidos al criterio (TRC)y en los denominados tests de rendimiento acadmico, las puntuaciones obtenidas se suelen utilizar para hacer inferencias acerca del grado en que los sujetos dominan un campo de conocimiento (dominio), no para hacer inferenciasacerca de una conducta externa al test, ni acerca del rasgo o constructo medido.En estos tests, se pone de manifiesto el inters de los estudios de validacin decontenido, ya que es relativamente fcil llevar a cabo la especificacin del dominio (campo de conocimiento) sin hacer referencia al constructo. Las puntua-

  • 7/30/2019 Tema-6 (51).pdf

    13/51

    VALIDEZ DE LAS INFERENCIAS (1) 1

    ciones obtenidas se suelen utilizan para dar cuenta de si los sujetos han alcanzado un nivel mnimo de competencia en una determinada materia y la definicin y especificacin del dominio suele hacerse ms en funcin de los objetivosinstruccionales y educativos que se persigan que en referencia al constructo.

    EJEMPLO:

    Siguiendo con el ejemplo anterior, supongamos que nuestra naranja fuera laasignatura de Psicometra (campo de conocimiento). La especificacin del dominio incluira el anlisis de todos aquellos componentes de la Psicometra quehan de ser evaluados; por ejemplo, los alumnos debern tener conocimientos de

    fiabilidad, validez, anlisis de tems, interpretacin de puntuaciones, etc. Unavez especificado el dominio, para construir un test (examen) cuyo contenido seavlido, ser necesario elaborar un conjunto de tems que representen cada unode esos componentes. El contenido del test ser relevante si todos los tems deltest miden algn aspecto del dominio y no otra cosa, y ser representativo si lostems son una muestra representativa de todos los componentes especificados dela Psicometra; es decir, una muestra representativa del dominio.

    La forma tpica de llevar a cabo un estudio de validacin de contenido, es utilizando un grupo de expertos que sern los encargados de analizar dos aspectos fundamentales:

    Que el test no incluya aspectos irrelevantes del dominio de inters.

    Que incluya todos los elementos importantes que definen el dominio(Livingston, 1977).

    Se trata de hacer un anlisis racional del contenido del test y, por lo tanto, losresultados del estudio estarn basados en los juicios subjetivos emitidos por losexpertos.

    Para llevar a cabo la especificacin del dominio, tal y como se ha expuestoen el Tema 2, es necesario, en primer lugar, analizar las reas de contenido quese deben cubrir. En segundo lugar, se deben analizar los procesos que se van aevaluar y la importancia relativa de cada uno de ellos. En los tests educativos sedeben establecer los objetivos instruccionales que se desean alcanzar. Una vezhecho esto, se puede construir una tabla de doble entrada en la que las columnas representen las distintas reas de contenido (dominio) que definen el constructo a medir y las filas las distintas operaciones o procesos cognitivos implicados a la hora de responder a las preguntas o tems de la prueba, o los distintosobjetivos instruccionales. Las celdillas de esta tabla de doble entrada incluyen elporcentaje de tems que debe contener la prueba en relacin con cada rea de

    3 03

  • 7/30/2019 Tema-6 (51).pdf

    14/51

    1 PSICOMETRA

    contenido y cada proceso cognitivo empleado, u objetivo instruccional, paraque se considere que el dominio est bien representado en el test.

    Para evaluar la relevancia de los tems en relacin con el dominio se pueden

    utilizar varios procedimientos, uno de ellos es el propuesto por Hambleton (1980)que consiste en presentar a los expertos una serie de fichas cada una de las cua-les contiene un tem. Cada experto deber expresar en una escala de 5 puntos el

    grado de ajuste de cada tem con su correspondiente especificacin en el domi-nio (conducta, rea de conocimiento ... ), de manera que el 1 indique un malajuste y el 5 un ajuste muy bueno. Una vez hecho esto, se calcula la media o la

    mediana de los valores asignados por cada uno de los expertos del grupo a cadatem, y el valor obtenido ser el que indique el grado de relevancia del tem. Deesta forma se podrn seleccionar aquellos tems que muestren un alto grado deajuste y eliminar aquellos que por su bajo nivel de ajuste no sean relevantes .

    La representatividad de los tems que conforman el test hace referencia al

    grado en que se han cubierto las especificaciones del dominio, tanto en cuantoa los contenidos como a los objetivos propuestos. En la medida en que el domi-nio est ms y mejor representado, las inferencias que se puedan hacer acerca de

    la puntuacin de los sujetos en el dominio, a partir de las puntuaciones que hanobtenido en los tests, sern ms precisas. Lo ideal sera poder contar con un bancode tems referidos al dominio de inters y a partir del mismo extraer una muestraaleatoria de tems; ahora bien, lo cierto es que no siempre es esto posible .

    EJEMPLO:

    Supongamos que un grupo de 100 expertos han de juzgar la relevancia de 3tems para medir la ca lidad de la enseanza (constructo de inters). En la tablaadjunta se incluye la valoracin asignada a cada uno de los tems por el grupode expertos:

    ESCALATEMS

    1 2 3 4 5

    A o 10 10 60 20

    B 20 40 30 10 o

    e 10 20 50 10 10

    Calcular la relevancia de cada tem sabiendo que la categora 1 indica un

    mal ajuste entre el tem y el constructo y la categora 5 un muy buen ajuste.

    3 0 4

  • 7/30/2019 Tema-6 (51).pdf

    15/51

    1 PSICOMETRA

    contenido y cada proceso cognitivo empleado , u objetivo instruccional, pa raque se considere que el dominio est bien representado en el test.

    Para evaluar la relevancia de los tems en relacin con el dominio se puede n

    util izar varios procedimientos, uno de ellos es el propuesto por Hambleton (1980)que consiste en presentar a los expertos una serie de fichas cada una de las cua-les contiene un tem. Cada experto deber expresar en una escala de 5 puntos e lgrado de ajuste de cada tem con su correspondiente especificacin en el domi-nio (conducta, rea de conocimiento ... ), de manera que el 1 indique un malajuste y el 5 un ajuste muy bueno. Una vez hecho esto, se calcula la media o lamediana de los valores asignados por cada uno de los expertos del grupo a cada

    tem, y el valor obtenido ser el que indique el grado de relevancia del tem. Deesta forma se podrn seleccionar aquellos tems que muestren un alto grado deajuste y eliminar aquellos que por su bajo nivel de ajuste no sean relevantes.

    La representatividad de los tems que conforman el test hace referencia al

    grado en que se han cubierto las especificaciones del dominio , tanto en cuantoa los contenidos como a los objetivos propuestos. En la medida en que el domi-nio est ms y mejor representado, las inferencias que se puedan hacer acerca de

    la puntuacin de los sujetos en el dominio, a partir de las puntuaciones que hanobtenido en los tests, sern ms precisas. Lo ideal sera poder contar con un bancode tems referidos al dominio de inters y a partir del mismo extraer una mu est raaleatoria de tems; ahora bien, lo cierto es que no siempre es esto posible.

    EJEMPLO:

    Supongamos que un grupo de 100 expertos han de juzgar la relevanci a de 3tems para medir la calidad de la enseanza (constructo de inters). En la tablaadjunta se incluye la valoracin asignada a cada uno de los tems por el grupode expertos:

    Calcular la relevancia de cada tem sabiendo que la categora 1 indi ca un

    mal ajuste entre el tem y el constructo y la categora 5 un muy buen ajuste .

    304

  • 7/30/2019 Tema-6 (51).pdf

    16/51

    VALIDEZ DE LAS INFERENCIAS (1) 1

    Calcularemos la mediana de cada tem aplicando la siguiente frmula:

    ( NP / )-f.Med.

    = L+1 / 1 00b

    fd

    Donde:L =lmite inferiordel intervalo dondese encuentra la mediana.1 = amplituddel intervaloque en nuestro caso es la unidad.NP/100 =50% de la muestra.fd = nmero de sujetos de la muestra situados en el intervalo dela mediana.f6 = nmero de sujetos de la muestra por debajo del intervalo dela mediana.Para facilitarla comprensin del procesose incluye la tabla de frecuencias

    acumuladas:

    ESCALA

    TEMS1 2 3 4 5

    A o 10 20 80 100

    B 20 60 90 10 0 10 0

    e 10 30 80 90 10 0

    tem A = 3,5 + 5 0 - 2 0 = 460tem B = 1,5 + 5 0 - 2 0 = 2,25

    40

    tem e = 2,5 + 5 0 - 3 0 =2, 9050

    Anteestos resultados se puede decir que el tem A tiene un buenajuste y, porlo tanto, se puede considerar como un tem relevante para la medida de la cali-dad de la enseanza, los otros dos no deberan incluirse puesto queel ajuste noes muy bueno.

    3 0 5

  • 7/30/2019 Tema-6 (51).pdf

    17/51

    1 PSICOMETRA

    4. VALIDACIN DE CONSTRUCTO

    Este tipo de validacin es, realmente, el que da significado a las puntuacionesde los tests, pues permite obtener evidencia de que las conductas observab lesque se han elegido como indicadores del constructo (variable latente inobserva-ble) realmente lo son. Este tipo de estudios de validacin permite responder, en-tre otras, a las siguientes preguntas: mide realmente el test la variable que in-tenta medir? y existe en realidad esa variable?

    Partiendo de que los tests son instrumentos que permiten describir de formaindirecta, u operativizar, el grado en que los sujetos poseen alguna caractersticapostulada a nivel terico denominada constructo, la validacin de constructoser el proceso que permitir obtener evidencia acerca de la capacidad del testpara medirle.

    Este tipo de estudios de validacin trata de garantizar cientficamente que lavariable que el test pretende medir es, efectivamente, una variable aceptab le,cuyo concepto ofrece suficiente consistencia lgica dentro de un sistema tericode la Psicologa y descansa en suficientes comprobaciones experimentales quelo verifican (Yela, 1984).

    Para llevar a cabo un estudio de validacin del constructo es necesario :

    En primer lugar, definir cuidadosamente el constructo de inters a partir delas teoras que existan acerca del mismo, y postular una serie de hiptesisacerca de la naturaleza y grado de relacin entre el constructo (variable la-tente inobservable) y una serie de variables (conductas directamente ob-

    servables) y entre el constructo de inters y otros constructos. En segundo lugar, disear el instrumento de medida adecuado que habr

    de contar con elementos relevantes y representativos de aquellas conduc-tas que sean manifestaciones especficas y concretas del constructo.

    En tercer lugar, obtener datos empricos de las relaciones entre las puntua-ciones obtenidas al aplicar el test y las variables hipotetizadas (conductasobservables).

    Como se puede observar es necesario estudiar, por una parte, la relacin en-tre el constructo y las conductas observables representativas del constructo; porotra, la relacin entre el constructo y otros constructos y, finalmente, la relacinentre esas conductas tomadas como indicadores del constructo y las puntuacio-nes obtenidas por los sujetos en el test.

    Si se confirman las relaciones postuladas en las hiptesis planteadas, tal y

    como predice la teora, se puede considerar que tanto el constructo como e l test

    30 6

  • 7/30/2019 Tema-6 (51).pdf

    18/51

    1 PSICOMETRA

    4. VALIDACIN DE CONSTRUCTO

    Este tipo de validacin es, realmente, el que da significado a las puntuacionesde los tests, pues permite obtener evidencia de que las conductas observablesque se han elegido como indicadores del constructo (variable latente inobserva-ble) realmente lo son. Este tipo de estudios de validacin permite responder, e n-tre otras, a las siguientes preguntas: mide realmente el test la variable que in-tenta medir? y existe en realidad esa variable?

    Partiendo de que los tests son instrumentos que permiten describir de for ma

    indirecta, u operativizar, el grado en que los sujetos poseen alguna caracterst ica

    postulada a nivel terico denominada constructo, la validacin de constructoser el proceso que permitir obtener evidencia acerca de la capacidad del testpara medirle.

    Este tipo de estudios de validacin trata de garantizar cientficamente que lavariable que el test pretende medir es, efectivamente, una variable aceptab le,cuyo concepto ofrece suficiente consistencia lgica dentro de un sistema ter ico

    de la Psicologa y descansa en suficientes comprobaciones experimentales quelo verifican (Yela, 1984).

    Para llevar a cabo un estudio de validacin del constructo es necesario:

    En primer lugar, definir cuidadosamente el constructo de inters a partir delas teoras que existan acerca del mismo, y postular una serie de hiptesisacerca de la naturaleza y grado de relacin entre el constructo (variable la-tente inobservable ) y una serie de variables (conductas directamente ob-servables) y entre el constructo de inters y otros constructos.

    En segundo lugar, disear el instrumento de medida adecuado que habrde contar con elementos relevantes y representativos de aquellas conduc -tas que sean manifestaciones especficas y concretas del constructo.

    En tercer lugar, obtener datos empricos de las relaciones entre las puntua-ciones obtenidas al aplicar el test y las variables hipotetizadas (conductas

    observables ).Como se puede observar es necesario estudiar, por una parte, la relacin en -

    tre el constructo y las conductas observables representativas del constructo; porotra, la relacin entre el constructo y otros constructos y, finalmente, la relaci nentre esas conductas tomadas como indicadores del constructo y las puntuacio-nes obtenidas por los sujetos en el test.

    Si se confirman las relaciones postuladas en las hiptesis planteadas, ta l ycomo predice la teora, se puede considerar que tanto el constructo como el test

    3 0 6

  • 7/30/2019 Tema-6 (51).pdf

    19/51

    VALIDEZ DE LAS INFERENCIAS (1) 1

    son tiles, en caso contrario ser necesario hacer una nueva evaluacin del constructo y/o de las dems variables incluidas en el estudio, o bien estudiar ms detenidamente el marco terico.

    Los estudios de validacin de constructo estn centrados, fundamentalmente,en e l anlisis de la estructura del test, tanto interna como externa; es decir, en elestudio de las interrelaciones entre las puntuaciones obtenidas por los sujetos enlos distintos tems que conforman el test (estructura interna) y en las relacionesentre las puntuaciones obtenidas en el test y otras medidas del mismo constructoobtenidas en variables externas al mismo y consideradas relevantes (estructuraexterna).

    Entre los mtodos ms utilizados para llevar a cabo la validacin del constructo hemos de destacar el mtodo de la matriz multimtodo-multirrasgo y elanlisis factorial.

    4.1. La matriz multimtodo-multirrasgo

    Se trata de un mtodo propuesto por Campbell y Fiske (1959) y permite elanlisis de la estructura externa del test (o conjunto de tests). La lgica del procedimiento es la siguiente: Se intenta medir un mismo constructo mediante distintos procedimientos y distintos constructos mediante el mismo procedimientoy, una vez obtenidas todas las medidas, calcular las intercorrelaciones entre ellas.Si las correlaciones entre las medidas obtenidas del mismo constructo a travsde distintos procedimientos son altas, el constructo quedar validado y se dir

    que existe validez convergente. Por otra parte, si estas correlaciones son significativame nte ms altas que las obtenidas al correlacionar las medidas de distintos constructos con el mismo procedimiento se dir que existe validez discrimi-nante.

    Vamos a poner un ejemplo que clarifique el procedimiento propuesto porCampbell y Fiske.

    EJEMPLO:Supongamos que se quieren medir tres constructos: Razonamiento numrico

    (RN), Factor espacial (FE) y Razonamiento abstracto (RA) y se han elaborado unaserie de pruebas con distinto formato: Verdadero-falso (V-F), Eleccin mltiple(E-M ) y Frases incompletas (F-1) para medir cada uno de ellos. Tenemos, por lotanto, tres constructos diferentes y tres procedimientos distintos para llevar acabo la m ~ d i c i n .

    307

  • 7/30/2019 Tema-6 (51).pdf

    20/51

    1 PSICOMETRA

    Para analizar la validez convergente y discriminante, se selecciona una mues -tra de sujetos a los que se aplican todas las pruebas, obtenindose las puntua -ciones de los mismos en cada constructo y mediante cada uno de los procedi -

    mientos ; a partir de esas medidas se calculan todas las intercorrelacionesposibles, que pueden ordenarse de una forma similar a la matriz que se presen ta

    a continuacin y facilitar la explicacin de los coeficientes de correlacin ob-tenidos.

    Los valores que se encuentran entre parntesis en la diagonal de la matriz, re -presentan los distintos coeficientes de fiabilidad . Se trata de la correlacin entrelas puntuaciones obtenidas al medir el mismo constructo mediante el mismo

    procedimiento (pueden ser dos tests paralelos, por ejemplo).Los valores que aparecen en cursiva y subrayados son las correlaciones ob-

    tenid a s al medir el mismo constructo por distintos procedimientos, la cuanta deestos valores ofrece informacin acerca de la validez convergente. Finalmente,los valores que aparecen en negrilla corresponden a las correlaciones obtenidasal medir distintos constructos con los mismos procedimientos. Para ver si ex isteeviden c ia de validez discriminante es necesario comparar los valores co rres-pondientes a los ndices de validez convergente (cursiva y subrayados) con losque aparecen en negrilla; dado que realmente los primeros son bastante ms al-tos que los segundos podemos decir que, en efecto, hay evidencia de validez dis-c riminante.

    Tabla 6 .1

    V-F E-M F-1

    RN FE RA RN FE RA RN FE RA

    V-F

    RN (.95)FE .2 0 (.90)RA .3 0 .2 8 (.92)

    E-M

    RN .9 0 .31 .4 0 (.93)FE .26 .87 .3 3 .3 7 (.94)RA .43 .20 .84 .2 6 .3 7 (.88)

    F-1

    RN .7 9 .27 .3 1 .77 .15 .2 3 (.89)FE .11 .6 8 .22 .24 .67 .3 1 .19 (.93)RA .1 9 .1 8 .50 .19 .3 3 .72 .4 1 .3 0 (.64)

  • 7/30/2019 Tema-6 (51).pdf

    21/51

    VALIDEZ DE LAS INFERENCIAS (1) 1

    Uno de los problemas que plantea el procedimiento de la matriz multirrasgomultimtodo, es que no existe un criterio estadstico que permita tomar decisiones acerca de si un test tiene realmente validez convergente y discriminante, lo

    nico que se puede decir es que parece haber evidencia de su existencia o desu ausencia. Actualmente, para poder obtener mayor informacin se est utilizando el anlisis factorial confirmatorio.

    4.2. El Anlisis Factorial

    Es quizs la tcnica ms utilizada, tanto en su vertiente exploratoria comoconfirmatoria, para poner a prueba las hiptesis planteadas acerca de la estructura interna del constructo y de las relaciones del mismo con otras variables. Novamos a hacer aqu una exposicin exhaustiva de la tcnica puesto que el temarebasa los objetivos de este curso; sin embargo, s queremos que nuestros alumnos entiendan su utilidad para el estudio de la validacin de constructo.

    Las medidas que proporcionan los tests pueden hacer referencia a variables

    unidimensionales o multidimensionales y, precisamente, el anlisis factorial nosva a permitir descubrir la estructura que subyace a las puntuaciones obtenidaspor los sujetos en los distintos tems del test o en un conjunto de tests.

    Cuando el anlisis factorial se uti liza desde el enfoque exploratorio, no se es-tablecen hiptesis previas acerca del nmero de dimensiones que subyacen alconstructo, es la propia tcnica la que nos aportar esta informacin. Desde elenfoque confirmatorio, se establecen a priori hiptesis acerca de la estructura

    subyacente y del nmero de dimensiones existentes, y mediante las tcnicasoportunas se comprueba si se pueden aceptar las hiptesis propuestas.

    Nota: Una exposicin clara del anlisis factorial puede encontrarse en Harman(1980), Ferrando (1993) y Martnez-Arias (1995) y Martnez Arias, Hernndez y Her-nndez (2006).

    Bajo el epgrafe Anlisis Factorial (AF), se incluyen una serie de tcnicas es-tadsticas que tienen por objetivo representar y exp licar un conjunto de variablesobservables (tems de un test, conjunto de tests, escalas, etc,) mediante un menor nmero de variables latentes o inobservables llamadas factores. Cada factorpodra ser considerado como un constructo (variable latente) que vendra definido por las variables observables que lo conformaran, estas variables son lasque van a permitir dar una interpretacin psicolgica al constructo (factor).

    309

  • 7/30/2019 Tema-6 (51).pdf

    22/51

    1 PSICO METRA

    Pa ra llevar a cabo un anlisis factorial se parte de un conjunto den medidastomadas a la misma muestra de sujetos en un conjunto de variables observables(supongamos que son las puntuaciones obtenidas por una muestra de sujetos enlos n tems de un test) y , a partir de ellas, se obtiene una matriz (n x n) con las

    intercorrelaciones entre todas ellas. Es a partir de esta matriz de correlaciones,cuando aplicando alguna de las tcnicas estadsticas incluidas bajo el epgrafede Anlisis Factorial, se intenta identif icar un nmero ms reducido de variableslatentes llamadas factores . Cuando en un mismo factor se agrupan mltiples indicadores del constructo, se obtiene evidencia de la validez convergente.Cuando en el anlisis se han obtenido medidas de otros constructos y stas aparecen agrupadas en distintos factores, se obtiene evidencia de la validez discri-minante .

    El ejemplo siguiente puede ayudarnos a comprender lo que queremos decir,se trata de un ejemplo ficticio y, por lo tanto, los resultados no son reales.

    EJEMPLO:

    Supongamos que a la matriz de correlaciones obtenida en el ejemplo ante

    rior se la hubiera aplicado alguna de las tcnicas incluidas bajo la denominacinde Anlisis Factorial y que la estructura factorial encontrada hubiera sido la si-guiente:

    Variables Factor 1 Factor 2

    RN (V-F) .8 6

    RN (E-M) .7 5

    RN (F-1) .9 2FE (V-F) . 8 2

    FE (E-M) .74

    FE (F-1) .6 3

    RA (V-F) . 42 .3 3

    RA (E-M) .5 1

    RA (F-1) .5 4

    Cmo se interpr e tan los resultados obtenidos?Se puede observar que despus de la factorizacin se han obtenido 2 facto

    re s. En el primero de ellos se agrupan las medidas correspondientes a las variables utilizadas como indicadores del constructo razonamiento numrico (RN)junto a dos correspondientes al constructo razonamiento abstracto (RA). El se-

    gundo factor est definido por todas las medidas correspondientes a las variab les

    utilizadas como indicadores del constructo razonamiento espacial (RE) junto a

    31 0

  • 7/30/2019 Tema-6 (51).pdf

    23/51

    VALIDEZ DE LAS INFERENCIAS (1) 1

    otras dos correspondientes al razonamiento abstracto. Estos resultados parecenindicar que en realidad estamos ante dos constructos bien definidos; respecto altercer constructo hipotetizado, sera necesario hacer una nueva evaluacin delmismo, estudiar ms detenidamente su marco terico, o bien revisar los tests utilizados para su medicin.

    5. VALIDACIN REFERIDA AL CRITERIO

    Este tipo de estudios de validacin permiten obtener evidencia acerca del grado

    en que las puntuaciones obtenidas en el test pueden utilizarse eficazmente para ha-cer inferencias acerca del comportamiento real de los sujetos en un criterio que nopuede ser medido directamente, bien por no estar disponible en el momento dela investigacin, bien porque su medida pueda resultar difcil o costosa y, por lotanto, sea aconsejable obtener informacin del mismo por otros procedimientos.

    En los estudios de validacin referida al criterio el objetivo principal es evaluar la hiptesis de relacin entre test y criterio; la forma de analizar esta rela

    cin depende de muchos factores entre ellos la complejidad del criterio y la dificultad para definirle claramente. Para Cracker y Algina (1986) se suelen utilizardos tipos de ndices o medidas para describir la capacidad de un test o conjuntode tests para predecir un criterio: medidas correlaciona/es (coeficiente de validez,de determinacin, de alienacin, de valor predictivo, etc.) y las medidas de erroren la prediccin (errores de estimacin).

    Este tipo de estudios se suelen realizar desde dos perspectivas diferentes de

    pendiendo del uso que se vaya a dar al test y del tipo de inferencias que se vayan a hacer. Cuando los tests se van a u i 1 izar para la seleccin, clasificacin ocolocacin de personas en determinados programas de formacin o puestos detrabajo, lo interesante es analizar la validez predictiva de los tests; es decir, su capacidad para pronosticar, a partir de las puntuaciones obtenidas por los sujetos,su posterior rendimiento en el programa de formacin, en el trabajo, en un cursode formacin, etc. Si, por el contrario, se trata de utilizar los tests para hacer un

    diagnstico, es ms adecuado llevar a cabo un estudio de la validez concurrente.Es necesario recordar que cuando se trata de obtener evidencia acerca de la

    validez predictiva de un test, la medida del criterio se obtiene con posterioridada la del test; mientras que en los estudios acerca de la validez concurrente lamedida del criterio se obtiene al mismo tiempo que la del test.

    A diferencia de lo que ocurra en el proceso de validacin de constructo, lavalidacin referida al criterio es un proceso en el que la teora no juega el papel

    311

  • 7/30/2019 Tema-6 (51).pdf

    24/51

    1 PSICOMETRA

    princip al, se acenta el inters en el aspecto emprico del proceso ms que enel terico. No obstante, un anlisis cuidadoso y una conceptua lizacin te ricadel criterio facilitan la tarea de aislar las dimensiones y subdimensiones que lo

    conforman, de manera que cada una de ellas pueda ser predicha por diferentesvariables (validacin de constructo del criterio). En otras palabras, como seala nBrogden y Taylor (1950), un estudio de validacin de constructo del criter io ay u-dar a determinar las dimensiones a medir, cmo se medir cada una de ellas y,si se desea, cmo combinarlas.

    Para disear un estudio de validacin referida al criterio es necesario segu iruna serie de pasos:

    1. Definir claramente el criterio que se quiere medir.

    2. Identificar el indicador o indicadores que se van a utilizar para obtener lamedida del criterio.

    3. Seleccionar una muestra de sujetos que sea representativa de la poblacinen la que posteriormente se va a u i 1 zar el test.

    4. Aplicar el test a la muestra de sujetos y obtener una puntuacin para cada

    uno de ellos.5. Obtener una medida de cada sujeto en el criterio bien en el mismo mo-

    mento de la aplicacin del test (validacin concu rrente) o bien al cabo deun cierto tiempo (validacin predictiva).

    6. Determinar el grado de relacin entre las puntuaciones obtenidas por lossujetos en el test y la medida del criterio.

    5.1. El problema de la seleccin y medicin del criterio

    Ya se ha comentado anteriormente que cuando los tests se util izan para la se-leccin, clasificacin y colocacin de las personas en determinados puestos detrabajo o programas especficos, los estudios de validacin tienen como objetivo

    estudiar la efectividad con la que se puede pronosticar, a partir de las puntua-ciones que hayan obtenido los sujetos en los tests, la eficiencia o xito alcanzadoen el puesto de trabajo o en el programa al que hayan sido admitidos. Se trata,por lo tanto, de utilizar los tests para seleccionar aquellas personas que vayan atener una mayor probabilidad de realizar el trabajo, o aprovechar el programacon xito.

    Ahora bien, en este punto surge el problema de analizar qu es aquello que

    constituye el xito. Este concepto es algo muy complejo (un constructo terico)31 2

  • 7/30/2019 Tema-6 (51).pdf

    25/51

    VALIDEZ DE LAS INFERENCIAS (1) 1

    que tiene muchas facetas y, por lo tanto, es muy difcil de definir de forma pre-cisa, y ms difcil todava obtener una medida adecuada y completa del mismo.Recordemos que en el ejemplo de la seleccin de vendedores, se utiliz comoindicador del criterio de xito e l nmero de ventas realizadas en una semana, setrata de un indicador de tipo prctico, fcil de obtener, y probablemente de caraal cliente es un indicador vlido. Supongamos ahora que hay que cubrir unaplaza de profesor de Psicometra, en este caso sera ms complejo determinarqu es lo que constituira el xito como profesor de Psicometra: su conoci-miento de la asignatura?, su capacidad de empata con los alumnos?, la cali-dad de sus publicaciones?, sus proyectos de investigacin?, su habilidad parala organizacin de las tareas propias de la asignatura?, etc. ,cada una de estas va-riables podran ser consideradas indicadores del criterio de xito o capacidad delprofesor, pero son ms difciles de operativizar que el nmero de ventas en unasemana. Ahora bien, tanto en un caso como en otro hay que tener en cuentaque todos los indicadores son parciales y no ofrecen una comprensin completadel criterio. Entonces, cmo decidir cual es el indicador que se debe elegir?

    Thorndike y Hagen (1989), consideran que los indicadores deben cumpliruna serie de requisitos: a) que sean relevantes, b) que estn libres de sesgos, e)que sean fiables y d) que sean accesibles.

    Se considera que un indicador es relevante en la medida en que se corres-ponde con el criterio. No hay evidencia emprica que nos permita decir si un in-dicador es relevante o no. Para apreciar la relevancia es necesario tener en cuentaconsideraciones racionales y apoyarse en los juicios de expertos. La presencia deindicadores irrelevantes puede influir negativamente en las predicciones que se

    hagan y en las decisiones que se tomen. Por ejemplo: cuando un profesor estevaluando un examen de matemticas de un nio, en el juicio que emita acercade su capacidad pueden estar influyendo otros factores como la forma de pre-sentacin, o las faltas de ortografa. Estos factores pueden ser irrelevantes para lamedida de la capacidad matemtica del nio , y su influencia puede atenuar laimportancia del indicador seleccionado como relevante de aquello que se quierepredecir.

    Un segundo requisito deseable es que los indicadores estn libres de sesgos;es decir, que las medidas del criterio representen la verdadera competencia delos sujetos y no estn determinadas por factores que acten de manera diferen-cial en determinados grupos. Supongamos que se quiere evaluar la competen-cia de las secretarias de una empresa y se pide a sus jefes directos que las eva-len. El juicio de los jefes ser un indicador libre de sesgos si la evaluacin quehagan acerca de la competencia de sus secretarias no depende ms que de su

    competencia profesional y no de Otros factores.313

  • 7/30/2019 Tema-6 (51).pdf

    26/51

    1 PSICOMETRA

    El tercer requisito es que sean fiables, las medidas del criterio que proporcionen los indicadores han de ser estables. Una medida de xito en un determinado trabajo no puede variar de un da para otro. Una persona no puede ser

    considerada competente parael

    trabajo que realizaun

    da yal

    da siguienteser

    considerado un incompetente. Si esto ocurriera; es decir, si la medida del criterio no fuera fiable, sera imposible encontrar un test capaz de pronosticarla.

    Finalmente, los indicadores deben ser accesibles. A la hora de seleccionar losindicadores se suelen presentar problemas de distinta ndole. Pueden ser problemas econmicos, problemas debidos a que hay que esperar mucho tiempopara poder obtener la medida del criterio, etc. Todas estas limitaciones hay que

    tenerlas en cuenta a la hora de seleccionar los indicadores y tratar, en la medidade lo posible, de seleccionar aquellos que sean ms accesibles siempre y cuandocumplan con los otros requisitos.

    5.2. Procedimientos estadsticos utilizados en la validacinreferida al criterio

    Para la exposicin de este apartado nos basaremos en la realizada porMartnez - Arias (1995) y Martnez - Arias, Hernndez y Hernndez (2006).Cuando se quiere obtener un ndice numrico que evidencie la validez de un testen relacin con un criterio se pueden utilizar numerosos procedimientos, aunquelos ms utilizados estn basados en correlaciones. No obstante, la utilizacin deuna tcnica u otra depende del diseo de recogida de datos para la validacin y

    del nmero de variables implicadas: a) un nico test predictor y un slo indicador del criterio, b) varios predictores y un solo indicador del criterio, e) varios pre-dictores cuantitativos y varios indicadores del criterio cuantitativos y d) procedimientos basados en la teora de la decisin: validez y utilidad en las decisiones.

    a) Un nico test predictor y un solo indicador del criterio

    Los procedimientos ms utilizados son la correlacin y el modelo de regre-

    sin lineal simple. Segn sea la naturaleza de las variables implicadas se utilizarun tipo de correlacin u otro (correlacin de Pearson, biserial, biserial puntual,coeficiente phi, tetracrica, etc.).

    b) Varios predictores y un slo indicador del criterio

    Hay veces que se utiliza una batera de tests para predecir un nico criterio,en este caso los procedimientos que se utilizan son la correlacin y la regresin

    314

  • 7/30/2019 Tema-6 (51).pdf

    27/51

    VALIDEZ DE LAS INFERENCIAS (1) 1

    lineal mltiple. Si el criterio es cualitativo, se suele utilizar otra tcnica multivariante denominada anlisis discriminante y cuando se utilizan criterios dicotmicos la regresin logstica.

    e) Varios predictores cuantitativos y varios indicadores del criterio cuantitativos

    En este caso las tcnicas ms adecuadas son la regresin lineal multivariantey la correlacin cannica. Sin embargo, rara vez se utilizan a la hora de llevar acabo un estudio de validacin debido a la dificultad para interpretar los resultados que proporcionan.

    d) Procedimientos basados en la teorade

    la decisin: validez y utilidad en lasdecisiones

    Los procedimientos propuestos se basan en diferentes mtodos para optimi-zar las decisiones realizadas con el test: tcnicas maximin y minimax y especialmente la Teora de la Utilidad Multiatributo.

    No es posible la exposicin de todas las tcnicas por exceder a los objetivosde estas unidades didcticas. Expondremos aquellas que, a nuestro juicio, son lasms importantes para que nuestros alumnos comprendan la forma de llevar acabo un estudio de validacin .

    Nota: El lector interesado en las tcnicas de anlisis multivariante puede consultar lossiguientes textos en castellano: Bisquerra (1989), Cuadras (1981) y Snchez-Carrin(1984). Una exposicin introductoria a la Teora de la decisin se puede encontrar enMacia, Barbero, Prez-Liantada y Vi la (1990).

    -

    6. VALIDACIN CON UN NICO PREDICTOR Y UN SOLOINDICADOR DEL CRITERIO

    Ya hemos comentado anteriormente que la correlacin y la regresin linealsimple son, en este caso, las tcnicas ms utilizadas para obtener evidenciaacerca del grado en que las puntuaciones obtenidas por los sujetos en el testpueden ser utilizadas para predecir las que obtendran en el criterio. La correlacin, porque nos permitir conocer el grado de asociacin entre el test y el criterio, y el modelo de regresin, porque nos permitir pronosticar, a partir de J;:_spuntuaciones obtenidas en el predictor, las puntuaciones en el criterio.

    3 1 5

    1

  • 7/30/2019 Tema-6 (51).pdf

    28/51

    1 PSICOMETRA

    Dado que nuestros alumnos ya han adquirido los conocimientos bsicosacerca de este modelo , nosotros simplemente vamos a exponer su aplicacinpara estudiar las relaciones entre el test y el criterio.

    6.1. El coeficiente de validez

    Se define como la correlacin entre las puntuaciones obtenidas por los suje-tos en el test predictor y las obtenidas en el criterio. A partir de esta definicinse pon e de manifiesto la importancia que tiene el indicador elegido para obte

    ner la medida del criterio ya que, en ltima instancia, a partir de las puntuaciones obtenidas por los sujetos en el test se podrn obtener tantos coeficientes devalidez como indicadores del criterio se elijan para su validacin, y un test puedeser muy vlido para predecir un criterio cuando se utiliza un determinado indicador y obtener coeficientes de validez prcticamente nulos con respecto a otros.

    El tipo de correlacin utilizada para el clculo del coeficiente de validez de-pender de la naturaleza de las variables implicadas, en el cuadro 6.1 se puede

    observar cul es el ndice ms adecuado en cada caso .

    Cuadro 6 .1

    INDICADORCRITERIO Continua Docotomizada Docotmica

    Continua Pearson Biserial Biserial puntual

    Docotomizada Biserial Tetracrica $biserial

    Docotmica Biserial puntual $biserial $

    Si designamos por X las puntuaciones del test y por Y las del indicador del criterio, la frmula del coeficiente de validez ser:

    -Correlacin de Pear son :

    Cuando tanto el test (X) como el criterio (Y) son dos variables cuantitativascontinuas :

    [6.2]

    31 6

  • 7/30/2019 Tema-6 (51).pdf

    29/51

    VALIDEZ DE LAS INFE R ENCIAS (1) 1

    - Correlacin biserial:

    Siendo X la variable cuantitativa e Y la variable dicotomizada:

    donde:

    XP =media en X de los que obtuvieron un 1 en Y.

    Xq =media en X de los que obtuvieron un O en Y.

    Sx = desviacin tpica en X de todas las personas de la muestra .

    [6.3]

    p y q = proporcin de personas que obtuvieron un 1 y un O respectivamente en Y.

    y = ordenada que en una distribucin normal corresponde a la abscisa quedivide el rea total en dos partes iguales a p y q.

    X= media en X de todas las personas de la muestra.

    - Correlacin biserial puntual:

    Siendo X la variable cuantitativa e Y la dicotmica:

    [6.4]

    Los smbolos incluidos en esta frmula tienen el mismo significado que los dela frmula anterior.

    - Coeficiente cp:

    Las dos variables son dicotmicas

    = c b - a d~ ( a +b) (e+ d) (a+ e) (b + d)

    [6.5]

    donde:

    a, b, e y d representan el nmero de personas de la muestra cuyas puntuaciones en X y en Y son respectivamente (0, 1 , (1, 1 , (0,0), (1,0).

    3 17

  • 7/30/2019 Tema-6 (51).pdf

    30/51

    1 PSICOMETRA

    Para una mejor comprensin se puede construir una tabla de doble entrada:

    X

    o 1

    1 a by

    o e d

    - Coeficiente ifJbiserial

    La variable X se ha dicotomizado y la variable Y es dicotmica

    b e - a d .jpqbiserial = ~ ( a +b )(e+ d) o - y-

    [6.6]

    donde:

    a, b, e y d tienen el mismo significado que en la frmula anterior y p, q e y,el mismo significado que en la correlacin biserial. Se trata de un hbrido entrelos dos coeficientes.

    - Correlacin tetracriea

    Tanto la variable X como la Y son variables continuas que se han dicotomi

    zado artificialmente.El clculo de la correlacin tetracrica requiere la solucin iterativa de una

    serie de potencias que incluye las potencias der. Su clculo es muy laborioso,pero se han ofrecido algunas aproximaciones muy sencillas, la ms utilizada es

    calcular la razn befad y consultar la tabla correspondiente que se ofrece al final del libro. Si la razn es menor que la unidad se debe usar la recproca ad!bcpara consultar la tabla, en este caso la correlacin ser negativa. El significadode a, b, e y des el mismo que en las correlaciones anteriores (ver tabla de dobleentrada anterior.)

    Sea cual sea el coeficiente uti lizado para calcular el coeficiente de validez,los valores que puede alcanzar van a estar incluidos en el intervalo -1 y 1.

    318

  • 7/30/2019 Tema-6 (51).pdf

    31/51

    VALIDEZ DE LAS INFERENCIAS (1) 1

    6.2. El modelo de regresin lineal

    Una vez conocido el grado de asociacin entre el test y el criterio se puede

    utilizar el modelo de regresin para hacer pronsticos.En los temas correspondientes al estudio de la fiabilidad se explic la utiliza-

    cin del modelo de regresin lineal para hacer estimaciones acerca de la pun-tuacin verdadera de los sujetos a partir de su puntuacin emprica. Ahora vamosa ver de qu forma se va a utilizar el modelo para, a partir de las puntuacionesobtenidas por los sujetos en el test, hacer estimaciones acerca de su puntuacinen el criterio.

    Mediante el modelo de regresin se intenta buscar una ecuacin lineal quehaga mnimos los errores de pronstico. Esta ecuacin pondr de manifiesto la re-lacin de dependencia lineal entre el test y el criterio y tomar la siguiente forma:

    y '= a + bX [6.7]

    donde:a = ordenada en el origen o trmino constante, que representa el valor pro-

    nosticado en el criterio (Y') cuando en el test (X) se obtiene un valor cero.

    b = pendiente de la recta de regresin, que representa el cambio en los valo-res del criterio Y por cada cambio unitario en el test X.

    Nota: La exposicin detallada del modelo la pueden encontrar nuestros alumnos enlas unidades didcticas correspondientes a la asignatura de Introduccin al Anlisisde Datos y en las de Diseos de Investigacin.

    - - = .... 7 . . ~ ~

    6.2. 1. Ecuaciones de regresin

    El valor de la pendiente se puede obtener en funcin del coeficiente de vali-dez y de las desviaciones tpicas de las puntuaciones obtenidas por los sujetosen el test y en el criterio:

    [6.8]

    319

  • 7/30/2019 Tema-6 (51).pdf

    32/51

    1 PSICOMETRA

    Una vez calculado el valor de la pendiente se calcula el de la ordenada enel origen:

    a = Y - b X [6.9]

    La expresin anterior pone de manifiesto que la recta de regresin debe pa-sar por el punto (X', Y).

    Una vez obtenidos los valores de a y de b se puede obtener la ecuacin dela recta de regresin. Esta ecuacin puede venir dada en tres tipos de puntua

    ciones: directas , diferenciales y tpicas:

    Ecuacin en puntuaciones directas: Y'= (y-rxy Sy xJ+rxy Sy X=Sx Sx

    S ( - ) -= rxy ___r_ X - X + YSx li

    Ecuacin en puntuaciones dife renciales: y'= rxy Sy (X- x)Sx

    Ecuacin en puntuaciones tpicas: Z ~ .= rxyZx

    La diferencia entre la ecuacin de regresin en puntuaciones directas y diferenciales es que en estas ltimas la ordenada en el origen es cero y, por lo tanto,la ecuacin pasa por el origen de coordenadas; al tener la misma pendiente setrata de dos rectas paralelas. Con respecto a la ecuacin de regresin en puntuaciones tpicas, al igual que la de puntuaciones diferenciales pasa por el origen de coordenadas y, teniendo en cuenta que en la escala de puntuaciones t-picas la desviacin tpica es la unidad, la pendiente de la recta de regresin serel coeficiente de validez.

    Hasta aqu , hemos utilizado una muestra de sujetos a la que se les ha aplicadoel test cuya capacidad predictiva respecto al criterio se quiere validar; a estosmismos sujetos se les ha calificado en el criterio y, con todos esos datos, se hanconstruido las ecuaciones de regresin. Pues bien, la verdadera utilidad de esasecuaciones no est en pronosticar las puntuaciones de estos sujetos en el criterio, no tendra mucho sentido ya que conocemos las puntuaciones que real

    mente han obtenido, la verdadera utilidad est en la posibilidad de pronosticar3 2 0

  • 7/30/2019 Tema-6 (51).pdf

    33/51

  • 7/30/2019 Tema-6 (51).pdf

    34/51

    1 PSICOMETRA

    [6 .11 J

    Cuando se utilizan las ecuaciones de regresin para hacer los pronsticos secumplen una serie de propiedades fundamentales:

    La media de las puntuaciones obtenidas por los sujetos en el criterio esigual a la media de las puntuaciones pronosticadas.

    La suma de todos los errores de estimacin es cero, lo que implica que lamedia de los errores cometidos sea cero.

    La varianza de las puntuaciones obtenidas por los sujetos en el criterio(variable dependiente Y) es igual a la varianza de las puntuaciones pro-nosticadas ms la varianza de los residuos o varianza error.

    Y = Y '

    l : Y- Y ' = O

    S ~ =S ~. + S ~ x

    [6.12]

    6.2.3. Intervalos de confianza

    Debido a los errores de estimacin que se cometen al hacer los pronsticos ,ms que estimaciones puntuales es conveniente hacerlas por intervalos ; paraello, asumiendo que la distribucin de dichos errores se ajusta a una distribucinnormal cuya desviacin tpica viene dada por el error tpico de estimacin , se es-tablece un intervalo confidencial en torno a la puntuacin pronosticada. Los pa-sos a seguir son los siguientes:

    32 2

    Determinar un nivel de confianza y buscar su puntuacin tpica asociad a.

    Calcular el error tpico de estimacin.

    Calcular el error mximo.

    Aplicar la ecuacin de regresin correspondiente y obtener la puntuacinpronosticada.

    Establecer el intervalo de confianza.

  • 7/30/2019 Tema-6 (51).pdf

    35/51

    VALIDEZ DE LAS INFERENCIAS (1) 1

    6.3. Interpretacin de la evidencia obtenida acerca de lacapacidad predictora del test

    Ya hemos comentado que la varianza de las puntuaciones obtenidas por lossujetos en el criter io (varianza de la variable dependiente) se puede expresarcomo la suma de la varianza de las puntuaciones pronosticadas a partir de la variable prerlictora y la varianza de los residuos o varianza error.

    1 S ~= ~, + ~x 1 [6.13]

    A partir de esta ecuacin se puede averig uar la proporcin de la varianza delas puntuaciones de los sujetos en el criterio que se puede explicar a partir dela varianza de las puntuaciones en el predictor (varianza de las puntuacionespronosticadas) y qu proporcin no se puede explicar y corresponde a los residuos.

    Si dividimos todos los trminos de la ecuacin por la varianza de las pun

    tuaciones del crite rio tendremos:

    [6.14]

    Ahora bien, en el segundo miembro de la ecuacin, el primer trmino representa la proporcin de la varianza del criterio que se puede pronosticar o predecir a partir del test o variable predictora y es igual al coeficiente de validez alcuadrado. Por lo tanto la expresin anterior se puede poner tambin como:

    [6 .15]

    y, a partir de ah, deducir otra forma de expresin de la varianza error y del errortpico de estimacin:

    S ~x = S~ (1 - r}y)[6.16]

    Sy x = Sy~ 1- r}y

    323

  • 7/30/2019 Tema-6 (51).pdf

    36/51

    1 PSICOMETRA

    Cuando la escala que se uti liza es la de puntuaciones tpicas, dado que ladesviacin tpica es la unidad, la frmula del error tpico de estimacin es :

    [6.17]

    Una vez hecho este pequeo repaso , vamos a interpretar los resultados ob-tenidos en funcin de tres coeficientes :

    6.3.1. Coeficientede

    determinacin

    C.D.= r}y [6. 18]

    Equivale al coeficiente de validez al cuadrado y representa la proporcin (oel porcentaje) de la varianza de las puntuaciones de los sujetos en el criterio (va-

    riable dependiente) que se puede pronosticar a partir del test (variable predictorao independiente). Tambin se define como la varianza comn o asociada entreel test y el criterio .

    6.3.2. Coeficiente de alienacin

    C.A. = K = Sy x = ~ 1- r}YS

    [6.19]

    Aunque la frmula es equivalente a la del error tpico de estimacin en puntuaciones tpicas, de cara a la interpretacin de este coeficiente conviene sab erque, en realidad, indica la proporcin que representa el error tpico de estim acin respecto a la desviacin tpica de las puntuaciones en el criterio. En la medida en que el error tpico sea ms pequeo que la desviacin tpica del criterioel coeficiente K ser menor. El valor del coeficiente K oscila entre O y 1, ser m-ximo cuando el coeficiente de validez sea O y ser mnimo cuando el coeficient ede validez valga 1. El coeficiente de alienacin al cuadrada es el complem e nta-rio del coeficiente de determinacin y representa, por lo t ~ n t o ,la proporci n (oel porcentaje si se multiplica por 1 00) de la varianza de las puntuaciones de lossujetos en el criterio que no se puede predecir a partir del test, es la proporcin

    324

  • 7/30/2019 Tema-6 (51).pdf

    37/51

    VALIDEZ DE LAS IN FERENCIAS (1) 1

    de varianza error que hay en la varianza de las puntuaciones de los sujetos enel criterio.

    El coeficiente de alienacin representa la inseguridad, o el azar, que afecta a

    los pronsticos.

    6.3.3. Coeficiente de valor predictivo

    C.V.P = 1 - ~ 1 -r }y [6.20]

    Es el complementario del coeficiente de alienacin y es otra forma de expresar la capacidad del test para pronosticar el criterio ya que representa la proporcin (o el porcentaje si se multiplica por cien) de seguridad en los pronsticos .

    6.3.4 . Ejemplo

    Supongamos que se quiere llevar a cabo un estudio de validacin relativa a lcriterio de un test de aptitud mecnica (X); para ello, se aplica a una muestra desujetos representativa de la poblacin en la que se va a utilizar el test. Estos sujetos son evaluados posteriormente por sus supervisores, en una escala de 0-1 O,utilizando como indicador de su capacidad mecnica el tiempo, medido en ho

    ras , que tarda cada uno en reparar un coche (Y) con la misma avera. Los resultados son los que aparecen en la tabla adjunta. (Tngase en cuenta que se tratade un ejemplo):

    X y )(2 y.z XY Y' (Y-Y') (Y-Y'?

    12 9 144 81 108 7,89 1,11 1,23

    14 7 196 49 98 8,68 -1 ,68 2,82

    15 10 225 100 150 9,08 0,92 0 ,85

    7 8 49 64 56 5,91 2,09 4 ,37

    9 5 81 25 45 6,71 -1 ,71 2,92

    4 4 16 16 16 4,73 -0 ,73 0,53

    61 43 71 1 335 473 43 o 12 ,72 Sumas

    325

  • 7/30/2019 Tema-6 (51).pdf

    38/51

    1 PSICOMETRA

    Tanto el test como la medida del criterio son variables cuantitativas, por lotanto, para calcular el coeficiente de validez el ndice ms adecuado es la co-rrelacin producto-momento de Pearson.

    - El coeficiente de validez:

    r _ 6 473 - 43 61 _ 2.838-2 .623 = 215 =O73

    XY - ~ [ 6 7 1 1 - 6 12 ] [ 6 3 3 5 - 4 32 ] - -1545161 296,221

    Dado que el valor mximo del coeficiente de validez es la unidad, se puedededucir que el test tiene una buena capacidad predictiva. Ms adelante se pro-fundizar en la interpretacin de los resultados obtenidos.

    - Las ecuaciones de regr esin:

    Una vez obtenido el coeficiente de validez vamos a calcular las ecuacionesde regresin en puntuaciones directas, diferenciales y tpicas teniendo en cuentalo que se ha ido explicando anteriormente y los conocimientos que han de te-ner nuestros alumnos. Una vez construidas esas ecuaciones de regresin se pue-den utilizar, posteriormente, para predecir las puntuaciones que obtendrn en elcrite rio otros sujetos, de las mismas caractersticas que los de la poblacin sobrela que se construyeron, a partir de sus puntuaciones en el test. Para ello, bastasustituir el valor de X en la ecuacin por las puntuaciones obtenidas por los su-jetos. El resultado se recoge en la columna 6 de la tabla anterior. Comprobarque la media de las puntuaciones pronosticadas es igual que la de las puntua

    ciones obtenidas por los sujetos en el criterio.

    En la columna 7 aparecen recogidos los errores de estimacin cometidos concada uno de los sujetos al hacer los pronsticos. Comprobar que la suma de estos errores es igual a cero. Hay que recordar que si el coeficiente de validez hu-biera sido la unidad, los errores de prediccin o de estimacin hubieran sidonulos.

    Nota: Como ejercicio, los a lumnos pueden ca lcular las puntuaciones pronosticadasen puntuaciones diferenciales y tpicas.

    3 2 6

  • 7/30/2019 Tema-6 (51).pdf

    39/51

    VALIDEZ DE LAS INFERENCIAS (1) 1

    Ecuaciones de regresin:

    - ~ X 61X = -L . . , ; -= -= 1 0 17N 6 '

    - ~ y 43Y = - L . . ; - = - = 7 1 7

    N 6 '

    s; = I x2

    _ x2 = 711 _ , o , , 7 2 = , , 8 , 5 _ , o3, 43 = 15, o7N 6

    5 2 = Ly 2 -Y 2 = 335 - 7 1 7 2 =55 8 4 - 5 1 4 1 = 4 43y N 6 ' ' ' '

    Puntuaciones directas: Y= a+ bX =>Y= 3,15 +O, 395X

    b = r Sy =O 732

    '10

    =O 395XY S ' 3 88 '

    X '

    a= Y- bX = 7,17 - O, 395 1 O, 17 = 3,15Puntuaciones diferenciales: y= bx =>y= O, 395x

    Puntuaciones tpicas: Zy = rxyZx = 0,73Zx

    - Error tpico de estimacin

    Sx = 3,88

    Sy = 2,1 O

    Vamos a comprobar cmo la varianza de las puntuaciones de los sujetos enel criterio es igual a la varianza de las puntuaciones pronosticadas ms la varianza de los errores, para ello basta calcular las tres varianzas.

    s; = 4,43

    52 , = I Y ' 2 -Y'2 = 322,36 -5 1 41 = 2 31Y N

    6 ' '~ ( Y Y')2

    5 2 = _L.,; - o = 2 12YX N '

    s; = s; x + s;. => 4 , 43 = 2,12 + 2, 31

    32 7

  • 7/30/2019 Tema-6 (51).pdf

    40/51

    1 PSICOMETRA

    Hemos comentado que a la desviacin tpica de los errores de estimacin sela denomina error tpico de estimacin, su valor en nuestro ejemplo ser:

    Syx = f f , = f[12 = 1,46

    - Intervalos confidenciales

    Ya tenemos todos los datos para poder hacer una estimacin acerca de lapuntuacin que se le pronosticara a un sujeto en el criterio a partir de su puntuacin en el test.

    Supongamos que queremos saber qu puntuacin le correspondera en elcriterio a un sujeto que en el test hubiera obtenido una puntuacin X= 13, y va-mos a hacer una estimacin puntual y por intervalos:

    Nivel de confianza 95% ~ Zc = 1 ,96

    El error tpico de estimacin ya estaba calculado: Sy.x = 1,46

    Error mximo= Zc Sy.x = 1,96 1,46 = 2,86

    Para hacer el pronstico en puntuaciones tpicas hay que tener en cuenta queel error tpico de estimacin es distinto y hay que calcularlo.

    SzyZx = ~ 1 - r} y= ~ 1 - 0, 7 32

    =-J1-0,53 =0,69

    El error mximo en puntuaciones tpicas ser: 1,96 0,69 = 1 35

    Aplicacin de las ecuaciones de regresin:

    Y'= 3,15 + 0,395 (13) = 8,28 (en puntuaciones directas)

    y '= 0,395 (1 3 - 1O, 17) = 1,18 (en puntuaciones diferenciales)

    Zy '= 0,73 0,73 = 0 ,53 (en puntuaciones tpicas)

    z = X - X = 13 -1 O, 17 =O 73X S 3 88 '

    X '

    Las puntuaciones pronosticadas son la estimacin puntual de las que obtendra en el criterio el sujeto que en el test obtuvo una puntuacin de 13 puntos.Hacemos ahora la estimacin por intervalos:

    328

    Y/ fm x . = 8,28 2,86 ~ 5,42 :S: Y :S: 11,14

    Y/ fm x. = 1,18 2,86 ~ -1,68 :S: y/ S: 4,04

  • 7/30/2019 Tema-6 (51).pdf

    41/51

    1 PSICOMETRA

    Hemos comentado que a la desviacin tpica de los errores de estimacin se

    la denomina error tpico de estimacin, su valor en nuestro ejemplo ser:

    Syx = f5[; = .:12. = 1,46

    - Intervalos confidenciales

    Ya tenemos todos los datos para poder hacer una estimacin acerca de lapuntuacin que se le pronosticara a un sujeto en el criterio a partir de su pun-tuacin en el test.

    Supongamos que queremos saber qu puntuacin le correspondera en elcriterio a un sujeto que en el test hubiera obtenido una puntuacin X= 13, y va-mos a hacer una estimacin puntual y por intervalos:

    Nivel de confianza 95% ~ Zc = 1,96

    El error tpico de estimacin ya estaba calculado : Sy.x = 1,46

    Error mximo = Zc Sy.x = 1, 96 1,46 = 2,86

    Para hacer el pronstico en puntuaciones tpicas hay que tener en cuenta queel error tpico de estimacin es distinto y hay que calcularlo.

    SzyZx = ~ 1 - r } y= ~ 1 - 0 , 7 32

    =.J1-0 ,53 =0,69

    El error mximo en puntuaciones tpicas ser: 1, 96 0,69 = 1,35

    Aplicacin de las ecuaciones de regresin:

    Y'= 3,15 + 0,395 (13) = 8,28 (en puntuaciones directas)

    y '= 0,395 ( 1 3 - 1O, 17) = 1,18 (en puntuaciones diferenciales)

    Zy ' = 0,73 0,73 = 0,53 (en puntuaciones tpicas)

    z = X - X = 13 -1 O, 1 7 =O 73X S 3 88 '

    X '

    Las puntuaciones pronosticadas son la estimacin puntual de las que obten-dra en el criterio el sujeto que en el test obtuvo una puntuacin de 13 puntos.Hacemos ahora la estimacin por intervalos:

    3 28

    Y ' fmx. = 8,28 2,86 ~ 5,42::; Y::; 11,14

    y ' fmx. = 1,18 2,86 ~ -1,68::; y'::; 4,04

  • 7/30/2019 Tema-6 (51).pdf

    42/51

    VALIDEZ DE LAS INFEREN CIAS (1) 1

    Zy' em x. = 0,53 1,35 ~ -0,82 ~ Zy::;; 1,88

    A la vista de los resultados obtenidos podemos decir que la puntuacin en elcriterio de este sujeto estar comprendida en los intervalos encontrados y eso loafirmamos con un nivel de confianza del 95%, o lo que es lo mismo con una probabilidad igual o menor de 0,05 de equivocarnos.

    -Coeficiente de determinacin:

    c.o. = r2 = 5;. = 2,31 =o 52XY 52 4 43 '

    y 1

    -Coeficiente de alienacin:

    C.A.= K= 0,69

    - Coefic iente de valor predictivo:

    C. V. P. = 0,31

    Los valores obtenidos se pueden multiplicar por 100 y expresar como porcentajes. As pues, hay un porcentaje de varianza comn o asociada entre ambas variables de un 52%, o lo que es lo mismo, a partir de la variacin de laspuntuaciones obtenidas por los sujetos en el test se puede predecir el 52% de lavariacin de las puntuaciones de esos mismos sujetos en el criterio, quedando

    un 48% de la varianza de las puntuaciones en el criterio sin explicar por el test ;es decir, un 48% de varianza error.

    5;x = 2, 1 2 = o 485 2 4 43

    1

    y 1

    Que el error tpico de estimacin representa el 69% de la desviacin tpica

    de las puntuaciones en el criterio, por lo tanto hay un porcentaje alto de inseguridad en los pronsticos frente al 31% de seguridad .

    Nota: Las posibles diferencias encontradas pueden ser debidas a errores de redondeo.

    329

  • 7/30/2019 Tema-6 (51).pdf

    43/51

    1 PSICOMETRA

    7. EJERCICIOS DE AUTOEVALUACIN

    3 3 0

    1. Se quiere saber si un test de razonamiento abstracto tiene capacidad parapredecir el rendimiento en matemticas de los estudiantes de segundo deBUP. Para ello, se ha aplicado el test a una muestra de estudiantes obte-nindose una media y una desviacin tpica de 25 y 6 puntos respectivamente. Al finalizar el curso esos alumnos han sido evaluados por sus pro-fesores en matemticas obteniendo una media de 7 puntos y una varianzade 9.

    Sabiendo que el 64% de la varianza de las puntuaciones de los sujetos enel criterio se puede predecir a partir del test. CALCULAR:

    a) El coeficiente de validez del test.

    b) Interpretar los resultados obtenidos en el punto anterior en funcin delos coeficientes de determinacin, alienacin y valor predictivo.

    e) Varianza de los errores de estimacin y error tpico de estimacin .

    d) La varianza de las puntuaciones pronosticadas.

    e) La puntuacin directa, diferencial y tpica que se le pronosticara enmatemticas a un alumno que en el test hubiera obtenido una puntuacin de 30 puntos.

    f) Utilizando un nivel de confianza del 99%, establecer los intervalos con-fidenciales en torno a las puntuaciones obtenidas en el punto anterior.

    2. Supongamos que se han intentado medir tres constructos diferentes a los

    que designaremos por A, By C mediante tres mtodos distintos y se quier ellevar a cabo un estudio de validacin de constructo a travs del anlisisde la matriz multimtodo-multirrasgo. Supongamos que los resultados ob-tenidos al calcular las intercorrelaciones entre todas las puntuacion es ob-tenidas son los que se recogen en la matriz siguiente :

  • 7/30/2019 Tema-6 (51).pdf

    44/51

    VALIDEZDE LAS INFERENCIAS (1) 1

    MTODO1 MTOD02 MTOD03

    A1 B1 c1 A2 B2 c2 A a Ba Ca

    A1 (.89)MT.1 B1 .49 (.93)

    c1 .3 5 .3 4 (.80)

    A2 .6 0 .21 .0 8 (.94)

    MT.2 B2 .2 2 .65 .1 1 .5 6 (.98)

    c2 .1 0 .1 2 .4 9 .58 .5 5 (.88)

    A a .5 8 .22 .1 1 .73 .41 .34 (.99)

    MT.3 Ba .2 0 .58 .1 0 .4 0 .68 .2 3 .6 6 (.90)

    Ca .13 .1 3 .6 1 .3 6 .2 9 .6 4 .55 .5 9 (.95)

    Comentar los resultados obtenidos.

    3. Ejercicios conceptuales

    Ante cada una de las afirmaciones que se muestran a continuacin, el lector deber responder si el concepto que contiene es verdadero o falso yjustificar su respuesta.

    1. El concepto de validez hace referencia a la estabilidad de las medidasobtenidas.

    2. La validez es una propiedad intrnseca a los tests.

    3. Un test puede tener varios coeficientes de validez.

    4. La validez de constructo hace referencia al grado en que los elementosque componen el test miden rea lmente aquello que se quiere medir.

    5. Para que un test tenga validez de contenido sus tems deben ser relevantes y representativos del constructo que se quiere medir.

    6. El error de estimacin es la diferencia entre las puntuaciones obtenidaspor los sujetos en el test y las obtenidas en el criterio.

    7. El error tpico de estimacin es la varianza de los errores de estimacin.

    8. La validez de constructo representa la capacidad del test para pronosticar el criterio.

    9. El coeficiente de validez puede ser negativo.

    1 O. A medida que aumenta el coeficiente de determinacin disminuye elcoeficiente de alienacin.

  • 7/30/2019 Tema-6 (51).pdf

    45/51

    1 PSICOMETRA

    8. SOLUCIONES A LOS EJERCICIOSDE AUTOEVALUACIN

    1.

    332

    a) A partir del enunciado del problema se puede obtener directamente elcoeficiente de validez, ya que el porcentaje de varianza del criterio quese puede pronosticar a partir del test equivale al coeficiente de determinacin que, a su vez, es el coeficiente de validez al cuadrado. Por lo tanto:

    r}y =0,64:::::}r xy =..}0,64 = 0 , 80

    b) A partir del coeficiente de validez obtenido podemos decir que:

    e)

    - El coeficiente de determinacin es: C.D. = 0 ,64

    Indica que un 64% de la varianza de las puntuaciones de los suje-tos en el criterio se puede pronosticar a partir del test; es decir, hay

    un 64% de varianza comn o asociada entre el test y el criterio.

    - El coeficiente de alienacin es: C.A = ~ 1- r}Y = ..}1 - 0,64 = 0 , 60

    Indica que en la desviacin tpica de las puntuaciones de los suje-tos en el criterio, el 60% se debe a la desviacin tpica de los errores. Hay un 60% de inseguridad en los pronsticos. Elevado al cua-drado es el complementario del coeficiente de determinacin e

    indica que hay un 36% de la varianza de las puntuaciones del criterio que no se puede pronosticar a partir del test. Se trata de la proporcin (o porcentaje) de varianza error que hay en la varianza delas puntuaciones en el criterio .

    - El coeficiente d e valor predictivo es: C.V.P. = 1 - 0,60 = 0,40

    Representa la proporcin (o porcentaje) de seguridad en los pronsticos. Es el complementario del coeficiente de alienacin . En

    nuestro ejemplo habr un 40% de seguridad en los pronsticos .

    s; = s; ( - r}y ) = 9 (1- 0,64) = 3,34Syx = f f , = ..}3 , 24 = 1, 8

  • 7/30/2019 Tema-6 (51).pdf

    46/51

    VALIDEZ DE LAS INFERENCIAS (1) 1

    El error tpico de estimacin es la desviacin tpica de los errores de estimacin. Se puede comprobar que si se divide por la desviacin tpica de las puntuaciones del criterio se obtiene el coeficiente de alienacin.

    d) Sabemos que la varianza de las puntuaciones de los sujetos en el criterio es igual a la varianza de las puntuaciones pronosticadas ms lavarianza de los errores. Por lo tanto:

    s;. = s; - s; = 9 - 3, 2 4 = 5,7 6

    e) Para poder hacer cualquier pronstico es necesario construir, en primerlugar, las correspondientes ecuaciones de regresin que tomarn la siguiente forma:

    Y/= a+ bX (en puntuaciones directas)

    y/= bx (en puntuaciones diferenciales)

    Zy = b * Zx (en puntuaciones tpicas)

    bSy 3

    = r xy - = 0 , 8 0 - = 0 , 4 0Sx 6

    a = Y -b X = 7 - 0 , 40 25 = - 3

    Una vez obtenidos los valores de las pendientes y de la ordenada en elorigen se puede ya construir las ecuaciones de regresin:

    Y/= -3 + 0,40X (en puntuaciones directas)

    y/= 0,40 x (en puntuaciones diferenciales)

    Zy = 0,80 Zx (en puntuaciones tpicas)

    Ntese que la ecuacin de regresin en puntuaciones diferenciales pasapor el origen de coordenadas y tiene la misma pendiente que la ecuacin en puntuaciones directas. Respecto a la ecuacin de regresin enpuntuaciones tpicas hay que decir que pasa por el origen de coordenadas y su pendiente es igual al coeficiente de validez.

    333

  • 7/30/2019 Tema-6 (51).pdf

    47/51

    1 PSICOMETRA

    3 3 4

    Una vez construidas las ecuaciones de regresin sobre la muestra ut i-lizada, se pueden aplicar para, a partir de las puntuaciones obtenidasen el test por una muestra de sujetos semejante a la anterior, hacer estimaciones de las que obtendran en el criterio. En nuestro ejemplo queremos saber qu puntuacin directa, diferencial y tpica se le pronos ti-cara en el criterio a un sujeto que en el test hubiera obtenido 30puntos. Basta sustituir los valores correspondientes en las ecuaciones deregresin:

    Y '= -3 + 0,40(30) = 9 (puntuacin directa pronosticada)

    y ' =0 , 4 0 ( 3 0 - 2 5 ) =2 (puntuacin diferencial pronosticada)

    Zy' --0,8o(30

    -6

    25)--o,67 ( . , , d )untuacron trprca pronostrca a

    f) Al aplicar las ecuaciones de regresin se obtiene una estimacin pu ntual de la puntuacin de los sujetos en el criterio. Si se quiere precisarms es conveniente hacer una estimacin po r intervalos. Para ello, seescoge un determinado nivel de confianza, que en nuestro ejemplo esdel 99%, y se procede como sigue:

    N.C. 99% => Zc = 2,58

    - S e calcula el error tpico de estimacin:

    Syx = 1, 8 (en puntuaciones directas y diferenciales)

    Szy z x = ~ 1 -O, 64 =O, 60 (en puntuaciones tpicas)

    - Clculo del error mximo en funcin del nivel de confianza:

    fm x . = Zc Sy.x = 2,58 1,8 = 4,64 (en puntuaciones directasy diferenciales)

    em x. = Zc Szy. Zx = 2,58 0,60 = 1,55 (en puntuaciones tpicas)

    - Intervalos confidenciales:

    9 4' 64 => 4' 3 6 ~ y ~ 13' 64 (en puntuaciones directas)

  • 7/30/2019 Tema-6 (51).pdf

    48/51

    VALIDEZ DE LAS INFERENCIAS (1) 1

    2 4,64 => -2,64::::: y::::: 6,64 (en puntuaciones diferenciales)

    0,67 1,55 => -0,88::::: Zy::::: 2,22 (en puntuaciones tpicas)

    As se han obtenido los intervalos confidenciales dentro de los cuales se espera que se encuentren en el criterio las puntuaciones directa, diferencial y tpica de un sujeto que en el test obtuvo una puntuacin directa de 30 puntos. El intervalo se ha establecido con unnivel de confianza del 99%, o lo que es lo mismo, con una probabilidad igual o menor de 0,01 de error.

    2. La matriz se puede analizar para ver si hay validez convergente y discriminante. La validez convergente vendr dada por los coeficientes obtenidosal correlacionar las puntuaciones obtenidas al medir el mismo constructocon distintos mtodos, a estos coeficientes se les denomina tambin coeficientes monorrasgo-multimtodo. En la matriz estos coeficientes aparecenen negrilla. Los valores que aparecen entre parntesis en la diagonal de lamatriz son los coeficientes de fiabilidad, tambin se les denomina coefi

    cientes monorrasgo-monomtodo porque se han obtenido al correlacionarlas puntuaciones obtenidas al medir el mismo rasgo con el mismo mtodo.Para ver si hay validez discriminante hay que analizar si los coeficientes decorrelacin obtenidos al medir el mismo rasgo con distintos mtodos sonmayores que los obtenidos al medir distintos rasgos con e l mismo