psicometria.pdf

992 Rev Esc Enferm USP2009; 43(Esp):992-9

www.ee.usp.br/reeusp/

PsicometriaPasquali L

Psicometria

PSYCHOMETRICS

PSICOMETRÍA

RESUMOA psicometria fundamenta-se na teoria damedida em ciências para explicar o senti-do que têm as respostas dadas pelos sujei-tos a uma série de tarefas e propor técni-cas de medida dos processos mentais. Nes-te artigo são apresentados os conceitos emodelos da psicometria moderna e discu-tidos os parâmetros de validade e precisãodos testes.

DESCRITORESPsicometria.Reprodutibilidade dos testes.Validade dos testes.Estudos de validação.

1 Professor Pesquisador Associado do Departamento de Psicologia Social e do Trabalho do Instituto de Psicologia da Universidade de Brasília. Brasília, DF,Brasil. [email protected]

AR

TIG

O OR

IGIN

AL

Luiz Pasquali1

ABSTRACTPsychometrics has foundations on thetheory of measurement in Sciences and isaimed at explaining the meaning of res-ponses provided by subjects submitted toa series of tasks, and proposing techniquesfor the measurement of mental processes.This article presents concepts and modelsof modern psychometrics and discusses thevalidity and reliability parameters of theapplied tests.

KEY WORDSPsychometrics.Reproducibility of results.Validity of tests.Validation studies.

RESUMENLa Psicometría se fundamenta en la teoríade la medida en las ciencias buscando ex-plicar el sentido en las respuestas de losque fueron sujetos a una serie de tareas,además de proponerse técnicas de medi-da de sus procesos mentales. En este artí-culo son presentados los conceptos y mo-delos de psicometría moderna, así comoson discutidos los parámetros de validez yprecisión de los testes.

DESCRIPTORESPsicometría.Reproducibilidad de resultados.Validez de las pruebas.Estudios de validación.

Recebido: 15/06/2008Aprovado: 15/12/2008

Português / Inglêswww.scielo.br/reeusp

993Rev Esc Enferm USP2009; 43(Esp):992-9



INTRODUÇÃO

A medida em ciências psicossociais

Etimologicamente, psicometria representa a teoria e atécnica de medida dos processos mentais, especialmenteaplicada na área da Psicologia e da Educação. Ela se fun-damenta na teoria da medida em ciências em geral, ouseja, do método quantitativo que tem, como principal ca-racterística e vantagem, o fato de representar o conheci-mento da natureza com maior precisão do que a utiliza-ção da linguagem comum para descrever a observaçãodos fenômenos naturais.

Historicamente, a psicometria tem suas origens napsicofísica dos psicólogos alemães Ernst Heinrich Webere Gustav Fechner. O inglês Francis Galton também contri-buiu para o desenvolvimento da psicometria, criando tes-tes para medir processos mentais; inclusive, ele é consi-derado o criador da psicometria. Foi, contudo, Leon LouisThurstone, o criador da análise fatorial múltipla, que deuo tom à psicometria, diferenciando-a da psicofísica. Estafoi definida como a medida de processos diretamenteobserváveis, ou seja, o estímulo e a resposta do organis-mo, enquanto a psicometria consistia namedida do comportamento do organismopor meio de processos mentais (lei do julga-mento comparativo).

A medida em ciências tem provocadodiatribes entre os pesquisadores, particu-larmente na área das ciências sociais. Con-tudo, a definição mais aceita de medida foidada por Stanley Smith Stevens em 1946,quando dizia que: medir consiste em assina-lar números a objetos e eventos de acordo comalguma regra(1). As regras de assinalar tais números sãodefinidas na proposta do mesmo autor sobre os quatroníveis de medida ou escalas de medida: nominal, ordinal,intervalar e de razão. A medida nominal sendo aquela queaplica os números aos fenômenos da natureza, salvandosomente os axiomas de identidade do número, ou seja, onúmero é utilizado somente como numeral ou símbolográfico. Ao utilizar o número, a escala ordinal já salva osaxiomas de ordem, ou seja, a característica mais marcantedo número, isto é, a magnitude - um número é por defini-ção maior ou menor que outro, não somente diferente, oumelhor, um número é diferente do outro precisamente por-que é maior ou menor que outro. As outras escalas sal-vam também axiomas de aditividade. Essa história dosaxiomas foi detalhada por Whitehead e Russell em 1910a 1913 e 1965, no livro Principia Mathematica, onde des-crevem os famosos 27 axiomas do número matemático(2) .

PSICOMETRIA:CONCEITUAÇÃO E MODELOS

A psicometria moderna tem duas vertentes: a teoriaclássica dos testes (TCT) e a teoria de resposta ao item

(TRI). A TCT foi axiomatizada por Gulliksen(3) e a TRI foiinicialmente elaborada por Lord(4) e por Rasch(5) e, final-mente, axiomatizada por Birnbaum(6) e por Lord(7).

De um modo geral, a psicometria procura explicar osentido que têm as respostas dadas pelos sujeitos a umasérie de tarefas, tipicamente chamadas de itens. A TCT sepreocupa em explicar o resultado final total, isto é, a somadas respostas dadas a uma série de itens, expressa nochamado escore total (T). Por exemplo, o T em um teste de30 itens de aptidão seria a soma dos itens corretamenteacertados. Se for dado 1 para um item acertado e 0 paraum errado, e o sujeito acertou 20 itens e errou 10, seuescore T seria de 20. A TCT, então, se pergunta o que signi-fica este 20 para o sujeito? A TRI, por outro lado, não estáinteressada no escore total em um teste; ela se interessaespecificamente por cada um dos 30 itens e quer saberqual é a probabilidade e quais são os fatores que afetamesta probabibilidade de cada item individualmente seracertado ou errado (em testes de aptidão) ou de ser aceitoou rejeitado (em testes de preferência: personalidade, in-teresses, atitudes). Dessa forma, a TCT tem interesse emproduzir testes de qualidade, enquanto a TRI se interessa

por produzir tarefas (itens) de qualidade. Nofinal, então, temos ou testes válidos (TCT) ouitens válidos (TRI), itens com os quais sepoderão construir tantos testes válidosquantos se quiser ou o número de itens per-mitir. Assim, a riqueza na avaliação psico-lógica ou educacional, dentro do enfoque daTRI, consiste em se conseguir construir ar-mazéns de itens válidos para avaliar os tra-ços latentes, armazéns estes chamados debancos de itens para a elaboração de umnúmero sem fim de testes.

O modelo da TCT foi elaborado por Spearman e deta-lhado por Gulliksen(3), o modelo é o seguinte:

T = V + E

Onde,

T = escore bruto ou empírico do sujeito, que é a somados pontos obtidos no teste;

V = escore verdadeiro, que seria a magnitude real da-quilo que o teste quer medir no sujeito e que seria o pró-prio T se não houvesse o erro de medida;

E = o erro cometido nesta medida.

Dessa forma, o escore empírico é a soma do escore ver-dadeiro e do erro e, conseqüentemente, E = T - V, bem como,V = T - E.

A Figura 1 mostra a relação entre estes vários elemen-tos do escore empírico, onde se vê que este é a união doescore verdadeiro (V) e do erro (E), ou seja, o escoreempírico ou bruto do sujeito (T – resultado no teste, co-nhecido como o escore tau – τ) é constituído de dois com-

A psicometria procuraexplicar o sentido

que têm as respostasdadas pelos sujeitos

a uma série detarefas, tipicamentechamadas de itens.




ponentes: o escore real ou verdadeiro (V) do sujeito na-quilo que o teste pretende medir e o erro (E) de medida,este sempre presente em qualquer operação empírica. Emoutras palavras, estamos aqui assumindo que, diante dofato de que o escore bruto do sujeito difere do seu escoreverdadeiro, esta diferença é devida ao erro ou, melhor,esta diferença é o próprio conceito de erro.

Figura 2 – A curva característica do item

Concretamente, a TRI está dizendo o seguinte: vocêapresenta ao sujeito um estímulo ou uma série de estímu-los (tais como, itens de um teste) e ele responde aos mes-mos. A partir das respostas dadas pelo sujeito, isto é,analisando as suas respostas aos itens especificados,pode-se inferir sobre o traço latente do sujeito,hipotetizando relações entre as respostas observadasdeste sujeito com o nível do seu traço latente. Estas rela-ções podem ser expressas por meio de uma equação ma-temática que descreve a forma de função que estas rela-ções assumem.

De fato, pode-se imaginar um número ilimitado demodelos matemáticos que podem expressar esta relação,dependendo do tipo de função matemática utilizada e/oudo número de parâmetros que se quer descobrir para oitem. Uma preciosa vantagem sobre a teoria clássica quea TRI tem quanto aos modelos que usa consiste em que osmodelos utilizados pela TRI permitem desconfirmação.Na verdade, a demonstração da adequação do modeloaos dados (model-data goodness-of-fit) é um passo neces-sário nos procedimentos desta teoria. Para trabalhar coma TRI são necessários pacotes estatísticos especializados,que já existem em abundância no mercado(a).

OS PARÂMETROS DOS TESTES:VALIDADE E PRECISÃO

Tanto na TCT quanto na TRI, os dois parâmetros maisimportantes de legitimidade de uma medida ou teste sãoa validade e a precisão.

A validade dos testes

A validade constitui um parâmetro da medida tipica-mente discutido no contexto das ciências psicossociais.Ela não é corrente em ciências físicas, por exemplo, embo-ra haja nessas ciências ocasiões em que tal parâmetro se

Figura 1 – Os componentes do escore T

Assim, a grande tarefa da TCT consiste em elaborarestratégias (estatísticas) para controlar ou avaliar a mag-nitude do E. Os erros são devidos a toda uma gama defatores estranhos, detalhados por Campbell e Stanley(8),tais como defeitos do próprio teste, estereótipos e viesesdo sujeito, fatores históricos e ambientais aleatórios.

Por outro lado, o modelo da TRI trabalha com traçoslatentes e adota dois axiomas fundamentais:

1) O desempenho do sujeito numa tarefa (item do tes-te) se explica em função de um conjunto de fatores outraços latentes (aptidões, habilidades etc.). O desempe-nho é o efeito e os traços latentes são a causa;

2) A relação entre o desempenho na tarefa e o conjun-to dos traços latentes pode ser descrita por uma equaçãomonotônica crescente, chamada de CCI (Função Caracte-rística do Item ou Curva Característica do Item) e exem-plificada na Figura 2, onde se observa que sujeitos comaptidão maior terão maior probabilidade de respondercorretamente ao item e vice-versa (θ

i é a aptidão e P

i(θ) a

probabilidade de resposta correta dada ao item).

(a) Dois muito utilizados são o BILOG para testes de aptidão e o PARSCALEpara testes de personalidade.

EV

T

01 2 3 4 5 6 7 8

�

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

Pi

�

Aptidão




aplicaria. Nestas últimas ciências, a preocupação princi-pal na medida se centra na questão da precisão, a ditacalibração dos instrumentos. Esta é importante tambémna medida em ciências psicossociais, mas ela não temnada a ver, conceitualmente, com a questão da validade.A razão disto está no fato de que a validade diz respeitoao aspecto da medida ser congruente com a propriedademedida dos objetos e não com a exatidão com que a men-suração, que descreve esta propriedade do objeto, é feita.Em Física, o instrumento é um objeto físico que mede pro-priedades físicas; então parece fácil se ver que a proprie-dade do objeto mensurante é ou não congruente com apropriedade do objeto medido. Tome, por exemplo, o casoda propriedade comprimento do objeto. O instrumento quemede esta propriedade (comprimento), isto é, o metro, usaa sua propriedade de comprimento para medir a compri-mento de outro objeto; então estamos medindo compri-mento com comprimento, tomados estes termos univoca-mente. Não há necessidade de provar que a propriedadecomprimento do metro seja congruente com a mesma pro-priedade no objeto medido; os termos são unívocos, elessão conceitualmente equivalentes, aliás,idênticos.

O caso já se torna menos claro quando,por exemplo, o astrônomo mede a proprie-dade velocidade galáctica de aproximaçãoou afastamento via efeito Doppler, onde aaproximação/afastamento das linhasespectrais da luz da galáxia seria o instru-mento da medida. Aqui já temos, na verdade,um problema de validade do instrumento demedida, a saber, é verdade ou não que asdistâncias das linhas espectrais têm a vercom a velocidade das galáxias? Pode-se fa-zer tal suposição, mas ela tem que ser de-monstrada empiricamente, de alguma ma-neira, isto é, pelo menos em suas conseqüências, em hi-póteses dela derivadas ou deriváveis e verificáveis. Nestecaso específico, o problema da precisão da medida dizrespeito à quão exata pode ser feita a mensuração dasdistâncias entre as linhas espectrais no osciloscópio, aopasso que o de validade diz respeito a se esta medida dasdistâncias das linhas espectrais, por mais exata e perfei-ta que ela possa ser, tem algo a ver ou não com a velocida-de de afastamento da galáxia. Em outras palavras, a vali-dade em tal caso diz respeito à demonstração da adequa-ção (legitimidade) da representação ou da modelagem davelocidade galáctica via distâncias das linhas espectrais.

Este caso da astronomia ilustra o que tipicamente acon-tece com a medida em ciências psicossociais e, conse-qüentemente, torna a prova da validade dos instrumentosnestas ciências algo fundamental e crucial, ou seja, é umacondição sine qua non demonstrar a validade dos instru-mentos nestas ciências. Isto é particularmente o caso nosenfoques que, em Psicologia, trabalham com o conceitode traço latente, onde se deve demonstrar a correspon-dência (congruência) entre traço latente e sua representa-

ção física (o comportamento). Não causa estranheza, por-tanto, que o problema de validade tenha tido, na históriada Psicologia, uma posição central na teoria da medida,constituindo-se, na verdade, no seu parâmetro fundamen-tal e indispensável.

Nos manuais de Psicometria, costuma-se definir a vali-dade de um teste dizendo que ele é válido se de fato mede oque supostamente deve medir. Embora esta definição pare-ça uma tautologia, na verdade ela não é, considerada ateoria psicométrica que admite o traço latente. O que sequer dizer com esta definição é que, ao se medirem os com-portamentos (itens), que são a representação física do tra-ço latente, está-se medindo o próprio traço latente. Tal su-posição é justificada se a representação comportamentalfor legítima. Esta legitimação somente é possível se existiruma teoria prévia do traço que fundamente que a tal repre-sentação comportamental constitui uma hipótese dedutíveldesta teoria. A validade do teste (este constituindo a hipó-tese), então, será estabelecida pela testagem empírica daverificação da hipótese. Pelo menos, esta é a metodologiacientífica. Assim, fica muito estranha a prática corrente na

Psicometria de se agrupar intuitivamente umasérie de itens e, a posteriori, verificar esta-tisticamente o que eles estão medindo. A ên-fase na formulação da teoria sobre os traçosfoi muito fraca no passado; com a influênciada Psicologia Cognitiva esta ênfase felizmen-te está voltando ou deverá voltar ao seu devi-do lugar na Psicometria.

Aliás, a Psicometria clássica entendepor aquilo que supostamente deve medircomo sendo o critério, este representado porteste paralelo. Assim, este aquilo que é otraço latente na concepção cognitivista daPsicometria e é o critério (escore no teste

paralelo) na visão comportamentalista.

O processo de validação de um teste

inicia com a formulação de definições detalhadas do traçoou construto, derivadas da teoria psicológica, pesquisaanterior, ou observação sistemática e análises do domíniorelevante do comportamento. Os itens do teste são entãopreparados para se adequarem às definições do construto.Análises empíricas dos itens seguem, selecionando-sefinalmente os itens mais eficazes (i.é., válidos) da amostrainicial de itens(9).

A validação da representação comportamental do tra-ço, isto é, do teste, embora constitua o ponto nevrálgicoda Psicometria, apresenta dificuldades importantes quese situam em três níveis ou momentos do processo deelaboração do instrumento, a saber, ao nível da teoria, dacoleta empírica da informação e da própria análise esta-tística da informação.

No nível da teoria se concentram talvez as maioresdificuldades. Na verdade, a teoria psicológica se encon-

A validade diz respeitoao aspecto da medidaser congruente com

a propriedade medidados objetos e não

com a exatidão comque a mensuração,que descreve esta

propriedade doobjeto, é feita.




tra ainda em estado embrionário, destituída quase quetotalmente de qualquer nível de axiomatização, resultan-do disto uma pletora de teorias, muitas vezes até contra-ditórias. Basta lembrar de teorias como behaviorismo,psicanálise, psicologia existencialista, psicologia dialé-tica e outras, que, existindo simultaneamente, postulamprincípios irredutíveis entre as várias teorias e poucoconcatenados dentro de uma mesma teoria ou, então, emnúmero insuficiente para se poder deduzir hipóteses úteispara o conhecimento psicológico. Havendo esta confusãono campo teórico dos construtos, torna-se extremamentedifícil para o psicometrista operacionalizar estes mes-mos construtos, isto é, formular hipóteses claras e preci-sas para testar ou, então, formular hipóteses psicologi-camente úteis. Ainda quando a operacionalização for umsucesso, a coleta da informação empírica não será isentade dificuldades, como, por exemplo, a definição inequívo-ca de grupos critérios onde estes construtos possam seridealmente estudados. Mesmo ao nível das análises esta-tísticas encontramos problemas. Pela lógica da elabora-ção do instrumento, a verificação da hipótese da legitimi-dade da representação dos construtos se faz por análisesdo tipo da análise fatorial (confirmatória), que procuraidentificar, nos dados empíricos, os construtos previa-mente operacionalizados no instrumento. Mas, aconteceque a análise fatorial faz algumas postulações fortes quenem sempre se coadunam com a realidade dos fatos. Porexemplo, a análise fatorial assume que as respostas dossujeitos aos itens do instrumento são determinadas poruma relação linear destes com os traços latentes. Há, ain-da, o grave problema da rotação dos eixos, a qual permitea demonstração de um número sem fim de fatores para omesmo instrumento(10).

Diante destas dificuldades, os psicometristas recor-rem a uma série de técnicas para viabilizar a demons-tração da validade dos seus instrumentos. Fundamental-mente, estas técnicas podem ser reduzidas a três grandesclasses (o modelo trinitário): técnicas que visam a vali-dade de construto, validade de conteúdo e validade decritério(11-12).

A validade de construto ou de conceito é considerada aforma mais fundamental de validade dos instrumentospsicológicos e com toda a razão, dado que ela constitui amaneira direta de verificar a hipótese da legitimidade darepresentação comportamental dos traços latentes e, por-tanto, se coaduna exatamente com a teoria psicométricaaqui defendida. Historicamente, o conceito de construtoentrou na Psicometria por meio da American PsychologicalAssociation Committee on Psychological Tests que traba-lhou entre 1950 e 1954 e cujos resultados se tornaram asrecomendações técnicas para os testes psicológicos(12).

O conceito de validade de construto foi elaborado como já clássico artigo de Cronbach e Meehl(13) Constructvalidity in psychological tests, embora o conceito já tivesseuma história sob outros nomes, tais como validade in-trínseca, validade fatorial e até validade aparente (face

validity). Estas várias terminologias demonstram a confu-sa noção que construto possuía. Embora tenham tentadoclarear o conceito de validade de construto, Cronbach eMeehl ainda o definem como a característica de um testeenquanto mensuração de um atributo ou qualidade, o qualnão tenha sido definido operacionalmente(13). Reconhecem,entretanto, que a validade de construto reclamava por umnovo enfoque científico. De fato, definir esta validade domodo que eles a definiram parece um pouco estranho emciência, dado que conceitos não definidos operacional-mente não são suscetíveis de conhecimento científico.Conceitos ou construtos são cientificamente pesquisáveissomente se forem, pelo menos, passíveis de representa-ção comportamental adequada. Do contrário, serão con-ceitos metafísicos e não científicos. O problema está emque, sintetizando a atitude geral dos psicometristas daépoca, para definir validade de construto, os autores par-tiram do teste, isto é, da representação comportamental,em vez de partir da teoria psicométrica que se fundamen-ta na elaboração da teoria do construto (dos traços laten-tes). O problema não é descobrir o construto a partir deuma representação existente (teste), mas sim descobrir sea representação (teste) constitui uma representação legí-tima, adequada, do construto. Este enfoque exige uma co-laboração, bem mais estreita do que existe, entrepsicometristas e Psicologia Cognitiva(14). A validade deconstruto de um teste pode ser trabalhada sob vários ân-gulos: a análise da representação comportamental doconstruto, a análise por hipótese, a curva de informaçãoda TRI(15-16).

A validade de critério de um teste consiste no grau deeficácia que ele tem em predizer um desempenho específi-co de um sujeito. O desempenho do sujeito torna-se, as-sim, o critério contra o qual a medida obtida pelo teste éavaliada. Evidentemente, o desempenho do sujeito deveser medido/avaliado por meio de técnicas que são inde-pendentes do próprio teste que se quer validar.

Costuma-se distinguir dois tipos de validade de crité-rio: (1) validade preditiva e (2) validade concorrente. Adiferença fundamental entre os dois tipos é basicamenteuma questão do tempo que ocorre entre a coleta da infor-mação pelo teste a ser validado e a coleta da informaçãosobre o critério. Se estas coletas forem (mais ou menos)simultâneas, a validação será do tipo concorrente; casoos dados sobre o critério sejam coletados após a coletada informação sobre o teste, fala-se em validade preditiva.O fato de a informação ser obtida simultaneamente ouposteriormente à do próprio teste não é um fator tecnica-mente relevante à validade do teste. Relevante, sim, é adeterminação de um critério válido. Aqui se situa precisa-mente a natureza central deste tipo de validação dos tes-tes, a saber: (1) definir um critério adequado e (2) medir,válida e independentemente do próprio teste, este critério.

Quanto à adequação dos critérios, pode-se afirmarque há uma série destes que são normalmente utilizadosquais sejam:




1) Desempenho acadêmico. Talvez seja ou foi o critériomais utilizado na validação de testes de inteligência. Con-siste na obtenção do nível de desempenho escolar dosalunos, seja através das notas dadas pelos professores,seja pela média acadêmica geral do aluno, seja pelashonrarias acadêmicas que o aluno recebeu ou seja, mes-mo, pela avaliação puramente subjetiva dos alunos emtermos de inteligente por parte dos professores ou cole-gas. Embora seja amplamente utilizado, este critério temigualmente sido muito criticado, não em si mesmo maspela deficiência que ocorre na sua avaliação. É sobeja-mente sabida a tendenciosidade por parte dos professo-res em atribuir as notas aos alunos, tendenciosidade nemsempre consciente, mas decorrente de suas atitudes e sim-patias em relação a este ou aquele aluno. Esta dificulda-de poderia ser sanada até com certa facilidade, se os pro-fessores tivessem o costume de aplicar testes de rendi-mento que possuíssem validade de conteúdo, por exem-plo. Como esta tarefa é dispendiosa, o professor tipica-mente não se dá ao trabalho de validar (validade de con-teúdo) suas provas acadêmicas.

Neste contexto, é também utilizado como critério dedesempenho acadêmico o nível escolar do sujeito: sujeitosmais avançados, repetentes e evadidos. A suposição sen-do de que quem continua regularmente ou está avançadoacademicamente em relação à sua idade possui mais ha-bilidade. Evidentemente, nesta história não entra somen-te a questão da habilidade, mas muitos outros fatoressociais, de personalidade, etc., tornando este critério bas-tante ambíguo e espúrio.

2) Desempenho em treinamento especializado. Trata-sedo desempenho obtido em cursos de treinamento em situ-ações específicas, como no caso de músicos, pilotos, ati-vidades mecânicas ou eletrônicas especializadas, etc. Nofinal deste treinamento há tipicamente uma avaliação, aqual produz dados úteis para servirem de critério de de-sempenho do aluno. As observações críticas feitas ao pon-to 1) valem também neste parágrafo.

3) Desempenho profissional. Trata-se, neste caso, de com-parar os resultados do teste com o sucesso/fracasso ou onível de qualidade do sucesso dos sujeitos na própria situ-ação de trabalho. Assim, um teste de habilidade mecânicapode ser testado contra a qualidade de desempenho mecâ-nico dos sujeitos na oficina de trabalho. Evidentementecontinua a dificuldade de levantar adequadamente a qua-lidade deste desempenho dos sujeitos em serviço.

4) Diagnóstico psiquiátrico. Muito utilizado para vali-dar testes de personalidade/psiquiátricos. Os grupos-cri-tério são aqui formados em termos da avaliação psiquiá-trica que estabelece grupos clínicos: normais vs. neuróti-cos, psicopatas vs. depressivos, etc. Novamente, a dificul-dade continua sendo a adequação das avaliações psiqui-átricas feitas pelos psiquiatras.

5) Diagnóstico subjetivo. Avaliações feitas por colegase amigos podem servir de base para estabelecer grupos-

critério. É utilizada esta técnica, sobretudo, em testes depersonalidade, onde é difícil encontrar avaliações maisobjetivas. Assim, os sujeitos avaliam seus colegas emcategorias ou dão escores em traços de personalidade(agressividade, cooperação, etc.), baseados na convivên-cia que eles têm com os colegas. Nem precisa mencionaras dificuldades enormes que tais avaliações apresentamem termos de objetividade; contudo, a utilização de umgrande número de juizes poderá diminuir os vieses subje-tivos nestas avaliações.

6) Outros testes disponíveis. Os resultados obtidos pormeio de outro teste válido, que prediga o mesmo desem-penho que o teste a ser validado, servem de critério paradeterminar a validade do novo teste. Aqui fica a perguntaóbvia: para que criar outro teste se já existe um que medevalidamente o que se quer medir? A resposta se baseianuma questão de economia, isto é, utilizar um teste quedemanda muito tempo para ser respondido ou apuradocomo critério para validar um teste que gaste menos tempo.

No caso deste tipo de validade, é preciso atender aduas situações bastante distintas. Primeiramente, quan-do existem testes comprovadamente validados para amedida de algum traço, eles certamente constituem umcritério contra o qual se pode com segurança validar umnovo teste. Entretanto, quando não existem testes aceitoscomo definitivamente validados para avaliar algum tra-ço latente, a utilização desta validação concorrente é ex-tremamente precária. Esta situação infelizmente é a maiscomum. De fato, nós temos testes para medir praticamen-te não importa o quê, como atestam os Buro’s MentalMeasurement Yearbooks, que são publicados periodica-mente com centenas e milhares de testes psicológicos exis-tentes no mercado. Neste caso, pode-se utilizar estes tes-tes como critérios de validação, mas o risco é demasiada-mente grande, porque se está utilizando como critério tes-tes cuja validade é pelo menos duvidosa.

Pode-se concluir que a validade concorrente só fazsentido se existirem testes comprovadamente válidos quepossam servir de critério contra o qual se quer validar umnovo teste e que este novo teste tenha algumas vantagenssobre o antigo (como, por exemplo, economia de tempoetc.). Uma pergunta frustrante fica ao final desta exposi-ção sobre validade de critério. Se o pesquisador empre-gou toda a sua habilidade para construir um teste sob ascondições de maior controle possível, por que iria ele va-lidar esta tarefa-teste contra medidas inferiores, repre-sentadas pela medida dos vários critérios aqui apresen-tados. Justifica-se validar medidas supostamente superi-ores por medidas inferiores?(17). Com as críticas deThurstone em 1952 e sobretudo de Cronbach e Meehl em1955(13,18), a validade de critério deixou de ser a técnicapanacéia de validação dos testes psicológicos em favorda validade de construto. Contudo, estes critérios podemser considerados bons e úteis para fins de validação decritério. A grande dificuldade em quase todos eles se si-tua na demonstração da adequação da medida deles; isto




De qualquer forma, dentro da TCT o coeficiente de fidedig-nidade, rtt, é definido estatisticamente como a correlaçãoentre os escores dos mesmos sujeitos em duas formasparalelas de um teste, T

1 e T

2. Assim o coeficiente de fide-

dignidade se define como função da covariância[Cov(T

1,T

2)] entre as formas do teste pelas variâncias

( ) das mesmas, isto é, rtt =

onde,

rtt

: coeficiente de fidedignidade

: Variância verdadeira do teste

: Variância total do teste.

Praticamente, existem duas grandes técnicas estatísti-cas para decidir a precisão de um teste, ou seja, a correla-ção e a análise da consistência interna.

A técnica da correlação é utilizada no caso do teste –reteste e das formas paralelas de um teste. Nestes casostemos os resultados dos mesmos sujeitos submetidos aomesmo teste em duas ocasiões diferentes ou responden-do a duas formas paralelas do mesmo teste. O índice deprecisão, neste caso, consiste simplesmente na correla-ção bivariada entre os dois escores dos mesmos sujeitos.

Para o caso da análise da consistência interna existeuma parafernália complexa de técnicas estatísticas, quefinalmente se reduzem a duas situações: a divisão do testeem parcelas - mais comumente em duas metades - com asubseqüente correção pela fórmula de predição deSpearman-Brown, e as várias técnicas do coeficiente alfa,sendo o mais conhecido o alfa de Cronbach. Nesses casos,existe a aplicação de somente um teste numa única oca-sião; as análises consistem em verificar a consistência inter-na dos itens que compõem o teste. Trata-se, portanto, deuma estimativa da precisão, cuja lógica é a seguinte: se ositens se entendem, isto é, covariam, numa dada ocasião,então irão se entender em qualquer ocasião de uso do teste.

CONCLUSÃO

Para assegurar que os testes apresentem os parâmetrosde qualidade cientificamente exigidos, a AmericanPsychological Association (APA) estabeleceu os Standardsfor Educational and Psychological Testing, tendo várias edi-ções a partir de 1985.

é, em geral, a medida dos mesmos é precária, deixando,por isso, muita dúvida quanto ao processo de validaçãodo teste. Entretanto, há exemplos famosos de testes vali-dados através deste método, como é o caso do MMPI.

A validade de conteúdo de um teste consiste em verifi-car se o teste constitui uma amostra representativa de umuniverso finito de comportamentos (domínio). É aplicávelquando se pode delimitar a priori e com clareza um uni-verso de comportamentos, como é o caso em testes dedesempenho, que pretendem cobrir um conteúdo delimi-tado por um curso programático específico(11) .

A precisão dos testes

O parâmetro da precisão ou da fidedignidade dos tes-tes vem referenciado sob uma série elevada e heterogêneade nomes. Alguns destes nomes resultam do próprio con-ceito deste parâmetro, isto é, eles procuram expressar oque ele de fato representa para o teste. Estes nomes são,principalmente, precisão, fidedignidade e confiabilidade.Outros nomes deste parâmetro resultam mais diretamen-te do tipo de técnica utilizada na coleta empírica da infor-mação ou da técnica estatística utilizada para a análisedos dados empíricos coletados. Entre estes nomes, pode-mos relacionar os seguintes: estabilidade, constância,equivalência, consistência interna.

A fidedignidade ou a precisão de um teste diz respeitoà característica que ele deve possuir, a saber, a de medirsem erros, donde os nomes precisão, confiabilidade oufidedignidade. Medir sem erros significa que o mesmoteste, medindo os mesmos sujeitos em ocasiões diferen-tes, ou testes equivalentes, medindo os mesmos sujeitosna mesma ocasião, produzem resultados idênticos, isto é,a correlação entre estas duas medidas deve ser de 1. En-tretanto, como o erro está sempre presente em qualquermedida, esta correlação se afasta tanto do 1 quanto mai-or for o erro cometido na medida. A análise da precisãode um instrumento psicológico quer mostrar precisamen-te o quanto ele se afasta do ideal da correlação 1, deter-minando um coeficiente que, quanto mais próximo de 1,menos erro o teste comete ao ser utilizado.

O problema da fidedignidade dos testes era tema pre-ferido da psicometria clássica, onde a parafernália esta-tística de estimação deste parâmetro mais se desenvol-veu, mas ele perdeu muito em importância dentro dapsicometria moderna em favor do parâmetro de validade.

REFERENCES

1. Stevens SS. On the Theory of Scales of Measurement.Science. 1946;103(2684):677-80.

2. Whitehead AN, Russell B. Principia mathematica.Cambridge: Cambridge University Press; 1910-1913, 1965.3 v.

3. Gulliksen H. Theory of mental tests. New York: Wiley;1950.

4. Lord FM. A theory of test scores. Iowa (IA): PsychometricSociety; 1952. (Psychometric Monograph, n. 7).

S2

T1

S2

T2

eS

2

V

S2

T

S2

V

S2

T




5. Rasch G. Probabilistic models for some intelligence andattainment tests. Copenhagen: Danish Institute forEducational Research and St. Paul; 1960.

6. Birnbaum A. Some latent trait models and their use ininferring and examinee’s ability. In: Loed FM, Lord MR.Novick, statistical theories of mental test scores. Read-ing: Addison Wesley; 1968. p.17-20.

7. Lord FM. Applications of item response theory to practicaltesting problems. Hillsdale: Erlbaum; 1980.

8. Campbell DT, Stanley J. Experimental and quasi-experi-mental designs for research. Skokie: Rand McNally; 1973.

9. Anastasi A. Evolving concepts of test validation. Ann RevPsychol. 1986;37(1):1-15.

10. Pasquali L, organizador. Instrumentos psicológicos: ma-nual prático de elaboração. Brasília: LabPAM/IBAPP;1999.

11. Pasquali L. Análise fatorial para pesquisadores. PortoAlegre: Artmed; 2005.

12. American Psychological Association (APA).Technicalrecommendations for psychological tests and diagnos-tic techniques. Washington; 1954.

13. Cronbach LJ, Meehl PE. Construct validity in psychologicaltests. Psychol Bull. 1955;52(4):281-302.

14. Pasquali L.Validade dos testes psicológicos: será pos-sível reencontrar o caminho? Psicol Teor Pesq. 2007; 23(n.esp):99-107.

15. Pasquali L. Psicometria: teoria dos testes na psicolo-gia e na educação. Petrópolis: Vozes; 2004.

16. Pasquali L. TRI - Teoria de Resposta ao Item: teoria, pro-cedimentos e aplicações. Brasília: LabPAM/UnB; 2007.

17. Ebel RL. Must all tests be valid? Am Psychol. 1961;16(10):640-7.

18. Thurstone LL.The criterion problem in personality re-search. Chicago: University of ChicagoPress; 1952.

Correspondência: Luiz PasqualiCampus Darci Ribeiro, ICC SulLabPAM, sala AI-096Plano Piloto - Asa NorteCEP 70910-900- Brasília, DF, Brasil

Documents

psicometria.pdf