22
113 SEGUNDA EDI˙ˆO Validade e fidedignidade nos testes coletivos de inteligŒncia * Murilo Braga Palavras-Chave: teste de inteligŒncia; validade; fidedignidade. * Esta monografia foi escrita em 1938 e apresentada ao con- curso para a carreira de TØc- nico de Educaçªo do Minis- tØrio da Educaçªo. O autor nªo fez qualquer alteraçªo, embora o trabalho necessite de uma atualizaçªo, em vir- tude dos progressos nesse campo, especialmente com os resultados que os ameri- canos conseguiram durante a guerra. N.E.: Publicada originalmente na RBEP, v. 12, n. 34, set./ dez. 1948. O texto foi atuali- zado de acordo com as nor- mas bibliogrÆficas da Asso- ciaçªo Brasileira de Normas TØcnicas (ABNT) e normas de redaçªo atuais; sua estru- tura formal foi adaptada ao projeto grÆfico da revista, sem comprometimento do conteœdo original. Os testes classificam-se segundo o objeto da prova e a modalidade de aplicaçªo. Os primeiros resultados de testes coletivos de inteligŒncia foram divulgados em 1913 e desde entªo tŒm sido fortemente atacados; todavia, eles desempenham um papel importante na administraçªo e R. bras. Est. pedag., Brasília, v. 79, n. 193, p. 113-134, set./dez. 1998 Ilustraçªo: Fabiano Yoshiyuki Higashiyama

Validade e fidedignidade nos testes coletivos de inteligŒncia

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

113

SEGUNDAEDIÇÃO

Validadee fidedignidadenos testes coletivosde inteligência*

Murilo Braga

Palavras-Chave: teste deinteligência; validade;fidedignidade.

* Esta monografia foi escrita em1938 e apresentada ao con-curso para a carreira de Téc-nico de Educação do Minis-tério da Educação. O autornão fez qualquer alteração,embora o trabalho necessitede uma atualização, em vir-tude dos progressos nessecampo, especialmente comos resultados que os ameri-canos conseguiram durantea guerra.

N.E.: Publicada originalmentena RBEP, v. 12, n. 34, set./dez. 1948. O texto foi atuali-zado de acordo com as nor-mas bibliográficas da Asso-ciação Brasileira de NormasTécnicas (ABNT) e normasde redação atuais; sua estru-tura formal foi adaptada aoprojeto gráfico da revista,sem comprometimento doconteúdo original.

Os testes classificam-sesegundo o objeto da prova e amodalidade de aplicação.Os primeiros resultados de testescoletivos de inteligência foramdivulgados em 1913 e desdeentão têm sido fortementeatacados; todavia, elesdesempenham um papelimportante na administração e

R. b

ras.

Est

. ped

ag.,

Bra

sília

, v. 7

9, n

. 193

, p. 1

13-1

34, s

et./d

ez. 1

998

Ilust

raçã

o: F

abia

no Y

oshi

yuki

Hig

ashi

yam

a

114

Introdução

O teste, sua conceituação

Teste, do inglês test (exame, verifica-ção, experiência, ensaio, prova) e palavrahoje de uso universal, na técnica psicoló-gica, significa prova em condições objeti-vas. No próprio inglês há uma acepçãomais genérica, que é a que foi antes apon-tada; e uma acepção mais restrita de pa-drão, bitola. Do ponto de vista da lógica,é qualquer critério ou processo emprega-do para determinar-se a verdade ou a fal-sidade de uma hipótese, tanto pela evi-dência empírica como pelo raciocínio.Como a objetividade, que é o caráter es-sencial do teste, em nosso entender, levaà fixação de normas de comparação, apalavra tem sido empregada por algunsautores como prova já aferida ou padroni-zada. Incluem, assim, uma noção que lhenão é própria ou substancial, mas já con-seqüência de aplicação. Convém esta dis-tinção, desde o início, porque o assuntoescolhido para esta monografia versa, jus-tamente, sobre as qualidades essenciaisde um teste coletivo de inteligência, parao efeito de sua padronização. Empregar-se-á bem a palavra para significar prova,experiência, ensaio. Poderá ser aindaempregada no sentido de material comque se faz a prova, no sentido de reativo,pois, de fato, com esse material se procu-

ra provocar uma reação, uma modifica-ção de comportamento de que se desejacolher a amostra.1 Desacompanhada, po-rém, de qualquer qualificativo, não deve-rá levar a pensar desde logo em instru-mento de prova, graduado e aferido. Oteste é simplesmente a prova feita emcondições de objetividade, de tal modoque qualquer pessoa habilitada que aempregue, nas condições estabelecidaspara seu uso adequado, colha sempre osmesmos resultados ou resultados com-paráveis e possa interpretá-los, à vistados mesmos elementos, também do mes-mo modo. Em outras palavras: as provaspsicológicas podem sofrer a influência daequação pessoal do experimentador, emgrau mais ou menos elevado, na sua in-terpretação; como podem também seraplicadas de modo a provocar sugestãopositiva ou negativa, em relação aos re-sultados que colher; podem, por outrolado, provocar estados emotivos diver-sos, nas diversas pessoas sobre que fo-rem aplicadas.2 A consideração desseselementos perturbadores, na colheita daamostra, levou os pesquisadores a fixa-rem condições próprias para cada exa-me, a fim de atenuar a sua influência. Ecomo esse trabalho foi realizado especi-almente por autores norte-americanos eingleses, a palavra teste se universalizoucom o sentido não só de prova, mas deprova em condições objetivas.3

Classificação do teste segundoo objeto da prova

A prova em condições objetivas podeser aplicada na colheita de qualquer ma-terial de estudo. É lícito, pois, o empregode expressões tais como teste físico, tes-te químico, teste biológico, teste escolar,teste psicológico. A classificação do tes-te, por seu objeto, é assim variada. Pode-rão ser eles distribuídos por gêneros eespécies sem conta. No entanto, a pala-vra tem sido empregada, especialmenteem nosso país, para designar prova esco-lar, exame de conhecimentos ou examede capacidades de um indivíduo. Nesteúltimo sentido, vemos que o termo podecompreender um grande número de coi-sas. De fato, tal seja o propósito da provae o ponto de vista em que o examinadorse coloque, ao propô-la, assim serão osresultados ou o material colhido. Haverá

1 Em espanhol e italiano é co-mum traduzir-se a palavra testpor reativo. Cf. LAFORA, Losniños mentalmente anorma-les. 2. ed. Madrid, 1933;GONZALEZ. Diagnostico delos ninõs anormales. Madrid :El Magistério Espanhol,[s.d.]; AGUAYO. Pedagogiacientífica. Havana : CulturalS.ª, 1930; SANCTE DESANCTIS. Psicologia speri-mentale. Torino : Lates, 1930.Em português, LOURENÇOFILHO. Testes ABC. 2. ed.São Paulo : Melhoramentos,1937, também emprega a pa-lavra �reativo�.

2 O interesse mais acentuadopelos estudos das variaçõesindividuais nas observaçõescomeçou depois que os as-trônomos verificaram diferen-ças em suas observações.De um para outro havia sem-pre uma diferença de tempono registro da passagem deum astro pelo fio de cabeloposto em uma das lentes dotelescópio. Foi na Inglaterra,em 1795, que Maskeline, as-trônomo do Observatório deGreenwich, verificou pela pri-meira vez diferenças entre osseus registros e os de seu as-sistente Kinnebrook. Julgan-do-o incapaz de exercer ocargo, despediu-o e fez umrelato do incidente. Sabedordo fato na Alemanha, Besselpassou a estudar as causasdesses erros. Depois de al-gum tempo formulou a hipó-tese de que em toda obser-vação há um erro pessoal, e,em 1822, ao publicar os pri-meiros resultados, deu onome de equação pessoal aessa diferença individual deobservação. Ver PIÉRON.Psicologia experimental. Tra-dução de Lourenço Filho.São Paulo : Melhoramentos,[s.d.]; BORING. An history ofexperimental Psychology.Appleton : Century, 1929;MURPHY. An historycal intro-duction to modern Psycho-logy. 4. ed. rev. New York :Harcourt, Brace, 1938.

3 Já em 1845, Horace Mann cla-mava por provas em condi-ções objetivas em substitui-ção aos antigos exames. Em1864, na Inglaterra, o reveren-do Fischer tentava objetivar ojulgamento dos trabalhos deseus alunos com o empregode Scale-Book. Cattell, em1890, emprega pela primeiravez a expressão mental-test, ea partir de então formou-se aconsciência de que era neces-sário o emprego de provasem condições objetivas paramedir tanto a inteligência eaptidões como o rendimentodo trabalho escolar (cf. Ruch;Lincoln e Workman; Monroe).

organização escolares.A coerência de um instrumento demedida é verificada pelo grau deconcordância existente entre osíndices internos (fidedignidade) eexternos (validade). Emprega-se ocoeficiente de correlação paraverificar a fidedignidade prática doinstrumento de teste, isto é, paraverificar a sua coerência emsucessivas aplicações.Os processos de verificaçãoestatística permitem exprimir poríndices numéricos o grau deconfiança que é possível atribuirao teste.

R. b

ras.

Est

. ped

ag.,

Bra

sília

, v. 7

9, n

. 193

, p. 1

13-1

34, s

et./d

ez. 1

998

115

testes de sensibilidade, testes de inteli-gência, testes de aptidão, testes de ma-turidade, testes de fadiga, testes de emo-ção... Desde que eles compreendam, nosseus resultados, a colheita de material docomportamento, por qualquer que seja oseu aspecto, aí teremos um teste psico-lógico. O teste psicológico não é, assim,apenas o teste de inteligência, nem só oteste mental, por mais amplas que sejamas acepções dadas a estes adjetivos. Tes-te psicológico é, assim, um gênero; e tes-te de inteligência é uma espécie dessegênero.

Teste de inteligência

A caracterização de teste de inteli-gência exige uma definição de inteligên-cia. Se fôssemos, porém, discutir, doponto de vista teórico, o que é inteligên-cia, fugiríamos do nosso objetivo. É cer-to que não se pode dispensar um pontode vista teórico. Uma concepção geral,larga e esclarecida, não do que seja in-teligência, mas do que é a atividade in-teligente, torna-se necessária. Isso nãosignifica o abandono da discussão teóri-ca, que a seu tempo será levantada. Ado-taremos para caracterização do teste deinteligência um ponto de vista objetivo efuncional. Com efeito, com o auxílio decertas provas, procuramos verificar nãoa inteligência em si, mas os seus efeitos.E o que interessa é a consideração doato inteligente. Se esse ato pode sermedido ou graduado por provas conve-nientes, resultará daí que teremos testesde inteligência.4

Classificação dos testessegundo a modalidade

de aplicação

Segundo a modalidade de sua apli-cação a um indivíduo ou a grupos de indi-víduos, simultaneamente, o teste pode serclassificado como individual ou coletivo.O recurso normal para aplicação de umteste coletivo, em geral, é o apelo ao tra-balho gráfico, pela simples razão de queeste deixa um registro permanente, quepode ser verificado depois, em qualquertempo, e estudado por qualquer especia-lista. Tendo diante de si um só examinan-do, o experimentador pode anotar as rea-

ções que esteja observando, com maiorou menor minúcia. O mesmo não seriapossível, em face de um grupo de exa-minandos. E neste caso, o papel e o lá-pis são os instrumentos necessários. Oexaminador ou dá as ordens verbalmen-te, ou as apresenta escritas, em modelosque expõe, à vista de todo o grupo; ouainda, as entrega já escritas, em cada fo-lha de trabalho, impressas oumimeografadas, para que cada exami-nando as leia e as resolva, no mesmopapel. Na disposição do material de exa-me, na hora da prova, deverá haver o mai-or cuidado para que todos os examinan-dos estejam sensivelmente nas mesmascondições de trabalho, para que os re-sultados não venham a ser influenciadospor essa causa de erro, tão comum nostestes. De outra forma, não teríamos umbom teste, por falta de certas condiçõesde objetividade. Os testes de inteligên-cia podem ser apresentados individual oucoletivamente.

Resumo histórico dos testescoletivos de inteligência5

As dificuldades na aplicação dos tes-tes individuais, o emprego de testes deescolaridade e ainda a necessidade deseleção de grandes grupos, em tempo mí-nimo, deram como resultado o apareci-mento das primeiras tentativas de ensai-os para emprego de testes coletivos deinteligência, não sem a oposição dos psi-cólogos. Dentre os pioneiros podemosassinalar W. Pyle, aplicando vários testesa grupos de crianças, sem todavia com-binar os resultados parciais para conse-guir um índice global da capacidade. Osresultados desse trabalho foram divulga-dos em 1913. Por essa época, Thorndiketambém emprega testes coletivos paraexaminar os empregados da MetropolitanLife Insurance Co., deixando, porém, dedivulgar os resultados conseguidos.Pintner, então professor da Universidadede Ohio, aproveita-se da idéia de Pyle eaplica seis testes a um grupo de crianças,a fim de selecionar os débeis. Tomoucomo medida da capacidade dos alunoso mediano de seis percentis. Os resulta-dos dessa tentativa foram publicados em1917. Miller, por outro lado, nos relata queem 1914, quando trabalhava sob a dire-ção de Whipple, preparava uma tese que

4 Para Piéron, a noção de inte-ligência é um �conceito devalor�. O termo inteligência éempregado, de fato, comacepções muito diversas.Para Claparède, a palavra in-teligência tem sido emprega-da em três sentidos diversos,a saber: a) nome dado à clas-se de fenômenos psíquicosque têm por objeto o conhe-cimento. Inteligência, assim,se opõe à afetividade, àreatividade. O adjetivo de in-teligência, nesta acepção, éintelectual; b) maneira de serdos processos psíquicosadaptados com êxito a situa-ções novas. Inteligência seráa capacidade de resolverproblemas novos pelo pen-samento (Stern, Claparède).Nesta acepção, opõe-se aoautomatismo, ao instinto, àimbecilidade. O adjetivo seráinteligente; c) na linguagemcorrente, capacidade superi-or à média. Ver na bibliogra-fia, Claparède e Pieron.

5 Para referências históricassobre os testes coletivos deinteligência, ver na bibliogra-fia Symonds; Yoakum eYerkes; Levine e Marks;Ballard; E. Smith; Garrett eSchneck; Pintner; Lincoln eWorkman; Colvin; e Memoirsof the National Academy ofSciences, v. 15.R

. bra

s. E

st. p

edag

., B

rasí

lia, v

. 79,

n. 1

93, p

. 113

-134

, set

./dez

. 199

8

116

tratava dos testes coletivos de inteligência,indicando o seu valor e prevendo o próxi-mo emprego dessa modalidade de testede inteligência como recurso barato, práti-co e cômodo. Seu teste coletivo foi experi-mentado na Escola Secundária da Univer-sidade de Minnesota, em 1917. Para esseespecialista, até então nenhum instrumen-to de tal natureza havia sido tentado e nemmesmo normas fidedignas haviam sidoestabelecidas para testes simples que pu-dessem ser usadas em testes coletivos. Oteste, porém, de Miller, só foi publicado em1921. O passo decisivo, no entanto, para oemprego dos testes coletivos de inteligên-cia, foi dado por A. I. Otis, quando assis-tente de Terman na Leland StandfordUniversity, e a ele cabe a primazia de ha-ver organizado o primeiro teste coletivopara medir a capacidade dos alunos. O seutrabalho foi enviado a um comitê daAmerican Psychological Association, queestava tratando, nessa época, do trabalhode seleção dos recrutas para a formaçãodo exército americano que participaria daGrande Guerra. Com auxílio do material deOtis, foi organizado o trabalho preliminarpara composição do teste de inteligênciadestinado a classificar os recrutas. Cercade quatro testes de escala primitiva orga-nizada pela comissão de que faziam parteYerkes, Terman, Wells, Whipple, Haines,Goddard e Bingham, eram do trabalho deOtis. Depois das experimentações prelimi-nares, que alcançaram cerca de 80 milpessoas, apareceu a Army Alpha e logo aseguir a Beta, aquela para alfabetizados eesta para estrangeiros e analfabetos.6 Em1918, quando era ainda intenso o trabalhode seleção para formação do exército, Otistraz nova contribuição aos testes coletivosde inteligência, publicando o Otis GroupIntelligence Examination. Em 1919, apare-ce o Intelligence Examination for HighSchool Graduates de Thorndike e tambémconhecido por teste CAVD.7 Ainda no mes-mo ano, Thurstone publica a PsychologicalExamination for College Freshmen and HighSchool Seniors. A partir de 1920 começama aparecer trabalhos de maior vulto e maisprecisão científica. Nesse ano, Terman pu-blica o seu famoso e discutido teste coleti-vo de inteligência � Group Test of MentalAbility � cujas normas foram estabelecidasdepois de examinados cerca de 40 mil alu-nos dos graus 7 a 12. Segue-se o trabalhode Haggerty � Haggerty IntelligenceExamination. Nesse mesmo ano, sob os

auspícios do �National Research Council�,constitui-se uma comissão para a organi-zação de um teste nacional de inteligên-cia. Dessa comissão fizeram parte Terman,Thorndike, Haggerty, Whipple e Yerkes,que depois de exaustivos trabalhos orga-nizaram o National Intelligence Test. Nes-se trabalho foram gastos cerca de 25 mildólares. Em 1920, a Civil Service da Ingla-terra, a exemplo de sua similar america-na, que então já aplicava testes coletivosde inteligência, cria uma seção denomi-nada �Intelligence Tests� para exame dascandidatas aos trabalhos das repartiçõespúblicas. Por essa época, eram intensifi-cados os trabalhos de Burt H. Winch,Thomson e Ballard, tendo esses dois últi-mos organizado alguns testes coletivos deinteligência. Na América, continuava omovimento e cada vez mais intensamen-te. Vêm os trabalhos de Dearborn (1920),Pintner (1920); Baker (1924); McCall(1925) Goodenough (1925); Bregman(1925); Kuhlmann-Anderson (1927) alémde outros. Não podemos deixar de nosreferir, ao terminar este resumo, à maisrecente tentativa de organização de umteste coletivo de inteligência (1935) base-ado na doutrina de Spearman.

Objeções aos testes coletivosde inteligência

Muitas têm sido as objeções levan-tadas contra os testes coletivos de inte-ligência. Desde as primeiras tentativaseles têm sido fortemente atacados, écerto. Não, porém, pelos que os tenhamexperimentado. Objeções contra os tes-tes � se é que possamos chamar obje-ções a críticas menos fundadas � aindasão feitas mais pelos leigos que por es-pecialistas. Em nosso meio, por exem-plo, é interessante verificar a facilidadecom que certas objeções primárias têmcurso, e chegam a ponto de afirmar queos testes não são mais empregados nospaíses de origem. Tal atitude tem ape-nas duas fontes: a imaginação exaltadado leigo e o primarismo que se formapela falta de informação. Isso, porém,não deve preocupar a quem se dispo-nha a estudar seriamente o assunto. Semdúvida, os testes de inteligência e, emespecial, os coletivos, são instrumentosque se apresentam ainda com defeitos,somente corrigíveis com o aperfeiçoa-

6 Foram examinados pela Divi-são de Psicologia do Exérci-to Americano 1.726.966 pes-soas, tendo a Army Alphasido aplicada a cerca de 1milhão e 250 mil. No dia doarmistício, os examinadorese ajudantes formavam umverdadeiro regimento: 120oficiais, 350 soldados e 500ajudantes.

7 C significa resolução de pro-blemas de completamentoverbal; A, problemas relativosa situações aritméticas; V, pro-blemas referentes ao vocabu-lário; e D, problemas cujassoluções dependam do cum-primento de ordens verbais.Ver na bibliografia Thorndikee Pintner. R

. bra

s. E

st. p

edag

., B

rasí

lia, v

. 79,

n. 1

93, p

. 113

-134

, set

./dez

. 199

8

117

mento progressivo da técnica. Nem porisso devemos abandonar o instrumen-to. A pouco e pouco, vai ele sendo aper-feiçoado; e dentro de mais alguns anosterá certamente melhorado nas defici-ências que ainda apresenta. Seu papelno futuro dependerá tão-somente dacompreensão dos que o utilizarem, poremprego adequado, não exigindo delemais do que realmente possa dar. Mui-tas vezes, o emprego inadequado doinstrumento, ou a utilização por quemdesconheça de modo perfeito seu me-canismo, poderá concorrer para que osresultados sejam falhos. É que instru-mento dessa natureza só serve para de-terminados fins e assim mesmo rigoro-samente dentro das condições prescri-tas para sua aplicação.8

Importância dos testes coletivosde inteligência

Os testes coletivos de inteligência de-sempenham um papel da maior importân-cia na administração e organização esco-lares, nos departamentos de pesquisaseducacionais e na administração em ge-ral. Citaremos como exemplos: Instituto deEducação da Universidade do Distrito Fe-deral, Instituto de Pesquisas Educacionais,Conselho Federal do Serviço Civil.

Dentre outras aplicações citaremos:1) estudos sobre as diferenças individu-ais; 2) seleção de alunos, formação degrupos homogêneos e de classes espe-ciais (aceleração, oportunidade); 3) es-tudos sobre o desenvolvimento mental;4) orientação profissional; 5) seleçãoprofissional.9

O problema da fidedignidade

Os testes de inteligência e a técnicageral dos testes10

Todas as objeções, fundadas ou não,devem ceder à verificação das qualida-des de um teste, como instrumento demedida. Isto é, à verificação técnica desuas próprias qualidades � o teste de tes-te... E como se fará essa verificação? Querequisitos se devem exigir de um instru-mento de medida?... A mais simples re-flexão nos indica que um instrumento

dessa natureza deve ser sensível e segu-ro. Sensível, ou seja, capaz de apreciaras variações do que se quer medir. Segu-ro, ou seja, capaz de inspirar confiançapor sua coerência. Coerência interna, istoé, relativa às suas diferentes partes, emque cada uma delas meça proporcional-mente o que deve medir. Externa, isto é,que cada uma dessas partes e o seu con-junto apreciem realmente o atributo que oinstrumento pretende verificar. De ummodo geral, estes problemas envolvem atécnica do que se convencionou chamarde aferição do teste. Nessa aferição, oproblema da sensibilidade do instrumen-to é o mais simples, resolvendo-se pelaestatística de distribuição e variação. Nãoassim, os dois últimos problemas, paracuja solução várias técnicas têm sido apre-sentadas. Elas envolvem quase sempreverificações de correlação, ou seja a apre-ciação de fenômenos de observação maisdelicada. Numa palavra, envolvem os pro-blemas chamados de fidedignidade e devalidade.

Coerência: fidedignidadee validade

A coerência de um instrumento demedida é verificada pelo grau de concor-dância existente entre os índices internose externos; também pela verificação daconcordância nos resultados de sua apli-cação repetida. Como se vê, o problemase refere a provar que o instrumento pos-sui certo grau de coerência, tanto pela suaadequabilidade ao atributo que se preten-de medir, quanto pela confirmação dos re-sultados em sucessivas aplicações.

Coerência interna:fidedignidade

Não resta dúvida que as mensuraçõesfeitas com os testes admitem certo núme-ro de erros, e os testes coletivos mais queos de aplicação individual. No entanto,quanto mais atenuarmos a interferência dascausas de erro, maior será a fidedignida-de do instrumento.

A maneira teórica de considerar a fi-dedignidade será a de admitir a possibili-dade de aplicação ao mesmo indivíduo deum número n de formas paralelas ou equi-valentes do teste. Isso feito, tomar a média

8 Decroly, em 1923, publicouum interessante trabalho emque condensou os inconve-nientes e as vantagens dostestes coletivos e individuais(cf. L�Année Psychologique,1923).

9 Sobre as aplicações dos tes-tes de inteligência, Hildreth, daColúmbia, publicou um interes-sante trabalho, na Review ofEducational Research (1935). P.Mort, também na mesma revis-ta, em 1932, fez um resumo dasaplicações.

10Para a discussão desses pro-blemas, ver na bibliografia:Symonds; Ruch e Stoddard;McCall; Pintner; Kelley;Barthelmess; M. Smith; Long eSandiford; Monroe e Engelhart;Freeman; Thurstone; Garrett;Otis; Skaggs; Kelley e Shen;Willoughby; Piéron e Fessard;Rey; Monroe; Jordan; Colvin;Rugg; Ruch; Fessard.R

. bra

s. E

st. p

edag

., B

rasí

lia, v

. 79,

n. 1

93, p

. 113

-134

, set

./dez

. 199

8

118

dos resultados como o resultado verdadei-ro em relação ao indivíduo. Ponto de vistaapenas teórico.

A maneira prática consiste em calcu-lar o coeficiente de correlação entre osresultados de duas aplicações sucessi-vas do mesmo instrumento, num mesmogrupo de indivíduos ou em grupos seme-lhantes; ou, ainda, entre os resultados deduas formas paralelas ou equivalentes,assim aplicadas. Reconheceu-se, toda-via, que esses processos não são osmenos influenciados por fatores externos.E por essa razão propôs-se como expres-são da fidedignidade o coeficiente de cor-relação entre os resultados das metadesdo mesmo teste.

Coerência externa: validade

Ao que denominamos coerência ex-terna, os autores têm chamado de valida-de � os mais modernos autores a têm de-finido como o grau de coerência entre umíndice fixado e um índice externo � esteconhecido por meios objetivos ou preli-minarmente fixado, por valores estimati-vos. A esse índice, dá-se o nome de crité-rio. O grau de coerência é encontrado pelocoeficiente de correlação entre os dadosrepresentativos de cada índice, que rece-be a denominação de coeficiente de vali-dade. Quanto maior esse grau de coerên-cia, tanto mais válido será o instrumento.No caso particular do teste de inteligên-cia, o que se pretende medir é o ato inte-ligente. O índice fixado deverá estar de talmodo proposto que realmente verifiqueesse atributo, muito embora se admitasempre possibilidade de erro.

A validade é geralmente definida comoa característica do teste que mede realmen-te o que pretende medir. Isto é, que o testetenha a qualidade de verificar o atributo vi-sado, pela adequação das questões nelecontidas. E tanto é assim que a NationalAssociation of Directors of EducacionalResearch a definiu como o grau de corres-pondência existente entre a capacidademedida pelo teste e a capacidade delimi-tada e medida objetivamente.

As definições poderão variar na forma;não, porém, em essência. Em relação àvalidade, como diz Monroe, o que procu-ramos é o grau de constância da relaçãofuncional existente entre os resultados doteste e as capacidades consideradas como

medidas no exercício de sua função.Barthelmess assegura que a validade nostestes de inteligência é o grau de concor-dância verificada pela diferenciação queo teste apresente para os indivíduos, e adiferenciação real em inteligência entre es-ses mesmos indivíduos.

Fidedignidade prática

Propusemos o problema de um modoainda teórico. Vejamo-lo agora, na práti-ca. O grau de coerência interna é, em ge-ral, calculado com o emprego do coefici-ente de correlação. A esse coeficiente apli-cado para esse efeito, os autores têm de-nominado coeficiente de fidedignidade doteste.

A expressão foi primeiramente usa-da por Spearman, em 1910. Mas já des-de 1904, esse mesmo psicólogo e esta-tístico inglês, ao propor a teoria dos doisfatores, empregava em seus trabalhos oprocesso. Assim, o chamado coeficientede fidedignidade diz respeito a duasmensurações do mesmo atributo com oemprego do mesmo instrumento ou deinstrumentos equivalentes. E o que sepretender determinar é o grau de coerên-cia interna do instrumento empregado,quaisquer que sejam os verificadores,desde que respeitada a técnica de apli-cação que estiver fixada para bom usodo instrumento.

Verifica-se, porém, pelo exame dastécnicas empregadas que a denominaçãopoderá levar a equívocos. De fato, três téc-nicas diversas têm sido empregadas e,quase sempre, dando resultados diferen-tes. No entanto, a expressão está larga-mente difundida e aceita na extensa bibli-ografia americana e inglesa. Um ou outroautor tem proposto denominação especí-fica para uma das técnicas, o que não temlogrado aceitação. E tanto é assim que umrecente dicionário de psicologia, a queemprestaram colaboração mais de 100especialistas, a registra como de aceita-ção mais geral.11 Nem por isso deixa deser equívoca, a não ser que, ao usarmos adenominação, estabeleçamos a técnicaempregada para seu cálculo.

Procurando unificar a terminologiasobre os índices estatísticos de um teste,a Comissão de Unificação Terminológica,no Congresso de Psicotécnica de 1931,resolveu adotar, em substituição a coefici-

11WARREN, W. Dictionary ofPsychology. New York :Hougton Mifflin, 1934. R

. bra

s. E

st. p

edag

., B

rasí

lia, v

. 79,

n. 1

93, p

. 113

-134

, set

./dez

. 199

8

119

ente de fidedignidade, três novas deno-minações: coeficiente de homogeneidade,coeficiente de equivalência e coeficientede constância. Não foi melhor o resulta-do: deram para verificação do grau de co-erência de um instrumento três denomi-nações. Por essa forma, evidentemente,não se tornou inequívoca a noção.

A expressão pouco importa no caso.Na verdade, o que desejamos verificar éa coerência do instrumento em sucessi-vas aplicações: se ele é realmente dignode merecer a nossa confiança; se pode-mos trabalhar com ele sem que, por in-consistência, venha deformar as nossasconclusões. Por essa razão é que, nestetrabalho, denominaremos as três técni-cas, que passaremos a analisar, do se-guinte modo:

a) fidedignidade por constância deaplicação;

b) fidedignidade por equivalência;c) fidedignidade por homogeneidade.

Primeira técnica (a) � Obtém-se ograu de coerência do instrumento pelocálculo do coeficiente de correlação en-tre os resultados de duas aplicações su-cessivas da mesma forma do teste aomesmo grupo ou a dois grupos equiva-lentes de indivíduos. E uma vez que a fi-dedignidade de um teste é expressa pelasua autocorrelação, a mais simples e amais direta será essa técnica.12

No entanto, a despeito de ser a maisprática e a mais direta, deve ter empre-go limitado, principalmente em relaçãoa testes coletivos de inteligência. Se ogrupo de indivíduos for submetido àsduas aplicações no mesmo dia, ou comintervalo de uma ou duas semanas, mui-tos indivíduos lembrar-se-ão de algumasquestões e de suas respostas, por oca-sião da segunda aplicação; em conse-qüência, os resultados aparecerão sen-sivelmente melhorados. Também a atitu-de dos indivíduos poderá variar; a fadi-ga e o enfado poderão contribuir paradiminuição do interesse que ponham naexatidão do trabalho empreendido. Poroutro lado, haverá uma possibilidade detransferência.

Procurando atenuar os efeitos da me-mória e a possibilidade de transfer, algunsautores aconselham o aumento de prazoentre as duas aplicações. As objeções,porém, ficariam de pé.

Por tudo isso e, ainda, pela impossibi-lidade de controlarmos os fatores externosque, como vimos, influem nos resultadosda segunda aplicação, é que não convémo emprego irrestrito dessa técnica.

Segunda técnica (b) � Obtém-se o graude coerência pelo cálculo do coeficientede correlação entre os resultados de apli-cações de duas formas paralelas ou equi-valentes de um teste ao mesmo grupo deindivíduos ou a dois grupos equivalentes.Deve-se ter o cuidado de deixar um inter-valo apreciável entre as duas aplicações.13

Mesmo evitando-se o fator memória, nãose conseguirá evitar o transfer.

Alguns autores, procurando diminuira transferência, apelaram para um ensaiopreliminar, por ocasião da primeira aplica-ção. Outros, com o mesmo objetivo, man-dam dar uma bonificação ao número depontos atribuídos a cada indivíduo, na pri-meira aplicação.

Além disso tudo, é evidente que estatécnica exige o trabalho de composiçãode duas formas paralelas do mesmo tes-te. E serão elas realmente paralelas ouequivalentes? Kelley propõe como crité-rio a similaridade sem identidade de ele-mentos, o que é vago e inexpressivo.Embora certos autores afirmem que umteste não pode ser considerado bom semque se apresente com várias formas pa-ralelas, julgamos exagerada essa opinião.Não resta dúvida que será realmente útildispor de formas paralelas. Isso, porém,quando nos mereçam confiança, por co-erência interna e externa.

Não devemos esquecer também queo emprego dessa técnica acarretará dife-renças nos resultados, para mais ou paramenos, em virtude das diferenças de atitu-de e esforço dos indivíduos submetidos aoexame, e mesmo em virtude de variaçãodas condições ambientes.

Por essas razões é que não julgamosacertado apenas o emprego dessa técni-ca, embora seja ela superior à primeira.

Terceira técnica (c) � Obtém-se o graude coerência do instrumento pelo cálculodo coeficiente de correlação entre os re-sultados das questões pares e ímpares doteste. Se bem que pareça a mais adequa-da, essa técnica tem sido ultimamente ob-jeto das maiores discussões, chegando R.R. Willoughby, da Universidade de Clark, aafirmar que ela não passa de uma versãoda técnica anterior. Também a criticamRuch e Stoddard.

12Truman Kelley usa para essatécnica a denominação �co-eficiente de reteste�. Outrosautores usam ainda �coefici-ente de consistência�. Umae outra, porém, não tiveramaceitação.

13A expressão forma paralelade um teste, ou simplesmen-te, forma paralela é de usocomum em medidas educa-cionais. Freqüentementetambém encontramos formaequivalente, forma compará-vel, forma duplicata e, rara-mente, forma igual.R

. bra

s. E

st. p

edag

., B

rasí

lia, v

. 79,

n. 1

93, p

. 113

-134

, set

./dez

. 199

8

120

Em abono dessa técnica há, porém,trabalhos do mais alto valor. Remmers, ci-tado por R. C. Jordan, diz:

É de importância capital notar que essesmétodos, em geral, não dão o mesmocoeficiente de fidedignidade. O coeficien-te obtido pelo método das questões pa-res e ímpares é em geral mais alto do queo conseguido pelo método das formasequivalentes.

E ainda:

Fatores tais como fadiga, monotonia, dis-tração, etc., influirão mais na última técni-ca (forma equivalente)...

Uma grande experiência de R. C.Jordan também dá margem a que sejamosfavorável a essa técnica, porque dá o graude fidedignidade do instrumento, indepen-dentemente do fator individual em sua se-gunda aplicação. Essa conclusão tambémencontra apoio em outros autores. Dentreeles, J. C. Dunlap, a cujo trabalho tambémse refere Jordan.

Deve-se sempre esperar que por essatécnica o resultado seja maior do que oobtido pela segunda. Foi, aliás, o que jáverificou também Foran, citado por Monroee Engelhart.

A fórmula usada é a que foi estabelecidasimultaneamente, em 1910, por Spearman eBrown, e representa um caso particular dafórmula de profecia, desses mesmos auto-res, como veremos adiante.

e m q u e r 1 1 é f i d e d i g n i d a d e p o r

homogeneidade, e é o

coeficiente de correlação entre as metadesdo teste.

Fidedignidade virtual

Obtida a fidedignidade prática de um tes-te coletivo, pelas técnicas indicadas, é possí-vel calcular a fidedignidade virtual do mesmoteste, ou seja, a correlação entre os resulta-dos obtidos e aqueles que, teoricamente, po-deriam ser conseguidos. Isto é, aqueles re-sultados conseguidos com um número n de

aplicações do teste ou de n formas equiva-lentes, aplicadas ao mesmo grupo de indiví-duos ou a dois grupos equivalentes.

O coeficiente obtido tem sido fre-qüentemente chamado de índice de fide-dignidade. Na verdade, não se trata de umíndice, mas de uma expressão teórica dafidedignidade de que é capaz o instrumen-to, e por essa razão é que é preferíveldenominá-lo coeficiente teórico de fidedig-nidade ou, simplesmente, fidedignidade vir-tual, em oposição ao que chamamos defidedignidade prática.

Passemos, agora, à fórmula que nosdará a fidedignidade virtual.

Sejam a, b, c,... n as formas equiva-lentes de um teste coletivo de inteligên-cia. Qualquer delas, quando aplicada, estásujeita a erro experimental.

A fidedignidade prática por equivalên-cia entre as formas será:

O verdadeiro resultado (V) no testeserá a média de pontos que o indivíduoconseguir no número n de aplicações. Éclaro que V não poderá ser realmente cal-culado, uma vez que n será sempre finito,e por isso haverá a persistência de um erroresidual de mensuração, mesmo que des-prezemos a influência de fatores sistemá-ticos: treino, fadiga, transfer, etc.

Por definição, V não está sujeito a duasespécies de erros; apenas aos sistemáti-cos. Assim, a fidedignidade virtual serásempre mais alta do que a prática ou real.

Sejam:

Xa os resultados na forma aXb os resultados na forma bV o resultado verdadeiro

Xa=V+SS e S� os erros

Xb=V+S�

A fidedignidade por equivalênciaserá:

mas

å Xa Xb = å (V+S) (V+S�) = å (V 2+VS+VS�+SS��) = = å V 2+å VS+å VS�+å SS�

R. b

ras.

Est

. ped

ag.,

Bra

sília

, v. 7

9, n

. 193

, p. 1

13-1

34, s

et./d

ez. 1

998

U �U �U ����������UDE DF EF Q�����Q�

U� �

U � � ���

�U� ��

��

����U� ��

��

U �� �;D�;E

�� �;D�;E

121

eå VS = å VS� = å SS� = 0;

donde

å Xa Xb = å V2

Os desvios-padrão das formas equi-valentes serão iguais:

mas,

sendo sv o desvio-padrão da distribuiçãodos resultados verdadeiros:

A fidedignidade virtual será:

donde

A fidedignidade virtual será a raiz qua-drada da fidedignidade prática, e represen-tará também a correlação máxima de queum teste coletivo de inteligência é capazaplicado n vezes. Quando um teste se apre-sentar com baixa fidedignidade virtual, deveser abandonado ou refeito, porque, sendoesses coeficientes menores do que a uni-dade, a fidedignidade prática será sempremenor do que a virtual. E como instrumen-to de medida, não merecerá confiança.

Fidedignidade e extensão doteste

A fidedignidade de um teste aumenta-rá se a esse teste acrescentarmos novasquestões, que procurem diagnosticar omesmo atributo? Por outras palavras, se afidedignidade de um teste não se apresen-tar como satisfatória, ela melhorará no casode dobrarmos ou triplicarmos a extensão daprova, desde que as questões acrescidassejam do mesmo teor que as já existentes?Ainda outra questão: se, ao contrário dedobrarmos ou triplicarmos a extensão doteste, aplicarmos duas ou três formas doteste ao mesmo grupo de indivíduos e to-marmos a média dos resultados das aplica-ções como o resultado individual, a fidedig-nidade aumentará?

A essas indagações podemos respon-der com o emprego da fórmula de profeciade Spearman e Brown:

em que rnn representa a correlaçãoentre n formas paralelas do teste; n, o nú-mero de formas paralelas ou o número devezes que o teste foi aumentado; e rab afidedignidade por constância de aplicaçãoou por equivalência.

Quando se tratar da duplicação doteste, a fórmula de profecia passará a seresta:

Essa fórmula é a que se emprega para ocálculo da fidedignidade por homogeneidade,em que rab é o coeficiente de correlação entreos resultados das questões pares e ímpares,como já vimos atrás.

A fórmula de profecia pode tambémser aplicada para sabermos o número dequestões de que deve ser aumentado oteste, a fim de que a sua fidedignidade al-cance um valor x.

De fato, resolvendo a fórmula para nvezes a extensão do teste, teremos:

R. b

ras.

Est

. ped

ag.,

Bra

sília

, v. 7

9, n

. 193

, p. 1

13-1

34, s

et./d

ez. 1

998

��UDE

����UDE

U QQ

Q� U ��� U �QQ DE�

²�

U ��� U �DE QQ�

²�

U QQ

QUDE

����Q� ��UDE

²�

Σ�9�

σ = σ;D ;E U � ;D�;E �

Σ�9�

U ;D�;E� � σ�

9

σ�

;D

σ9U � ;D�;E �

9�;D�������;D�;E�U�������� �U

Σ�9[D

Σ�9�

�9��9�6�

σ9��

Σ�9 � 96�� Σ

� σ 9σ;D��

U���������

U���������

122

Digamos que um teste de inteligênciatenha 30 questões, e sua fidedignidade seja80. De quantas questões deverá ser eleaumentado, para que a fidedignidade subapara 90? Calculando n, encontraremos 2,5.Donde 2,25 X 30 = 68. Logo, o teste deve-rá ser aumentado de 38 questões.

É claro que não podemos aumentarindefinidamente a extensão de um teste,com o objetivo de fazer crescer a sua fide-dignidade. Se ela for muito baixa, o traba-lho não se justificará. Além disso, com oaumento da extensão de um teste, intervi-rão fatores como a fadiga, o enfado, a di-minuição de interesse, etc., que passarãoa influir nos resultados. Quando, porém, omaterial acrescido for bem escolhido, e detal modo que desperte igual interesse pelotrabalho, poderemos aumentar um teste detrês ou quatro vezes, quando ele tiver de40 a 60 questões; e de cinco a seis vezes,e até mesmo sete, quando tiver de 20 a 30questões. Alongamentos que ultrapassemos limites referidos tornam a fórmula de pro-fecia menos segura. De fato, como notouGarrett, ela dará então resultados acima dovalor real da fidedignidade.

O problema da validade

Validade e fidedignidade

As relações entre validade e fidedigni-dade não têm sido suficientemente discu-tidas, talvez pela crença de que a simplescaracterização, com base em cálculos es-tatísticos, ou definições, por vezes mera-mente verbais, bastem para que sejamaceitas como conhecidas. Por outro lado,esses dois termos têm sido colocados emplanos diferentes, ao estabelecermos asbases para a organização de testes de in-teligência. Não nos parece razoável, pelomenos do ponto de vista teórico, a separa-ção linear entre validade e fidedignidade.Qualquer discussão sobre validade, sem aconsideração de fidedignidade, será impro-fícua. Mais ainda: a validade de um testeestá condicionada à sua fidedignidade,porque um instrumento só é perfeito quan-do fidedigno. A fidedignidade será, pois,uma condição necessária; não, porém,suficiente. Sem dúvida que um instrumen-to fidedigno será sempre válido teoricamen-te, para certo efeito. Mas poderá não o serpara o fim a que esteja destinado. A valida-

de tanto quanto a fidedignidade procurama coerência do instrumento. Se é certo quea fidedignidade não pode ir além dos li-mites da coerência interna, não é menoscerto que a coerência externa dela depen-derá sempre.

As questões do testede inteligência

As questões de um teste coletivo deinteligência representam a sua pedra detoque. Do cuidado com que as escolher-mos e as redigirmos, dependerá, em gran-de parte, a coerência do instrumento. Aaferição do teste não poderá ser feita se,desde os primeiros ensaios de aplicação,não sentirmos que estamos trabalhandocom elementos suscetíveis de comporemum instrumento de medida. Por isso, jul-gamos que as questões devem ficar su-bordinadas às seguintes condições:

a) cada questão deve incidir sobrematéria que não tenha sido aprendida es-pecificamente na escola (informação sobefeito de treino). Os testes de inteligêncianão devem verificar conteúdo específico,pois se destinam a hierarquizar indivíduossob influências educativas diversas;

b) o conteúdo específico, necessárioà compreensão e à resolução da questão,deve ser comum à experiência dos indiví-duos da idade, ou do grupo de idades, aque o teste de destine;

c) cada questão deve obter um com-portamento do indivíduo, de modo que asituação proposta seja nova, muito emboraexija o concurso da experiência anterior;

d) as questões, em seu conjunto, de-vem apresentar variedade de atividades,a fim de que se evite a monotonia do tra-balho e a falta de interesse nele;

e) as questões devem variar em difi-culdade, a fim de que permitam que osresultados gerais discriminem níveis dedesenvolvimento, os quais possam seratribuídos a idades sucessivas, ou a gru-pos de idades;

f) cada questão deve ter redação cla-ra e precisa, admitindo uma só resposta.

O atributo: a inteligência14

O problema da inteligência que ficouapenas aflorado exige aqui o mais amploexame. No caso dos testes de inteligên-

14Para a discussão deste pro-blema, ver na bibliografiaPintner, Spearman, Stern,Thorndike, Boyton, Claparède,Piéron, Freeman, Peterson,Rey, Melli, Skaggs, L�AnnéePsicologique (1934) e. Fröbes. R

. bra

s. E

st. p

edag

., B

rasí

lia, v

. 79,

n. 1

93, p

. 113

-134

, set

./dez

. 199

8

123

cia, o atributo é o ato inteligente. Que é,porém, inteligência? A discussão sobreessa pergunta tem merecido a maior aten-ção dos psicólogos, e originado uma infi-nidade de definições, baseadas sobre te-orias diversas.

As definições de inteligência, segun-do Pintner, podem ser distribuídas por qua-tro grupos, à exceção das de Thurstone,Spearman e Freeman. Estes grupos sãoos seguintes:

a) Definições biológicas � São as queacentuam o caráter de adaptação do orga-nismo a situações novas. Assim, a inteligên-cia dependerá da plasticidade do organis-mo (Stern, Wells, Woodworth, Peterson,Edwards, Claparède).

b) Definições educacionais � São asque acentuam a capacidade de adquirirconhecimentos com rapidez e facilidade.É mais inteligente aquele que aprendemais rapidamente. Infelizmente, inteligên-cia tem sido confundida com capacidadede memorização. Mais inteligente é o queacumula maior número de fatos. Se anali-sarmos bem, verificaremos que esse gru-po é uma subdivisão do primeiro. Quemaprende mais depressa, fá-lo porque temmaior capacidade de adaptação. Aliás, opróprio Pintner chama a atenção para esseponto. Diz o mestre da Colúmbia: �Todaaprendizagem pode ser encarada comoajustamento ou adaptação a situaçõesnovas�. Deram definições educacionais,dentre outros, Colvin, Buckingham,Hemmon.

c) Definições da inteligência como fa-culdade � São as que procuram mostrar emque consiste a inteligência e de que pro-cessos mentais ela se compõe. Criticandoesta concepção de inteligência, Spearmanmostrou o número e teor dos processosmentais que compõem a inteligência: vari-am de autor a autor e não há acordo sobreo seu número. Seguem esta orientação:Terman, Woodrow, Haggerty, dentre outros.

d) Definições empíricas � São as queacentuam o aspecto funcional da inteli-gência. São, via de regra, definiçõesbehavioristas, e que salientam o aspectodinâmico dos atos inteligentes (Ballard,Thorndike, Pintner, Piéron).

Se atentarmos agora para os quatrogrupos, veremos que eles poderão re-duzir-se a dois únicos. Um, que incluaas definições biológicas e educacionais;outro, as que distinguem a inteligênciacomo faculdade.

Agora, as teorias. Quatro teorias prin-cipais procuram explicar a natureza da in-teligência. Delas faremos apenas uma li-geira exposição.

a) Teoria dos dois fatores � Em 1904,Spearman, discordando da simples des-crição da atividade inteligente, e observan-do que as correlações entre as medidasde diferentes capacidades tendiam parauma disposição peculiar, propôs, em al-guns estudos, a teoria dos dois fatores, ge s. O fator g representa a capacidade ge-ral, que é constante no mesmo indivíduo.O fator s representa o aspecto específico,variável no mesmo indivíduo. Para o psi-cólogo e estatístico, em qualquer trabalhohá influência desses dois fatores.15 Essateoria mereceu a crítica desfavorável deBinet (muito embora a aplaudisse quandoproposta), de Thorndike, Thomson, Kelleye outros. A despeito das críticas, essa teo-ria tem tido larga aceitação.

b) Teoria da capacidade geral � Estateoria foi proposta por Stern, em 1910. Ainteligência, nesse caso, é uma capacida-de geral que pode ser dirigida em qualquerdomínio da atividade. A especialização de-pende tão-somente do ambiente. ParaStern, não resta dúvida que a capacidadedepende da constituição do organismo.

c) Teoria dos fatores múltiplos � Agoranão há mais nem dois fatores, nem capaci-dade geral. A inteligência é uma soma devários fatores específicos (Thorndike). Se-gundo Pintner, a teoria não exclui a consi-deração do fator geral de Spearman. A suaexistência, porém, não interessa ao mestreda Colúmbia. Do mesmo parecer é, aliás,Claparède, rebatendo as críticas feitas porSpearman à sua concepção de inteligên-cia. Diz o mestre de Genebra que o seuponto de vista não exclui de modo algum ahipótese de um fator g. Pelo contrário, a pre-sença desse fator é até favorável à concep-ção funcional de inteligência que defende.

d) Teoria funcional de Thurstone � Em1924, este psicólogo americano publicoua sua teoria funcional, segundo a qual ainteligência é a capacidade de apreensãototal, com invenção de um processoadaptativo. Parece-nos que essa teoria estárealmente muito próxima do ponto de vistade Claparède. Contudo, em seu trabalho �The nature of intelligence � não cita umasó vez Claparède.

De tudo isso se verifica que, com ostestes de inteligência, procuramos avali-ar uma certa capacidade e segundo a

15Não cabe aqui uma exposi-ção minuciosa da doutrina deSpearman e de seus colabo-radores. Para maiores escla-recimentos, ver na bibliogra-fia Spearman, Melli.R

. bra

s. E

st. p

edag

., B

rasí

lia, v

. 79,

n. 1

93, p

. 113

-134

, set

./dez

. 199

8

124

qual conseguimos, para efeitos práticos,hierarquizar os indivíduos. Essa capaci-dade é muito influenciada pela ação so-cial. Até que ponto irá essa influência?Fugiríamos ao assunto capital destamonografia se tentássemos discutir o as-sunto.16 O que o teste aprecia é um com-portamento, um nível de desenvolvimen-to. É, segundo os diferentes níveis obti-dos, nos grupos de indivíduos, que oshierarquizamos. O teste de inteligênciatem assim um fim prático, não o de resol-ver uma questão de cunho tanto psicoló-gico como filosófico.

O projeto do teste e o primeiro ensaiode aplicação

Uma vez organizadas as questões,de acordo com o que foi exposto, devemelas ser distribuídas pela dificuldade re-lativa que apresentem. E isso em relaçãoa cada grupo de questões, bem como emrelação ao conjunto. Essa distribuiçãopela dificuldade relativa será naturalmen-te muito precária, para o primeiro ensaiode aplicação.

O número de questões deve ser o do-bro ou mais do que deverá conter o testeem sua forma final. O excesso facilitará aorganização de formas equivalentes, bemcomo a eliminação de questões não ade-quadas ao fim proposto.

O número total das questões organi-zadas para o primeiro ensaio de aplica-ção deve ser dividido em três partes, A, Be C. E o grupo de indivíduos, a que for-mos aplicar a forma provisória, deverátambém ser dividido em três subgruposa, b e c, cada um deles, com um mínimode 150 a 200 indivíduos, dentro das ida-des a que se destinar o teste. A fim depermitir que todas as questões sejam exa-minadas pelos indivíduos do grupo, con-vém proceder do seguinte modo:

a) ao subgrupo a aplicaremos a formaprovisória na ordem ABC; ao subgrupo b,na ordem BCA; e ao subgrupo c, na or-dem CAB;

b) dar tempo suficiente para que maisde 84% do grupo tenham possibilidadede tentar resolver todas as questões. Docontrário, seremos levados a conclusõeserrôneas.

Concluindo esse trabalho preliminar eaplicado o teste, poderemos passar a estu-dar os problemas fundamentais da validação.

Validação das questõesdo teste

Da validade das questões de um tes-te depende, sem dúvida, a validade do ins-trumento, no seu conjunto. Um grande nú-mero de pesquisas têm sido feitas a esserespeito. E todas demostram que a vali-dade de uma questão resulta de seu po-der de discriminar os indivíduos, quanto adeterminado atributo. Esse poder de dis-criminação diz respeito ao grau em quehaja possibilidade de êxito ou fracassonuma resposta, e a porcentagem de dis-criminação dentro de cada idade ou gru-po de idade. Regra geral, o melhor meiopara obtermos um bom teste será deter-minar o grau de validade de um grandenúmero de questões e dentre elas esco-lher aquelas que se apresentarem commaior validade. No entanto, algumas in-vestigações feitas, e dentre elas a de M.Smith, revelam que um teste organizadocom a validação de todas as suas ques-tões pode não se apresentar globalmentetão válido como aquelas. Convém nãoesquecer que, ao planejarmos a organi-zação de um teste, já validamos as ques-tões que o compõem.

Várias técnicas têm sido propostaspara a validação das questões. Até 1923, avalidação de testes coletivos pela correla-ção com o critério se limitava ao teste comoum todo, ou às partes de que ele se com-punha (subteste). Nenhuma atenção àsquestões dos subtestes; elas apenas de-veriam variar em dificuldade. O apareci-mento, em 1923, da Otis Self-Administeringmarcou uma nova fase, pois cada questãofoi validada separadamente. Foi também aprimeira vez que os elementos de um testecoletivo de inteligência foram validadoscom um critério diferente da I. C. Em 1924,Leona Vincent propôs nova técnica paravalidação das questões. Em 1926, Cleetonempregou duas técnicas, simultaneamen-te, para validação: a que foi empregada porOtis e uma outra, original. Todavia, não dis-cutiu a eficiência do trabalho empreendi-do; Thorndike, no mesmo ano, retomou aemprego da correlação bisserial, anterior-mente também usada por Vincent. Aindaem 1926, McCall publicou sua técnica paravalidar testes de múltipla escolha, e logoa seguir, Long e Bliss propuseram modifi-cações à técnica de McCall. A partir deentão, novas técnicas apareceram. Das de

16Há a esse respeito dois tra-balhos considerados clássi-cos, dentre outros: o daCalifórnia e o de Chicago. R

. bra

s. E

st. p

edag

., B

rasí

lia, v

. 79,

n. 1

93, p

. 113

-134

, set

./dez

. 199

8

125

mais conveniente emprego nos testes co-letivos de inteligência, daremos pequenoresumo.

Cristérios de validação

Organizado o projeto do teste, nãopodemos afirmar ainda se ele mede real-mente o que pretende medir, �se o seu ob-jetivo prático, para classificação ou orde-nação dos indivíduos, é conseguido numaporcentagem que baste para torná-lo ins-trumento de confiança� (Lourenço Filho).E essa verificação só poderá ser feita seprocurarmos, com o auxílio de outros mei-os objetivos, um critério seguro para vali-dar o instrumento.

Vários critérios existem para validação.Cada um deles, porém, não é satisfatóriopor si só. O emprego isolado de um pode-rá concorrer para deformação dos resulta-dos. Por outro lado, da coerência, internae externa, do critério de validade depende-rá, em grande parte, a validade do instru-mento em organização, o que tanto bastapara demonstrar o cuidado que devemoster presente na escolha do critério ou deum grupo destes critérios.

a) Idade cronológica � É o mais anti-go critério para validação do teste de inte-ligência. Foi empregado por Binet na or-ganização de seus testes e, bem assim,por dois outros experimentadores de re-nome: Terman e Kuhlmann. Este critériose baseia na hipótese de que a inteligên-cia cresce no mesmo indivíduo à medidaque ele fica mais velho; e ainda na hipóte-se de trabalho que a distribuição da inteli-gência em um grupo numeroso homogê-neo e não selecionado seja igual a de umoutro grupo, nas mesmas condições. E épor essa razão que, nos testes de inteli-gência, o valor da norma cresce em valorabsoluto de idade a idade.

Esse critério, porém, não deve ser outilizado como exclusivo. Apresenta falhase dificuldades de execução. Não é tam-bém o mais empregado hoje.

b) Grupos conhecidos � Este crité-rio também foi empregado por Binet. Porgrupos conhecidos, entendemos aque-les que foram classificados por meio deoutras provas de inteligência ou peloconsenso geral. Aplica-se o teste suces-sivamente a três grupos conhecidos:inframédio, médio e supramédio. O tes-te deverá discriminar, e as diferenças de

resultados entre os grupos deverão sersignificativas. Acontece que uma objeçãopoderá ser prontamente levantada: quemgarantirá a validade do consenso geral?Servirá ele de critério? Ninguém podeafirmar com segurança.

Quando nos utilizamos de outras pro-vas de inteligência, e fundamentamos ojulgamento nos seus resultados, então, ocritério terá valor menos discutível. No en-tanto, o simples fato da discriminação detrês grupos não será o bastante para ga-rantia do critério. Estamos, pois, em facede um critério que não pode ser emprega-do sem restrições.

c) Julgamento de especialistas � Esteé um critério muito em uso. Dentre um gran-de número de questões, alguns especialis-tas escolhem as questões que devem me-dir a inteligência. Compõe-se, em seguida,o teste. Segundo Ruch e Stoddard, estemétodo é muito usado e aconselham mes-mo o seu emprego. Segundo eles, já verifi-cou por experiência que, no julgamento doverdadeiro valor e dificuldade das questões,a média entre os julgamentos de um grupode três a dez juízes cuidadosos é superiorao de um único. Devem os especialistasdistribuir as questões em três categorias:satisfatória, regularmente satisfatória, e nãoaproveitável. Em seguida, distribuir as pri-meiras e as segundas, respectivamente,pela ordem de dificuldade.

Ora, tal critério supõe os julgamentosdos especialistas como uma espécie de ele-mentos iguais e adicionáveis. Ainda mais:quando as questões forem em grande nú-mero, darão uma amostra que poderá sermais representativa do comportamento in-teligente. No entanto, o julgamento dos es-pecialistas já representava uma tentativa,pelo menos, de validação. Seria comparara coisa a ser julgada com a própria coisa.

Por outro lado, sabemos que esse jul-gamento não é de valor notável, nem pelasua constância nem pela correlação comos resultados do teste. Isso vem justamen-te demonstrar que esse critério pode serusado mais como ponto de referência doque como denominador comum.

d) Julgamento dos professores � O jul-gamento dos professores sobre a inteligên-cia dos seus alunos tem também sido usa-do como critério para validação de testes,na suposição de que esses julgamentosmereçam confiança. Tal não é o nosso pa-recer. Em geral, os professores conhecema inteligência de alguns alunos. Na maio-R

. bra

s. E

st. p

edag

., B

rasí

lia, v

. 79,

n. 1

93, p

. 113

-134

, set

./dez

. 199

8

126

ria dos casos, porém, a sobreestimam. E,na mesma série, os julgamentos entre osdiversos professores divergem muito. Parao de Geografia, mais inteligentes poderãoser aqueles que melhor souberem dese-nhar mapas; para o de Português, pode-rão ser os mais imaginosos... Há assim umainfinidade de classificações, cada uma de-pendendo do critério subjetivo do profes-sor. O exame dos resultados das experiên-cias levadas a efeito não nos autoriza a le-var em consideração este critério.

e) Rendimento escolar � Como critériopara validação dos testes de inteligência, orendimento escolar tem sido muitas vezesempregado. Este critério está baseado nasuposição de que os mais inteligentes sãoaqueles que obtêm os melhores resultados,e os menos inteligentes são aqueles queapresentam baixos resultados no aprovei-tamento escolar. Várias objeções poderãodesde logo ser levantadas. Merecerão fé asnotas atribuídas pelos professores? Não. Asnotas atribuídas pelos professores, desdeque para tal se utilizem de provas clássicas,não são dignas de confiança. São numero-sas e altamente probantes as verificações aesse respeito.17

Se examinarmos as pesquisas deSymonds, Jordan e Wilson em relação aoemprego desse critério, citadas por Pintner,verificaremos que ele não merece confiança.

Quando, em vez de provas clássicas,os professores empregam provas objeti-vas, o critério passa a ser mais digno demerecer confiança. De fato, o coeficientede correlação entre os resultados de pro-vas objetivas e testes de inteligência é alto.Pintner nos dá os resultados de 14 coefi-cientes de correlação calculados entreaproveitamento escolar, aferido pelo jul-gamento do professor e provas clássicas,e testes de inteligência. Deles, apenas umé superior a 50. O mesmo especialista nosdá os resultados de 15 coeficientes de cor-relação calculados com os resultados deprovas objetivas e de testes de inteligên-cia. Deles, apenas três estão abaixo de 50.Mas, mesmo que se fundamente em pro-vas objetivas, este critério deve ser de usolimitado. Não se pode usar uma prova ob-jetiva como critério único para validaçãode testes de inteligência. Ademais, essesdois tipos de provas verificam coisas di-versas, não se podendo concluir de umapelos resultados da outra.

f) Provas já validadas � Este critério éde grande emprego na validação de tes-

tes de inteligência. Para efeitos práticos,dividiremos em duas partes: teste Binet-Simon (BS) e qualquer outro teste de in-teligência já validado.

I) Binet-Simon � O teste BS é muitoempregado como critério, e principalmen-te se estivermos convencidos de que a BSé a melhor medida da inteligência. Nessecaso, o coeficiente de validade deve sersuperior a 70.

II) Outro teste � Outro teste de inteli-gência poderá ser empregado como cri-tério, desde que mereça confiança.

Julgamos também de boa técnica oemprego simultâneo de vários critérios, por-que isso nos habilitará a chegar a uma deter-minação mais segura da validade do teste.

Técnicas de validação18

a) Correlação bisserial � É um méto-do que se aplica a dados em que uma va-riável é quantitativa e contínua e a outra éapresentada em classificação dicotômica.Assim, aplicamos essa técnica para cal-cular a correlação entre os resultados docritério e o acerto ou erro nas questõesde um teste. Os resultados do critério dãouma variável contínua; as respostas a umaquestão constituem a segunda variável:certo ou errado.

A fórmula é a seguinte:

Mc = média do resultado do critériodo grupo que acertou a resposta.

Me = média do resultado do critériodo grupo que errou a resposta.

D.P. = desvio-padrão de todos os re-sultados do critério.

p = porcentagem dos que acertarama resposta.

q = 1 � pZ = ordenada da curva normal, sem

a consideração dos q.Esta técnica tem a desvantagem de

ser muito demorada quando tivermos umnúmero de observações muito elevado.

b) Técnica de W. McCall � Esta técni-ca foi a empregada por McCall para vali-dação das questões de sua �Multi-mentalScale�. Como se verifica, é para validaçãodos testes de múltipla escolha, pois em

17As pesquisas de Starch,Elliot e outros, na América,demonstram, de maneira im-pressionante, a inexatidão ea variabilidade das notas atri-buídas pelos professores.Essas pesquisas cobriramprincipalmente as matériasdo curso secundário, comoMatemática, Inglês, História(cf. Starch. EducationalMeasurements. New York :Macmillan, 1918). A esse res-peito foram também levadosa efeito trabalhos dessa natu-reza por E. Siqueira, em SãoPaulo, e Lourenço Filho, noRio.

18Para estudo das técnicas devalidação, ver na bibliografiaSymonds; Long e Sandiford;Barthelmess; Ruch; e Smith. R

. bra

s. E

st. p

edag

., B

rasí

lia, v

. 79,

n. 1

93, p

. 113

-134

, set

./dez

. 199

8

U E�0 � �0 �F H 3T²

'��3��[�=

127

sua escala todas as questões são de múl-tipla escolha. Essa técnica está baseadana hipótese de que a questão mais válidaé aquela que divide os candidatos de acor-do com os resultados do critério, em doisgrupos nitidamente homogêneos. Deve-senotar que essa técnica é defeituosa, pelarazão de não aceitar a predeterminaçãoda resposta, entre as três, quatro, ou cin-co possíveis.

A fórmula é a seguinte, de acordo comH. M. Barthelmess:

Y� é a média dos resultados do crité-rio do grupo total;

Y�x é o desvio-padrão em relação àmédia do resultado do critério com refe-rência à resposta própria do grupo;

Fx é a frequência dessa respostaparticular;

N é o número total de alunos.Segundo Long e Sandiford, a fórmu-

la de McCall é absurda, pois leva a valo-res negativos, em virtude de não ser pos-sível a operação indicada pelo fator Y�x �Y�. Considerando tal defeito, os autoresacima sugeriram o seguinte: modificaraquele fator apenas por Y�x, que será odesvio, sem atenção ao sinal, do resulta-do do critério de um grupo de respostaprópria ou característica, em relação àmédia do resultado do critério de todo ogrupo.

Conforme se disse antes, a técnica deMcCall é para testes de múltipla escolha.Long e Sandiford adaptaram-na para ou-tros tipos de testes:

M2 = média do resultado critério dogrupo que acertou

M1 = idem, idem, que errouM = média do resultado critério de

todo o grupof2 = frequência dos que responderam

acertadamentef1 = idem, idem, erradamenteD.P. = desvio-padrão dos resultados

do critérioc) Técnica de Vincent � Em 1924,

Leona Vincent estabeleceu uma técnica

para validação das questões de um teste,consistindo na comparação de dois gru-pos, por meio da medida de superposiçãodos resultados respectivos. O valor de va-lidade de uma questão é a porcentagemdaqueles que erram a questão e que te-nham mais altos resultados critérios doque o resultado critério mediano daque-les que acertam a mesma questão. Quan-to menor a superposição, maior será ograu de validade da questão. Long eSandiford demonstraram que essa técni-ca leva muitas vezes a resultados absolu-tamente inexatos, embora tenha ela a van-tagem da facilidade de cálculo.

d) Técnica corrigida de Vincent � Nãose trata, na verdade, de uma técnica origi-nal, mas de uma adaptação da técnica an-terior. No presente caso, o valor de valida-de é a porcentagem daqueles que acer-tam a resposta e que tenham resultadosmais baixos do que o resultado critériomediano daqueles que erram a mesma res-posta. A mesma crítica feita por Long eSandiford à técnica anterior aplica-se igual-mente neste caso.

Barthelmess, já referida, propôs o em-prego simultâneo dessas duas técnicaspara validação das questões, calculando-se a média dos dois valores de validadeencontrados.

e) Técnica de Long-Bliss � Essa técni-ca foi idealizada por dois discípulos deMcCall, Long e Bliss, num esforço para eli-minar os defeitos da técnica de seu mestre.

A fórmula é a seguinte:

Sendo m1, m2, m3... m as médias dosresultados critérios, em ordem de grande-za do mais alto para o mais baixo, das vá-rias respostas da questão; f1 f2 f3 as freqüên-cias das respectivas respostas; DP o des-vio-padrão de todos resultados do critérioem questão e N, o número de resultadosdo critério.

Essa fórmula se aplica apenas aos tes-tes de múltipla escolha. Quando houvererro ou acerto, a fórmula passará a ser

R. b

ras.

Est

. ped

ag.,

Bra

sília

, v. 7

9, n

. 193

, p. 1

13-1

34, s

et./d

ez. 1

998

Σ�>�)[��<·[� �<·��@²

I ��0 �� �

²�0����I ��0�²�0 �� �

�0 �� ²�0 ��I I �� �� �

128

f) Técnica de Clark � A técnica de Clarkfoi proposta para validar testes de conhe-cimentos em psicologia. No entanto, elapode ser empregada para validar questõesde testes de inteligência:

D = proporção dos que erram a res-posta

P = proporção dos indivíduos que er-ram, no grupo critério

g) Técnica de Long � Esta técnica foipublicada em 1934, e é muito semelhanteà de Vincent em seus fundamentos, elimi-nando, no entanto, defeitos desta.

Esta técnica, como se vê, é de fácilaplicação. E seus resultados satisfazemperfeitamente o objetivo.

Muitas outras técnicas existem paravalidação das questões de um teste deinteligência, tais como a de Henry,Cook, Symonds e Kelley. Contam-se por22 técnicas. Julgamos, porém, que asapresentadas são as que se aplicammais adequadamente aos testes coleti-vos de inteligência.

Formas equivalentes

Depois do estudo preliminar da va-lidação das questões do teste, podemosverificar a possibilidade de organizaçãode formas equivalentes para o instrumen-to em questão. Muito se tem discutidosobre a verdadeira significação de for-ma equivalente. Por vezes, apela-seexageradamente para sua organização.Autores há que julgam que um teste deveter, pelo menos, três formas equivalen-tes para que possa ser consideradobom. Julgamos que bastem duas, nostestes coletivos de inteligência.

Organizamos as formas equivalentesdo seguinte modo: 1) depois de terminadoo trabalho inicial de validação das ques-tões, serão retiradas ou substituídas as queapresentarem baixa validade; 2) as ques-tões restantes deverão ser distribuídas emordem de dificuldade crescente; 3) consti-tuir-se-ão, então, duas formas-teste do se-guinte modo (Ruch e Stoddard):

Forma A Forma B1 24 35 68 79 10

12 1113 14

etc.

Depois desse trabalho, reaplicaremoso teste, nas duas formas. Verificamos se asdiferenças entre as duas distribuições nãosão significativas. Neste caso, as duas for-mas podem ser chamadas de equivalen-tes. Devemos ter cuidado neste passo daorganização porque, em caso contrário, otreino na resolução da Forma A poderá in-fluir nos resultados da Forma B. Para evitarpossibilidade dessa causa de erro, deve-mos dividir o grupo em dois subgrupos se-melhantes. Ao subgrupo A daremos primei-ro a Forma A, e a seguir a B. Ao subgrupoB, Forma B e, depois, a Forma A. Atenuare-mos, desse modo, a possível influência dotreino. E os resultados de uma forma pode-rão ser comparados aos da outra.

Tempo, sua fixação

O problema da fixação do tempo-li-mite nos testes de inteligência é ainda umproblema em aberto. E, sem dúvida, mui-to trabalharão os especialistas antes doacordo geral. Para uns, a fixação do tem-po-limite é fonte de injustiças com relaçãoaos indivíduos vagarosos, não obstantecapazes. Não há o que negar a esse res-

R. b

ras.

Est

. ped

ag.,

Bra

sília

, v. 7

9, n

. 193

, p. 1

13-1

34, s

et./d

ez. 1

998

9 3� '²��� '²�

�� �DFHUWRV�VRE�HUURVΣ

129

peito. Contornaremos essa dificuldade selevarmos a fixação do tempo-limite, quan-do cerca de 90% ou 95% tiverem tentadotodas as questões (Ruch e Stoddard). W.Lippmann, citado por esses especialistas,julga que mesmo os menos capazes ob-terão resultados superiores desde que te-nham tempo suficiente. A experiência temdemonstrado que mesmo com tempo su-ficiente os menos capazes não apresen-tam resultados muito superiores aos quedariam sem o mesmo limite de tempo.Sugerimos uma solução para fixação dotempo-limite. Trata-se de uma adaptaçãode uma proposta de Ruch e Stoddard:

a) separam-se os indivíduos em doisgrupos, A e B.

b) o grupo A começará o trabalho peloinício do teste; e o grupo B pelas ques-tões do fim;

c) a cada grupo distribuem-se lápis dediversas cores: preta, azul, vermelha, etc.

d) dado o sinal de início do trabalho,os grupos começarão a trabalhar com umou dois lápis; dez minutos depois, todosmudarão o lápis; decorridos mais cincominutos, novo lápis, e assim sucessiva-mente. Desse modo poderemos ter o re-sultado de cada indivíduo na base de 10,15, 20, 25 minutos, e bem assim o resulta-do de cada grupo. E isso nos permitirá oestudo-velocidade dentro de cada grupo,o que facilitará a fixação do tempo-limitepara o teste. Por tempo-limite entendemoso tempo máximo para resolução de umteste. E esse tempo deve ser o necessáriopara que uma porcentagem entre 70% e80% tentem todas as questões do teste.

Correção das questões

O problema da correção das questõestem grande importância para a coerênciado instrumento. A questão se apresentada seguinte forma � como devemos pe-nalizar? A correção, em alguns testes,deve ser feita do seguinte modo:

Sejam:

N � Número de questões do testeC � Resultado do critérioRc � Respostas certasRe � Respostas erradasR � Resultado final

R = Rc + KRe (a)

em que K é o peso aos erros e tem sinalnegativo. Assim,

N = Rc + ReRe = N � Re

substituindo Re em (a) temos:

R = Rc + K (N � Rc)R = Rc (1 � K) + KN

Mas KN é uma constante e, dessemodo, o coeficiente de correlação não seráalterado se adicionarmos uma constante auma das variáveis, e assim

rCR = rC [Rc (1 � K) + KN] = rC [Rc (1 � K)]

Mas 1�K é também uma constante euma vez que a correlação não é alteradamultiplicando-se uma das variáveis poruma constante, teremos

rCR = rC [Rc (1 � K)] = rCRc

Isso significa que a correlação entre oresultado critério e o resultado R é o mesmoque entre C e Rc; portanto, R deve ser Rc.

Quando se tratar de testes de múltiplaescolha, a correção deverá mudar.

Seja N o número de pontos em um tes-te de múltipla escolha, e t, o número totalde questões tentadas. Representará (t � N)o número de questões respondidas ao aca-so; n, o número de alternativas em cada

questão; �W� 1�²�Q

será a média de ques-

tões respondidas corretamente ao acaso;C, as respostas certas; e E, as erradas.

Então,

mas, t = C + E,donde

R. b

ras.

Est

. ped

ag.,

Bra

sília

, v. 7

9, n

. 193

, p. 1

13-1

34, s

et./d

ez. 1

998

(

&���(� �1²

Q� �²�

Q(� �(���&� ��1��²

Q&� �Q1� �&� �(���1� �² ² ²

&��Q� ��� �(� �1��Q� ��²� ² ²�

1� �&�²

(� �W� ���1���²

&� �1��W� 1²�

W� 1²�

Q

Q

130

Dificuldades das questões

A verificação da dificuldade das ques-tões não é indiferente ao trabalho de valida-ção do teste e da procura de sua fidedig-nidade. Pelo contrário, são simultâneos. Éerro freqüente dos organizadores classificaras questões em médias, fáceis e difíceis.Essa classificação só poderá decorrer de ve-rificação experimental. Segundo Monroe eEngelhart, Thurstone julga que uma ques-tão tem valor discriminativo quando for res-pondida por uma porcentagem compreen-dida entre 30% e 70% dos indivíduos.Symonds julga que a melhor questão éaquela que apresentar 50% de acertos.

Validade e extensão do teste

A validade de um teste aumentará, sea esse teste acrescentarmos novas ques-tões, que procurem diagnosticar o mesmoatributo? Por outras palavras, se a valida-de de um teste não se apresentar comosatisfatória, ela melhorará no caso de alon-garmos a extensão do teste, desde que asquestões acrescidas sejam do mesmo teorque as já existentes?

Vimos que podemos elevar a fidedig-nidade de um teste aumentando a sua ex-tensão. Do mesmo modo aumentará a va-lidade do teste. O efeito sobre a validadeacrescentando mais questões ao testepode ser calculado pela seguinte fórmula:

em que rcx é o coeficiente de validade; rxx, éa fidedignidade do mesmo teste; e n, o nú-mero de vezes de que ele foi aumentado.

Muitas vezes, desejamos saber da vali-dade virtual de um teste. Isto é, o limite paraque tenderá a validade, no caso de aumen-tarmos o teste indefinidamente, ou aplicarmosum número infinito de formas equivalentes.Bastará que, na fórmula acima, façamos n ten-der para o infinito, e, então, teremos:

Conclusões

Com o presente trabalho não podemoster a pretensão de haver esgotado os pro-

blemas levantados, na teoria e na prática,com relação à fidedignidade e à validadedos testes coletivos de inteligência.

No geral, essas importantes ques-tões têm sido discutidas para as pro-vas objetivas ou testes. Mas é evidenteque problemas particulares existempara modalidades especiais de certasprovas, com objetivos também especí-ficos. E, dentre elas, não há dúvida quea de maior importância prática, pelovulto de suas aplicações, é a dos tes-tes coletivos de inteligência, o que jus-t i f ica a escolha do assunto destamonografia.

Da bibliografia variada e abundante,sobre a matéria e de que damos aqui ape-nas um resumo, bem como dos ensaios eexperiências do autor, obtivemos as se-guintes conclusões:

a) o problema geral da aferição dostestes não é independente da questão desua validade e fidedignidade;

b) já do ponto de vista teórico, já doponto de vista da prática, as questões devalidade e de fidedignidade também nãose separam de modo completo;

c) a fidedignidade, ou coerência in-terna, consiste na qualidade que um tes-te pode ter de medir em cada uma desuas partes o que outra parte equivalen-te também mede;

d) essa equivalência pode não depen-der da forma de apresentação das ques-tões, de sua posição relativa e da exten-são de cada uma das partes do próprioteste, sendo certo, porém, que esses fa-tores devem ser apreciados na composi-ção dos ensaios preliminares;

e) a validade, ou coerência externa,consiste na eficiência prática com que umteste realmente meça o atributo para cujaapreciação esteja preparado;

f) a avaliação do grau dessa eficiên-cia dependerá, antes de tudo, da autenti-cidade de um critério; e a perfeição dessaavaliação, do emprego hábil de uma fór-mula de correlação;

g) os processos de verificação esta-tística permitem, desde que conveniente-mente aplicados, exprimir por índices nu-méricos o grau de confiança que pode-mos atribuir a um teste coletivo de inteli-gência, verificando-se, porém, e de modoespecial, quanto aos problemas de vali-dação, que a interpretação desses índi-ces não deve resultar simplesmente daaplicação automática de fórmulas; R

. bra

s. E

st. p

edag

., B

rasí

lia, v

. 79,

n. 1

93, p

. 113

-134

, set

./dez

. 199

8

U[[U �[[�F

UF[

�� �U[[

²Q

U FQ[

UF[

��U[[

131

h) a aferição geral de um teste e, emparticular, de um teste coletivo de inteli-gência dependerá, portanto, não só de umtratamento quantitativo de amostras repre-

sentativas de um universo, mas também daacuidade com que o especialista atenda àvariedade e à complexidade dos proble-mas que a questão apresenta.

Referências bibliográficas

L�ANNÉE psycologique, v. 35, 1934.

BALLARD, P. B. Mental tests. Londres : Hodder and Stoughton, 1920.

_____. Group tests of intelligence. Londres : Hodder and Stoughton, 1922.

BARTHELMESS, H. M. The validity of intelligence test elements. New York : ColumbiaUniversity, 1931.

BINGHAM, W. V. D. Aptitudes and aptitude testing. New York : Harper and Brothers,1937.

BOYTON, P. L. Intelligence : its manifestations and measurement. New York : Appleton,1933.

BROWN, W., THOMSON, G. H. The essentials of mental measurements. 3. ed. CambridgeUniversity, 1925.

CHAPMAN, J. C., DALE, A. B. Further criterion of the selection of mental test elements.The Journal of Educational Psychology, n. 5, p. 267-276, 1922.

CLAPARÈDE, Edouard. La genèse de l�hypothèse. Genève : Kundig, 1934.

_____. La educación funcional. Tradução de M. Rodrigo. Bilbáo : Espasa-Calpe, 1932.

COLVIN, S. Principles underlying the construction and use of intelligence tests. In:NATIONAL SOCIETY FOR THE STUDY OF EDUCATION. 21th yearbook.Bloomington, 1923.

EDGERTON, H. A., TOOPS, H. A. A table for predicting the validity and reliabilitycoefficients of test when lengthened. Journal of Educational Research, n. 3, p. 225-234, 1928.

FESSARD, A. Precision et coherénce dans les éxamens par tests. L�Année Psychologique,n. 28, 1927.

FREEMAN, F. N. Mental Tests : their history, principles and applications. New York :Houghton Mifflin, 1926.

_____. The individual in school : special abilities and their measurements. In: MURCHISON,Carl A. (Ed.). Foundations of Experimental Psychology. Worcester : Clark University,1929.

FRÖBES, Joseph. Tratado de Psicologia Experimental. Tradução de José A. Menchaca.2. ed. Madrid : [Huelves y Compañia], 1933.

FRYER, D., HENRY, E. An Outline of General Psychology. New York : Barnes and Nobles,1936.R

. bra

s. E

st. p

edag

., B

rasí

lia, v

. 79,

n. 1

93, p

. 113

-134

, set

./dez

. 199

8

132

GARRETT, H. E. Statistics in Psychology and Education. 2. ed. New York : Longmans,Green, 1937.

GARRETT, H. E, SCHNECK, M. R. Psychological tests, methods and results. New York :Harper and Brothers, 1933.

HULL, C. L. Aptitude testing. New York : World Book, 1928.

JORDAN, R. C. An empirical study of the reliability coefficient. The Journal of EducationalPsychology., n. 4, p. 307-311, 1935.

KELLEY, T. L. Interpretation of educational measurements. New York : World Book, 1927.

KELLEY, T. L, SHEN, E. The statistical treatment of certain typical problems. In:MURCHISON, Carl A. (Ed.). Foundations of Experimental Psychology. Worcester :Clark University, 1929.

LEVINE, A. J., MARKS, L. Testing intelligence and achievement. New York : Macmillan,1928.

LINCOLN, Edward, WORKMAN, L. L. Testing of test results. New York : Macmillan,1935.

LONG, J. A., SANDIFORD, P. The validation of test items. Toronto : University of TorontoPress, 1935.

LOURENÇO FILHO. Testes ABC. 2. ed. São Paulo : Melhoramentos, 1937.

McCALL, W. A. How to measure in education. New York : Macmillan, 1922.

_____. How to experiment in education. New York : Macmillan, 1923.

MELLI, R. Recherches sur les formes d�intelligence. Genève : Kundig, 1930.

MONROE, W. S. An introduction to the theory of educational measurements. New York :Houchton Mifflin, 1923.

MONROE, W. S, ENGELHART, M. D. The scientific study of educational problems. NewYork : Macmillan, 1936.

ODOROFF, M. E. A correlational method applicable to the study of the time factor inintelligence tests. The Journal of Educational Psycology, n. 4, p. 307-311, 1935.

OTIS, A. I. Statistical method in educational measurement. New York : World Book, 1925.

PENNA, J. B. D. Iniciação ao estudo da medida da inteligência. Revista de Educação,São Paulo, n. 5, p. 7-85, 1934.

PETERSON, J. Early conceptions and tests of intelligence. New York : World Book, 1925.

PIÉRON, H. Le problème de l�intelligence. Scientia, v. 12, n. 1, 1927.

_____. Le dévelopment mental et l�intelligence. Paris : Alcan, 1929.

PIÉRON, H., FESSARD, A. La notion de valité. L�Année Psychologique, n. 31, 1930.

PINTNER, R. The individual in school: general ability. In: MURCHISON, Carl A. (Ed.).Foundations of Experimental Psychology. Worcester : Clark University, 1929.

_____. Intelligence testing : methods and results. New York : Henry Holt, 1932.

REY, A. Réflexions sur le problème du diagnostic mental. Genève: Université de Genève,1935.

RUCH, G. M. Objective or new type examination. New York : Scott, Foresman, 1929.

R. b

ras.

Est

. ped

ag.,

Bra

sília

, v. 7

9, n

. 193

, p. 1

13-1

34, s

et./d

ez. 1

998

133

RUCH, G. M., STODDARD, G. D. Tests and measurements in high-school instruction.New York : World Book, 1927.

RUGG, H. Statistical methods applied to educational testing. In: NATIONAL SOCIETYFOR THE STUDY OF EDUCATION. 21th yearbook. Bloomington, 1923.

SKAGGS, E. R. An elementary textbook of mental measurements. Michigan : G. Wahr,1923.

_____. Some critical comments on certain prevailing concepts and methods used inmental testing. The Journal of Applied Psychology, n. 6, p. 503-508, 1927.

SMITH, C. E. The construction and validation of a group test of intelligence using theSpearman technique. Toronto University, 1935.

SMITH, M. The relationship between item validity and test validity. New York : ColumbiaUniversity, 1934.

SPEARMAN, C. The nature of �intelligence� and the principles of cognition. 2. ed. NewYork : Macmillan, 1927.

_____. The abilities of man : their nature and measurements. New York : Macmillan,1927.

STERN, W. The psychological methods of testing intelligence. Tradução de G. M. Whipple.New York : Warwick and York, 1914.

SWINEFORD, F. Biserial r versus Pearson as measures of test : item validity. The Journalof Educational Psychology, n. 6, p. 471-472, 1936.

SYMONDS, P. M. Measurements in secondary education. New York : Macmillan, 1934.

_____. Choice of items for a test on the basis of difficulty. The Journal of EducationalPsychology, n. 7, p. 481-493, 1929.

THORNDIKE, Edward L. An introduction to the theory of mental and social measurements.2. ed. New York : Columbia University, 1922.

_____. The measurement of intelligence. New York : Columbia University, 1926.

THURSTONE, L. L. The reliability and validity of tests. Ann Arbor : Ed. Bros, 1937.

WEST, P. V. The significance of weighted scores. The Journal of Educational Psychology,n. 5, p. 302-308, 1924.

WILLOUGHBY, R. R. The concept of reliability. Psychological Review, n. 2, p. 153-165,1935.

YERKES. R. M. (Ed.). Memoirs of the National Academy of Sciences. Washington :Government Printing Office, 1921. v. 15.

YOAKUM, C., YERKES, R. M. Army Mental Tests. New York : Henry Holt, 1923.

Murilo Braga (1912-1952). Sucedeu a Lourenço Filho na direção do Inep, à frentedo qual atuou de 1946 a 1952. Sua gestão concentrou-se em dois setores: desenvolvi-mento de um plano destinado a expandir a rede primária e normal e cursos de aperfei-çoamento para professores do magistério primário.

R. b

ras.

Est

. ped

ag.,

Bra

sília

, v. 7

9, n

. 193

, p. 1

13-1

34, s

et./d

ez. 1

998

134

Abstract

The tests are classified by its objectives and application modalities. The first resultson collective intelligence tests were published in 1913 and since then they have beenstrongly attacked. However, the tests play na important role in school administration andorganization. The coherency in a measurement instrument is verified by the level of congruityshown between internal reports. Coefficient correlation is applied to verify the practicalreliability and authenticity as well as to verify its coherency in consecutive applications.The statatistical verification procedures allow the numerical reports to expose the level ofasssurance attributed to the tests.

Key-Words: intelligence test; validity; reliability.

R. b

ras.

Est

. ped

ag.,

Bra

sília

, v. 7

9, n

. 193

, p. 1

13-1

34, s

et./d

ez. 1

998