17
Mensuração de constructos psicológicos - validade - fiabilidade: precisão da medida - sensibilidade: capacidade de discriminação - aplicabilidade - padronização Avaliação psicológica - Instrumento ou técnica que permitem predizer ou avaliar um conjunto de comportamentos - Avaliar um atributo psicológico /comportamento ou permite a predição do comportamento Teorias de medida - Teoria clássica dos testes (TCT) - Teoria de resposta ao item (TRI): tenta prever a probabilidade de responder ao acaso Testes psicométricos: Análise quantitativa centrada mais no produto /resultado > ênfase na padronização A função dos testes psicológicos é medir diferenças entre os indivíduos ou entre reacções do mesmo indivíduo em diferentes ocasiões. Um dos problemas que estimulou o desenvolvimento dos testes psicológicos foi a identificação de indivíduos mentalmente retardados. O que é um teste psicológico? Essencialmente é uma medida objectiva e estandardizada duma amostra de comportamento. Estandardização/ padronização – a estandardização implica uniformidade do procedimento ao administrar e avaliar/cotar o teste. Outro passo importante na estandardização dum teste é o estabelecimento de normas. Como o próprio nome indica uma norma é o ‘normal’ ou uma performance dita da métida. Assim se for normal que crianças de 8 anos completem 12 de 50 problemas de forma correcta num teste de aritmética, então a norma para as crianças desta idade neste teste corresponde a um score de 12. É de realçar que não há diferenças no estabelecimento de normas nos testes de personalidade e nos de aptidões.

Apontamentos Métodos

  • Upload
    a

  • View
    4

  • Download
    0

Embed Size (px)

DESCRIPTION

apontamentos

Citation preview

Page 1: Apontamentos Métodos

Mensuração de constructos psicológicos- validade- fiabilidade: precisão da medida- sensibilidade: capacidade de discriminação- aplicabilidade- padronização

Avaliação psicológica

- Instrumento ou técnica que permitem predizer ou avaliar um conjunto de comportamentos- Avaliar um atributo psicológico /comportamento ou permite a predição do comportamento

Teorias de medida- Teoria clássica dos testes (TCT)- Teoria de resposta ao item (TRI): tenta prever a probabilidade de responder ao acaso

Testes psicométricos: Análise quantitativa centrada mais no produto /resultado > ênfase na padronização

A função dos testes psicológicos é medir diferenças entre os indivíduos ou entre reacções do mesmo indivíduo em diferentes ocasiões. Um dos problemas que estimulou o desenvolvimento dos testes psicológicos foi a identificação de indivíduos mentalmente retardados.O que é um teste psicológico? Essencialmente é uma medida objectiva e estandardizada duma amostra de comportamento.

Estandardização/ padronização – a estandardização implica uniformidade do procedimento ao administrar e avaliar/cotar o teste. Outro passo importante na estandardização dum teste é o estabelecimento de normas. Como o próprio nome indica uma norma é o ‘normal’ ou uma performance dita da métida. Assim se for normal que crianças de 8 anos completem 12 de 50 problemas de forma correcta num teste de aritmética, então a norma para as crianças desta idade neste teste corresponde a um score de 12. É de realçar que não há diferenças no estabelecimento de normas nos testes de personalidade e nos de aptidões.

Máximo rendimento – testes de factor g, testes de aptidões mentais primárias, testes de factores específicos, testes psicomotoresResposta típica – inventários de personalidade, inventário de interesses, escalas de atitude

Testes de máximo rendimento > é solicitado ao sujeito que dê o seu melhor/máximo - testes de factor g- testes de factores específicos

* Analogias* Eliminação* Escolha múltipla* Escolha aberta

Page 2: Apontamentos Métodos

Linguagem clara Apenas uma resposta correcta Resposta a um item não deverá facilitar a resposta a outro item (independência

entre itens – independência local) Risco de resposta ao acaso Diversificar dificuldade dos itens

Testes de velocidade o Itens com o mesmo índice de dificuldadeo Tempo reduzido para a realização da provao Quantos itens foram respondidos correctamente naquele período de tempo

Testes de Resposta típica questionários auto-descritivos escalas de atitudes inventário de interesses desejabilidade social

Problemas de contaminação – atributos dos sujeitos salientes que afectam a realização e o desempenho na prova (efeito feedback)

Tipos de itens - associados aos testes de máximo rendimento: testes de respostas certas ou erradas - associados aos testes de resposta típica: verdadeiros e falsos, escolha forçada (escolher por exemplo uma de 4 frases mesmo que esta não se aplique), S/N, rating scale (conjunto de categorias – nunca a sempre, variam em nº de categoria)

Nem todas as rating scale são escalas de Likert – variam em discordo totalmente e concordo totalmente e tinham objectivo inicial de medir atitudes (itens favoráveis e desfavoráveis) Ex.: Avaliar a satisfação com a unidade curricular Métodos de Avaliação Esta cadeira é do meu interesse – item favorável As aulas não têm qualidade – item desfavorável

Validade facial (validade de face ou aparente): parâmetro que testa se o nosso item mede exactamente aquilo que é pretendido medir; não está ligada à verdadeira validade

* Ajuda a aumentar a motivação dos participantes* Desvantagem: os participantes podem adivinhar o que um teste de validade facial está a medir o que pode enviesar os resultados (encoraja-o a deliberadamente os enviesar)

Ex.: Pergunta-se ao examinando o que acha que o item mede

A validade facial ajuda a garantir que não existem enviesamentos nas respostas. Torna-se importante porque quem nos está a responder não é perito e pode ajudar a perceber se estamos mesmo a avaliar o que pretendemos.

Page 3: Apontamentos Métodos

Ex.: Metemos num item de questionário: “Sente-se resiliente?”. Nem toda a gente sabe o que é ser resiliente e pode não ser um item adequado.

Enviesamentos por atitudes de resposta efeito da desejabilidade social efeito de halo (um item positivo pode condicionar a resposta ao resto dos

itens) “yes sir” / aquiescência (pessoas que concordam com tudo) aleatoridade: respostas ao acaso ancoragem: “rotina” de resposta, aprendizagem do local de resposta – quando

escala está construída de modo a que haja um processo de aprendizagem e que quando a resposta 1 e 2 estão correctas, todas as outras também estarão

Os itens devem definir uma única dimensão (ausência do ‘e’: um item deve conter só uma ideia pois pode haver uma concordância ou discordância parcial relativamente ao item)

Validade de conteúdo (inclui a validade facial)Itens representativos do domínio/dos indicadores (número e qualidade dos itens) que pretendem avaliar Avaliada por peritos: avaliar se os domínios são representativos do atributo que pretendemos medir se é um bom indicador. Pode-se calcular com base no Índice de Validade de Conteúdo (ou melhor, o índice de “essencialidade” - relevância do item).

Validade Factorial (Estrutura Interna, validade de construto ou de construção):Capacidade de o teste avaliar com exactidão o atributo que pretende medir. Se o teste mede o que é suposto medir.

Exactidão ≠ precisão – exactidão tem mais a ver com validade e precisão com fiabilidade

Validade Qualidade em avaliar aquilo que tem de ser avaliado; Grau em que a evidência empírica e a teoria sustentam a interpretação dos resultados de um teste de forma consequente com os seus objectivos declarados;Para um teste ser válido, isto é, medir o que é suposto medir, então a consistência interna tem de ser alta.As correlações do teste são limitadas pela fiabilidade. A consist~encia interna dum teste limita a sua validade.

Análise Factorial – Exploratória: quando não há informação prévia sobre a estrutura factorial * variância comum: descrever a variância que é partilhada entre as variáveis /itens * comunalidades (quanto maior o valor no output melhor) – explicam tudo aquilo que toda a prova explica do item -- Confirmatória : estrutura teórica já definida (confirmar se os nossos dados se ajustam à definição teórica)

Page 4: Apontamentos Métodos

Ex. : a escala de ansiedade das aulas práticas (tem um modelo factorial conhecido: fisiológico e cognitivo)

Pré-testes à validade - KMO: significância da relação que existe entre os itens. Caso as relações sejam fracas não vale a pena realizar análise factorial. -- Se aumentarmos a dimensão da amostra temos alguma probabilidade de aumentar o nosso valor de KMOSempre que KMO > 0,7 existe uma variância que é comum entre os itensO KMO é afectado pela relação que existe entre a dimensão da amostra e nº de itens

- Teste de esfericidade de Bartlett

H0: Os itens não estão suficientemente correlacionados entre siH1: Os itens estão suficientemente correlacionados entre si

Comparar o p-value com o valor do teste. O teste de KMO e o de esfericidade complementam-se um ao outro. Se só pretendermos utilizar um, o KMO tem preferência.- Em amostras de muito elevada dimensão o teste de esfericidade é muito sensível.

Regra de Keiser – sempre que surgir um eigenvalue superior a 1 isso diz-nos que é uma dimensão relevante

Eigenvalues/ Nº de itens = Percentagem de variabilidade dos itens

Se o critério de Keiser falhar, procede-se ao scree plot – Gráfico de sedimentação ou procedimento de Catell(Sempre que a recta muda de direcção há um ponto de inflexão)

Análise factorial: é uma técnica para analisar os interrelações dos dados. Por exemplo, se forem aplicados 20 testes a 300 pessoas, o primeiro passo é calcular as correlações de cada teste com todos os outros.

Retenção de factores: os factores a reter são aqueles que ficaram antes do ponto em que os valores próprios parecem nivelar-se. É importante que os factores expliquem pelo menos 50% da variância.

Peso factorial significativo > 0,5

Itens ambíguos: Peso factorial significativo em mais do que uma dimensão; está saturado em duas dimensões

Rotação de factores: A primeira variável a ser extraída é aquela que é mais significativa; método para maximizar as saturações dos itens, de modo a produzir uma possível solução interpretável

Ex. rotação varimax- cada item procura saturar um único factor específico

Page 5: Apontamentos Métodos

- os itens devem apresentar uma saturação significativa- minimiza o impacto da 1ª extracção

Matriz anti-imagem- perceber a relação que os itens têm uns com os outros – como estão associadosMatriz rodada- representação dos pesos factoriais- qual é a dimensão que explica qual item- pelo menos 3 itens em cada dimensão

Validade convergente: a validade convergente relaciona a prova com uma outr prova. É a relação/comparação entre dois testes que meçam aproximadamente o mesmo. É importane que a correçaão seja pelo menos 0,6, no entanto se tivermos uma correlação muito elevada isso significa que os testes estão a medir praticamente o mesmo. Correlações a partir de 0,9 não são desejáveis pois podem significar que o nosso teste é uma duplicação de algo que já existe. A correlação ideal encontra-se entre 0,6 e 0,9, temos que garantir que o nosso teste tem algo de novo relativamente ao outro teste.

Validade discriminante: opõe-se à validade convergente, nesta é ideal que a correlação seja nula, tem como objectivo mostrar que o teste não é influenciado por outros factores. Os valores devem divergir.

Validade relativa ao critério: Capacidade que o teste tem de predizer um determinado comportamento. O objectivo é estabelecer uma relação estatística entre um preditor e um critério. Exemplo: trabalho semestral de metacognição - alunos com mais estratégias de estudo obtêm melhores resultados

Existem duas grandes fontes de validade dentro da validade relativa ao critério: a validade concorrente e a validade preditiva. Validade concorrente - avaliação do preditor e critério ocorre em simultâneo (a validade concorrente também é preditiva)Validade preditiva - existe um intervalo temporal entre a avaliação do critério (ex. candidaturas para a universidade, R&S)Validade pós-ditiva: primeiro faz-se a avaliação do critério só depois do preditor

Coeficiente de determinação (r2) – percentagem da variabilidade total do critério explicada pelo preditor

Sensibilidade – Capacidade que os itens têm em discrminar diferentes examinados de acordo com o(s) factor(es) que estão a ser avaliados. Em provas de máximo rendimento, testa-se a sensibilidade através do índice de dificuldade do item.

ID item = Nº de respostas correctas item x / nº total respostas item x

0,20 < ID < 0,80 --- quanto menor o ID maior a dificuldade

Page 6: Apontamentos Métodos

Para ter capacidade de discriminação tem de estar neste intervalo

Itens dicotómicos – V/F, S/N -- Avaliação da sensibilidade:

<95 % respostas numa categoria

Itens politómicos – rating scale, escalas likert

o Respostas em todas as categorias incluindo extremos o Medianas num extremoo Itens com distribuição normalo Assimetria < |3| e Achatamento < |7|

Basta falhar um parâmetro para o item ser excluído.

Coeficiente de assimetria = Índice de assimetria / erro padrão assimetria

Falta de sensibilidade Poucos itens (não são representativos do domínio) Aplicação não adequada à amostra Itens com elevada desejabilidade social Itens muito fáceis/ muito difíceis Tempo de aplicação mal determinado Falta de pureza factorial

Efeito tecto – Médias /medianas muito elevadas, teste fácil, assimetria muito negativa

Efeito chão – Médias/medianas muito baixas, assimetria positiva, prova difícil

Fiabilidade – Capacidade para medir de forma repetida e consistente (garantir que as medições ocorrem nas mesmas condições). Quando o erro é 0 é porque o teste é preciso. Caso seja diferente de 0, então pode haver algum tipo de erro.

Fontes/tipos de erros/enviesamentos- Avaliador: instruções diferentes- Examinando: fadiga, falta de atenção - Situação: “padronizadas” em qualquer contexto- Teste: erros associados ao teste

Método split-half: só é aplicada num únic momento Divisão em metades: nem sempre a 1ª e a 2ª metade são equivalentes Ex. fadiga, grau de dificuldade : a pessoa vai-se cansando ao longo da prova

Teste onde não faz sentido aplicar o método split-half: o teste de máximo rendimento (haveria uma baixa correlação entre as duas metades)

Page 7: Apontamentos Métodos

*Questão da aprendizagem/ efeito da memorização: acaba por avaliar a capacidade de memorizar e não a aptidão que se pretendia avaliar

Alfa de Cronbach : Medida de consistência interna que tem por base as correlações médias entre os itens que constituem o teste/dimensões , ponderada pelas respectivas variâncias - Quanto mais itens, maior o alfa e maior a consistência (excepto quando são retirados os itens menos consistentes)

Valor de referência

0,7 – para testes de resposta típica e 0,8 – para testes de máximo rendimento

Os itens são codificados na mesma direcção conceptual

* Variabilidade das respostas (inter e intra)Quanto menor a variabilidade das respostas intra-examinandos e maior a variabilidade das respostas inter-examinandos, maior o alfa-- Relação inversa entre a fiabilidade e a validade de conteúdo: os itens devem ser representativos do atributo psicológico

Se o teste é sensível, isto não quer dizer que é fiável ou válido. Mas se for válido este é fiável e sensível.

Lógica hierárquica

Dois procedimentos para avaliar a fiabilidade:- Estabilidade temporal / teste-reteste- Equivalência das formas/ formas paralelas

Estabilidade temporal / teste-reteste

Validade

Fiabilidade

Sensibilidade

Page 8: Apontamentos Métodos

É medida a estabilidade do teste ao longo do tempo. Aplicamos o mesmo teste ou prova em dois momentos diferentes à mesma amostra e depois fazemos uma correlação momento-produto de Perason. Devemos definir um intervalo temporal suficiente para eliminar erros possíveis como efeitos de aprendizagem e memória. - Até 6 meses ( de intervalo): provas de máximo rednimento ex.: Aplico a uma criança de 2 anos um teste de domínio de vocábulos, passados 6 meses o teste-reteste apresenta uma pontuação totalmente diferente nas duas medições

Equivalência das formas / formas paralelas

Aplicação de duas formas equivalentes/ paralelas do teste (versão A e B) ao mesmo participante em dois momentos temporais. No 1º momento o examinando é avaliado com uma forma, no 2º momento com outra, no entanto a forma paralela tem o msmo nº de itens e deve ser expresso da mesma forma e têm de abranger o mesmo conteúdo.

Normas

Normas e procedimentos que facilitam a interpretação dos resultados obtidos num teste.Comparação com grupo de referência (a amostra tem de ser representativa da amostra que está a ser estudada).

+ Os grupos normativos são criados ao longo do desenvolvimento do teste+ Existem grupos normativos específicos para diferentes variáveis

Participante 1 – 9 anos (score = 45 )Participante 2 – 25 anos (score = 53)

Nas provas de máximo rendimento, a variável idade é muito importante e influencia bastante o score.

Conversão de resultados

Pontuação directa: pontuação bruta que um sujeito tem num testeÉ preciso converter a pontuação directa numa nota padronizada ou nota normalizada

- Notas padronizadas (Notas Z, notas T, QI): detectam o desvio ou posição face a um grupo de referência, tendo em conta o desvio padrão, obtêm-se por transformação linear

Quanto maior o Z melhor a pontuação do indivíduo

Z= 0 : valor intermédio corresponde à mediana

Z = Nota - Média / Desvio-padrão

Notas T:

Page 9: Apontamentos Métodos

Média : 50 Desvio-Padrão: 10 Conversão notas Z numa escala conhecida

Média + Desvio-padrão x Z

PD = 20zParticipante = -0,5 >> tParticipante = 50+10x (-0,5) = 45

* Notas Z fazem parte dos dados padronizados – Não se deve apresentar aos participantes esta nota z pois esta não vai fazer sentido para este

QI de desvio: crítica ao quoficiente de inteligência

A fórmula do QI pressupõe que quanto mais velhos, maior o défice cognitivo. O QI de desvio é semelhante às notas T.

Média: 100 (quoficiente de inteligência médio)Desvio: 15

- A nota Z tem média de 0. - As notas são tipicamente apresentadas em percentis.

- Notas normalizadas

Ordenam-se as notas e vê-se a posição que o participante ocupa face ao grupo de referência.Ver quem é o melhor aluno de 100 alunos, ordenam-se as notas, vêem-se os percenits a que as notas correspondem -- Adaptação da distribuição dos resultados brutos obtidas à distribuição normal

Exs.: Estaninos – stanine (standard nine) -- (Enéatipos) * Divisão das pontuações em grupos de 9 (padrão nove) * Á medida que aumento de grupo aumentam-se também as pontuações * A divisão dos grupos são feitas com base em percentagens

É necessário comparar os resultados a um grupo de referência para os poder interpretar. As mais utilizadas são as notas normalizadas com percentis, dado que são mais compreensíveis para o participante – para perceber se o participante é normal ou se se desvia do normal (diferente da norma)

Padronização

Ao nível das normas, da cotação, da situação em si, relativamente aos itens. Em que situações eu não tenho uma verdadeira padronização dos itens? Na equivalência das formas, porque aplico duas versões do mesmo teste, no 1º aplico uma forma e no 2º outra, as formas não são equivalentes. A padronização torna-se mais difícil de garantir.

Page 10: Apontamentos Métodos

A padronização de um teste em si não quer dizer que os testes têm de ser iguais mas sim que têm de ser aplicados nas mesmas circunstâncias.

Construção de testes

Definição de domínio > Construção > Validação > Normas

Na tradução/ adaptação de testes, não pode ser feita uma tradução literal (à letra), tem de se adaptar a prova à população-alvo. Por exemplo, nos EUA um desporto famoso seria o baseball mas cá em Portugal não faz sentido usar esse exemplo.

- Tradutores independentes (2 no mínimo) * retrotradução - de PT para EN e de EN para PT (comparam-se as versões e tentam-se perceber as discrepâncias)

Avaliação da inteligência

A inteligência tal como a electricidade é mais fácil de medir do que de definir (Jensen, 1969).

D48, PMA Matrizes progressivas de Raven

O que é a inteligência? -- Capacidade multifacetada que se manifesta de diferentes formas ao longo da vida

Matrizes progressivas- factor g-teste não verbal- sem tempo limite

3 formas:Forma Geral, Forma Avançada e Forma Colorida (crianças dos 6 aos 11 anos)Pontuação máxima: 35 / 36 pontos (depende da versão)

Baseia-se no factor de inteligência geral.É um teste figurativo.O grande objectivo é arranjar solução para uma sequência de figuras geométricas.De questão para questão o grau de dificuldade vai aumentando daí o nome (matrizes progressivas). É um prova de rendimento porque não tem tempo limite.A forma avançada é usada quando pretendemos discriminar examinandos que obtiveram pontuações muito elevadas na forma geral. Mais difícil do que a forma geral

WISC – Escala de Inteligência de Weschler para Crianças

- 6 aos 16 anos - Escalas de Performance e Verbal

Page 11: Apontamentos Métodos

As escalas de performance requerem muitas vezes a manipulações de objectos tais como puzzles e objectos

Os itens mais difíceis requerem alguma dedução, raciocínio e conhecimento específico. Na escala verbal, apenas um subteste é um teste de velocidade: o da aritmética.

Escala Verbal:* Informação* Compreensão* Aritmética* Similaridades* Vocabulário

Escala Performance: * Símbolo Digital* Completar uma Imagem* Espacial* Organização de Imagens* Organizar objects

Avaliação da personalidade MMPI – Inventário Multifásico de personalidade de Minnesota

- A partir dos 18 anos3 escalas globais:

- Alterações emocionais- Alterações do pensamento- Alterações do comportamento

Algumas das dimensões avaliadas nesta prova:-- comportamento anti-social-- emoções negativas disfuncionais-- queixas somáticas

A particularidade desta prova é que contém 3 escalas para avaliar a validade do teste: - Lie score (L)- Infrequency score (F)- Correction score (K)Servem para avaliar a atitude de resposta do indivíduo relativamente às afirmações: se o sujeito foi defensivo, se respondeu de forma despreocupada ou se houve intenção deliberada de adulterar os resultados. Se um destes scores exceder um valor específico, esse teste será considerado inválido.

NEO-PI-R (Inventário de personalidade NEO)

- Modelo teórico subjacente: Big Five (cinco grandes dimensões) - A partir dos 17 anos

Page 12: Apontamentos Métodos

Cinco dimensões:o Neuroticismoo Extroversãoo Abertura à Experiênciao Amabilidadeo Conscienciosidade

Este teste assume que o participante é honesto (não contém lie scale)

Desvantagens dos testes de avaliação psicológica

-- leitura de resultados centrada no produto final e não nos processos intermédios-- a representação social dos constructos psicológicos difere de grupo para grupo-- dificulade na equivalência das medidas para comparações transculturais