Aspetos fundamentais da análise de dados em ciências sociais

Aspetos fundamentais da análise de dados em ciências sociaisHelena Martins, 2014helenagmartins.com

Roteiro•Introdução•Questões-chave•Cleaning up your act•Pressupostos do Modelo de Equações

Estruturais

AVISO À NAVEGAÇÃO!Isto são noções para leigos e não estatísticos; algumas coisas estão escritas de forma a serem mais compreensivas e são generalidades – tentarei colocar uma nuvem sempre que for esse o caso

Introdução

Desafios•O modelo vigente de “ciência” é baseado

nas ciências exatas ▫Dados observáveis▫Método experimental (condições e

parâmetros controladas) ▫Fenómenos repetíveis e verificáveis com

relativa facilidade ▫Pretende-se prever resultados replicáveis,

gerar regras

Desafios•Ciências Sociais

▫Construtos complexos com grande nível de subjetividade

▫Variáveis que não se medem diretamente (e.g. amor vs altura)

▫Relações entre as variáveis pouco claras▫Egocentrismo de investigação

Questões Chave

Decidir o tipo de testes•Tenho dados, e agora?

▫Qual é a pergunta de investigação? ▫Temos hipóteses? Quais são

Lembrar: hipóteses verificáveis, testáveis, falsificáveis

H0 vs H1▫Árvores de decisão!

Eu queria saber qual é a relação entre o

amor e o stress…

Variáveis Latentes vs variáveis observáveis•Variável observável: pode ser medida

“diretamente”▫Altura, peso, nível de ruído, velocidade,

temperatura, humidade, etc.•Variável latente: é um construto que não se

pode medir diretamente▫Satisfação com o Emprego – implica satisfação

com colegas, local de trabalho, salário, função, responsabilidades… etc!

▫Stress, confiança, liderança, comprometimento, etc!

Variável Latente• As variáveis latentes são construtos, na

medida em que construímos teorias e definimos o conceito para o podermos medir.▫E.g. o que é para vocês a amizade?

• Quando falamos de variáveis latentes é que falamos de qualidades psicométricas das escalas, p.ex.▫O construto do investigador pode não ser

adequado à população em causa▫É também por isto que fazemos adaptação e

validação de escalas, p. ex.

Alfa e Beta: erro tipo I e erro tipo II•Alfa (ou significância do teste), a probabilidade

de estarmos a cometer um erro do tipo um▫Aceitar uma hipótese1 que não é verdadeira

(mnemónica: a maior parte dos investigadores está ansioso por provar a sua hipótese)

▫O p-value refere-se ao erro tipo 1 •Beta (ou potência do teste), a probabilidade de

estarmos a cometer um erro do tipo dois:▫Rejeitar uma hipótese1 que é verdadeira

“Ah, academic writing makes cowards of us all!”

(os estatísticos costumam dizer isto em termos de H0: em vez de dizermos que se prova a nossa hipótese, o mais correto é dizer que se rejeita a H0)

Procedimento Geral dos Testes de hipóteses (adapt. de Pires, 2000)1. Pelo contexto do problema identificar o parâmetro de interesse

▫ O que é que estamos a perguntar exatamente?2. Especificar a hipótese nula

▫ Normalmente H0 é o oposto do que queremos provar;3. Especificar uma hipótese alternativa apropriada4. Escolher o nível de significância, alfa

▫ Normalmente 0.05 ou 0.01, nas ciências sociais5. Escolher uma estatística de teste adequada

▫ Que teste usar?6. Recolher uma amostra e calcular o valor observado da

estatística de teste▫ FAZER o teste

7. Decidir sobre a rejeição ou não de H0▫ Analisar o teste, propriamente dito

Portanto…•É FUNDAMENTAL saber qual é a

pergunta de investigação: o que é que querem saber ao certo?

•AJUDA MUITO, pelo menos terem uma ideia dos resultados expectáveis▫Sendo que teoricamente, as hipóteses

deviam estar definidas à partida!!▫Terem pelo menos uma ideia, ajuda-vos a

saberem “para onde ir”

Testes paramétricos vs testes não paramétricos

Pressupostos básicos

Questões com bases de dados•Questões na construção de questionários

▫Tentar ter o máximo de variáveis contínuas/”puras” possível

•Tipos de variáveis no SPSS▫Nominal▫Ordinal▫Scale

•Labels: prós e contras•Transformação e computação de variáveis

Cleaning up your actBaseado em Tabachnik e Fidell, 2007

Detectar Missings•Proof reading (small data sets) or analyse

descriptives+univariates•Correlations (inflated? Deflated?)•Analisar o tipo de Missing data.

Tipos de Missings •MCAR - Missing completely at Random•MAR – Missing at Random (ignorable non

response)•MNAR – Missing Not at Random (non

ignorable non response).▫In MNAR, the missing is related to the DV,

and cannot be ignored.

•If the missings are 5% or less in a random pattern in a large sample, pretty much any procedure for replacing data is pretty much the same.

•There are not yet any firm guidelines for how much data can be tolerated for a sample of a given size.

Deleting cases or variables•O ideal é ter tão poucos missings numa

amostra tão grande que se possam apagar esses casos.

•Nem sempre isso é possível.▫A amostra não é grande os suficiente▫O missings não são aleatórios (já vimos

esta questão)

Estimating Missing Data•Prior knowledge – when a researcher replaces

a missing value with a value from a “well educated guess”;

•Mean substitution – in the absense of all other information, the mean is the best guess at missing values. It’s less commonly used now that there are more desirable methods feasible through computer programs.▫Group mean (spss não faz)▫Grand mean

Estimating Missing Data• Regression – other variables are used as Ivs to write a

regression equation for the variable with missing data serving as DV;

• Expectation Maximization – forms a missing data correlation (or covariance) matrix by assuming the shape of a distribution (such as normal) for the partially missing data and basing inferences about missing values on the likelihooh under that distribution

• Multiple imputation – takes several steps to estimate missing data. 1st logistic regression and then a random sample is taken from the cases with cpomplete responses to id the distribution of the variable with missing data.

Choosing among methods to deal with Missing Data1. Is the missing data randomly missing?

▫ No: don´t delet it. Treat missing data as data, and analyse why it’s missing

▫ Yes: Delete – only a few cases are missing

random data from different variables; Don’t delete if:

The variable is critical to the analysis (create a dummy variable that recodes missings with mean substitution so you can still the data)

Choosing among methods to deal with Missing Data•EM (Expectation Maximization) – for data

sets in which there is not a great deal of missing data and inferential results (eg p values) are interpreted with caution.

•Multiple Imputation – is currently considered the most respectable of dealing data BUT it’s more difficult to implement and does not provide the full richness of output that is typical with other methods.

SPSS•Transform

▫Replace Missing Values Replace with Mean…

Outliers

Inverted Items

UMA BOA BASE É COMPLETAMENTE FUNDAMENTAL!!! NINGUÉM PODE COZINHAR BONS PRATOS COM INGREDIENTES PODRES!

Pressupostos básicos da análise com Modelo de Equações Estruturais

Referências

Documents

Aspetos fundamentais da análise de dados em ciências sociais