Upload
damas2003
View
582
Download
0
Embed Size (px)
Citation preview
JOÃO MAROCO, [email protected]
Programa Doutoral :: ISPA – Instituto Universitário
Técnicas de Análise de Dados II
Fundamentos teóricos4.1. Introdução4.2. Variáveis manifestas e variáveis latentes4.3. O modelo de Equações Estruturais4.4. Estratégia de Análise de Equações Estruturais4.5. Pressupostos do modelo de Equações Estruturais4.6. Problemas com o ajustamento do modelo
4.Modelos Lineares Estruturais
1
4.1. Introdução
Análise de Equações Estruturais (Structural Equation Modelling):
• Extensão dos modelos GLM;• Técnica de modelação generalizada (modelos teóricos sobre a forma como diferentes variáveis
latentes ou constructos são operacionalizados e como estes estão relacionados entre si)• Permitem considerar erros de medida de forma explicita
Em termos simplistas:
AEE
=Análise Factorial
(define modelo de medida)
+ Regressão linear
(define modelo estrutural)
2
4.1. Introdução
Análise de Equações Estruturais (Structural Equation Modelling):
Porém o racional das AMEE é diferente do racional da Estatística clássica:
Estatística Clássica: AMEE:
3
1. Qual o modelo que descreve os dados observados? Método Exploratório
2. Dados levam à dedução de Teorias3. Novos dados, novas teorias
1. Poderá este modelo explicar/gerar os dados observados? Método Confirmatório
2. A teoria é o “motor” do processo3. Teorias diferentes podem ser testadas por
formalização e avaliação de modelos distintos
Dados TeoriaDados TeoriaTeoria
Teoria
Teoria
4.1. Introdução
Porquê é que a Análise de Equações Estruturais é, actualmente, tão popular?
4
Luke, D. A. (2005) Getting the Big Picture in Community Science: Methods That Capture Context. American Journal of Community Science. 35(3/4): 185-200
Marôco, J. (2010) Análise de Equações Estruturais: Fundamentos teóricos, Software & Aplicações. ReportNumber. Pêro Pinheiro.
4.1. Introdução
Porquê é que a Análise de Equações Estruturais é, actualmente, tão popular?
1. Nem todas as variáveis envolvidas num determinado ‘acontecimento’ são manifestas, i.e. observáveis ou manipuláveis directamente. • Variáveis Latentes: Não são directamente mensuráveis. Só se observam as suas
manifestações;• Validade e fiabilidade de variáveis latentes (erros-nas-variáveis) limita conclusões sobre relações
estruturais• Métodos clássicos de análise não consideram os ‘erros-nas-variáveis’.
2. Acréscimo da complexidade dos modelos teóricos capazes de explicar um determinado acontecimento• Múltiplas variáveis manifestas e variáveis latentes; • Diferenças entre grupos e efeitos hierárquicos, de interacção, mediação, etc… • AEE permite testar ajustamento global de modelos e significância individual de parâmetros num
enquadramento teórico que engloba vários tipos de modelos lineares.3. Software para AEE de fácil utilização:
• <1993: LisRel exigia o domínio de uma linguagem de programação própria assente em notação matricial e no alfabeto grego.
• AMOS, EQS, LisREL: Ambiente Windows; especificação visual do modelo
5
4.2. Variáveis em A.E.E.
As variáveis nos modelos de equações estruturais são de dois tipos:
1. Variáveis manifestas ou variáveis observadas: São variáveis medidas, manipuladas ou observadas directamente.
2. Variáveis latentes, Factores ou Constructos: São variáveis não directamente observáveis ou mensuráveis, sendo a sua ‘existência’ indicada pela sua manifestação em variáveis indicadoras ou manifestas.
As variáveis (quer latentes quer manifestas) podem ser independentes ou dependentes:1. Variáveis Independentes ou v. exógenas:
as causas destas variáveis residem fora do modelo, i.e. não são influenciadas por nenhuma outra variável no modelo.
2. Variáveis Dependentes ou v. endógenas: as causas da variação destas variáveis residem no modelo, i.e. a variação destas variáveis é explicada por variáveis presentes no modelo.
6
4.3. O modelo de equações estruturais
Um modelo de equações estruturais apresenta geralmente duas componentes:1. Modelo de Medida : define a forma como os constructos hipotéticos ou variáveis latentes são
operacionalizados pelas variáveis observadas ou manifestas2. Modelo Estrutural : define as relações causais ou de associação entre as variáveis latentes
Formalmente (modelo LISREL: Linear Structural Relationships), para uma amostra, as variáveis centradas podem ser modeladas:
Modelo de Medida: Modelo Estrutural: v.d.:v.i.:
assumindo que (pressupostos):a. e e h são independentesb. d e x são independentesc. z e x são independentesd. z, e e d são mutuamente independentes
e. Os valores esperados dos erros é 0.f. Bii=0 (uma v.d. não é causa e efeito dela mesmo) e (I-B) é não singular (i.e. tem inversa)
7
z= + +Bh h xG= +y
y L h e
= +x
x L x d
4.3. O modelo de equações estruturais
Modelo de Equações Estruturais
Onde:
8
é ùê úê úê úê úê úê úê úë û
12 1
21 2
1 2
0
0
0
r
r
r r
b bb b
b b
B =
é ùê úê úê úG ê úê úê úê úë û
11 12 1
21 2
1 2
0s
s
r r rs
g g gg g
g g g
=
y Vector px1 das p v. dependentes ou de respostamanifestas
x Vector qx1 das q v. independentes ou preditoras
h(eta)
Vector rx1 das r v. latentes dependentes ou endógenas
x (csi)
Vector sx1 das s v. latentes independentes ou exógenas
e(epsilon)
Vector px1 dos erros de medida de y
d (delta)
Vector qx1 dos erros de medida de x
Ly
(lambda)Matriz pxr dos pesos da regressão de y em h
Lx Matriz qxs dos pesos da regressão de x em xB
(beta)Matriz rxr dos coeficientes de h no modelo estrutural. bii=0
G (gamma)
Matriz rxs dos coeficientes de x no modelo estrutural.
z (zeta)
Vector rx1 dos r erros do modelo estrutural (disturbances)
é ùê úê úê ú= ê úê úê úê úë û
1
2
p
yy
y
y
é ùê úê úê ú= ê úê úê úê úë û
1
2
q
xx
x
x
é ùê úê úê ú= ê úê úê úê úë û
1
2
r
hh
h
h
é ùê úê úê ú= ê úê úê úê úë û
1
2
s
xx
x
x
é ùê úê úê ú= ê úê úê úê úë û
1
2
q
dd
d
d
é ùê úê úê ú= ê úê úê úê úë û
1
2
p
ee
e
e
é ùê úê úê úL ê úê úê úê úë û
11 12 1
21 22 2
1 2
r
ry
p p pr
l l ll l l
l l l
=
é ùê úê úê ú= ê úê úê úê úë û
1
2
r
zz
z
z
z= + +Bh h xG
= +y
y L h e
= +x
x L x dModelo Medida
Modelo estrutural
4.3. O modelo de equações estruturais
As equações estruturais podem representar-se graficamente, por exemplo:
Neste modelo (Convenção):- Variável latente (não observável directamente: factores; erros) (letras gregas)- Variável manifesta (mensurável directamente: itens) (letras romanas)- Relação causal (de causa para efeito). Os índices em subscrito são pela ordem v.d. v.i.
- Correlação (sem hipótese de causalidade)
9
x1
x2
x1
x2
x3
x4
x5
x6
h1
h2
y1
y2
y3
y4
e1
e2
e3
e4
d1
d2
d3
d4
d5
d6
z1
z2
lx11
lx21
lx31
lx42
lx52
lx62
f12 y12
ly11
ly21
ly32
ly42
b21 b12
g11
g21
g12
g22
qe23
4.3. O modelo de equações estruturais
Formalmente as equações são:
10
1 11 1 1
2 21 1 2
3 32 2 3
4 42 2 4
y
y
y
y
y
y
y
y
l h e
l h e
l h e
l h e
= +
= +
= +
= +
1 11 1 1
2 21 1 2
3 31 1 3
4 42 2 4
5 52 2 5
6 62 2 6
x
x
x
x
x
x
x
x
x
x
x
x
l x d
l x d
l x d
l x d
l x d
l x d
= +
= +
= +
= +
= +
= +
1 12 2 11 1 12 2 1
2 21 1 21 1 22 2 2
h b h g x g x zh b h g x g x z
= + + += + + +
11 12
21 22
f ff f
é ùê ú= ê úê úë û
F
11 12
21 22
y yy y
é ùê ú= ê úê úë û
Y
11 22 66, , ,diag d d e
d q q qé ù= ê úë ûQ
x1
x2
x1
x2
x3
x4
x5
x6
d1
d2
d3
d4
d5
d6
lx11
lx21
lx31
lx42
lx52
lx62
11
22 23
32 33
44
0 0 0
0 0
0 0
0 0 0
e
e ee
e e
e
q
q q
q q
q
é ùê úê úê ú= ê úê úê úê úë û
Q
h1
h2
y1
y2
y3
y4
e1
e2
e3
e4
ly11
ly21
ly32
ly42
x1
x2
h1
h2
z1
z2
f12 b21 b12
g11
g21
g12
g22
Modelo de medida para x Modelo de medida para y Modelo estrutural
Variância-Covariância
y12
qe23
4.3. O modelo de equações estruturais
Os modelos de equações estruturais são classificados em duas classes:
A. Modelos Recursivos (mais frequentes): nenhuma variável é simultaneamente causa-e-efeito de outra:
B. Modelos não-recursivos: uma variável pode ser causa-e-efeito de outra (efeito de feedback):
11
1 12 2 11 1 12 2 1
2 21 1 21 1 22 2 2
h b h g x g x zh b h g x g x z
= + + += + + +
x1
x2
x1
x2
x3
x4
x5
x6
h1
h2
y1
y2
y3
y4
e1
e2
e3
e4
d1
d2
d3
d4
d5
d6
z1
z2
lx11
lx21
lx31
lx42
lx52
lx62
f12 y12
ly11
ly21
ly32
ly42
b21 b12
g11
g21
g12
g22
qe23
x1
x2
x1
x2
x3
x4
x5
x6
h1
h2
y1
y2
y3
y4
e1
e2
e3
e4
d1
d2
d3
d4
d5
d6
z1
z2
lx11
lx21
lx31
lx42
lx52
lx62
f12 y12
ly11
ly21
ly32
ly42
b21
g11
g21
g12
g22
qe23
1 11 1 12 2 1
2 21 1 21 1 22 2 2
h g x g x zh b h g x g x z
= + += + + +
4.3. O modelo de equações estruturais
Confuso? Vejamos um exemplo concreto:
Warren, White & Fuller (1974) estudaram 98 gestores de cooperativas agrícolas, estabelecendo um modelo causal de performance em função de três constructos chave: Conhecimento, Valor e Satisfação:
12
Conhecimento
Satisfação
C1
C2
S1
S2
V1Performance
d1
d2
d3
d4
d5
z1
ValorV2d5
P1
P2
e1
e2
4.4. Estratégia de Análise de Eq. Estruturais
A Análise de Equações Estruturais desenrola-se, geralmente, nos seguintes passos:
13
Elaboração do modelo Teórico
Recolha de Dados Especificação e
identificação do modelo
Estimação do Modelo
Avaliação da qualidade do Ajustamento
Validação do modelo Aceitação ou
Rejeição do modelo
TEORIA
4.4.1. Especificação do modelo
“Desenho” formal do modelo, que reflecte, à priori, as hipóteses sobre o modelo de medida e sobre o modelo estrutural:
Decidir:1. Que variáveis manifestas operacionalizam que variáveis latentes; erros correlacionados?2. Que relações causais entre v. latentes e/ou v. manifestas devem ser incluídas / excluídas?3. Que associações (não-causais) devem ser incluídas/omitidas do modelo?
14
Conhecimento
Satisfação
C1
C2
S1
S2
V1Performance
d1
d2
d3
d4
d5
z1
ValorV2d5
P1
P2
e1
e2
4.4.1. Especificação do modelo
A inclusão/omissão de variáveis relevantes para explicar as relações de variâncias-covariâncias entre as variáveis conduz a erros de especificação:1. O modelo tem mais variáveis e ou relações entre variáveis do que aquelas que é possível
estimar pelos dados (matriz de variâncias-covariâncias das v. manifestas)2. O modelo tem menos variáveis do que aquelas necessárias para explicar as verdadeiras
relações entre variáveis
Os erros de especificação podem impedir a obtenção de estimativas dos parâmetros (problemas de identificação do modelo) ou pode produzir estimativas enviesadas dos parâmetros do modelo (i.e. diferentes do valor real no verdadeiro modelo teórico).
15
Conhecimento
Satisfação
C1
C2
S1
S2
V1Performance
d1
d2
d3
d4
d5
z1
ValorV2d5
P1
P2
e1
e2
Modelos reflectivos: As v. latentes ‘reflectem-se’ nos itens;As v. latentes manifestam-se através das v. manifestasOs itens devem estar correlacionados positivamente
(estimáveis pelos modelos de Eq. Estruturais)
4.4.1. Especificação do modelo
A especificação do modelo é, segundo Cooley (1978) uma das etapas mais complexas da AEE.
Uma dificuldade comum é perceber o tipo de modelo de medida apropriado:
16
Febre
Dores Musculares
Dores Garganta
Nariz congestionado
Cansaço
Gripe
e1
e2
e3
e4
e5
Modelos formativos: As ‘v. latentes’ são ‘formadas’ pelas manifestas;Os itens podem estar ou não correlacionados, positivamente ou negativamente
(Esta Aptidão de Acesso Univ. não é verdadeiramente latente, já que é uma combinação de v. manifestas (média ponderada). Não é estimável com AEE, mas sim com PLS)
Aptidão Acesso
Universidade
Português
Psicologia
Biologia
Matemática
e1
4.4.1. Especificação do modelo
Algumas ‘regras’ de especificação:
17
Modelo de Medida (AFC)
1. Factores comuns latentes (x) causam as v. manifestas (x1,…,xi). O comportamento das v. manifestas resulta da manifestação dos factores latentes;
2. A variância das v. manifestas (e.g. erros de medida) que não é explicada pelos factores comuns latentes é explicado por factores específicos latentes (e1,...,ei);
3. Os erros de medida são geralmente independentes (mas podem estar correlacionados indicando uma fonte de variação comum dos itens não explicada pelos factores comuns presentes no modelo).
Perform.
P1
P2
e1
e2
P3 e3
Modelo Estrutural (RL)
1. As relações são ‘desenhadas’ de causa-para-efeito
2. A variância da v. exógenas não explicada pela combinação das v. endógenas é explicada por ‘erros’ (Disturbances ou Perturbações)
Conhecimento
Satisfação
Perfomance
z1Valor
4.4.2. Identificação do modelo
Incluir conhecimento prévio sobre o valor dos parâmetros de forma a que o modelo global seja ajustável aos dados recolhidos, i.e. que exista pelo menos uma estimativa única para cada parâmetro do modelo.
Por exemplo, no modelo de medida da performance:
O modelo não é identificado: Não é possível estimar 4 parâmetros a partir de 3 ‘dados’. Naturalmente, em AEE não é possível estimar as v. latentes sem assumir algum tipo de hipóteses sobre elas:
1. Qual é a métrica (amplitude de medida) das v. latentes? ou2. Qual a variância?3. Qual a correlação com outras v. latentes?
18
Perform.
P1
P2
e1
e2
lP1
lP2
le1
le2
Dados (3):2 variáveis manifestas: 1 covariância e 2 variânciasNeste exemplo: (p+q)=2 (p+q)(p+q+1)/2 =2×3/2=3
Parâmetros a estimar (t=7):l=[lP
1, lP2, le
1, le2] + V(P)+V(e1)+V(e2)
Graus de Liberdade do modelo = (p+q)(p+q+1)/2 -t== 3-7=-4
4.4.2. Identificação do modelo
… estas hipóteses reflectir-se-ão na indicação de quais os parâmetros livres (a estimar),quais os parâmetros fixos (não-estimáveis) e quais os parâmetros constritos (estimáveis mas iguais entre si):• Os parâmetros livres: estimados a partir das variâncias/covariâncias das variáveis manifestas; • Os parâmetros fixos: não são estimados e são geralmente fixos em 0 (não existe relação) ou em
1 (estandardização face a outras variáveis). • Os parâmetros constritos, são estimáveis, mas essa estimativa é igual para todos os parâmetros
restringidos.
No modelo de medida da performance, podemos tornar o modelo identificado:
19
Perform.
P1
P2
e1
e2
1
lP2
1
1
1
1. Fixando um coeficiente de trajectória entre o factor e pelo menos uma das v. manifestas: o factor tem uma medida proporcional à v. manifesta. Por defeito: le
i=1. Naturalmente, esta trajectória tem um valor de 1 e é assumida como significativa.
2. Estandardizando o factor latente: Fixar a variância do factor em 1. Vantagem: permite testar a significância de todas as trajectórias entre os factores e as variáveis manifestas
4.4.2. Identificação do modelo
Relativamente à identificação um modelo pode classificar-se como:
A. Indeterminado ou sub-identificado (under-identified): O nº de parâmetros a estimar é superior à informação presente nas v. manifestas (variâncias e covariâncias) sendo os graus de liberdade <0!!!
Analogia com a Matemática: x+y=6
Sistema indeterminado: Uma equação com duas incógnitas Infinitas soluções: (2,4), (3,3), …
Problema: O modelo tem infinitas soluções, não é ajustável!...
Solução: fixar ou restringir um ou mais parâmetros livres; adicionar mais informação (v. manifestas)
20
Perform.
P1
P2
e1
e2
lP1
lP2
le1
le2
Dados: (p+q)(p+q+1)/2 =2×3/2=3Parâmetros a estimar (t ): l=[lP
1, lP2, le
1, le2] + V(P)+V(e1)+V(e2)
Graus de Liberdade = Dados parâmetros a estimar (p+q)(p+q+1)/2 -t =3-7=-4
4.4.2. Identificação do modelo
Relativamente à identificação um modelo pode classificar-se como:
B. Determinado, identificado ou saturado (just-identified): o nº de parâmetros a estimar é igual ao nº de elementos não redundantes da matriz de covariância, sendo os graus de liberdade=0!!!
Analogia com a Matemática: x+y=6 x-y=2
Sistema determinado: Duas equação com duas incógnitas Uma solução : (4,2)
Problema: Ao calcular as estimativas usa-se toda a informação disponível e portanto não é possível avaliar a significância do modelo pois gl=0. MAS este modelo só tem uma solução e portanto nunca pode estar errado – não vale a pena avaliar a significância!. Pode ter problemas de convergência numérica durante o ajustamento. Cuidado com a Multicolinearidade! 2 v. manifestas colineares, contam apenas como 1, tornando o modelo sub-identificado
Solução: fixar ou restringir pelo menos mais um parâmetro livre; adicionar mais v. manifestas
21
Perform.
P1
P2
e1
e2
1
lP2
1
1
Dados: (p+q)(p+q+1)/2 t=2×3/2=3Parâmetros a estimar (t ):lP
2 +V(e1)+V(e2)Graus de Liberdade = (p+q)(p+q+1)/2 -t =3-3=0
1
4.4.2. Identificação do modelo
Relativamente à identificação um modelo pode classificar-se como:
C. Sobre-identificado ou sobre-saturado (overidentified): o nº de parâmetros a estimar é inferior ao nº de elementos não redundantes da matriz de covariância. Graus de liberdade>0!
22
Perform.
P1
P2
e1
e2
1
lP2
1
1Dados: (p+q)(p+q+1)/2 t=3×4/2=6Parâmetros a estimar (t): l=[lP
2, lP3]+V(e1)+V(e2) +V(e3)
Graus de Liberdade = (p+q)(p+q+1)/2 -t =6-5=1P3 e3lP
31
1
Perform.
P1
P2
e1
e2
1
lP2
1
1 Dados: (p+q)(p+q+1)/2 t=4×5/2=10Parâmetros a estimar (t): l=[lP
2, lP3, lP
4]+V(e1)+V(e2) +V(e3) +V(P)Graus de Liberdade = (p+q)(p+q+1)/2 -t =10-7=3
P3 e3
lP3
1
P4 e4
lP4
1
4.4.2. Identificação do modelo
Relativamente à identificação um modelo pode classificar-se como:
C. Sobre-identificado ou sobre-saturado (overidentified):
Analogia com a Matemática: x+y=6 2x-y=33x+y=11
e.g. Encontrar os valores x, y positivos tal que o quadrado da diferença entre os valores estimados pelas equações e os dados (6,3,11) sejam o menor possível:
x =2.816; y=2.789 é uma solução, ainda que imperfeita:
x + y = 5.605 2x – y = 2.842 3x + y=11.237
Apesar de a solução não ser perfeita nos modelos sobre-identificados, contrariamente aos modelos saturados, a imposição de restrições aos parâmetros permite testar hipóteses sobre o modelo. É agora possível avaliar a plausibilidade do modelo, para gerar os dados observados. Se os valores estimados estiverem muito afastados dos valores observados, o modelo deve estar errado!A maior parte dos investigadores prefere trabalhar com modelos sobre-identificados!
23
3 quantidades conhecidas (6,3,11) e duas desconhecidas, mas o sistema não tem uma solução exacta. Para encontrar uma solução, é preciso impor algum tipo de modelo “teórico”
4.4.2. Identificação do modelo
Sub-identificação empíricaUm modelo teoricamente identificado ou sobre-identificado, ainda poder apresentar problemas de sub-identificação. Um problema mais ou menos frequente é a Sub-identificação empírica:
1. Quando parâmetro tem um valor próximo de zero. O processo iterativo da estimação do modelo pode eliminar esse parâmetro e o modelo passa a estar sub-identificado
2. Quando duas ou mais variáveis manifestas são fortemente colineares (problema da multicolinearieadade) as estimativas dos parâmetros associadas tornam-se instáveis e podem ditar a eliminação das v. manifestas da análise, tornando o modelo sub-identificado.
Solução: Respecificação do modelo (remover v. manifestas colineares) e/ou aumentar a dimensão da amostra
Existem várias regras mais ou menos complexas (e de difícil determinação manual) para avaliar a identificação de um modelo (regra-t, Regra B=0, Regra Recursiva, Condições de ordem e característica da matriz de covariância; ver e.g. Bollen (1989), p. 88-103) mas estas regras não dão garantias absolutas. A maioria dos softwares (e.g. AMOS) avaliam a identificação do modelo e identificam os parâmetros responsáveis pela não identificação do modelo.
Os Slides seguintes tem algumas ‘dicas’ para lidar com a indeterminação e/ou saturação do modelo
24
4.4.2. Identificação do modelo
Estratégias para lidar com a indeterminação do modelo: Se um modelo for indeterminado (sub-identificado) ou mesmo saturado (identificado), é necessário tomar uma ou mais das seguintes medidas correctivas:
1. Regra-t: Nº de parâmetros a estimar deve ser igual ou inferior ao nº de variâncias-covariâncias não-redundantes (p+q)(p+q+1)/2
2. Fixar pelo menos um dos coeficientes entre uma variável latente e os seus indicadores (é necessário indicar qual a métrica da variável latente...)
3. Fixar a variância de uma ou mais v. latentes (estandardizar as v. latentes)
4. Ter pelo menos 3-4 indicadores por v. latente (com 2 também funciona, com 1 também (fixando a fiabilidade do indicador), mas tem problemas de fiabilidade/consistência interna)
5. Simplificar o modelo igualando trajectórias entre si: Usar testes à igualdade de parâmetros (CriticalRatios for differences no AMOS; para amostras grandes CR<1.96 implica igualdade dos coef.)
6. Eliminar trajectórias de feedback, ou efeitos recíprocos X Y
7. Fixar parâmetros (e.g. coeficientes de trajectória) cuja magnitude é conhecida (teoria)
8. Simplificar o modelo reduzindo o nº de variáveis latentes, eliminar v. manifestas multicolineares, fixar trajectórias =0 (ou seja eliminar trajectórias); aumentar a dimensão da amostra
9. Caso existam missings, usar um método Listwise de eliminação de missings (não usar pairwise) ou utilizar métodos de imputação de missings (Regressão, FIML,…).
10.Aumentar o nº de iterações, ou usar um outro método de estimação (GLS, ULS em vez do ML)
25
4.4.3. Ajustamento do modelo eestimação dos parâmetros
De acordo com a Teoria, o investigador estabelece:1. Modelo de medida (para definir o modo de “medir” as variáveis latentes) e2. Modelo estrutural (causal ou simplesmente correlacional) que relaciona as variáveis de interesse. Se o modelo de EE for ‘correcto’, os dados “gerados” pelo modelo são suficientemente próximos dos dados observados:
Assim, o investigador “colhe” os dados e avalia o ajustamento do modelo aos dados (Estratégia Confirmatória). Se o modelo não for rejeitado, isto não demonstra que o modelo é único, mas sim que aqueles “Dados” podem ser explicados pelo modelo em causa.
Se o modelo for rejeitado, pode proceder-se a refinamentos do modelo (Estratégia exploratória) para encontrar um modelo que melhor explique os dados observados.
26
Modelo
Covariânciasestimadas
S(q)
Covariânciasobservadas
S
= ?Erros=
S-S(q)
4.4.3. Ajustamento do modelo e estimação dos parâmetros
O objectivo da AEE é então encontrar um vector de estimativas dos parâmetros do modelo (q)que reproduza o melhor possível a matriz S das v. manifestas na população, i.e.
Estimar os parâmetros modelo tal queS= S(q)
q – Vector dos parâmetros (coeficientes) do modelo.S(q) – Matriz de variâncias estimadas pelo modelo teórico
Na prática não trabalhamos com populações mas sim com amostras, pelo queA questão é então:
‘Dada a matriz S de covariâncias amostrais das v. manifestas (que estima S), qual é o melhorvector de parâmetros do modelo teórico tal que:
27
ˆ SS =
ˆ( )ˆ ˆ( ) ( )ˆ ˆ( ) ( )
xx yx yy yx
xy xy xy xx
=é ùé ùê úê ú = ê úê úê úê úë û ë û
S
S SS S
q
q qq q
S
S SS S
Consideremos um exemplo relativamente simples:
As equações estruturais do modelo são:
Sendo as matrizes dos erros, matrizes diagonais (os erros não estão correlacionados):
O vector de parâmetros q a estimar é:
Sendo (p+q)(p+q+1)/2=(4×5/2)=10 e t=9, o modelo é sobre-identificado com gl=10-9=1.
28
x hx1
x2
y1
y2
d1
d2
e1
e2
z
l1l2
1 11
1
1
1
1
h gx z= +
g
1 1
2 1 2
1x
x
dx
l d
é ù é ù é ùê ú ê ú ê ú= +ê ú ê ú ê úê ú ê ú ê úë û ë û ë û
1 1
2 2 2
1y
y
eh
l e
é ù é ù é ùê ú ê ú ê ú= +ê ú ê ú ê úê ú ê ú ê úë û ë û ë û
11 22( ) ( ), ( )diag V Ve e eé ùQ = ê úë û 11 22
( ) ( ), ( )diag V Vd d dé ùQ = ê úë û
1 2 1 2 1 2' , , , ( ), ( ), ( ), ( ), ( ), ( )V V V V V Vl l g x e e d d zé ù= ê úë ûq
4.4.3. Ajustamento do modelo e estimação dos parâmetros
O problema é então estimar o vector q tal que
seja igual
Mas, mesmo este modelo simples, corresponde a um sistema de 10 equações com 9 incógnitas(parâmetros)…
Os softwares de AEE utilizam um algoritmo iterativo que minimiza a ‘função de discrepância’.
Se o ajustamento for perfeito f=0;Quanto menor for f melhor será o ajustamento do modelo teóricoO algoritmo para quando é atingido um critério de convergência (e.g. quando a variação dasestimativas ou da f é inferior a 0.001)
29
1
2 1 2
1 1 1 2 1
2 1 2 2 2 1 2
( )
( , ) ( )
( , ) ( , ) ( )
( , ) ( , ) ( , ) ( )
V y
Cov y x V y
Cov x y Cov x y V x
Cov x y Cov x y Cov x x V x
é ùê úê úê ú= ê úê úê úê úë û
S
21
2 2 22 2 2
2 12
1 2 1 1 2
( ) ( ) ( )
[ ( ) ( )] [ ( ) ( )] ( )ˆ( )( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
V V V
V V V V V
V V V V
V V V V V
g x z e
l g x z l g x z eg x l g x x d
lg x l l g x l x l x d
é ù+ +ê úê ú+ + +ê ú= ê ú+ê úê ú
+ê úë û
S q
ˆ( ( ))f F= -S qS
4.4.3. Ajustamento do modelo e estimação dos parâmetros
Os métodos de ajustamento mais usuais em AEE e respectivas funções de discrepância (f ) são:
1. Máxima verosimilhança (ML):Método iterativo que estima os parâmetros que maximizam a verosimilhança de observar a matriz S. A função de discrepância a minimizar é
Se o modelo exigir a estimação das médias e das ordenadas na origem, a função de discrepância é:
Método mais usado em AEE. Produz estimativas centradas e consistentes: à medida que naumenta, aproxima-se do verdadeiro q (populacional) com distribuição Normal.
Exige normalidade multivariada das v. manifestas (é +/- robusto à violação deste pressuposto) ou que SWishart.
Problemas associados à violação da normalidade:a. Rejeição de modelos apropriados mais vezes do que o correcto (teste c2=(n-1)fML)
b. Concluir pela significância de parâmetros mais vezes do que o correcto (+ erros tipo I)
30
1ˆ ˆlog | ( ) | tr( ( ) ) log | | ( )MLf p qq q -= S + S - - +S S
1 1ˆ ˆ ˆ ˆ ˆlog | ( ) | tr( ( ) ) log | | ( ) ( ( ))' ( ) ( ( ))MLf p qq q m q q m q- -= S + S - - + + - S -S S x x
q̂
4.4.3. Ajustamento do modelo e estimação dos parâmetros
Os métodos de ajustamento mais usuais em AEE e respectivas funções de discrepância (f ) são:
2. Mínimos quadrados não-ponderados (ULS):Método iterativo que estima os parâmetros que minimizam a SQE da matriz residual:
A função de discrepância a minimizar é:
onde tr[ ] é a função traço de uma matriz, i.e. é a soma dos elementos diagonais de E (SQE).
O método ULS não tem assumpções (à semelhança do OLS da Reg. Linear), é consistente, mas não é assimptóticamente eficiente (i.e. a variância não é mínima à medida que n aumenta).
O AMOS (até v. 18 inclusive) não produz o teste do c2=(n-1)fULS uma vez que não é possível assegurar a distribuição de c2.
31
ˆ( )E = -S qS
21 ˆtr[( ( )) ]2ULS
f = -S qS
2ˆtr[( ( )) ]q- SS
4.4.3. Ajustamento do modelo e estimação dos parâmetros
Os métodos de ajustamento mais usuais em AEE e respectivas funções de discrepância (f ) são:
3. Mínimos quadrados generalizados (GLS):Método iterativo que estima os parâmetros ponderando os erros de estimação com pesos correspondentes ao inverso da matriz de covariância amostral. Os elementos da matriz E que tem maior variância amostral, tem menor peso no modelo. Desta forma obtém-se estimativas mais eficientes do que se as observações não fossem ponderadas.A função de discrepância a minimizar é:
o que é equivalente a minimizar a SQE ponderada pelo inverso da matriz de covariância amostral.
O método GLS tem as mesmas propriedades assimptóticas que o ML (consistência e eficiência) com estimativas com distribuição normal assimptóticas.
32
( )2
1 1 21 1ˆ ˆtr ( ) tr[( ( )) ]2 2GLS
f q q- -é ù= - S = - Sê úë ûS S I S
4.4.3. Ajustamento do modelo e estimação dos parâmetros
Os métodos de ajustamento mais usuais em AEE e respectivas funções de discrepância (f ) são:
4. Distribuição Assimptótica livre (ADF) (ou Mínimos quadrados ponderados generalizados (WLS):Não exige Normalidade Multivariada. Contudo, exige que as variáveis manifestas permitam estimar momentos de ordem 8 (a ver adiante) o que, geralmente, exige amostras de grande dimensão (>1000’s)
s’=(s11, s21,s22,…,skk) vector de elementos da matriz triangular inferior S incluindo a diagonal
vector de elementos da matriz triangular inferior incluindo a diagonal
W – matriz de distâncias de todas as observações às médias de todas as variáveis . W-1 corrige Curtose dos itens. O elemento genérico de W é
Se a dimensão da amostra não for suficiente para o ADF e não for desejável assumir a validade da distribuição (aproximadamente) normal dos itens (v. manifestas), podem usar-se métodos de Bootstrap.
33
1ˆ ˆ( ( ))' ( ( ))ADFf q q-= - -s W s
, ,[ ]
ij kl ij kl ij klw w w= -W
1
1( )( )
n
ij ir i jr jr
w x x x xn =
= - -å ,1
1( )( )( )( )
n
ij kl ir i jr j kr k lr lr
w x x x x x x x xn =
= - - - -å
11 21 22ˆ( ) ( , , ,..., )
kkq s s s s= ˆ( )qS
4.4.3. Ajustamento do modelo e estimação dos parâmetros
Os métodos de ajustamento mais usuais em AEE e respectivas funções de discrepância (f ) são:
5. Mínimos quadrados sem escala (Scale free Least Squares)
Método equivalente ao ULS, mas com a análise feita na matriz de correlações ( e não na matriz de covariância) (Relembre: rxy=cov(x,y)/(sxsy)).
A função de discrepância a minimizar é:
onde
As estimativas do SLS não são comparáveis com as estimativas dos restantes métodos especialmente se forem feitas transformações lineares das v. manifestas. Por isso, o SLS raramente é utilizado
Na prática, as estimativas obtidas por uma das funções 1-a-4 anteriores são suficientemente próximas permitindo uma mesma interpretação dos resultados.
34
1 21 ˆtr[ ( ( ))]2SLS
f -= -D S qS
( )diag=D S
4.4.3. Ajustamento do modelo e estimação dos parâmetros
4.4.4. Avaliação da qualidade do modelo
Depois de encontrado o vector de estimativas dos parâmetros do modelo () que minimiza a discrepância, é necessário avaliar a qualidade do ajustamento do modelo obtido aos dados observados.
Três ‘estratégias’ para avaliar a Qualidade do Ajustamento:
1.Teste de significância à função de discrepância: Teste do Qui-quadradoA. Hipóteses
H0: =() (a matriz de covariância populacional é igual à matriz de covariância estimada pelo modelo) vs.
H1: () B. E.T.
p +q – nº variáveis manifestas no modelo
t - nº parâmetros estimados
C. DecisãoRejeitar H0 se p-value ≤Muito sensível à dimensão da amostra (amostras pequenas: raramente rejeita H0, Amostras grandes: Rejeita quase sempre H0)Sensível à violação da Normalidade multivariada levando à rejeição de bons modelos e aceitação de modelos maus! (usar correcção de Satorra-Bentler; usar WLS (especialmente com v. ordinais) com o LisREL; usar Bootstrap com o AMOS)
35
c + + + -= - ~2 2( )( 1)/2
( 1)a
ML p q p q tX N f
4.4.4. Avaliação da qualidade do modelo
2. Índices “empíricos” de qualidade de ajustamentoOs problemas associados ao teste do Qui-quadrado (um teste à mediocridade do ajustamento) que testa, irrealisticamente, se o ajustamento é perfeito (100%), levaram à criação de várias outras medidas de qualidade/mediocridade do ajustamento. Índices de qualidade de ajustamento: avaliam a distância relativa entre:
A. Índices Absolutos: Avaliam a qualidade do modelo per se, sem comparação com outros modelos. Sem grande utilidade (R. Fisher: ‘Nothing is good or bad, but by comparison’): RMR, GFI
B. Índices Relativos: Avaliam a qualidade do modelo sob teste relativamente: (i) ao modelo com pior ajustamento possível (modelo de independência: não há relações entre quaisquer v. manifestas) e/ou (ii) ao modelo com melhor ajustamento possível (modelo saturado: todas as v. manifestas estão correlacionadas): NFI, CFI
C. Índices de Parcimónia: Índices relativos que penalizam a complexidade do modelo: Compensam a melhoria ‘artificial’ do modelo por inclusão de mais parâmetros livres para melhorar o ajustamento (i.e. menos graus de liberdade). Um modelo complexo pode ter melhor ajustamento mas ser menos generalizável a outras amostras: AGFI, PGFI, PCFI
D. Índices de discrepância populacional: Baseados na distribuição c2 não-central de (n-1)f. Avaliam se o modelo é ‘aproximadamente’ correcto (em oposição ao 100% correcto do c2 ): NCP, RMSEA
E. Índices baseados na teoria da informação: Apropriados quando é necessário comparar vários modelos alternativos que ajustem aos dados (AIC, BIC, ECVI)
36
ˆ( )-S qS
4.4.4. Avaliação da qualidade do modelo
2. Índices “empíricos” de qualidade de ajustamentoVárias dezenas: Alguns mais frequentes em AEE:
37
Índices Absolutos Valores de Referência
X2/dfSe H0: =() é verdadeira E(X2)=gl, logo um valor óptimo é X2/df=1. Normalização do c2 .
< 5 – ajustamento sofrível≤ 2 - ajustamento aceitável~ 1 – ajustamento bom
Root mean squared Residual
Média dos resíduos.
Quanto menor, melhor.Se for calculada a partir da matriz de correlação, varia entre 0 e 1. Quanto mais próximo de 0, melhor.Só deve ser usado para comparar o ajustamento de 2 modelos alternativos ajustados aos mesmos dados
Goodness of Fit index
Numerador: mínimo da f depois do modelo ajustadoDenominador: f antes do ajustamentoW – matriz de ponderação dependente do método de estim.GFI foi um dos primeiros índices. Proporção da covariância observada explicada pelo modelo ajustado.
<0.9 – ajustamento mau[0.9; 0.95[ – ajustamento bom0.95 – ajustamento muito bom1 – ajustamento perfeito
s q+
= =
-=
+ + +
åå 2
1 1
ˆ( ( ))
( )( 1) / 2
p q i
iji j
s
RMRp q p q
1
1
ˆ ˆ( ( ))' ( ( ))1
'GFI
q q-
-
- -= -
s W ss W s
4.4.4. Avaliação da qualidade do modelo
2. Índices “empíricos” de qualidade de ajustamentoVárias dezenas: Alguns mais frequentes (Continuação)
38
Índices Relativos Valores de Referência
Normed Fit Index% de incremento na qualidade do ajustamento do modelo ajustado (X2) relativamente ao modelo de independência (pior modelo possível) (X2
b):
NFI = 1-X2/X2b
<0.8 – ajustamento mau[0.8;0.9[ – ajustamento sofrível[0.9 ;1.0[ – ajustamento Bom= 1 – ajustamento perfeito
Comparative Fit Index (CFI)Compara o ajustamento do modelo em estudo com o do modelo basal ou modelo de independência
CFI= 1- max(X2-gl,0)/max(X2b-glb,0)
Procura resolver o problema do NFI que tende a subestimar o ajustamento em amostras pequenas.
<0.8 – ajustamento mau[0.8;0.9[ – ajustamento sofrível[0.9 ;1.0[ – ajustamento Bom= 1 – ajustamento perfeito
Relative Fit Index (RFI)Compara o ajustamento do modelo em função do X2 normalizado pelos gl em estudo com o do modelo basal ou modelo de independência,
<0.8 – ajustamento mau[0.8;0.9[ – ajustamento sofrível[0.9 ;1.0[ – ajustamento Bom= 1 – ajustamento perfeito
2
2
/1
/b b
X glRFI
X gl= -
4.4.4. Avaliação da qualidade do modelo
2. Índices “empíricos” de qualidade de ajustamentoVárias dezenas: Alguns mais frequentes (Continuação)
39
Índices de Parcimónia Valores de Referência
Parsimony CFI(CFI penalizado com a complexidade do modelo)
PCFI=CFIgl/glb
Os índices de Parcimónia tomam geralmente valores (muito) menores do que os índices relativos.
Adjusted GFIAGFI=1-(1-GFI)glb/gl . AGFI 1 e pode ser <0.
Abandonado! actualmente usa-se o:Parsimony GFI varia no intervalo [0;1]
PGFI=GFIgl/glb
De uma forma geral:
< 0.6 – Ajustamento mau[06; 0.8[ - Ajustamento bom
Parsimony NFI(NFI penalizado com a complexidade do modelo)
PNFI=NFIgl/glb
0.8 – Ajustamento muito bom
Nota: gl/glb designa-se ‘rácio de parcimónia’
4.4.4. Avaliação da qualidade do modelo
2. Índices “empíricos” de qualidade de ajustamentoVárias dezenas: Alguns mais frequentes (Continuação)
40
Índices de discrepância populacional Valores de Referência
Non-Centrality Parameter (NCP)Estima o quão afastado o valor esperado do c2 sob H0 está do verdadeiro c2 . O parâmetro de não centralidade (d) é estimado por:
NCP=max[X2- gl, 0]
Pode calcular-se I.C. a 90% para o NCP
Quanto mais próximo de zero, melhor
F0É o mínimo relativo do NCP
F0=max[(X2- gl)/n, 0]=NCP/n
Quanto mais próximo de zero, melhor
Root Mean square Error of Aproximation (RMSEA)Compensa o F0 devido à complexidade do modelo (quanto mais complexo for o modelo menor será F0).
Diferença média entre as covariâncias observadas e as estimadas pelo modeloPode calcular-se I.C. e testar
H0: RMSEA ≤0.05 vs. H1: RMSEA >0.05
> 0.10 - Inaceitável]0.05;0.10] – ajustamento sofrível[0.05; 0.01[ – ajustamento bom≤0.01 – ajustamento muito bomNão rejeitar H0.p-value0.05 (0.5 segundo Jöreskog)
F0 /RMSEA gl=
4.4.4. Avaliação da qualidade do modelo
2. Índices “empíricos” de qualidade de ajustamentoVárias dezenas: Alguns mais frequentes (Continuação)
41
Índices baseados na teoria da informação Valores de Referência
AIC (Akaike Information Criterion)AIC=X2+2t
Penalize o modelo pela sua complexidade (i.e. nº de parâmetros a estimar e falta de parcimónia).
Quanto menor, melhor.Usar apenas para comparar modelos alternativos (aninhados e não aninhados)
BCC (Browne-Cudeck Criterion)
Penaliza ainda mais o modelo devido à sua complexidade do que o AIC.
BIC (Bayes Information Criterion)BIC=X2+tLn(n)
Índice que atribui a maior penalização à complexidade do modelo . Permite seleccionar os modelos mais parcimoniosos
ECVI (Expected Cross-validation index)ECVI=AIC/n
Útil em estudos de validação cruzada (ajustamento numa amostra e validação noutra amostra)
2
[( )( 3)]( ) 2
2( )( 3)
n p q p qN p q
BCC X tp q p q
+ + +- + -
= ++ + +
4.4.4. Avaliação da qualidade do modelo
Mas, mas… é mesmo preciso usar todos os índices? Não! Os índices mais recomendados são:
42
Estatística Valores de Referência
X2 e p-value (H0: O Ajustamento é perfeito)
(Macro do AMOS: \cmin; \p)Quanto menor melhorp>0.05
X2/df (Macro do AMOS: \cmindf) < 5 – ajustamento sofrível≤ 2 - ajustamento aceitável~ 1 – ajustamento bom
CFI (Macro do AMOS: \cfi)GFI (Macro do AMOS: \gfi)
<0.8 – ajustamento mau[0.8;0.9[ – ajustamento sofrível≥ 0.9 – ajustamento muito bom
PGFI (Macro do AMOS: \pcfi)PCFI (Macro do AMOS: \gfi)
< 0.6 – Ajustamento mau[06; 0.8[ - Ajustamento bom0.8 – Ajustamento muito bom
RMSEA (com I.C. 90%)
ep-value (H0: rmsea0.05)
(Macro do AMOS: \rmsea; \pclose)
> 0.10 - Inaceitável]0.05;0.10] – ajustamento sofrível≤0.05 – ajustamento bomp-value0.05 (0.5 segundo Jöreskog)
AIC (Macro do AMOS: \aic)ECVI (Macro do AMOS: \ecvi)
Só para comparar modelosQuanto menor, melhor…
4.4.4. Avaliação da qualidade do modelo
3. Análise de resíduos, estimativa de parâmetros e fiabilidade individual de indicadores
Os índices de qualidade de ajustamento são medidas do ajustamento global médio aos dados. O modelo pode ter um bom ajustamento global, mas ainda assim apresentar um mau ajustamento local. Para fazer o diagnóstico de possíveis problemas locais:1. Avaliar os resíduos estandardizados do modelo estimados por
rij >> 2 indicam outliers (com 95% de confiança) e problemas de ajustamento local
2. Avaliar os erros-padrão assimptóticos dos parâmetros do modelo e sua significância: A significância dos parâmetros do modelo pode avaliar-se com um teste Z:
H0: gij=0 vs. H1: gij ¹ 0. Para n grandes, rejeitando-se H0 se |Z| z1-a
3. Avaliar a fiabilidade individual dos indicadores ou v. manifestas: Apropriado para avaliar a relevância dos indicadores nos modelos de medida. Valores de R2<0.25 indicam possíveis problemas com o indicador.
43
~ (0,1)ˆ
ij
aijij
er N
es= ˆ[ ] ( )e ij = -S qS
ˆ ˆ/ (0,1)ij
a
ijZ Ngg s= ~
4.4.5. Respecificação do modelo
E se o modelo ajustado não apresentar um ‘bom’ ajustamento aos dados?Prática corrente: modificar o modelo eliminando vias não significativas, libertando parâmetros anteriormente fixos, fixando parâmetros anteriormente livres, correlacionar erros, etc...
Índices de Modificação (Modification Indices) para os parâmetros: Redução (conservadora) da estatística X2 do modelo, se o parâmetro fixo ou restrição de igualdade for libertado e o modelo for re-estimado, com perda de um grau de liberdade. Este teste poder obter-se como, um Rácio de verosimilhança dos dois modelos:
Onde fMLr é a função de discrepância para o modelo restrito, e fMLu é a mesma função para o modelo com o parâmetro livre
A maioria dos softwares (AMOS, LisRel,…) estima porem os Índices de Modificação pelo método dos Multiplicadores de Lagrange que apenas precisa ser estimado para o modelo restrito :
44
'
12'( 1)
2MLr MLr MLr
r r r r
f f fnLM E
-é ùæ öæ ö æ ö¶ ¶ ¶- ÷÷ ÷çç çê ú÷÷ ÷çç ç= ÷÷ ÷ê úçç ç÷÷ ÷÷ ÷çç ç÷¶ ¶ ¶ ¶è ø è øê úè øë ûθ θ θ θ
ˆ ˆ2 log ( ) log ( )
( 1)( )r u
MLr MLu
LR L L
n f f
é ù= - -ê úë û= - -
q q
4.4.5. Respecificação do modelo
E se o modelo ajustado não apresentar um ‘bom’ ajustamento aos dados?
Tendo
J. Arbuckle (o autor do AMOS): MI4 (c20.95;(1)=3.84)
Mais seguro: MI 11 (c20.999;(1)=10.82), já que só se deve modificar um modelo, se existirem
fortes fundamentos teóricos para o fazer!!!. Um modelo pode ser modificado até a um ajustamento perfeito (quanto mais próximo estiver do modelo saturado, melhor será o ajustamento…).
Análise sequencial: começar por libertar o parâmetro com maior MI até chegar ao parâmetro de menor MI.
PERIGO: o modelo pode perder a validade para a população... i.e. O modelo ajusta-se bem aqueles dados, mas pode não ser válido na população.
Deve-se sempre considerar possíveis modelos paralelos ou não-paralelos alternativos que possam igualmente reproduzir os dados observados.
Deve-se também fazer a validação cruzada do modelo com outra amostra.
45
2~ (1)aLM c
4.5. Pressupostos do Modelo de Eq. Estruturais
1. Normalidade multivariada1. As variáveis (manifestas) devem apresentar distribuição normal multivariada.2. A normalidade multivariada é requerida pelo método ML que é o método dominante na AEE
(outros métodos não a exigem: WLS, ADF,...)
Como avaliar?Não há testes de Normalidade multivariada implementados nos softwares. Alternativa: Avaliar valores de Sk e Ku dos itens. Distribuição normal Sk=Ku=0
No AMOS:
Schumaker & Lomax (2004): Valores |sk| e |ku| 2 não são problemáticosKline (1998): Valores de |Sk|<3 e |Ku|<8-10 são aceitáveis em AEE. No AMOS:
Kline (1998); KuMult<10 não é problemática
46
=
-= = =
å 3
13 3
( )6
;'
n
ii
sk
x xsk M se
nns=
-= - = - =
å 4
14 4
( )24
3 3;
n
ii
ku
x xku M se
nns
( ) ( )2
1
1
1 ( 2)( 1) 8 ( 2)' ;
1
n
M i i kui
p p n p pku se
n n n-
=
+ - +é ù= - - - =ê úë û +å x x S x x
4.5. Pressupostos do Modelo de Eq. Estruturais
1. Normalidade multivariadaSob a validade da hipótese de normalidade multivariada é possível testar as hipóteses:
H0: sk=0 vs. H1:sk¹0
H0: ku=0 vs. H1:ku¹0 para a=0.05, rej. H0 se |Z|≥1.96H0: kuM=0 vs. H1:kuM¹0
Mesmo problema do teste do c2: testa se a distribuição é ‘perfeitamente normal’… nunca é, para amostras grandes (se=s/n), nem é preciso que seja para fazer AEE (ML)
Problemas com a violação da normalidadea. Teste do Qui-quadrado inimputável (a distribuição da estatística é c2 não-central).
Inflação do erro de tipo I). O teste pode ser corrigido por uma medida do enviesamento multivariado (correcção de Satorra-Bentler); pode transformar-se as variáveis para forçar a normalidade; ou pode usar-se um método de estimação que não exija a normalidade – e.g. ADF, ULS.
b. Estimativas dos parâmetros com significância inflacionadaAs estimativas têm SE menor do que o correcto, o que faz que os coeficientes sejam estatisticamente significativos mais vezes do que o que deviam (inflação do erro de tipo I).
47
(0,1)a
sk
skZ N
se= ~
(0,1)a
ku
kuZ N
se= ~
4.5. Pressupostos do Modelo de Eq. Estruturais
2. Linearidade: relações lineares entre as v. manifestas e as v. latentes, e entre as v. latentes. O método ML não exige linearidade, mas é aplicado à matriz de covariâncias /correlações que exigem associações de tipo linear.
3. Covariâncias amostrais não-nulas: as v. manifestas devem apresentar algum tipo de associação.
4. Múltiplos indicadores: 3 ou mais variáveis manifestas ou indicadores por factor, e a fiabilidade dos constructos (v. latentes) deve ser elevada.
5. Ausência de Multicolinearidade: A multicolinearidade inflaciona a estimação das covariâncias dos parâmetros; produz coeficientes de trajectória estandardizados muito superiores a 1 ou -1; pode produzir variâncias negativas. Pode mesmo causar o aborto das iterações (matrix not positive definite) quando é perfeita ou quase (não é possível inverter a matriz de correlações/covariâncias que são singulares). Avaliar multicolinearidade com o VIF (SPSS).
6. Amostras de “grande” dimensão: Várias regras : N>200 – 400 ; 15 sujeitos por variável manifesta; 5 sujeitos por parâmetro a estimar (v. manifestas, latentes, erros, correlações, etc...). Quanto mais melhor (especialmente se os dados forem muito enviesados, não mesocúrticos, com missings)... Mas nunca inferior a (p+q)(p+q)+1)/2 (caso contrário não é possível calcular a matriz de covariâncias assimptótica).
7. Modelos sobre-identificados (ou quando muito identificados).
48
4.5. Pressupostos do modelo de Eq. Estruturais
8. Medida forte
O cálculo de variâncias-covariâncias das v. manifestas exige medidas numa escala quantitativa. Alguma controvérsia sobre o uso de métodos ML com escalas ordinais (5 ou 7 pontos):
Utilizadores do AMOS:a. Se a escala for ordinal deve ter pelo menos 5 pontos (7, ou mesmo 9-10), e distribuição
aproximadamente em sino: estas variáveis comportam-se como v. intervalaresb. Se os itens forem nominais (0-não, 1-sim), usar compósitos somadosc. Usar métodos ‘Bootstrap’/ Estimação Bayesiana para v. ordinaisd. As assumpções das correlações policóricas e poliseriais de que existem variáveis latentes
com normalidade multivariada de cujos itens ordinais são manifestações, são irreais; o cálculo exige amostras de grande dimensão(>2000, e pode usar-se o ADF)
Utilizadores do LisRel, EQS, MPlus:a. Não faz sentido usar covariâncias de variáveis ordinaisb. Usar correlações policóricas (ordinal vs ordinal) ou poliserial ordinal vs quantitativa) ou
tetracórica (nominal vs. nominal)c. Usar métodos WLS e matrizes de correlação policóricas.d. Joreskog & Sorbom (1988): Correlações de Pearson, Spearman, Kendall t tem pior
performance do que policóricas com v. ordinais
49
4.5. Pressupostos do modelo de Eq. Estruturais
9. Inexistência de OutliersOutliers são observações que caem fora da tendência das restantes observações. Podem ocorrer devido a problemas de observação/registo das variáveis ou podem ser valores extremos que ocorrem naturalmente (ainda que com frequência muito baixa).
Problemas com a existência de outliers:a. Afectam as estimativas das médias, desvios-padrão e covariâncias, tornando o modelo ‘mau’b. Podem atenuar ou inflacionar as estimativas dos parâmetros
Como diagnosticar:1. Medidas univariadas, box-wisker plots: Mas, um outlier poder ser multivariado sem ser univariado2. Medidas multivariadas: Distância de Mahnalobis: Distância de uma observação xi à média de
todas as observações (centróide):
AMOS sob a hipótese da normalidade multivariada, a partir da kuM:p1: probabilidade de uma observação xi ter um valor de superior ao calculadop2: probabilidade de a maior distância de Mahalanobis ser superior ao de xi.
Convém que p1 seja pequeno (<0.05-0.10) e p2 seja grande (>0.05-0.10), caso contrário a observaçãodeve ser um outlier multivariado.
50
( ) ( )2 1'i i i
d -= - -x x S x x
2i
d 2i
d
2i
d
4
1
1 ( 2)( 1) 8 ( 2);
1
n
M i kui
p p n p pku d se
n n n=
+ - += - =
+å
4.6. Problemas com o ajustamento do modelo
É possível que o software não consiga encontrar um vector de parâmetros q que permita minimizar S-S(q). Algumas das causas mais frequentes são:
1. Problemas de convergência do modelo: As iterações seleccionadas não permitem alcançar uma solução. Pode dever-se a reduzidas dimensões de amostra; modelo mal especificado; variâncias muito diferentes das v. manifestas; v. manifestas extremamente não-normais; outliers
Solução: Aumentar a amostra; Respecificar o modelo; uniformizar variâncias (e.g. alterando a magnitude de medida Kgg; m Km,…; ou estandardizando as escalas), transformações matemáticas para normalizar variáveis (Sqrt, Ln, ArcSin); eliminar outliers; aumentar nº iterações.
2. Indeterminação do modelo: O modelo não é determinado ou sobre-identificado. A indeterminação empírica é particularmente difícil de diagnosticar.
Solução: fixar trajectórias; analisar multicolinearidade; simplificar o modelo; aumentar nº de variáveis manifestas; aumentar dimensão da amostra.
3. Problemas com variâncias: Estimativas das variâncias das v. latentes < 0 (!!!). Pode acontecer quando: (i) a dimensão da amostra é demasiado pequena; (ii) quando correlações fortes entre itens são ignoradas (i.e. não contemplando as correlações entre os itens e/ou outros factores).
Solução: Aumentar dimensão da amostra; correlacionar itens e/ou erros dos itens; Respecificar o modelo adicionando trajectórias para outros factores e os itens.
4. Matrizes de Covariância singulares (not positive definite): Alguns dos valores próprios (eigenvalues, raízes características = variância das componentes principais da matriz de covariância) < 0. Pode acontecer com as matrizes S, S(q) e W. A multicolinearidade (no caso de S) e especificação errada do modelo (S(q) e W) são as causas mais frequentes
Solução: resolver os problemas de multicolinearidade; reespecificar o modelo.
51