51
JOÃO MAROCO, Ph.D. [email protected] Programa Doutoral :: ISPA – Instituto Universitário Técnicas de Análise de Dados II Fundamentos teóricos 4.1. Introdução 4.2. Variáveis manifestas e variáveis latentes 4.3. O modelo de Equações Estruturais 4.4. Estratégia de Análise de Equações Estruturais 4.5. Pressupostos do modelo de Equações Estruturais 4.6. Problemas com o ajustamento do modelo 4. Modelos Lineares Estruturais 1

Mle Enquadramento Teorico Aula8

Embed Size (px)

Citation preview

Page 1: Mle Enquadramento Teorico Aula8

JOÃO MAROCO, [email protected]

Programa Doutoral :: ISPA – Instituto Universitário

Técnicas de Análise de Dados II

Fundamentos teóricos4.1. Introdução4.2. Variáveis manifestas e variáveis latentes4.3. O modelo de Equações Estruturais4.4. Estratégia de Análise de Equações Estruturais4.5. Pressupostos do modelo de Equações Estruturais4.6. Problemas com o ajustamento do modelo

4.Modelos Lineares Estruturais

1

Page 2: Mle Enquadramento Teorico Aula8

4.1. Introdução

Análise de Equações Estruturais (Structural Equation Modelling):

• Extensão dos modelos GLM;• Técnica de modelação generalizada (modelos teóricos sobre a forma como diferentes variáveis

latentes ou constructos são operacionalizados e como estes estão relacionados entre si)• Permitem considerar erros de medida de forma explicita

Em termos simplistas:

AEE

=Análise Factorial

(define modelo de medida)

+ Regressão linear

(define modelo estrutural)

2

Page 3: Mle Enquadramento Teorico Aula8

4.1. Introdução

Análise de Equações Estruturais (Structural Equation Modelling):

Porém o racional das AMEE é diferente do racional da Estatística clássica:

Estatística Clássica: AMEE:

3

1. Qual o modelo que descreve os dados observados? Método Exploratório

2. Dados levam à dedução de Teorias3. Novos dados, novas teorias

1. Poderá este modelo explicar/gerar os dados observados? Método Confirmatório

2. A teoria é o “motor” do processo3. Teorias diferentes podem ser testadas por

formalização e avaliação de modelos distintos

Dados TeoriaDados TeoriaTeoria

Teoria

Teoria

Page 4: Mle Enquadramento Teorico Aula8

4.1. Introdução

Porquê é que a Análise de Equações Estruturais é, actualmente, tão popular?

4

Luke, D. A. (2005) Getting the Big Picture in Community Science: Methods That Capture Context. American Journal of Community Science. 35(3/4): 185-200

Marôco, J. (2010) Análise de Equações Estruturais: Fundamentos teóricos, Software & Aplicações. ReportNumber. Pêro Pinheiro.

Page 5: Mle Enquadramento Teorico Aula8

4.1. Introdução

Porquê é que a Análise de Equações Estruturais é, actualmente, tão popular?

1. Nem todas as variáveis envolvidas num determinado ‘acontecimento’ são manifestas, i.e. observáveis ou manipuláveis directamente. • Variáveis Latentes: Não são directamente mensuráveis. Só se observam as suas

manifestações;• Validade e fiabilidade de variáveis latentes (erros-nas-variáveis) limita conclusões sobre relações

estruturais• Métodos clássicos de análise não consideram os ‘erros-nas-variáveis’.

2. Acréscimo da complexidade dos modelos teóricos capazes de explicar um determinado acontecimento• Múltiplas variáveis manifestas e variáveis latentes; • Diferenças entre grupos e efeitos hierárquicos, de interacção, mediação, etc… • AEE permite testar ajustamento global de modelos e significância individual de parâmetros num

enquadramento teórico que engloba vários tipos de modelos lineares.3. Software para AEE de fácil utilização:

• <1993: LisRel exigia o domínio de uma linguagem de programação própria assente em notação matricial e no alfabeto grego.

• AMOS, EQS, LisREL: Ambiente Windows; especificação visual do modelo

5

Page 6: Mle Enquadramento Teorico Aula8

4.2. Variáveis em A.E.E.

As variáveis nos modelos de equações estruturais são de dois tipos:

1. Variáveis manifestas ou variáveis observadas: São variáveis medidas, manipuladas ou observadas directamente.

2. Variáveis latentes, Factores ou Constructos: São variáveis não directamente observáveis ou mensuráveis, sendo a sua ‘existência’ indicada pela sua manifestação em variáveis indicadoras ou manifestas.

As variáveis (quer latentes quer manifestas) podem ser independentes ou dependentes:1. Variáveis Independentes ou v. exógenas:

as causas destas variáveis residem fora do modelo, i.e. não são influenciadas por nenhuma outra variável no modelo.

2. Variáveis Dependentes ou v. endógenas: as causas da variação destas variáveis residem no modelo, i.e. a variação destas variáveis é explicada por variáveis presentes no modelo.

6

Page 7: Mle Enquadramento Teorico Aula8

4.3. O modelo de equações estruturais

Um modelo de equações estruturais apresenta geralmente duas componentes:1. Modelo de Medida : define a forma como os constructos hipotéticos ou variáveis latentes são

operacionalizados pelas variáveis observadas ou manifestas2. Modelo Estrutural : define as relações causais ou de associação entre as variáveis latentes

Formalmente (modelo LISREL: Linear Structural Relationships), para uma amostra, as variáveis centradas podem ser modeladas:

Modelo de Medida: Modelo Estrutural: v.d.:v.i.:

assumindo que (pressupostos):a. e e h são independentesb. d e x são independentesc. z e x são independentesd. z, e e d são mutuamente independentes

e. Os valores esperados dos erros é 0.f. Bii=0 (uma v.d. não é causa e efeito dela mesmo) e (I-B) é não singular (i.e. tem inversa)

7

z= + +Bh h xG= +y

y L h e

= +x

x L x d

Page 8: Mle Enquadramento Teorico Aula8

4.3. O modelo de equações estruturais

Modelo de Equações Estruturais

Onde:

8

é ùê úê úê úê úê úê úê úë û

12 1

21 2

1 2

0

0

0

r

r

r r

b bb b

b b

B =

é ùê úê úê úG ê úê úê úê úë û

11 12 1

21 2

1 2

0s

s

r r rs

g g gg g

g g g

=

y Vector px1 das p v. dependentes ou de respostamanifestas

x Vector qx1 das q v. independentes ou preditoras

h(eta)

Vector rx1 das r v. latentes dependentes ou endógenas

x (csi)

Vector sx1 das s v. latentes independentes ou exógenas

e(epsilon)

Vector px1 dos erros de medida de y

d (delta)

Vector qx1 dos erros de medida de x

Ly

(lambda)Matriz pxr dos pesos da regressão de y em h

Lx Matriz qxs dos pesos da regressão de x em xB

(beta)Matriz rxr dos coeficientes de h no modelo estrutural. bii=0

G (gamma)

Matriz rxs dos coeficientes de x no modelo estrutural.

z (zeta)

Vector rx1 dos r erros do modelo estrutural (disturbances)

é ùê úê úê ú= ê úê úê úê úë û

1

2

p

yy

y

y

é ùê úê úê ú= ê úê úê úê úë û

1

2

q

xx

x

x

é ùê úê úê ú= ê úê úê úê úë û

1

2

r

hh

h

h

é ùê úê úê ú= ê úê úê úê úë û

1

2

s

xx

x

x

é ùê úê úê ú= ê úê úê úê úë û

1

2

q

dd

d

d

é ùê úê úê ú= ê úê úê úê úë û

1

2

p

ee

e

e

é ùê úê úê úL ê úê úê úê úë û

11 12 1

21 22 2

1 2

r

ry

p p pr

l l ll l l

l l l

=

é ùê úê úê ú= ê úê úê úê úë û

1

2

r

zz

z

z

z= + +Bh h xG

= +y

y L h e

= +x

x L x dModelo Medida

Modelo estrutural

Page 9: Mle Enquadramento Teorico Aula8

4.3. O modelo de equações estruturais

As equações estruturais podem representar-se graficamente, por exemplo:

Neste modelo (Convenção):- Variável latente (não observável directamente: factores; erros) (letras gregas)- Variável manifesta (mensurável directamente: itens) (letras romanas)- Relação causal (de causa para efeito). Os índices em subscrito são pela ordem v.d. v.i.

- Correlação (sem hipótese de causalidade)

9

x1

x2

x1

x2

x3

x4

x5

x6

h1

h2

y1

y2

y3

y4

e1

e2

e3

e4

d1

d2

d3

d4

d5

d6

z1

z2

lx11

lx21

lx31

lx42

lx52

lx62

f12 y12

ly11

ly21

ly32

ly42

b21 b12

g11

g21

g12

g22

qe23

Page 10: Mle Enquadramento Teorico Aula8

4.3. O modelo de equações estruturais

Formalmente as equações são:

10

1 11 1 1

2 21 1 2

3 32 2 3

4 42 2 4

y

y

y

y

y

y

y

y

l h e

l h e

l h e

l h e

= +

= +

= +

= +

1 11 1 1

2 21 1 2

3 31 1 3

4 42 2 4

5 52 2 5

6 62 2 6

x

x

x

x

x

x

x

x

x

x

x

x

l x d

l x d

l x d

l x d

l x d

l x d

= +

= +

= +

= +

= +

= +

1 12 2 11 1 12 2 1

2 21 1 21 1 22 2 2

h b h g x g x zh b h g x g x z

= + + += + + +

11 12

21 22

f ff f

é ùê ú= ê úê úë û

F

11 12

21 22

y yy y

é ùê ú= ê úê úë û

Y

11 22 66, , ,diag d d e

d q q qé ù= ê úë ûQ

x1

x2

x1

x2

x3

x4

x5

x6

d1

d2

d3

d4

d5

d6

lx11

lx21

lx31

lx42

lx52

lx62

11

22 23

32 33

44

0 0 0

0 0

0 0

0 0 0

e

e ee

e e

e

q

q q

q q

q

é ùê úê úê ú= ê úê úê úê úë û

Q

h1

h2

y1

y2

y3

y4

e1

e2

e3

e4

ly11

ly21

ly32

ly42

x1

x2

h1

h2

z1

z2

f12 b21 b12

g11

g21

g12

g22

Modelo de medida para x Modelo de medida para y Modelo estrutural

Variância-Covariância

y12

qe23

Page 11: Mle Enquadramento Teorico Aula8

4.3. O modelo de equações estruturais

Os modelos de equações estruturais são classificados em duas classes:

A. Modelos Recursivos (mais frequentes): nenhuma variável é simultaneamente causa-e-efeito de outra:

B. Modelos não-recursivos: uma variável pode ser causa-e-efeito de outra (efeito de feedback):

11

1 12 2 11 1 12 2 1

2 21 1 21 1 22 2 2

h b h g x g x zh b h g x g x z

= + + += + + +

x1

x2

x1

x2

x3

x4

x5

x6

h1

h2

y1

y2

y3

y4

e1

e2

e3

e4

d1

d2

d3

d4

d5

d6

z1

z2

lx11

lx21

lx31

lx42

lx52

lx62

f12 y12

ly11

ly21

ly32

ly42

b21 b12

g11

g21

g12

g22

qe23

x1

x2

x1

x2

x3

x4

x5

x6

h1

h2

y1

y2

y3

y4

e1

e2

e3

e4

d1

d2

d3

d4

d5

d6

z1

z2

lx11

lx21

lx31

lx42

lx52

lx62

f12 y12

ly11

ly21

ly32

ly42

b21

g11

g21

g12

g22

qe23

1 11 1 12 2 1

2 21 1 21 1 22 2 2

h g x g x zh b h g x g x z

= + += + + +

Page 12: Mle Enquadramento Teorico Aula8

4.3. O modelo de equações estruturais

Confuso? Vejamos um exemplo concreto:

Warren, White & Fuller (1974) estudaram 98 gestores de cooperativas agrícolas, estabelecendo um modelo causal de performance em função de três constructos chave: Conhecimento, Valor e Satisfação:

12

Conhecimento

Satisfação

C1

C2

S1

S2

V1Performance

d1

d2

d3

d4

d5

z1

ValorV2d5

P1

P2

e1

e2

Page 13: Mle Enquadramento Teorico Aula8

4.4. Estratégia de Análise de Eq. Estruturais

A Análise de Equações Estruturais desenrola-se, geralmente, nos seguintes passos:

13

Elaboração do modelo Teórico

Recolha de Dados Especificação e

identificação do modelo

Estimação do Modelo

Avaliação da qualidade do Ajustamento

Validação do modelo Aceitação ou

Rejeição do modelo

TEORIA

Page 14: Mle Enquadramento Teorico Aula8

4.4.1. Especificação do modelo

“Desenho” formal do modelo, que reflecte, à priori, as hipóteses sobre o modelo de medida e sobre o modelo estrutural:

Decidir:1. Que variáveis manifestas operacionalizam que variáveis latentes; erros correlacionados?2. Que relações causais entre v. latentes e/ou v. manifestas devem ser incluídas / excluídas?3. Que associações (não-causais) devem ser incluídas/omitidas do modelo?

14

Conhecimento

Satisfação

C1

C2

S1

S2

V1Performance

d1

d2

d3

d4

d5

z1

ValorV2d5

P1

P2

e1

e2

Page 15: Mle Enquadramento Teorico Aula8

4.4.1. Especificação do modelo

A inclusão/omissão de variáveis relevantes para explicar as relações de variâncias-covariâncias entre as variáveis conduz a erros de especificação:1. O modelo tem mais variáveis e ou relações entre variáveis do que aquelas que é possível

estimar pelos dados (matriz de variâncias-covariâncias das v. manifestas)2. O modelo tem menos variáveis do que aquelas necessárias para explicar as verdadeiras

relações entre variáveis

Os erros de especificação podem impedir a obtenção de estimativas dos parâmetros (problemas de identificação do modelo) ou pode produzir estimativas enviesadas dos parâmetros do modelo (i.e. diferentes do valor real no verdadeiro modelo teórico).

15

Conhecimento

Satisfação

C1

C2

S1

S2

V1Performance

d1

d2

d3

d4

d5

z1

ValorV2d5

P1

P2

e1

e2

Page 16: Mle Enquadramento Teorico Aula8

Modelos reflectivos: As v. latentes ‘reflectem-se’ nos itens;As v. latentes manifestam-se através das v. manifestasOs itens devem estar correlacionados positivamente

(estimáveis pelos modelos de Eq. Estruturais)

4.4.1. Especificação do modelo

A especificação do modelo é, segundo Cooley (1978) uma das etapas mais complexas da AEE.

Uma dificuldade comum é perceber o tipo de modelo de medida apropriado:

16

Febre

Dores Musculares

Dores Garganta

Nariz congestionado

Cansaço

Gripe

e1

e2

e3

e4

e5

Modelos formativos: As ‘v. latentes’ são ‘formadas’ pelas manifestas;Os itens podem estar ou não correlacionados, positivamente ou negativamente

(Esta Aptidão de Acesso Univ. não é verdadeiramente latente, já que é uma combinação de v. manifestas (média ponderada). Não é estimável com AEE, mas sim com PLS)

Aptidão Acesso

Universidade

Português

Psicologia

Biologia

Matemática

e1

Page 17: Mle Enquadramento Teorico Aula8

4.4.1. Especificação do modelo

Algumas ‘regras’ de especificação:

17

Modelo de Medida (AFC)

1. Factores comuns latentes (x) causam as v. manifestas (x1,…,xi). O comportamento das v. manifestas resulta da manifestação dos factores latentes;

2. A variância das v. manifestas (e.g. erros de medida) que não é explicada pelos factores comuns latentes é explicado por factores específicos latentes (e1,...,ei);

3. Os erros de medida são geralmente independentes (mas podem estar correlacionados indicando uma fonte de variação comum dos itens não explicada pelos factores comuns presentes no modelo).

Perform.

P1

P2

e1

e2

P3 e3

Modelo Estrutural (RL)

1. As relações são ‘desenhadas’ de causa-para-efeito

2. A variância da v. exógenas não explicada pela combinação das v. endógenas é explicada por ‘erros’ (Disturbances ou Perturbações)

Conhecimento

Satisfação

Perfomance

z1Valor

Page 18: Mle Enquadramento Teorico Aula8

4.4.2. Identificação do modelo

Incluir conhecimento prévio sobre o valor dos parâmetros de forma a que o modelo global seja ajustável aos dados recolhidos, i.e. que exista pelo menos uma estimativa única para cada parâmetro do modelo.

Por exemplo, no modelo de medida da performance:

O modelo não é identificado: Não é possível estimar 4 parâmetros a partir de 3 ‘dados’. Naturalmente, em AEE não é possível estimar as v. latentes sem assumir algum tipo de hipóteses sobre elas:

1. Qual é a métrica (amplitude de medida) das v. latentes? ou2. Qual a variância?3. Qual a correlação com outras v. latentes?

18

Perform.

P1

P2

e1

e2

lP1

lP2

le1

le2

Dados (3):2 variáveis manifestas: 1 covariância e 2 variânciasNeste exemplo: (p+q)=2 (p+q)(p+q+1)/2 =2×3/2=3

Parâmetros a estimar (t=7):l=[lP

1, lP2, le

1, le2] + V(P)+V(e1)+V(e2)

Graus de Liberdade do modelo = (p+q)(p+q+1)/2 -t== 3-7=-4

Page 19: Mle Enquadramento Teorico Aula8

4.4.2. Identificação do modelo

… estas hipóteses reflectir-se-ão na indicação de quais os parâmetros livres (a estimar),quais os parâmetros fixos (não-estimáveis) e quais os parâmetros constritos (estimáveis mas iguais entre si):• Os parâmetros livres: estimados a partir das variâncias/covariâncias das variáveis manifestas; • Os parâmetros fixos: não são estimados e são geralmente fixos em 0 (não existe relação) ou em

1 (estandardização face a outras variáveis). • Os parâmetros constritos, são estimáveis, mas essa estimativa é igual para todos os parâmetros

restringidos.

No modelo de medida da performance, podemos tornar o modelo identificado:

19

Perform.

P1

P2

e1

e2

1

lP2

1

1

1

1. Fixando um coeficiente de trajectória entre o factor e pelo menos uma das v. manifestas: o factor tem uma medida proporcional à v. manifesta. Por defeito: le

i=1. Naturalmente, esta trajectória tem um valor de 1 e é assumida como significativa.

2. Estandardizando o factor latente: Fixar a variância do factor em 1. Vantagem: permite testar a significância de todas as trajectórias entre os factores e as variáveis manifestas

Page 20: Mle Enquadramento Teorico Aula8

4.4.2. Identificação do modelo

Relativamente à identificação um modelo pode classificar-se como:

A. Indeterminado ou sub-identificado (under-identified): O nº de parâmetros a estimar é superior à informação presente nas v. manifestas (variâncias e covariâncias) sendo os graus de liberdade <0!!!

Analogia com a Matemática: x+y=6

Sistema indeterminado: Uma equação com duas incógnitas Infinitas soluções: (2,4), (3,3), …

Problema: O modelo tem infinitas soluções, não é ajustável!...

Solução: fixar ou restringir um ou mais parâmetros livres; adicionar mais informação (v. manifestas)

20

Perform.

P1

P2

e1

e2

lP1

lP2

le1

le2

Dados: (p+q)(p+q+1)/2 =2×3/2=3Parâmetros a estimar (t ): l=[lP

1, lP2, le

1, le2] + V(P)+V(e1)+V(e2)

Graus de Liberdade = Dados parâmetros a estimar (p+q)(p+q+1)/2 -t =3-7=-4

Page 21: Mle Enquadramento Teorico Aula8

4.4.2. Identificação do modelo

Relativamente à identificação um modelo pode classificar-se como:

B. Determinado, identificado ou saturado (just-identified): o nº de parâmetros a estimar é igual ao nº de elementos não redundantes da matriz de covariância, sendo os graus de liberdade=0!!!

Analogia com a Matemática: x+y=6 x-y=2

Sistema determinado: Duas equação com duas incógnitas Uma solução : (4,2)

Problema: Ao calcular as estimativas usa-se toda a informação disponível e portanto não é possível avaliar a significância do modelo pois gl=0. MAS este modelo só tem uma solução e portanto nunca pode estar errado – não vale a pena avaliar a significância!. Pode ter problemas de convergência numérica durante o ajustamento. Cuidado com a Multicolinearidade! 2 v. manifestas colineares, contam apenas como 1, tornando o modelo sub-identificado

Solução: fixar ou restringir pelo menos mais um parâmetro livre; adicionar mais v. manifestas

21

Perform.

P1

P2

e1

e2

1

lP2

1

1

Dados: (p+q)(p+q+1)/2 t=2×3/2=3Parâmetros a estimar (t ):lP

2 +V(e1)+V(e2)Graus de Liberdade = (p+q)(p+q+1)/2 -t =3-3=0

1

Page 22: Mle Enquadramento Teorico Aula8

4.4.2. Identificação do modelo

Relativamente à identificação um modelo pode classificar-se como:

C. Sobre-identificado ou sobre-saturado (overidentified): o nº de parâmetros a estimar é inferior ao nº de elementos não redundantes da matriz de covariância. Graus de liberdade>0!

22

Perform.

P1

P2

e1

e2

1

lP2

1

1Dados: (p+q)(p+q+1)/2 t=3×4/2=6Parâmetros a estimar (t): l=[lP

2, lP3]+V(e1)+V(e2) +V(e3)

Graus de Liberdade = (p+q)(p+q+1)/2 -t =6-5=1P3 e3lP

31

1

Perform.

P1

P2

e1

e2

1

lP2

1

1 Dados: (p+q)(p+q+1)/2 t=4×5/2=10Parâmetros a estimar (t): l=[lP

2, lP3, lP

4]+V(e1)+V(e2) +V(e3) +V(P)Graus de Liberdade = (p+q)(p+q+1)/2 -t =10-7=3

P3 e3

lP3

1

P4 e4

lP4

1

Page 23: Mle Enquadramento Teorico Aula8

4.4.2. Identificação do modelo

Relativamente à identificação um modelo pode classificar-se como:

C. Sobre-identificado ou sobre-saturado (overidentified):

Analogia com a Matemática: x+y=6 2x-y=33x+y=11

e.g. Encontrar os valores x, y positivos tal que o quadrado da diferença entre os valores estimados pelas equações e os dados (6,3,11) sejam o menor possível:

x =2.816; y=2.789 é uma solução, ainda que imperfeita:

x + y = 5.605 2x – y = 2.842 3x + y=11.237

Apesar de a solução não ser perfeita nos modelos sobre-identificados, contrariamente aos modelos saturados, a imposição de restrições aos parâmetros permite testar hipóteses sobre o modelo. É agora possível avaliar a plausibilidade do modelo, para gerar os dados observados. Se os valores estimados estiverem muito afastados dos valores observados, o modelo deve estar errado!A maior parte dos investigadores prefere trabalhar com modelos sobre-identificados!

23

3 quantidades conhecidas (6,3,11) e duas desconhecidas, mas o sistema não tem uma solução exacta. Para encontrar uma solução, é preciso impor algum tipo de modelo “teórico”

Page 24: Mle Enquadramento Teorico Aula8

4.4.2. Identificação do modelo

Sub-identificação empíricaUm modelo teoricamente identificado ou sobre-identificado, ainda poder apresentar problemas de sub-identificação. Um problema mais ou menos frequente é a Sub-identificação empírica:

1. Quando parâmetro tem um valor próximo de zero. O processo iterativo da estimação do modelo pode eliminar esse parâmetro e o modelo passa a estar sub-identificado

2. Quando duas ou mais variáveis manifestas são fortemente colineares (problema da multicolinearieadade) as estimativas dos parâmetros associadas tornam-se instáveis e podem ditar a eliminação das v. manifestas da análise, tornando o modelo sub-identificado.

Solução: Respecificação do modelo (remover v. manifestas colineares) e/ou aumentar a dimensão da amostra

Existem várias regras mais ou menos complexas (e de difícil determinação manual) para avaliar a identificação de um modelo (regra-t, Regra B=0, Regra Recursiva, Condições de ordem e característica da matriz de covariância; ver e.g. Bollen (1989), p. 88-103) mas estas regras não dão garantias absolutas. A maioria dos softwares (e.g. AMOS) avaliam a identificação do modelo e identificam os parâmetros responsáveis pela não identificação do modelo.

Os Slides seguintes tem algumas ‘dicas’ para lidar com a indeterminação e/ou saturação do modelo

24

Page 25: Mle Enquadramento Teorico Aula8

4.4.2. Identificação do modelo

Estratégias para lidar com a indeterminação do modelo: Se um modelo for indeterminado (sub-identificado) ou mesmo saturado (identificado), é necessário tomar uma ou mais das seguintes medidas correctivas:

1. Regra-t: Nº de parâmetros a estimar deve ser igual ou inferior ao nº de variâncias-covariâncias não-redundantes (p+q)(p+q+1)/2

2. Fixar pelo menos um dos coeficientes entre uma variável latente e os seus indicadores (é necessário indicar qual a métrica da variável latente...)

3. Fixar a variância de uma ou mais v. latentes (estandardizar as v. latentes)

4. Ter pelo menos 3-4 indicadores por v. latente (com 2 também funciona, com 1 também (fixando a fiabilidade do indicador), mas tem problemas de fiabilidade/consistência interna)

5. Simplificar o modelo igualando trajectórias entre si: Usar testes à igualdade de parâmetros (CriticalRatios for differences no AMOS; para amostras grandes CR<1.96 implica igualdade dos coef.)

6. Eliminar trajectórias de feedback, ou efeitos recíprocos X Y

7. Fixar parâmetros (e.g. coeficientes de trajectória) cuja magnitude é conhecida (teoria)

8. Simplificar o modelo reduzindo o nº de variáveis latentes, eliminar v. manifestas multicolineares, fixar trajectórias =0 (ou seja eliminar trajectórias); aumentar a dimensão da amostra

9. Caso existam missings, usar um método Listwise de eliminação de missings (não usar pairwise) ou utilizar métodos de imputação de missings (Regressão, FIML,…).

10.Aumentar o nº de iterações, ou usar um outro método de estimação (GLS, ULS em vez do ML)

25

Page 26: Mle Enquadramento Teorico Aula8

4.4.3. Ajustamento do modelo eestimação dos parâmetros

De acordo com a Teoria, o investigador estabelece:1. Modelo de medida (para definir o modo de “medir” as variáveis latentes) e2. Modelo estrutural (causal ou simplesmente correlacional) que relaciona as variáveis de interesse. Se o modelo de EE for ‘correcto’, os dados “gerados” pelo modelo são suficientemente próximos dos dados observados:

Assim, o investigador “colhe” os dados e avalia o ajustamento do modelo aos dados (Estratégia Confirmatória). Se o modelo não for rejeitado, isto não demonstra que o modelo é único, mas sim que aqueles “Dados” podem ser explicados pelo modelo em causa.

Se o modelo for rejeitado, pode proceder-se a refinamentos do modelo (Estratégia exploratória) para encontrar um modelo que melhor explique os dados observados.

26

Modelo

Covariânciasestimadas

S(q)

Covariânciasobservadas

S

= ?Erros=

S-S(q)

Page 27: Mle Enquadramento Teorico Aula8

4.4.3. Ajustamento do modelo e estimação dos parâmetros

O objectivo da AEE é então encontrar um vector de estimativas dos parâmetros do modelo (q)que reproduza o melhor possível a matriz S das v. manifestas na população, i.e.

Estimar os parâmetros modelo tal queS= S(q)

q – Vector dos parâmetros (coeficientes) do modelo.S(q) – Matriz de variâncias estimadas pelo modelo teórico

Na prática não trabalhamos com populações mas sim com amostras, pelo queA questão é então:

‘Dada a matriz S de covariâncias amostrais das v. manifestas (que estima S), qual é o melhorvector de parâmetros do modelo teórico tal que:

27

ˆ SS =

ˆ( )ˆ ˆ( ) ( )ˆ ˆ( ) ( )

xx yx yy yx

xy xy xy xx

=é ùé ùê úê ú = ê úê úê úê úë û ë û

S

S SS S

q

q qq q

S

S SS S

Page 28: Mle Enquadramento Teorico Aula8

Consideremos um exemplo relativamente simples:

As equações estruturais do modelo são:

Sendo as matrizes dos erros, matrizes diagonais (os erros não estão correlacionados):

O vector de parâmetros q a estimar é:

Sendo (p+q)(p+q+1)/2=(4×5/2)=10 e t=9, o modelo é sobre-identificado com gl=10-9=1.

28

x hx1

x2

y1

y2

d1

d2

e1

e2

z

l1l2

1 11

1

1

1

1

h gx z= +

g

1 1

2 1 2

1x

x

dx

l d

é ù é ù é ùê ú ê ú ê ú= +ê ú ê ú ê úê ú ê ú ê úë û ë û ë û

1 1

2 2 2

1y

y

eh

l e

é ù é ù é ùê ú ê ú ê ú= +ê ú ê ú ê úê ú ê ú ê úë û ë û ë û

11 22( ) ( ), ( )diag V Ve e eé ùQ = ê úë û 11 22

( ) ( ), ( )diag V Vd d dé ùQ = ê úë û

1 2 1 2 1 2' , , , ( ), ( ), ( ), ( ), ( ), ( )V V V V V Vl l g x e e d d zé ù= ê úë ûq

4.4.3. Ajustamento do modelo e estimação dos parâmetros

Page 29: Mle Enquadramento Teorico Aula8

O problema é então estimar o vector q tal que

seja igual

Mas, mesmo este modelo simples, corresponde a um sistema de 10 equações com 9 incógnitas(parâmetros)…

Os softwares de AEE utilizam um algoritmo iterativo que minimiza a ‘função de discrepância’.

Se o ajustamento for perfeito f=0;Quanto menor for f melhor será o ajustamento do modelo teóricoO algoritmo para quando é atingido um critério de convergência (e.g. quando a variação dasestimativas ou da f é inferior a 0.001)

29

1

2 1 2

1 1 1 2 1

2 1 2 2 2 1 2

( )

( , ) ( )

( , ) ( , ) ( )

( , ) ( , ) ( , ) ( )

V y

Cov y x V y

Cov x y Cov x y V x

Cov x y Cov x y Cov x x V x

é ùê úê úê ú= ê úê úê úê úë û

S

21

2 2 22 2 2

2 12

1 2 1 1 2

( ) ( ) ( )

[ ( ) ( )] [ ( ) ( )] ( )ˆ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( )

V V V

V V V V V

V V V V

V V V V V

g x z e

l g x z l g x z eg x l g x x d

lg x l l g x l x l x d

é ù+ +ê úê ú+ + +ê ú= ê ú+ê úê ú

+ê úë û

S q

ˆ( ( ))f F= -S qS

4.4.3. Ajustamento do modelo e estimação dos parâmetros

Page 30: Mle Enquadramento Teorico Aula8

Os métodos de ajustamento mais usuais em AEE e respectivas funções de discrepância (f ) são:

1. Máxima verosimilhança (ML):Método iterativo que estima os parâmetros que maximizam a verosimilhança de observar a matriz S. A função de discrepância a minimizar é

Se o modelo exigir a estimação das médias e das ordenadas na origem, a função de discrepância é:

Método mais usado em AEE. Produz estimativas centradas e consistentes: à medida que naumenta, aproxima-se do verdadeiro q (populacional) com distribuição Normal.

Exige normalidade multivariada das v. manifestas (é +/- robusto à violação deste pressuposto) ou que SWishart.

Problemas associados à violação da normalidade:a. Rejeição de modelos apropriados mais vezes do que o correcto (teste c2=(n-1)fML)

b. Concluir pela significância de parâmetros mais vezes do que o correcto (+ erros tipo I)

30

1ˆ ˆlog | ( ) | tr( ( ) ) log | | ( )MLf p qq q -= S + S - - +S S

1 1ˆ ˆ ˆ ˆ ˆlog | ( ) | tr( ( ) ) log | | ( ) ( ( ))' ( ) ( ( ))MLf p qq q m q q m q- -= S + S - - + + - S -S S x x

4.4.3. Ajustamento do modelo e estimação dos parâmetros

Page 31: Mle Enquadramento Teorico Aula8

Os métodos de ajustamento mais usuais em AEE e respectivas funções de discrepância (f ) são:

2. Mínimos quadrados não-ponderados (ULS):Método iterativo que estima os parâmetros que minimizam a SQE da matriz residual:

A função de discrepância a minimizar é:

onde tr[ ] é a função traço de uma matriz, i.e. é a soma dos elementos diagonais de E (SQE).

O método ULS não tem assumpções (à semelhança do OLS da Reg. Linear), é consistente, mas não é assimptóticamente eficiente (i.e. a variância não é mínima à medida que n aumenta).

O AMOS (até v. 18 inclusive) não produz o teste do c2=(n-1)fULS uma vez que não é possível assegurar a distribuição de c2.

31

ˆ( )E = -S qS

21 ˆtr[( ( )) ]2ULS

f = -S qS

2ˆtr[( ( )) ]q- SS

4.4.3. Ajustamento do modelo e estimação dos parâmetros

Page 32: Mle Enquadramento Teorico Aula8

Os métodos de ajustamento mais usuais em AEE e respectivas funções de discrepância (f ) são:

3. Mínimos quadrados generalizados (GLS):Método iterativo que estima os parâmetros ponderando os erros de estimação com pesos correspondentes ao inverso da matriz de covariância amostral. Os elementos da matriz E que tem maior variância amostral, tem menor peso no modelo. Desta forma obtém-se estimativas mais eficientes do que se as observações não fossem ponderadas.A função de discrepância a minimizar é:

o que é equivalente a minimizar a SQE ponderada pelo inverso da matriz de covariância amostral.

O método GLS tem as mesmas propriedades assimptóticas que o ML (consistência e eficiência) com estimativas com distribuição normal assimptóticas.

32

( )2

1 1 21 1ˆ ˆtr ( ) tr[( ( )) ]2 2GLS

f q q- -é ù= - S = - Sê úë ûS S I S

4.4.3. Ajustamento do modelo e estimação dos parâmetros

Page 33: Mle Enquadramento Teorico Aula8

Os métodos de ajustamento mais usuais em AEE e respectivas funções de discrepância (f ) são:

4. Distribuição Assimptótica livre (ADF) (ou Mínimos quadrados ponderados generalizados (WLS):Não exige Normalidade Multivariada. Contudo, exige que as variáveis manifestas permitam estimar momentos de ordem 8 (a ver adiante) o que, geralmente, exige amostras de grande dimensão (>1000’s)

s’=(s11, s21,s22,…,skk) vector de elementos da matriz triangular inferior S incluindo a diagonal

vector de elementos da matriz triangular inferior incluindo a diagonal

W – matriz de distâncias de todas as observações às médias de todas as variáveis . W-1 corrige Curtose dos itens. O elemento genérico de W é

Se a dimensão da amostra não for suficiente para o ADF e não for desejável assumir a validade da distribuição (aproximadamente) normal dos itens (v. manifestas), podem usar-se métodos de Bootstrap.

33

1ˆ ˆ( ( ))' ( ( ))ADFf q q-= - -s W s

, ,[ ]

ij kl ij kl ij klw w w= -W

1

1( )( )

n

ij ir i jr jr

w x x x xn =

= - -å ,1

1( )( )( )( )

n

ij kl ir i jr j kr k lr lr

w x x x x x x x xn =

= - - - -å

11 21 22ˆ( ) ( , , ,..., )

kkq s s s s= ˆ( )qS

4.4.3. Ajustamento do modelo e estimação dos parâmetros

Page 34: Mle Enquadramento Teorico Aula8

Os métodos de ajustamento mais usuais em AEE e respectivas funções de discrepância (f ) são:

5. Mínimos quadrados sem escala (Scale free Least Squares)

Método equivalente ao ULS, mas com a análise feita na matriz de correlações ( e não na matriz de covariância) (Relembre: rxy=cov(x,y)/(sxsy)).

A função de discrepância a minimizar é:

onde

As estimativas do SLS não são comparáveis com as estimativas dos restantes métodos especialmente se forem feitas transformações lineares das v. manifestas. Por isso, o SLS raramente é utilizado

Na prática, as estimativas obtidas por uma das funções 1-a-4 anteriores são suficientemente próximas permitindo uma mesma interpretação dos resultados.

34

1 21 ˆtr[ ( ( ))]2SLS

f -= -D S qS

( )diag=D S

4.4.3. Ajustamento do modelo e estimação dos parâmetros

Page 35: Mle Enquadramento Teorico Aula8

4.4.4. Avaliação da qualidade do modelo

Depois de encontrado o vector de estimativas dos parâmetros do modelo () que minimiza a discrepância, é necessário avaliar a qualidade do ajustamento do modelo obtido aos dados observados.

Três ‘estratégias’ para avaliar a Qualidade do Ajustamento:

1.Teste de significância à função de discrepância: Teste do Qui-quadradoA. Hipóteses

H0: =() (a matriz de covariância populacional é igual à matriz de covariância estimada pelo modelo) vs.

H1: () B. E.T.

p +q – nº variáveis manifestas no modelo

t - nº parâmetros estimados

C. DecisãoRejeitar H0 se p-value ≤Muito sensível à dimensão da amostra (amostras pequenas: raramente rejeita H0, Amostras grandes: Rejeita quase sempre H0)Sensível à violação da Normalidade multivariada levando à rejeição de bons modelos e aceitação de modelos maus! (usar correcção de Satorra-Bentler; usar WLS (especialmente com v. ordinais) com o LisREL; usar Bootstrap com o AMOS)

35

c + + + -= - ~2 2( )( 1)/2

( 1)a

ML p q p q tX N f

Page 36: Mle Enquadramento Teorico Aula8

4.4.4. Avaliação da qualidade do modelo

2. Índices “empíricos” de qualidade de ajustamentoOs problemas associados ao teste do Qui-quadrado (um teste à mediocridade do ajustamento) que testa, irrealisticamente, se o ajustamento é perfeito (100%), levaram à criação de várias outras medidas de qualidade/mediocridade do ajustamento. Índices de qualidade de ajustamento: avaliam a distância relativa entre:

A. Índices Absolutos: Avaliam a qualidade do modelo per se, sem comparação com outros modelos. Sem grande utilidade (R. Fisher: ‘Nothing is good or bad, but by comparison’): RMR, GFI

B. Índices Relativos: Avaliam a qualidade do modelo sob teste relativamente: (i) ao modelo com pior ajustamento possível (modelo de independência: não há relações entre quaisquer v. manifestas) e/ou (ii) ao modelo com melhor ajustamento possível (modelo saturado: todas as v. manifestas estão correlacionadas): NFI, CFI

C. Índices de Parcimónia: Índices relativos que penalizam a complexidade do modelo: Compensam a melhoria ‘artificial’ do modelo por inclusão de mais parâmetros livres para melhorar o ajustamento (i.e. menos graus de liberdade). Um modelo complexo pode ter melhor ajustamento mas ser menos generalizável a outras amostras: AGFI, PGFI, PCFI

D. Índices de discrepância populacional: Baseados na distribuição c2 não-central de (n-1)f. Avaliam se o modelo é ‘aproximadamente’ correcto (em oposição ao 100% correcto do c2 ): NCP, RMSEA

E. Índices baseados na teoria da informação: Apropriados quando é necessário comparar vários modelos alternativos que ajustem aos dados (AIC, BIC, ECVI)

36

ˆ( )-S qS

Page 37: Mle Enquadramento Teorico Aula8

4.4.4. Avaliação da qualidade do modelo

2. Índices “empíricos” de qualidade de ajustamentoVárias dezenas: Alguns mais frequentes em AEE:

37

Índices Absolutos Valores de Referência

X2/dfSe H0: =() é verdadeira E(X2)=gl, logo um valor óptimo é X2/df=1. Normalização do c2 .

< 5 – ajustamento sofrível≤ 2 - ajustamento aceitável~ 1 – ajustamento bom

Root mean squared Residual

Média dos resíduos.

Quanto menor, melhor.Se for calculada a partir da matriz de correlação, varia entre 0 e 1. Quanto mais próximo de 0, melhor.Só deve ser usado para comparar o ajustamento de 2 modelos alternativos ajustados aos mesmos dados

Goodness of Fit index

Numerador: mínimo da f depois do modelo ajustadoDenominador: f antes do ajustamentoW – matriz de ponderação dependente do método de estim.GFI foi um dos primeiros índices. Proporção da covariância observada explicada pelo modelo ajustado.

<0.9 – ajustamento mau[0.9; 0.95[ – ajustamento bom0.95 – ajustamento muito bom1 – ajustamento perfeito

s q+

= =

-=

+ + +

åå 2

1 1

ˆ( ( ))

( )( 1) / 2

p q i

iji j

s

RMRp q p q

1

1

ˆ ˆ( ( ))' ( ( ))1

'GFI

q q-

-

- -= -

s W ss W s

Page 38: Mle Enquadramento Teorico Aula8

4.4.4. Avaliação da qualidade do modelo

2. Índices “empíricos” de qualidade de ajustamentoVárias dezenas: Alguns mais frequentes (Continuação)

38

Índices Relativos Valores de Referência

Normed Fit Index% de incremento na qualidade do ajustamento do modelo ajustado (X2) relativamente ao modelo de independência (pior modelo possível) (X2

b):

NFI = 1-X2/X2b

<0.8 – ajustamento mau[0.8;0.9[ – ajustamento sofrível[0.9 ;1.0[ – ajustamento Bom= 1 – ajustamento perfeito

Comparative Fit Index (CFI)Compara o ajustamento do modelo em estudo com o do modelo basal ou modelo de independência

CFI= 1- max(X2-gl,0)/max(X2b-glb,0)

Procura resolver o problema do NFI que tende a subestimar o ajustamento em amostras pequenas.

<0.8 – ajustamento mau[0.8;0.9[ – ajustamento sofrível[0.9 ;1.0[ – ajustamento Bom= 1 – ajustamento perfeito

Relative Fit Index (RFI)Compara o ajustamento do modelo em função do X2 normalizado pelos gl em estudo com o do modelo basal ou modelo de independência,

<0.8 – ajustamento mau[0.8;0.9[ – ajustamento sofrível[0.9 ;1.0[ – ajustamento Bom= 1 – ajustamento perfeito

2

2

/1

/b b

X glRFI

X gl= -

Page 39: Mle Enquadramento Teorico Aula8

4.4.4. Avaliação da qualidade do modelo

2. Índices “empíricos” de qualidade de ajustamentoVárias dezenas: Alguns mais frequentes (Continuação)

39

Índices de Parcimónia Valores de Referência

Parsimony CFI(CFI penalizado com a complexidade do modelo)

PCFI=CFIgl/glb

Os índices de Parcimónia tomam geralmente valores (muito) menores do que os índices relativos.

Adjusted GFIAGFI=1-(1-GFI)glb/gl . AGFI 1 e pode ser <0.

Abandonado! actualmente usa-se o:Parsimony GFI varia no intervalo [0;1]

PGFI=GFIgl/glb

De uma forma geral:

< 0.6 – Ajustamento mau[06; 0.8[ - Ajustamento bom

Parsimony NFI(NFI penalizado com a complexidade do modelo)

PNFI=NFIgl/glb

0.8 – Ajustamento muito bom

Nota: gl/glb designa-se ‘rácio de parcimónia’

Page 40: Mle Enquadramento Teorico Aula8

4.4.4. Avaliação da qualidade do modelo

2. Índices “empíricos” de qualidade de ajustamentoVárias dezenas: Alguns mais frequentes (Continuação)

40

Índices de discrepância populacional Valores de Referência

Non-Centrality Parameter (NCP)Estima o quão afastado o valor esperado do c2 sob H0 está do verdadeiro c2 . O parâmetro de não centralidade (d) é estimado por:

NCP=max[X2- gl, 0]

Pode calcular-se I.C. a 90% para o NCP

Quanto mais próximo de zero, melhor

F0É o mínimo relativo do NCP

F0=max[(X2- gl)/n, 0]=NCP/n

Quanto mais próximo de zero, melhor

Root Mean square Error of Aproximation (RMSEA)Compensa o F0 devido à complexidade do modelo (quanto mais complexo for o modelo menor será F0).

Diferença média entre as covariâncias observadas e as estimadas pelo modeloPode calcular-se I.C. e testar

H0: RMSEA ≤0.05 vs. H1: RMSEA >0.05

> 0.10 - Inaceitável]0.05;0.10] – ajustamento sofrível[0.05; 0.01[ – ajustamento bom≤0.01 – ajustamento muito bomNão rejeitar H0.p-value0.05 (0.5 segundo Jöreskog)

F0 /RMSEA gl=

Page 41: Mle Enquadramento Teorico Aula8

4.4.4. Avaliação da qualidade do modelo

2. Índices “empíricos” de qualidade de ajustamentoVárias dezenas: Alguns mais frequentes (Continuação)

41

Índices baseados na teoria da informação Valores de Referência

AIC (Akaike Information Criterion)AIC=X2+2t

Penalize o modelo pela sua complexidade (i.e. nº de parâmetros a estimar e falta de parcimónia).

Quanto menor, melhor.Usar apenas para comparar modelos alternativos (aninhados e não aninhados)

BCC (Browne-Cudeck Criterion)

Penaliza ainda mais o modelo devido à sua complexidade do que o AIC.

BIC (Bayes Information Criterion)BIC=X2+tLn(n)

Índice que atribui a maior penalização à complexidade do modelo . Permite seleccionar os modelos mais parcimoniosos

ECVI (Expected Cross-validation index)ECVI=AIC/n

Útil em estudos de validação cruzada (ajustamento numa amostra e validação noutra amostra)

2

[( )( 3)]( ) 2

2( )( 3)

n p q p qN p q

BCC X tp q p q

+ + +- + -

= ++ + +

Page 42: Mle Enquadramento Teorico Aula8

4.4.4. Avaliação da qualidade do modelo

Mas, mas… é mesmo preciso usar todos os índices? Não! Os índices mais recomendados são:

42

Estatística Valores de Referência

X2 e p-value (H0: O Ajustamento é perfeito)

(Macro do AMOS: \cmin; \p)Quanto menor melhorp>0.05

X2/df (Macro do AMOS: \cmindf) < 5 – ajustamento sofrível≤ 2 - ajustamento aceitável~ 1 – ajustamento bom

CFI (Macro do AMOS: \cfi)GFI (Macro do AMOS: \gfi)

<0.8 – ajustamento mau[0.8;0.9[ – ajustamento sofrível≥ 0.9 – ajustamento muito bom

PGFI (Macro do AMOS: \pcfi)PCFI (Macro do AMOS: \gfi)

< 0.6 – Ajustamento mau[06; 0.8[ - Ajustamento bom0.8 – Ajustamento muito bom

RMSEA (com I.C. 90%)

ep-value (H0: rmsea0.05)

(Macro do AMOS: \rmsea; \pclose)

> 0.10 - Inaceitável]0.05;0.10] – ajustamento sofrível≤0.05 – ajustamento bomp-value0.05 (0.5 segundo Jöreskog)

AIC (Macro do AMOS: \aic)ECVI (Macro do AMOS: \ecvi)

Só para comparar modelosQuanto menor, melhor…

Page 43: Mle Enquadramento Teorico Aula8

4.4.4. Avaliação da qualidade do modelo

3. Análise de resíduos, estimativa de parâmetros e fiabilidade individual de indicadores

Os índices de qualidade de ajustamento são medidas do ajustamento global médio aos dados. O modelo pode ter um bom ajustamento global, mas ainda assim apresentar um mau ajustamento local. Para fazer o diagnóstico de possíveis problemas locais:1. Avaliar os resíduos estandardizados do modelo estimados por

rij >> 2 indicam outliers (com 95% de confiança) e problemas de ajustamento local

2. Avaliar os erros-padrão assimptóticos dos parâmetros do modelo e sua significância: A significância dos parâmetros do modelo pode avaliar-se com um teste Z:

H0: gij=0 vs. H1: gij ¹ 0. Para n grandes, rejeitando-se H0 se |Z| z1-a

3. Avaliar a fiabilidade individual dos indicadores ou v. manifestas: Apropriado para avaliar a relevância dos indicadores nos modelos de medida. Valores de R2<0.25 indicam possíveis problemas com o indicador.

43

~ (0,1)ˆ

ij

aijij

er N

es= ˆ[ ] ( )e ij = -S qS

ˆ ˆ/ (0,1)ij

a

ijZ Ngg s= ~

Page 44: Mle Enquadramento Teorico Aula8

4.4.5. Respecificação do modelo

E se o modelo ajustado não apresentar um ‘bom’ ajustamento aos dados?Prática corrente: modificar o modelo eliminando vias não significativas, libertando parâmetros anteriormente fixos, fixando parâmetros anteriormente livres, correlacionar erros, etc...

Índices de Modificação (Modification Indices) para os parâmetros: Redução (conservadora) da estatística X2 do modelo, se o parâmetro fixo ou restrição de igualdade for libertado e o modelo for re-estimado, com perda de um grau de liberdade. Este teste poder obter-se como, um Rácio de verosimilhança dos dois modelos:

Onde fMLr é a função de discrepância para o modelo restrito, e fMLu é a mesma função para o modelo com o parâmetro livre

A maioria dos softwares (AMOS, LisRel,…) estima porem os Índices de Modificação pelo método dos Multiplicadores de Lagrange que apenas precisa ser estimado para o modelo restrito :

44

'

12'( 1)

2MLr MLr MLr

r r r r

f f fnLM E

-é ùæ öæ ö æ ö¶ ¶ ¶- ÷÷ ÷çç çê ú÷÷ ÷çç ç= ÷÷ ÷ê úçç ç÷÷ ÷÷ ÷çç ç÷¶ ¶ ¶ ¶è ø è øê úè øë ûθ θ θ θ

ˆ ˆ2 log ( ) log ( )

( 1)( )r u

MLr MLu

LR L L

n f f

é ù= - -ê úë û= - -

q q

Page 45: Mle Enquadramento Teorico Aula8

4.4.5. Respecificação do modelo

E se o modelo ajustado não apresentar um ‘bom’ ajustamento aos dados?

Tendo

J. Arbuckle (o autor do AMOS): MI4 (c20.95;(1)=3.84)

Mais seguro: MI 11 (c20.999;(1)=10.82), já que só se deve modificar um modelo, se existirem

fortes fundamentos teóricos para o fazer!!!. Um modelo pode ser modificado até a um ajustamento perfeito (quanto mais próximo estiver do modelo saturado, melhor será o ajustamento…).

Análise sequencial: começar por libertar o parâmetro com maior MI até chegar ao parâmetro de menor MI.

PERIGO: o modelo pode perder a validade para a população... i.e. O modelo ajusta-se bem aqueles dados, mas pode não ser válido na população.

Deve-se sempre considerar possíveis modelos paralelos ou não-paralelos alternativos que possam igualmente reproduzir os dados observados.

Deve-se também fazer a validação cruzada do modelo com outra amostra.

45

2~ (1)aLM c

Page 46: Mle Enquadramento Teorico Aula8

4.5. Pressupostos do Modelo de Eq. Estruturais

1. Normalidade multivariada1. As variáveis (manifestas) devem apresentar distribuição normal multivariada.2. A normalidade multivariada é requerida pelo método ML que é o método dominante na AEE

(outros métodos não a exigem: WLS, ADF,...)

Como avaliar?Não há testes de Normalidade multivariada implementados nos softwares. Alternativa: Avaliar valores de Sk e Ku dos itens. Distribuição normal Sk=Ku=0

No AMOS:

Schumaker & Lomax (2004): Valores |sk| e |ku| 2 não são problemáticosKline (1998): Valores de |Sk|<3 e |Ku|<8-10 são aceitáveis em AEE. No AMOS:

Kline (1998); KuMult<10 não é problemática

46

=

-= = =

å 3

13 3

( )6

;'

n

ii

sk

x xsk M se

nns=

-= - = - =

å 4

14 4

( )24

3 3;

n

ii

ku

x xku M se

nns

( ) ( )2

1

1

1 ( 2)( 1) 8 ( 2)' ;

1

n

M i i kui

p p n p pku se

n n n-

=

+ - +é ù= - - - =ê úë û +å x x S x x

Page 47: Mle Enquadramento Teorico Aula8

4.5. Pressupostos do Modelo de Eq. Estruturais

1. Normalidade multivariadaSob a validade da hipótese de normalidade multivariada é possível testar as hipóteses:

H0: sk=0 vs. H1:sk¹0

H0: ku=0 vs. H1:ku¹0 para a=0.05, rej. H0 se |Z|≥1.96H0: kuM=0 vs. H1:kuM¹0

Mesmo problema do teste do c2: testa se a distribuição é ‘perfeitamente normal’… nunca é, para amostras grandes (se=s/n), nem é preciso que seja para fazer AEE (ML)

Problemas com a violação da normalidadea. Teste do Qui-quadrado inimputável (a distribuição da estatística é c2 não-central).

Inflação do erro de tipo I). O teste pode ser corrigido por uma medida do enviesamento multivariado (correcção de Satorra-Bentler); pode transformar-se as variáveis para forçar a normalidade; ou pode usar-se um método de estimação que não exija a normalidade – e.g. ADF, ULS.

b. Estimativas dos parâmetros com significância inflacionadaAs estimativas têm SE menor do que o correcto, o que faz que os coeficientes sejam estatisticamente significativos mais vezes do que o que deviam (inflação do erro de tipo I).

47

(0,1)a

sk

skZ N

se= ~

(0,1)a

ku

kuZ N

se= ~

Page 48: Mle Enquadramento Teorico Aula8

4.5. Pressupostos do Modelo de Eq. Estruturais

2. Linearidade: relações lineares entre as v. manifestas e as v. latentes, e entre as v. latentes. O método ML não exige linearidade, mas é aplicado à matriz de covariâncias /correlações que exigem associações de tipo linear.

3. Covariâncias amostrais não-nulas: as v. manifestas devem apresentar algum tipo de associação.

4. Múltiplos indicadores: 3 ou mais variáveis manifestas ou indicadores por factor, e a fiabilidade dos constructos (v. latentes) deve ser elevada.

5. Ausência de Multicolinearidade: A multicolinearidade inflaciona a estimação das covariâncias dos parâmetros; produz coeficientes de trajectória estandardizados muito superiores a 1 ou -1; pode produzir variâncias negativas. Pode mesmo causar o aborto das iterações (matrix not positive definite) quando é perfeita ou quase (não é possível inverter a matriz de correlações/covariâncias que são singulares). Avaliar multicolinearidade com o VIF (SPSS).

6. Amostras de “grande” dimensão: Várias regras : N>200 – 400 ; 15 sujeitos por variável manifesta; 5 sujeitos por parâmetro a estimar (v. manifestas, latentes, erros, correlações, etc...). Quanto mais melhor (especialmente se os dados forem muito enviesados, não mesocúrticos, com missings)... Mas nunca inferior a (p+q)(p+q)+1)/2 (caso contrário não é possível calcular a matriz de covariâncias assimptótica).

7. Modelos sobre-identificados (ou quando muito identificados).

48

Page 49: Mle Enquadramento Teorico Aula8

4.5. Pressupostos do modelo de Eq. Estruturais

8. Medida forte

O cálculo de variâncias-covariâncias das v. manifestas exige medidas numa escala quantitativa. Alguma controvérsia sobre o uso de métodos ML com escalas ordinais (5 ou 7 pontos):

Utilizadores do AMOS:a. Se a escala for ordinal deve ter pelo menos 5 pontos (7, ou mesmo 9-10), e distribuição

aproximadamente em sino: estas variáveis comportam-se como v. intervalaresb. Se os itens forem nominais (0-não, 1-sim), usar compósitos somadosc. Usar métodos ‘Bootstrap’/ Estimação Bayesiana para v. ordinaisd. As assumpções das correlações policóricas e poliseriais de que existem variáveis latentes

com normalidade multivariada de cujos itens ordinais são manifestações, são irreais; o cálculo exige amostras de grande dimensão(>2000, e pode usar-se o ADF)

Utilizadores do LisRel, EQS, MPlus:a. Não faz sentido usar covariâncias de variáveis ordinaisb. Usar correlações policóricas (ordinal vs ordinal) ou poliserial ordinal vs quantitativa) ou

tetracórica (nominal vs. nominal)c. Usar métodos WLS e matrizes de correlação policóricas.d. Joreskog & Sorbom (1988): Correlações de Pearson, Spearman, Kendall t tem pior

performance do que policóricas com v. ordinais

49

Page 50: Mle Enquadramento Teorico Aula8

4.5. Pressupostos do modelo de Eq. Estruturais

9. Inexistência de OutliersOutliers são observações que caem fora da tendência das restantes observações. Podem ocorrer devido a problemas de observação/registo das variáveis ou podem ser valores extremos que ocorrem naturalmente (ainda que com frequência muito baixa).

Problemas com a existência de outliers:a. Afectam as estimativas das médias, desvios-padrão e covariâncias, tornando o modelo ‘mau’b. Podem atenuar ou inflacionar as estimativas dos parâmetros

Como diagnosticar:1. Medidas univariadas, box-wisker plots: Mas, um outlier poder ser multivariado sem ser univariado2. Medidas multivariadas: Distância de Mahnalobis: Distância de uma observação xi à média de

todas as observações (centróide):

AMOS sob a hipótese da normalidade multivariada, a partir da kuM:p1: probabilidade de uma observação xi ter um valor de superior ao calculadop2: probabilidade de a maior distância de Mahalanobis ser superior ao de xi.

Convém que p1 seja pequeno (<0.05-0.10) e p2 seja grande (>0.05-0.10), caso contrário a observaçãodeve ser um outlier multivariado.

50

( ) ( )2 1'i i i

d -= - -x x S x x

2i

d 2i

d

2i

d

4

1

1 ( 2)( 1) 8 ( 2);

1

n

M i kui

p p n p pku d se

n n n=

+ - += - =

Page 51: Mle Enquadramento Teorico Aula8

4.6. Problemas com o ajustamento do modelo

É possível que o software não consiga encontrar um vector de parâmetros q que permita minimizar S-S(q). Algumas das causas mais frequentes são:

1. Problemas de convergência do modelo: As iterações seleccionadas não permitem alcançar uma solução. Pode dever-se a reduzidas dimensões de amostra; modelo mal especificado; variâncias muito diferentes das v. manifestas; v. manifestas extremamente não-normais; outliers

Solução: Aumentar a amostra; Respecificar o modelo; uniformizar variâncias (e.g. alterando a magnitude de medida Kgg; m Km,…; ou estandardizando as escalas), transformações matemáticas para normalizar variáveis (Sqrt, Ln, ArcSin); eliminar outliers; aumentar nº iterações.

2. Indeterminação do modelo: O modelo não é determinado ou sobre-identificado. A indeterminação empírica é particularmente difícil de diagnosticar.

Solução: fixar trajectórias; analisar multicolinearidade; simplificar o modelo; aumentar nº de variáveis manifestas; aumentar dimensão da amostra.

3. Problemas com variâncias: Estimativas das variâncias das v. latentes < 0 (!!!). Pode acontecer quando: (i) a dimensão da amostra é demasiado pequena; (ii) quando correlações fortes entre itens são ignoradas (i.e. não contemplando as correlações entre os itens e/ou outros factores).

Solução: Aumentar dimensão da amostra; correlacionar itens e/ou erros dos itens; Respecificar o modelo adicionando trajectórias para outros factores e os itens.

4. Matrizes de Covariância singulares (not positive definite): Alguns dos valores próprios (eigenvalues, raízes características = variância das componentes principais da matriz de covariância) < 0. Pode acontecer com as matrizes S, S(q) e W. A multicolinearidade (no caso de S) e especificação errada do modelo (S(q) e W) são as causas mais frequentes

Solução: resolver os problemas de multicolinearidade; reespecificar o modelo.

51