Análise Fatorial

Preview:

DESCRIPTION

Análise Fatorial. Factor analysis. Análise Fatorial. Objetivo: Estudar a estrutura de dependência existente em um conjunto de variáveis através da criação de fatores que, eventualmente, expressam constructos subjacentes aos dados. Spearman (1904) - medida de inteligência. Análise Fatorial. - PowerPoint PPT Presentation

Citation preview

1

Análise FatorialFactor analysis

2

Análise Fatorial

Objetivo: Estudar a estrutura de dependência existente em um conjunto de variáveis através da criação de fatores que, eventualmente, expressam constructos subjacentes aos dados.

Spearman (1904) - medida de inteligência

3

Análise Fatorial

Situação comum: observar grande número de variáveis

• Como caracterizar a amostra• Como descrever a inter-relação entre

as variáveis

4

Constructos

Definir o que e como medir

• nível de ansiedade• satisfação• bem-estar• percepção

5

Exemplo: Escala IDATE-TX1 Sinto-me bemX9 Preocupo-me demais com as coisas sem

importânciaX10 Sou felizX11 Deixo-me afetar muito pelas coisasX13 Sinto-me seguroX16 Estou satisfeitoX17 Às vezes idéias sem importância me

entram na cabeça e ficam me preocupando

X18 Levo os desapontamentos tão a sério quenão consigo tirá-los da cabeça

6

Matriz de Correlação

X1 X10 X13 X16 X9 X11 X17 X18X1 1.00X10 0.58 1.00X13 0.39 0.47 1.00X16 0.51 0.66 0.54 1.00X9 -0.14 -0.16 -0.31 -0.22 1.00X11 -0.20 -0.24 -0.38 -0.32 0.46 1.00X17 -0.18 -0.20 -0.33 -0.25 0.53 0.46 1.00X18 -0.32 -0.33 -0.37 -0.40 0.40 0.48 0.48 1.00

7

Modelo de Análise Fatorial

Variáveis originais

X1

X2

Xp

Fatores comuns

1

2

m

AF

m < p

8

Modelo de Análise Fatorial

pmpm 2p21p1 p

2m2m 222121 22

1m1m 212111 11

... X

...

... X

... X

p

1, …, m: fatores comuns

1, …, p: fatores únicos ou específicos

9

Modelo de Análise FatorialModelo na forma matricial:

X - = +

X = (X1, X2, …, Xp)T, = (1, 2, …, m)T,

= ( 1, 2, …, p)T

pmp2p1

2m2221

1m1211

10

Modelo esquematizado

X1

X2

Xp

e1

e2

ep

1

2

m

11

Características impostas ao modelo

• Os fatores únicos são não correlacionados.• Os fatores comuns e únicos são não

correlacionados entre si.• Os fatores comuns são não

correlacionados (esta suposição pode ser abandonada em alguns tipos de AF).

• As variâncias dos fatores comuns são iguais a 1.

12

Análise do modelo

imim 2i21i1i ... X

imim 2i21i1i ... VarXVar

)Var( ... XVar i2im

2i2

2i1i

2i

i2i

2i c

Ci2 = comunalidade ou variância comum

i = especificidade

13

Análise do modelo

i2i

2i c

Ci2 = comunalidade ou variância comum:

expressa o quanto da variabiliade de Xi é explicada pelo modelo (se Var (Xi)=1 pode ser encarada como uma proporção)

i = especificidade: expressa o quanto da variabilidade de Xi não é explicada pelo modelo.

Um bom modelo deve apresentar uma comunalidade alta para todas as variáveis

14

Alguns métodos de estimação

• Máxima verossimilhança: supõe que os dados seguem uma distribuição normal multivariada.

• Método da componente principal: baseia-se na análise de componentes principais.

15

T

Método da componente principal

Modelo: X = + e

ΨΣX T )Var(

Decomposição espectral de :

Tppp

Tmmm

T111 ...... Σ

~ ~ ~ ~ ~ ~ ~

~~

16

m m2211 , , ,

Método da componente principal

Tppp

T ... ΣΨΣ T

Tipi2i1 ..., , , i

m

jjij

1

22ii σψ

17

Método da máxima verossimilhança

Suposição: distribuição normal

Estimação dos parâmetros

= T +

Restrição:

T -1 : diagonal

18

Resultado importante

= T +

= T

T + = ( T)( T)T + = T TT T + = T + =

19

Rotação VARIMAX

Há infinitas matrizes que resultam na mesma matriz T. Essas matrizes podem ser obtidas através da rotação de uma solução inicial (por exemplo, oriunda do método das componentes principais).

Problema: Como escolher uma boa solução?

ΨΣX T )Var(

20

Rotação - Interpretação geométrica

1

2

1*

2* Exemplo: Solução com

dois fatores

1 e 2 definem um plano

1* e 2

* , obtidos através de uma rotação ortogonal dos eixos, definem o mesmo plano. Logo representam uma solução equivalente.

21

Quantos fatores usar?

• Critério de Kaiser

• Porcentagem da variância total

explicada

• Atingir comunalidade fixada

• Critério scree-test

• Métodos inferenciais

22

0

0,5

1

1,5

2

2,5

3

3,5

4

0 2 4 6 8 10Componentes

Au

tova

lore

s

23

ExemploX1 Sinto-me bemX9 Preocupo-me demais com as coisas sem

importânciaX10 Sou felizX11 Deixo-me afetar muito pelas coisasX13 Sinto-me seguroX16 Estou satisfeitoX17 As vezes idéias sem importância me

entram na cabeça e ficam me preocupando

X18 Levo os desapontamentos tão a sério quenão consigo tirá-los da cabeça

24

Autovalores

Componente Autovalores % da

Variância %

Acumulada 1 3.525 44.06 44.06 2 1.504 18.80 62.86 3 0.665 8.31 71.17 4 0.614 7.68 78.85 5 0.512 6.40 85.25 6 0.444 5.55 90.80 7 0.425 5.31 96.11 8 0.311 3.89 100.00

25

Comunalidades 2 fatores

Comunalidades X1 0.657 X9 0.644 X10 0.758 X11 0.536 X13 0.497 X16 0.719 X17 0.670 X18 0.548

26

Cargas Fatoriais

1 2 X1 0.678 0.445 X9 -0.549 0.585

X10 0.719 0.492 X11 -0.633 0.367 X13 0.679 0.192 X16 0.751 0.392 X17 -0.593 0.564 X18 -0.686 0.279

27

Gráfico das Cargas Fatoriais

-1

-0,8

-0,6

-0,4

-0,2

0

0,2

0,4

0,6

0,8

1

-1 -0,5 0 0,5 1

1

2

28

Rotação

-1

-0,8

-0,6

-0,4

-0,2

0

0,2

0,4

0,6

0,8

1

-1 -0,5 0 0,5 1

1

2

29

Cargas Fatoriais Rotacionadas

1* 2* X1 0.804 -0.101 X9 -0.038 0.802

X10 0.866 -0.092 X11 -0.244 0.690 X13 0.641 -0.294 X16 0.826 -0.189 X17 -0.086 0.814 X18 -0.341 0.657

30

Cargas Fatoriais Rotacionadas

1* 2* X1 0.804 -0.101 X9 -0.038 0.802 X10 0.866 -0.092 X11 -0.244 0.690 X13 0.641 -0.294 X16 0.826 -0.189 X17 -0.086 0.814 X18 -0.341 0.657

X1 Sinto-me bemX9 Preocupo-me demais com as coisas sem

importânciaX10 Sou felizX11 Deixo-me afetar muito pelas coisasX13 Sinto-me seguroX16 Estou satisfeitoX17 As vezes idéias sem importância me

entram na cabeça e ficam me preocupando

X18 Levo os desapontamentos tão a sério quenão consigo tirá-los da cabeça

31

Interpretação

• Fator 1: Satisfação pessoal

• Fator 2: Dificuldade em lidar com problemas

32

Escores Fatoriais

• Métodos dos mínimos quadrados ponderados

xi - = i + i

Minimizar: (xi - - i)T -1 (xi - - i)

EMQ(fi) = (T -1 )-1 T -1 (xi - )

33

Escores Fatoriais

• Métodos da regressão

e : distribuição normal

ER(i) = T (T + )-1 (xi - )

mTmp I

Nx

,0

34

Viabilidade da AFmatriz anti-imagemX1 X9 X10 X11 X13 X16 X17 X18

X1X9 -0.03X10 -0.34 -0.02X11 0.00 -0.22 -0.02X13 -0.08 0.09 -0.14 0.14X16 -0.15 0.00 -0.43 0.07 -0.26X17 0.00 -0.34 0.00 -0.17 0.08 -0.02X18 0.11 -0.11 -0.03 -0.24 0.03 0.12 -0.24

Coeficiente de correlação parcial entre os pares, excluindo-se o efeito das demais variáveis.

Esperam-se valores baixos.

35

Viabilidade da AF

Coeficiente KMO: Kaiser-Meyer-Olkin

a2ij é a correlação parcial entre Xi e Xj, eliminado o efeito das demais variáveis

p

i

p

i

p

jij

p

jij

p

i

p

jij

ar

r

KMO

1 1 1

2

1

2

1 1

2

36

Interpretação da KMOEscala IDATE: 0,841

KMO Interpretação0.90 - 1.00 Excelente0.80 - 0.90 Ótimo0.70 - 0.80 Bom0.60 - 0.70 Regular0.50 - 0.60 Ruim

0.00 - 0.50 Inadequado0.80 - 1.00 Excelente

0.70 - 0.80 Ótimo

0.60 - 0.70 Bom

0.50 - 0.60 Regular

0.00 - 0.50 Insuficiente

37

Viabilidade da AF

MSA: Measure of sampling adequacy

a2ij é a correlação parcial entre Xi e Xj, eliminado o efeito das demais variáveis

p

jij

p

jij

p

jij

i

ar

r

MSA

1

2

1

2

1

2

38

Interpretação da MSA

Para o exemplo IDATEVariável MSA

X1 0.853

X9 0.818

X10 0.789

X11 0.865

X13 0.899

X16 0.820

X17 0.820

X18 0.878

Média 0.843

39

Avaliação do ajuste do modelo

resumo: raiz do quadrado médio residual

ˆˆˆˆ T ˆesR

2/)1(

)ˆ(1 1

2

ppRQMR

p

i

p

jijij

40

Exemplo IDATERQMR = 0.106

X1 X9 X10 X11 X13 X16 X17 X18X1X9 -0.05X10 -0.11 -0.05X11 0.01 -0.14 0.01X13 -0.14 0.02 -0.10 0.03X16 -0.15 -0.01 -0.07 0.00 -0.06X17 -0.04 -0.12 -0.04 -0.16 0.04 0.01X18 0.00 -0.14 0.04 -0.08 0.10 0.03 -0.09

41

X1

X10

X13

X16

X9

X11

X17

X18

1

2

1

10

13

16

9

11

17

18

X1

X10

X13

X16

X9

X11

X17

X18

1

2

1

10

13

16

9

11

17

18

42

Comentários

Sucesso• Número pequeno de fatores• fatores interpretáveis

Insucesso• Tamanho insuficiente da amostra• variáveis com fraca dependência• estrutura não homogênea (grupos)

Recommended