20
Universidade Federal do Pará UFPA Instituto de Ciências Exatas e Naturais - ICEN Faculdade de Estatística Disciplina: Estatística Aplicada Aluno: Emerson de Souza Vieira Professor: Heliton Tavares Profª: Regina Madruga Trabalho Módulo I Análise Fatorial Belém 2014

Universidade Federal do Pará UFPA Instituto de Ciências ... · análise fatorial e análise de componentes principais. Análise Fatorial Introdução A análise fatorial ("Factor

  • Upload
    buinhu

  • View
    219

  • Download
    1

Embed Size (px)

Citation preview

Universidade Federal do Pará – UFPA

Instituto de Ciências Exatas e Naturais - ICEN

Faculdade de Estatística

Disciplina: Estatística Aplicada

Aluno: Emerson de Souza Vieira

Professor: Heliton Tavares

Profª: Regina Madruga

Trabalho Módulo I

Análise Fatorial

Belém 2014

Análise Multivariada

A análise multivariada é o ramo da estatística direcionado ao estudo das

amostras e distribuição multidimensionais, ou seja, são métodos estatísticos

apropriados para estudos em que várias variáveis são consideradas

simultaneamente. No entanto, apesar de as técnicas multivariadas terem eficiência

comprovada e proporcionarem enriquecimento das informações extraídas de dados

experimentais, é necessária para seu uso a disponibilidade de recursos

computacionais, motivo pelo qual a referida técnica ficou limitada no seu uso e do

repasse entre os pesquisadores das diversas áreas da ciência, no Brasil.

Entretanto, com a incrementação dos recursos da informática nos últimos

anos, a técnica atraiu a atenção dos pesquisadores das diversas áreas, tornando o

seu emprego potencialmente grande e, consequentemente, o seu conhecimento

indispensável.

A análise multivariada compreende várias técnicas que, segundo KENDALL

(1980), citado por CRUZ (1987), distinguem-se em:

a) Técnicas de Avaliação da Interdependência: estuda as relações de um

conjunto de variáveis entre si.

- Análise de Agrupamento;

- Análise Fatorial

- Correlações Canônicas

- Componentes Principais

b) Técnicas de Avaliação da Dependência: estuda a dependência de uma

ou mais variáveis em relação às outras.

- Análise Discriminante

- Múltipla Contigência

- Regressão

- Relação Funcional

Objetivos da Análise Multivariada

• Redução de Dados ou Simplificação Estrutural

• Ordenação e Agrupamento

• Investigação da Dependência entre Variáveis

• Predição

Neste trabalho, aplicaram-se os seguintes procedimentos multivariados:

análise fatorial e análise de componentes principais.

Análise Fatorial

Introdução

A análise fatorial ("Factor Analysis") é a principal e a mais antiga técnica de

análise multivariada. A idéia fundamental foi proposta por Sperman e por Pearson,

no início do século, para entender problemas relacionados à psicologia educacional,

na tentativa de definir inteligência (MARRIOTT, 1974). Seu desenvolvimento e

principalmente, a sua utilização, foram limitados durante muitos anos, devido à

complexidade dos cálculos envolvidos. Com o advento do processamento de dados

computadorizado, o uso e interesse pela análise fatorial foi renovado e retomado

(MENEZES et al., 1978).

Análise fatorial é uma técnica para se reduzir o número de variáveis de uma

base de dados, identificando o padrão de correlações ou de covariância entre elas e

gerando um número menor de novas variáveis latentes, não observadas, calculadas

a partir dos dados brutos.

A redução a um número menor de variáveis, também chamados muitas vezes

de “fatores”, “dimensões” ou “componentes”, maximiza o poder de explicação do

conjunto de todas as variáveis e possibilitam identificar subgrupos de questões que

avaliam uma mesma habilidade ou capacidade cognitiva (PASQUALI, 2009; PRIMI,

2003; 2996; THOMPSON. 2004; YANAI & ICHIKAWA.

Os fatores podem ser não correlacionados (fatores ortogonais) ou

correlacionados (fatores oblíquos). As variáveis são agrupadas por meio de suas

correlações, ou seja, aquelas pertencentes a um mesmo grupo serão fortemente

correlacionadas entre si, mas pouco correlacionadas com as variáveis de outro

grupo. Cada grupo de variáveis representará um fator (JOHNSON & WICHERN,

1988).

Conforme descreve Harrington (2009) é determinada a existência de dois

tipos de análise fatorial, as quais devem se adequar aos objetivos de cada pesquisa,

cuja finalidade da sua aplicabilidade aconteça de forma exploratória e

confirmatória.

Na análise fatorial exploratória sua aplicação se dá pelo pouco conhecimento

acerca dos conjuntos de dados e suas relações subjacentes. Geralmente é utilizada

nos estágios mais embrionários da pesquisa, no sentido de literalmente explorar os

dados.

A análise fatorial confirmatória pode ser entendida como um procedimento

desenvolvido no teste de hipóteses, ou mesmo na estruturação e validação de um

conjunto de dados (PILATTI, et. al., 2012).

Objetivo da Análise Fatorial

O objetivo principal é reduzir o número de variáveis iniciais com a menor

perda possível de informação. Em outras palavras, pode-se dizer que Análise

Fatorial é aplicada à busca de identificação de fatores num conjunto de medidas

realizadas, sendo que esses fatores identificados pela Análise Fatorial são uma

descoberta feita pelo pesquisador. Inicialmente, ele tem várias medidas e não será

possível identificar quais variáveis poderão ser reunidas num fator.

A Análise Fatorial é quem vai descobrir isso, pois ela permite identificar novas

variáveis, em um número reduzido em relação às variáveis iniciais, sem uma perda

significativa de informação contida nos dados originais.

Belfiore, Fávero e Ângelo (2006, p. 12) afirmam que “o que se pretende é a

identificação de possíveis associações entre as variáveis observacionais, de modo

que se defina a existência de um fator comum entre elas”.

Tamanho da Amostra

Na obtenção de uma Análise Fatorial com um mínimo de qualidade é

necessário que o tamanho da amostra seja relativamente grande comparando com o

número de variáveis envolvidas. Na literatura estatística exige-se para uma escolha

da amostra em ordem de 20 vezes o número de variáveis envolvidas, outra sugere

que seja no mínimo 5 vezes o número de variáveis ou que seja no mínimo 100

observações.

HAIR (1998), enfatiza que ela não deve ser utilizada em amostras inferiores a

50 observações.

Modelo Teórico

Considerando um conjunto de p variáveis, com n observações para cada

variável, obtém-se o arranjo de valores

[ xij

], i = 1, 2,..., n , j = 1, 2,..., p

à partir do seguinte conjunto de dados

Variáveis

indivíduos X1

X2

...

Xp

1 x

11 x

12

... x

1p

2 x

21 x

22

... x

2p

... ... ... ... n

xn1

xn2

...

xnp

O modelo da análise de fatores supõe que cada variável Xj é linearmente

dependente de poucas variáveis aleatórias não observadas F F Fm1 2

, , ..., (m < p)

chamadas fatores comuns, e p fontes adicionais de variação e e ep1 2

, , ..., , chamadas

erros ou, algumas vezes, fatores específicos (JOHNSON & WICHERN, 1988).

X1 = a11F1 + a12F2 + ... a1mFm + e1

X2 = a21F2 + a22F2 + ... apmFm + e2

...

Xp = ap1F1 + ap2F2 + ... apmFm + e1

Xj = aj1F2 + aj2F2 + ... apmFm + e2

onde Xj

é a j-ésima variável, a a aj j jm1 2, , , são as cargas dos fatores para a j-ésima

variável e F F Fm1 2

, , , são m fatores comuns não correlacionados, com m menor que p.

Os p valores observados X p são expressos em termos de p + m variáveis aleatórias não

observáveis (F F Fm p1 2 1 2, , , ; , , , ).

As suposições em Análise Fatorial, de acordo com Pestana e Gageiro

(2005), Hair et al. (2005) e Ho (2006), são:

a) Normalidade e linearidade: desvios podem reduzir as correlações observadas

entre as variáveis e, portanto, prejudicar a solução;

b) Identificação da existência de outliers: este fenômeno pode distorcer os resulta

dos, uma vez que altera as estimativas das médias e dos desvios padrão;

c) Matriz de correlações com valores significativos: o pesquisador deve garantir

que a matriz de correlações apresente um considerável número de correlações com

valores superiores a 0,30.

1.0 - Medidas de Ajuste do Modelo (Adequabilidade)

Para que a utilização da Análise Fatorial seja adequada, o pesquisador deve

efetuar os seguintes passos:

(i) normalidade;

(ii) linearidade;

(iii) analisar a matriz de correlação;

(iv) realizar o teste do critério de Kaiser-Meyer-Olkin (KMO);

(v) aplicar o teste de Bartlett;

(vi) analisar a matriz anti-imagem.

1.1 - Normalidade

A análise fatorial é relativamente robusta a violações de normalidade, contudo

a normalidade multivariada é importante para a realização da análise. Como é difícil

a detecção de problemas desse tipo, faz-se necessário procurar assegurar que as

variáveis individualmente apresentem uma distribuição normal.

1.2 - Linearidade

A Análise fatorial é baseada no pressuposto de que os relacionamentos entre

as variáveis são lineares. O procedimento da transformação poderá ser usado para

eliminar variável(is) que estiver(em) produzindo relacionamentos não lineares com

outras variáveis.

1.3 - Análise da Matriz de Correlações

Como a Análise Fatorial é baseada nas correlações entre as variáveis, deve-

se avaliar a viabilidade da aplicação da técnica a partir da matriz de correlação, pois

está mede a associação linear entre as variáveis X e Y, por meio do coeficiente de

correlação de Pearson, obtido por

em que, −1 ≤ r ≤ 1.

Valor de r = −1 indica relação linear negativa perfeita;

Valor de r = 1 indica relação linear positiva perfeita.

Quando valor de r = 0 indica que não há relação linear entre as variáveis.

Então, o primeiro passo é um exame visual das correlações, identificando as

que são estatisticamente significativos.

De acordo com Hair et al. (2005), se a inspeção visual não revela um número

substancial de correlações maiores que 0,30, então a Análise Fatorial provavelmente

é inapropriada. Além disso, é de se esperar que as variáveis que apresentam alta

correlação tendem a compartilhar o mesmo fator (FÁVERO et al., 2009).

1.4 - Medida de Kaiser-Meyer- Olkin (KMO)

De acordo com Maroco (2007) a estatística de Kaiser-Meyer-Olkin (KMO) é

uma medida de homogeneidade das variáveis, que compara as correlações simples

com as correlações parciais observadas entre as variáveis.

Esta medida é obtida por

em que, rij é o coeficiente de correlação entre variáveis aij é o coeficiente de

correlação parcial.

A estatística KMO, cujos valores variam de 0 a 1, avalia a adequação da

amostra quanto ao grau de correlação parcial entre as variáveis, que deve ser

pequeno.

Fávero et al. (2009) destaca que o valor de KMO próximo de 0 indica que a

Análise Fatorial pode não ser adequada, pois existe uma correlação fraca entre as

variáveis. Por outro lado, quanto mais próximo de 1 o seu valor, mais adequada é a

utilização da técnica.

Apesar de não existir um teste rigoroso para os valores de KMO, de uma

forma geral, estes podem ser adjetivados conforme a Tabela abaixo (SHARMA,

1996; PESTANA; GA- GEIRO, 2005; F´AVERO et al., 2009).

Tabela - Classificação da Aplicação da Análise Fatorial pela Estatística

KMO.

1.5 - Teste de Esfericidade de Bartlett

Outro modo de determinar a adequação da Análise Fatorial examina a matriz

de correlação inteira. De acordo com Hair et al. (2005), o teste de esfericidade de

Bartlett fornece a probabilidade estatística de que a matriz de correlação tenha

correlações significantes entre pelo menos algumas variáveis.

Fávero et al. (2009) destaca que utiliza-se este teste com o intuito de avaliar a

hipótese de que a matriz das correlações pode ser a matriz identidade (determinante

igual a 1), conforme apresenta a Matriz.

Se a matriz de correlações for igual à matriz identidade, isso significa que as

inter-relações entre as variáveis são iguais a 0 e, neste caso, deve-se reconsiderar a

utilização da análise fatorial. Assim, as hipóteses testadas são:

H0: a matriz de correlações é uma matriz identidade

H1: a matriz de correlações não é uma matriz identidade.

KMO Classificação

0,90 - 1,00 Excelente

0,80 – 0,90 Ótimo

0,70 – 0,80 Bom

0,60 – 0,70 Regular

0,50 – 0,60 Ruim

0,00 – 0,50 Inadequado

ji

ij

ji

ij

ji

ij

ar

r

MSA22

2

1.6 - Matriz Anti-imagem

A matriz de correlações anti-imagem contém os valores negativos das

correlações parciais e é uma forma de obter indícios a cerca da necessidade de

eliminação de determinada variável do modelo. Pode-se calcular uma Medida de

Adequação da Amostra, ou Measure of Sampling Adequacy (MSA), para cada

variável de forma similar à estatística KMO a partir de (FÁVERO et al., 2009),

em que, rij é o coeficiente de correlação entre as variáveis aij é o coeficiente

de correlação parcial.

Segundo Hair et al. (2005), o pesquisador deve primeiro analisar os valores

do MSA para cada variável individualmente e excluir as que se encontram no

domínio inaceitável. Quanto maiores forem os valores do MSA, melhor será a

utilização da Análise Fatorial.

Cabe observar que, por vezes, a baixa correlação de determinada variável

com as demais não necessariamente implica a sua eliminação, uma vez que esta

variável pode representar um fator isoladamente.

2.0 - Extração dos Fatores Iniciais

Determina-se o número de fatores comuns necessários para descrever

adequadamente os dados. Assim, as decisões devem ser tomadas com relação:

(i) ao método de extração dos fatores;

(ii) ao número de fatores selecionados para representar a estrutura latente dos

dados.

2.1 - Método de Extração de Fatores

Há, basicamente, dois métodos principais que podem ser utilizados para a

obtenção de fatores:

Análise de Componentes Principais (ACP);

Análise de Fatores Comuns (AFC).

Para Hair et al. (2005), a escolha do método de extração depende do objetivo

do pesquisador. Assim, a ACP é usada quando o objetivo é resumir a maior parte da

informação original (variância) a um número mínimo de fatores para propósito de

previsão. Em contraste, a AFC é usada principalmente para identificar fatores ou

dimensões latentes que reflitam o que as variáveis têm em comum.

Análise de Componentes Principais

A análise de componentes principais tem por objetivo descrever os

dados contidos num quadro indivíduos-variáveis numéricas: p variáveis serão

mediadas com n indivíduos. Esta é considerada um método fatorial, pois a

redução do número de variáveis não se faz por uma simples seleção de

algumas variáveis, mas pela construção de novas variáveis sintéticas, obtidas

pela combinação linear das variáveis inicias, por meio dos fatores

(BOUROCHE, 1982).

A ACP possibilita investigações com um grande número de dados

disponíveis. Possibilita, também, a identificação das medidas responsáveis

pelas maiores variações entre os resultados, sem perdas significativas de

informações. Além disso, transforma um conjunto original de variáveis em

outro conjunto: os componentes principais (CP) de dimensões equivalentes.

Essa transformação, em outro conjunto de variáveis, ocorre com a menor

perda de informação possível, sendo que está também busca eliminar

algumas variáveis originais que possua pouca informação. Essa redução de

variáveis só será possível se as p variáveis iniciais não forem independentes

e possuírem coeficientes de correlação não-nulos.

A meta da análise de componentes principais é abordar aspectos como

a geração, a seleção e a interpretação das componentes investigadas. Ainda

pretende-se determinar as variáveis de maior influência na formação de cada

componente, que serão utilizadas para estudos futuros, tais como de controle

de qualidade, estudos ambientais, estudos populacionais entre outros.

2.2 - Critérios para o Numero de Fatores a Extrair

Quando um grande conjunto de variáveis é transformado em fatores, o

primeiro método extrai as combinações de variáveis que explicam o maior montante

de variância possível e então segue para as combinações que explicam montantes

cada vez menores de variância (HAIR et al., 2005). Neste sentido, o pesquisador

deve decidir quantos fatores reter, baseado nos seguintes critérios:

a) Critério da raiz latente (critério de Kaiser): escolhe-se fatores que têm

autovalores (eigenvalues) maiores que 1, isto é, todos os fatores com autovalores

menores que 1 são considerados insignificantes e descartados. Os autovalores

mostram a variância explicada por cada fator;

b) Critério a priori: é um método simples, quando aplicado, o pesquisador já

sabe quantos fatores extrair antes de empreender a análise fatorial;

c) Critério do gráfico Scree: é utilizado para identificar o número ótimo de

fatores que podem ser extraídos antes que a quantia de variância única comece a

dominar a estrutura de variância comum;

d) Critério do percentual de variância: consiste em escolher, como número

de fatores, um número mínimo necessário para que o percentual de variância

explicada alcance o nível satisfatório desejado, de acordo com o critério do

pesquisador.

3.0 - Rotação de Fatores

As soluções de fatores não-rotacionados extraem fatores na ordem de sua

importância, o primeiro fator tende a ser um fator geral com quase toda a variável

com carga significante, e explica a quantia maior de variância; o segundo fator e os

seguintes são então baseados na quantia residual de variância. Então, o efeito final

de rotacional a matriz fatorial é redistribuir a variância dos primeiros fatores para os

últimos com o objetivo de atingir um padrão fatorial mais simples e teoricamente

mais significativo (HAIR et al., 2005).

Os métodos de rotação podem ser ortogonais ou oblíquos. Os métodos

ortogonais produzem fatores que não estão correlacionados entre si, chamados de

fatores ortogonais, sendo interpretados a partir de suas cargas (loadings). Na

rotação oblíqua, os fatores estão correlacionados e, para a interpretação da solução,

torna-se necessária a consideração simultânea das correlações e das cargas.

Para os métodos rotacionais ortogonais, merecem destaque o Varimax, o

Quartimax e o Equamax, descritos a seguir, de acordo com Hair et al. (2005); Reis

(2001) e Fávero et al. (2009).

i) Quartimax

Este método se concentra em rotacionar o fator inicial de modo que uma

variável tenha carga alta em um fator e cargas tão baixas quanto possível em todos

os outros fatores. Neste método, muitas variáveis podem ter carga alta no mesmo

fator, pois o método busca minimizar o número de fatores necessários para explicar

uma variável.

ii) Varimax

Este método busca minimizar o número de variáveis que têm altas cargas em

um fator, assim para cada fator existe apenas alguns pesos significativos e todos os

outros sejam próximos de zero.

iii) Equamax

Já este método congrega características dos métodos Quartimax e Varimax,

ou seja, seu objetivo é simplicar linhas e colunas simultaneamente (Simplificação

dos fatores e das variáveis).

Os métodos de rotação oblíqua mais conhecidos são o Direct Oblimin e

Promax, nesses métodos as comunal idades são preservadas, porém os fatores

gerados apresentam-se mais fortemente correlacionados. Vale destacar que a

rotação não afeta a qualidade de ajuste do modelo fatorial, as comunalidades e o

total da variância explicada pelos fatores. Entretanto, o percentual de variância

explicada em cada fator muda após rotação.

A Figura apresenta o diagrama de decisão para melhor entendimento da

aplicação da técnica análise fatorial.

Análise Fatorial: Um Exemplo Prático - SPSS

O saneamento básico, coleta de lixo, água encanada, alfabetização e energia

elétrica são muito importantes para o desenvolvimento de um município. Um

pesquisador deseja estudar o desenvolvimento de 143 municípios do Estado do

Pará, a partir das variáveis: esgoto (X1), lixo (X2), água (X3), alfabetização (X4) e

energia (X5).

1) Para testar a normalidade de cada variável individualmente, selecione Analisar

→ Estatísticas Descritivas → Explorar.

Testes de Normalidade

Kolmogorov-Smirnova Shapiro-Wilk

Estatística df Sig. Estatística df Sig.

Esgoto ,193 143 ,000 ,776 143 ,000

Lixo ,071 143 ,078 ,973 143 ,006

Água ,071 143 ,074 ,964 143 ,001

Alfabetização ,059 143 ,200* ,983 143 ,082

Energia ,160 143 ,000 ,918 143 ,000

*. Este é um limite inferior da significância verdadeira.

a. Correlação de Significância de Lilliefors

Figura 1 - Resultados dos Testes de Normalidade Univariada.

A figura 1 presenta os resultados do teste de normalidade. Em que, as hipóteses testadas são:

H0: a variável é normalmente distribuída;

H1: a variável não é normalmente distribuída.

Com base no teste de Kolmogorov-Smirnov para os dados (transformados) observa-se que 3

(três) das variáveis apresentam distribuição normal (p > 0,05), para um nível de significância

de 5%.

2) Análise da Matriz de Correlações

Analisar → Correlacionar → Bivariável

Correlações

Esgoto Lixo Água

Alfabetizaçã

o Energia

Esgoto Correlação de

Pearson 1 ,333

** ,369

** ,428

** -,214

*

Sig. (2 extremidades) ,000 ,000 ,000 ,010

N 143 143 143 143 143

Lixo Correlação de

Pearson ,333

** 1 ,250

** ,573

** ,503

**

Sig. (2 extremidades) ,000 ,003 ,000 ,000

N 143 143 143 143 143

Água Correlação de

Pearson ,369

** ,250

** 1 ,393

** ,201

*

Sig. (2 extremidades) ,000 ,003 ,000 ,016

N 143 143 143 143 143

Alfabetizaçã

o

Correlação de

Pearson ,428

** ,573

** ,393

** 1 ,329

**

Sig. (2 extremidades) ,000 ,000 ,000 ,000

N 143 143 143 143 143

Energia Correlação de

Pearson -,214

* ,503

** ,201

* ,329

** 1

Sig. (2 extremidades) ,010 ,000 ,016 ,000

N 143 143 143 143 143

**. A correlação é significativa no nível 0,01 (2 extremidades).

*. A correlação é significativa no nível 0,05 (2 extremidades).

Figura 2 - Matriz de Correlação de Pearson.

H0: a maioria das variáveis não são correlacionadas r >= 0,30

H1: a maioria das variáveis são correlacionadas r >= 0,30.

Por meio da matriz de correlações da Figura 2, pode-se observar a existência de um

considerável número de correlações com valores absolutos superiores a 0,30, portanto rejeita-

se H0, o que permite dar continuidade à aplicação da técnica análise fatorial.

3) Medidas de Kaiser-Meyer-Olkin – KMO >= 0,50 é aceitável.

Teste de KMO e Bartlett

Medida Kaiser-Meyer-Olkin de adequação de amostragem. ,559

Teste de esfericidade de

Bartlett

Aprox. Qui-quadrado 208,856

df 10

Sig. ,000

Figura 4 Resultados da Estatística KMO e do Teste de Esfericidade de Bartlett.

Assim, a partir da Figura 4 pode-se verificar que nesse exemplo o valor da estatística

KMO (0,559) indica a adequação da amostra a análise fatorial.

O nível de significância do teste de esfericidade de Bartlett (p = 0;00) conduz a

rejeição da hipótese de a matriz de correlações ser a matriz identidade.

4 – Matriz Anti-imagem

Matrizes anti-imagem

Esgoto Lixo Água Alfabetização Energia

Covariância anti-imagem Esgoto ,533 -,184 -,205 -,158 ,287

Lixo -,184 ,487 ,071 -,165 -,258

Água -,205 ,071 ,752 -,120 -,148

Alfabetização -,158 -,165 -,120 ,553 -,099

Energia ,287 -,258 -,148 -,099 ,520

Correlação anti-imagem Esgoto ,434a -,362 -,325 -,291 ,546

Lixo -,362 ,597a ,118 -,318 -,514

Água -,325 ,118 ,651a -,186 -,237

Alfabetização -,291 -,318 -,186 ,752a -,184

Energia ,546 -,514 -,237 -,184 ,406a

a. Medidas de adequação de amostragem (MSA)

Figura 4 Matriz Anti-imagem.

Na matriz anti-imagem os valores da diagonal principal representam uma medida de

adequação dos dados à análise fatorial, conhecida por Medida de Adequação da

Amostra (MSA), para cada variável em análise. Caso algum valor esteja abaixo de

0,5, tal fato indica que está variável específica pode não se ajustar à estrutura

definida pelas outras variáveis e, portanto, merece eventualmente ser eliminada.

Com base na Figura 4, pode-se observar que o MSA é superior a 0,50 para Lixo,

água e alfabetização.

5 - Comunalidades – Variância total explicada pelos fatores

Figura 5 Comunalidades.

A Figura 5 apresenta as comunalidades, sendo está representada pela

variância total explicada pelos fatores em cada variável. As comunalidades iniciais

são iguais a 1 e, após a extração, variam entre 0 e 1, sendo mais próximas de 0

quando os fatores comuns explicam baixa ou nenhuma variância da variável, e 1

quando toda variância é explicada por todos os fatores.

Na Figura 5 observe que as variáveis Esgoto, Lixo, Alfabetização e Energia

possuem forte correlação com os fatores retidos, e a variável água tem pouca

importância, pois explica menos de 0,5 da variância total, conforme mostra a coluna

Extraction.

Comunalidades

Inicial Extração

Esgoto 1,000 ,846

Lixo 1,000 ,716

Água 1,000 ,458

Alfabetização 1,000 ,705

Energia 1,000 ,884

Método de Extração: Análise de Componente Principal.

6 – Números de Fatores Retidos - Critério de Kaiser = autovalor acima de

1,000

Figura 6

O critério da raiz latente (critério de Kaiser) escolhe o número de fatores a reter, em

função do número de autovalores acima de 1. Os autovalores (eigenvalues) para

cada fator, bem como os respectivos percentuais de variância explicada, são

apresentados na Figura 6. Com base na regra de retenção de fatores com valores

superior a 1, foi retido dois fatores que consegue explicar 72,183% da variância dos

dados originais.

Variância total explicada

Component

e

Valores próprios iniciais

Somas de extração de

carregamentos ao quadrado

Somas rotativas de carregamentos ao

quadrado

Total

% de

variância

%

cumulativa Total

% de

variância % cumulativa Total

% de

variância % cumulativa

1 2,337 46,750 46,750 2,337 46,750 46,750 1,899 37,986 37,986

2 1,272 25,433 72,183 1,272 25,433 72,183 1,710 34,197 72,183

3 ,730 14,601 86,784

4 ,408 8,164 94,948

5 ,253 5,052 100,000

Método de Extração: Análise de Componente Principal.

Variância total explicada

7 – Correlação entre as variáveis e os fatores retidos

Matriz de componentea

Componente

1 2

Esgoto ,561 -,729

Lixo ,810 ,242

Água ,630 -,248

Alfabetização ,839 -,044

Energia ,515 ,786

Método de Extração: Análise de

Componente Principal.

a. 2 componentes extraídos.

Figura 7

A matriz de componentes (Figura 7) apresenta as cargas (loading) que correlacionam

as variáveis com os fatores antes da rotação, ou seja, permite verificar qual fator melhor

explica cada uma das variáveis.

Após verificar quais variáveis estão correlacionadas com os fatores, deve-se dar nome

a cada fator, não sendo, por vezes, tão fácil a nomeação dos fatores, principalmente quando o

pesquisador possui uma base de dados com um número elevado de variáveis que extraem um

pequeno número de fatores.

8 – Escrever o fator

Matriz de componente rotativaa

Componente

1 2

Esgoto ,898 -,199

Lixo ,467 ,706

Água ,642 ,213

Alfabetização ,671 ,504

Energia -,109 ,934

Método de Extração: Análise de

Componente Principal.

Método de Rotação: Varimax com

Normalização de Kaiser.

a. Rotação convergida em 3 iterações.

Fator1= 0,898xEsgoto + 0,467xLixo + 0,642xágua + 0,671xAlfabetização – 0,109xEnergia

Fator2= -0,199xEsgoto+0,706xLixo + 0,213xágua + 0,504xAlfabetização + 0,934xEnergia

Bibliografia: APLICAÇÕES DE ALGUMAS TÉCNICAS MULTIVARIADAS (Componentes Principais, Variáveis

Canônicas e Correlações Canônicas) Prof. Agostinho Lopes de Souza – DEF/UFV Introdução à analise fatorial e análise de componentes principais – Carlos Colares LORENA; Vicini - Análise multivariada da teoria à prática / Orientador Adriano Mendonça Souza. - Santa Maria : UFSM, CCNE, , 2005. Prof. Edson Marcos Leal Soares Ramos, Dr., Profa. Vanessa Mayara Souza Pamplona, M.Sc. - Análise Multivariada de Dados FERREIRA, C. M. de C. Métodos de regionalização. In: HADDAD, P. R. (org.) Economia Regional: teorias e métodos de análise. Fortaleza: BNB, ETENE, 1989. HAIR, Joseph F. Jr.; ANDERSON, Rolph E.; TATHAN, Ronald L.; BLACK, William C; Análise Multivariada de dados. Tradução Adonai Schlup Sant’Anna e Anselmo Chaves Neto. 5. ed. Porto Alegre: Bookman, 2005. PEREIRA, Júlio César Rodrigues. Análise de Dados Qualitativos: Estratégias Metodológicas para as Ciências da Saúde, Humanas e Sociais. São Paulo: EDUSP, 2001. BELFIORE, P. P. ; FÁVERO, L. P. L. ; ANGELO, C. F. . Aplicação de técnicas estatísticas multivariadas em empresas de operação logística no Brasil em função de indicadores econômico-financeiros. REAd. Revista Eletrônica de Administração, v. 12, p. 1-22, 2006. NORONHA VIANA, Adriana Backxx. Estatística Aplicada à Administração: Análise do uso em pesquisas na área e construção de ambiente virtual de ensino-aprendizagem. 2005. 218 f. Tese de Livre docência – Faculdade de Economia, Administração e Contabilidade de Ribeirão Preto, Universidade de São Paulo, Ribeirão Preto, 2005.