ANÁLISE DE CORRESPONDÊNCIAS (ASSOCIAÇÕES) · •A Análise de Correspondências Múltiplas...

Preview:

Citation preview

1

ANÁLISE DE CORRESPONDÊNCIAS(ASSOCIAÇÕES)

1

• A análise de componentes principais ou análise fatorial exigem dados mensurados em escala numérica contínua e não é apropriada para dados nominais, tais como contagem de números de diversos tipos de fósseis em um nível estratigráfico ou número de fraturas com diferentes orientações num maciço rochoso.

• Nesses casos, em que os dados são agrupados em categorias, a Análise de Correspondências permite estudar a associação entre variáveis qualitativas.

• Análise de Correspondências e Análise de Correspondências Múltiplas.

2

A matriz original de dados é constituída por “p” linhas (amostras) e “q” colunas (variáveis); os elementos, xij, da matriz são contagens

Na tabela de contingências os valores originais são transformados de modo a poder ser interpretados como probabilidades condicionais.

Por causa da natureza dessa transformação as relações entre colunas e linhas da tabela transformada são as mesmas que aquelas da matriz original da dados.

3

Isso significa que as soluções, tanto entre amostras como entre variáveis, são equivalentes e, desse modo, o produto final mostra num espaço bidimensional, definido pelos dois mais importantes eixos de variabilidade, a distribuição simultânea tanto das amostras como das variáveis.

Tal resultado gráfico mostra a correspondência (associação) entre amostras e variáveis.

4

•Medir a associação entre duas variáveis qualitativas é complexa a exigir primeiro a transformação dos dados; não é possível calcular um coeficiente de correlação para valores qualitativos, como no caso de variáveis quantitativas.

•A transformação consiste em recodificar duas variáveis qualitativas V1 e V2 em duas tabelas disjuntivas Z1 e Z2 .

•Para cada categoria de uma variável, há uma coluna na respectiva tabela disjuntiva. Cada vez que a categoria c da variável V1 ocorre para uma observação i, o valor da Z1(i, c) é definido como 1(um) e a mesma regra é aplicada para a variável V2.

•Os outros valores de Z1 e Z2 são definidos como 0(zero).

•A generalização desta idéia para mais de duas variáveis é conhecida como Análise de Correspondências Múltiplas.

•Quando há apenas duas variáveis, é suficiente examinar a tabela de contingência das duas variáveis, que é a tabela Z1'Z2 (onde ‘ indica matriz transposta).

5

•A distância pelo qui-quadrado tem sido sugerida para medir a distância entre as duas categorias.

•Para representar a distância entre duas categorias não é necessário o uso das tabelas disjuntivas X1 e X2. É suficiente iniciar a partir da tabela de contingência que algebricamente corresponde ao produto de X1'X2 .

6

2

Tabela de contingências (p x q)

1 2 … q total

1 N11 N12 … N1q N1.

2 N21 N22 … N2q N2.

… … … … … ׃

p Np1 Np2 … Npq Np.

total N.1 N.2 … N.q N.. = N

Variável X

Variável Y

7

1 2 … q total

1 N11 N12 … N1q N1.

2 N21 N22 … N2q N2.

… … … … … ׃

p Np1 Np2 … Npq Np.

total N.1 N.2 … N.q N.. = N

0 1 2 >2 total

<200 15 27 50 43 135

200-500 25 37 12 8 82

>500 8 13 9 10 40

total 48 77 71 61 257

Tabela de contingências

Número de filhos (variáveis)

Renda familiar

(amostras,

casos)

8

039,0035,0051,0031,0

031,0047,0144,0097,0

167,0195,0105,0058,0

P 4,3

Tabela de frequências (pij = nij/N)

1 2 … q total

1 N11 N12 … N1q N1.

2 N21 N22 … N2q N2.

… … … … … ׃

p Np1 Np2 … Npq Np.

total N.1 N.2 … N.q N.. = N

0 1 2 >2 total

<200 15 27 50 43 135

200-500 25 37 12 8 82

>500 8 13 9 10 40

total 48 77 71 61 257

15/257 = 0,058 9

156,000

0319,00

00525,0

PL

1 2 … q total

1 N11 N12 … N1q N1.

2 N21 N22 … N2q N2.

… … … … … ׃

p Np1 Np2 … Npq Np.

total N.1 N.2 … N.q N.. = N

0 1 2 >2 total

<200 15 27 50 43 135

200-500 25 37 12 8 82

>500 8 13 9 10 40

total 48 77 71 61 257

Matriz de perfil de linhas: Pi,j=(n1.//N, n2./N...np./N)

135/257 = 0,52510

237,0000

0276,000

00299,00

000187,0

PC

1 2 … q total

1 N11 N12 … N1q N1.

2 N21 N22 … N2q N2.

… … … … … ׃

p Np1 Np2 … Npq Np.

total N.1 N.2 … N.q N.. = N

0 1 2 >2 total

<200 15 27 50 43 135

200-500 25 37 12 8 82

>500 8 13 9 10 40

total 48 77 71 61 257

Matriz de perfil de colunas: Pi,j=(n.1 /N, n.2/N...n.q/N)

48/257 = 0,187 11 12

3

Análise de Correspondência

>2F

2F

1F

0F

$>500

$200-500$<200

-0.1

-0.02

0.06

-0.48 -0.4 -0.32 -0.24 -0.16 -0.08 0 0.08 0.16 0.24 0.32 0.4 0.48 0.56

Colunas Linhas

1 2 … q total

1 N11 N12 … N1q N1.

2 N21 N22 … N2q N2.

… … … … … ׃

p Np1 Np2 … Npq Np.

total N.1 N.2 … N.q N.. = N

0 1 2 >2 total

<200 15 27 50 43 135

200-500 25 37 12 8 82

>500 8 13 9 10 40

total 48 77 71 61 257

13

•Inércia é uma medida, inspirada na Física, freqüentemente utilizada em Análise de Correspondências.•A inércia de um conjunto de pontos é a média ponderada das distâncias ao quadrado ao centro de gravidade. •No caso específico, a inércia total do conjunto de pontos (um ponto corresponde a uma categoria) pode ser escrita como:

1m

1i

2m

1j

2m

1j

1m

1iijj.ij.i

2

j..i

2

2

j..iij

22 nnenncom,

n

nnn

nn

n

n

n

χφ

.n é a soma de freqüencias na tabela de contingências; desse modo a inércia é proporcional à estatística qui-quadrado de Pearson, calculada a partir da tabela de contingência

•O objetivo da Análise de Correspondências é o de representar o máximo possível da inércia no primeiro eixo principal, a inércia residual sobre o segundo eixo principal e assim por diante até que toda a inércia esteja representada no espaço dos eixos principais.

14

•A Análise de Correspondências Múltiplas (ACM) permite estudar a associação entre duas ou mais variáveis qualitativas. Equivale à Analise de Componentes Principais para variáveis quantitativas.

•O produto final são gráficos onde é possível visualizar simultaneamente as distâncias entre as categorias das variáveis qualitativas e entre as observações.

•Também pode ser entendida como uma generalização da Análise de Correspondências para o caso em que existam mais de duas variáveis.

•Embora seja possível resumir numa tabela, com n observações e p (p> 2) variáveis qualitativas, numa estrutura próxima a uma tabela de contingência, é mais comum a ACM iniciar a partir da tabela original de observações e variáveis.

•A geração da tabela disjuntiva é o passo preliminar para o cáculo da ACM.

15

•As p variáveis qualitativas são recodificadas em p tabelas disjuntivas Z1, Z2, ..., ZP, compostas por um número de colunas idêntico ao de categorias em cada uma das variáveis.

•Cada vez que uma categoria c da j’ésima variável corresponder a uma observação i, o valor de ZJ (i,c) é definido como 1(um). Os outros valores Zj serão definidos como 0(zero). As p tabelas disjuntivas são concatenadas em uma tabela disjuntiva plena.

•Uma série de transformações permite a computação das coordenadas das categorias das variáveis qualitativas, bem como as coordenadas das observações em uma representação espacial ótima para um critério baseado na inércia.

•No caso da ACM a inércia total é igual à média do número de categorias menos um.

•A inércia depende fundamentalmente do grau de associação entre as categorias. 16

Avaliação de desempenho em uma oficina de automóveis

Satisfação: SIM – NÃO

Solução do problema: SIM – NÃO – DÚVIDA

Qualidade da recepção: 1-2-3-4-5

O preço cobrado esta de acordo com a razão custo/benefício: SIM – NÃO

Retorno à oficina: SIM – NÃO - DÚVIDA

17

Satisfeito Consertado Recepção Q/Preço Retorno

C01 Sim Sim 5 Sim Sim

C02 Sim Sim 4 Sim Dúvida

C03 Sim Sim 4 Sim Dúvida

C04 Sim Dúvida 4 Sim Dúvida

C05 Sim Dúvida 4 Sim Sim

C06 Sim Dúvida 4 Sim Sim

C07 Sim Dúvida 5 Sim Não

C08 Sim Dúvida 3 Sim Não

C09 Sim Sim 2 Sim Não

C10 Sim Sim 5 Não Dúvida

C11 Sim Sim 4 Não Dúvida

C12 Sim Sim 3 Não Sim

C13 Sim Sim 1 Não Não

C14 Sim Sim 1 Não Não

C15 Sim Dúvida 3 Não Não

C16 Não Não 3 Não Dúvida

C17 Não Sim 4 Não Dúvida

C18 Não Não 5 Sim Dúvida

C19 Não Sim 3 Não Dúvida

C20 Não Sim 3 Não Dúvida

C21 Não Não 3 Não Dúvida

C22 Não Não 1 Não Dúvida

C23 Não Sim 2 Não Dúvida

C24 Não Sim 2 Não Não

C25 Não Não 1 Não Não

C26 Não Sim 1 Não Não

C27 Não Sim 1 Não Não

C28 Não Dúvida 2 Não Não

18

4

19

“Marketing” e tomada de decisões: clientes e modelos de carros

Modelo A Modelo B Modelo C Modelo D

Fem-1-S 58 36 24 10

Fem-2-S 54 33 49 15

Fem-3-S 36 23 55 24

Fem-1-C 45 20 25 8

Fem-2-C 24 12 45 12

Fem-3-C 45 15 23 12

Mas-1-S 23 61 15 14

Mas-2-S 21 59 16 20

Mas-3-S 15 45 21 13

Mas-1-C 12 50 32 14

Mas-2-C 21 48 21 18

Mas-3-C 14 49 25 15

20

Análise de Correspondência

Modelo D

Modelo C

Modelo B

Modelo A

Mas-3-C

Mas-2-C

Mas-1-C

Mas-3-S

Mas-2-S

Mas-1-S Fem-3-C

Fem-2-C

Fem-1-C

Fem-3-S

Fem-2-S

Fem-1-S

-0.45

-0.35

-0.25

-0.15

-0.05

0.05

0.15

0.25

0.35

-0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6

Eixo I (70.69 %)

Eix

o II (26.4

4 %

)

Colunas Linhas21

Epidemiologia de doenças transmissíveis

Endemia de malária em Porto Velho (RO): um estudo baseado na análise estatística espacial de dados multivariados.

22

23

BAIRROS Criadouros Drenagens Áreas

Alagadas

Florestas

Remanescentes Nascentes Riscos

C1 >2 SIM SIM SIM SIM 2

C2 1 SIM SIM SIM SIM 1

C3 0 SIM SIM NÃO SIM 2

C4 2 SIM SIM NÃO SIM 2

C5 1 SIM NÃO SIM SIM 2

C6 0 NÃO NÃO SIM NÃO 2

C7 1 SIM SIM SIM SIM 2

C8 0 NÃO NÃO NÃO NÃO 1

C9 1 SIM NÃO NÃO SIM 1

C10 0 SIM SIM NÃO NÃO 2

C11 >2 SIM SIM SIM SIM 2

C12 0 NÃO NÃO NÃO NÃO 1

C13 1 SIM SIM NÃO SIM 1

C14 2 SIM NÃO SIM SIM 1

C15 >2 SIM SIM SIM SIM 3

C16 1 SIM SIM NÃO SIM 1

C17 0 SIM SIM NÃO SIM 3

C18 0 SIM SIM NÃO NÃO 2

C19 0 NÃO NÃO NÃO SIM 1

C20 0 SIM NÃO NÃO SIM 1

C21 0 SIM NÃO SIM SIM 2

C22 0 SIM NÃO NÃO NÃO 1

C23 0 NÃO SIM SIM NÃO 2

C24 1 SIM SIM SIM SIM 1

C25 1 SIM SIM SIM NÃO 1

C26 1 SIM SIM SIM SIM 1

C27 0 NÃO NÃO NÃO SIM 1

C28 0 SIM NÃO NÃO SIM 2

C29 >2 SIM SIM SIM SIM 3

C30 >2 SIM SIM NÃO NÃO 1

C31 0 NÃO NÃO NÃO NÃO 2

C32 0 NÃO SIM NÃO NÃO 1

C33 2 SIM SIM NÃO SIM 1

C34 0 SIM NÃO NÃO NÃO 1

C35 2 NÃO NÃO NÃO NÃO 2

C36 1 SIM SIM NÃO NÃO 2

C37 0 SIM SIM SIM SIM 1

C38 0 NÃO NÃO NÃO NÃO 1

C39 0 SIM SIM NÃO NÃO 2

C40 2 SIM SIM SIM SIM 3

C41 0 NÃO NÃO NÃO NÃO 1

C42 2 SIM SIM SIM SIM 3

24

5

25

Em seguida essas informações nominais foram transformadas , para

notação binária, com a finalidade de fornecer uma tabela disjuntiva, segundo

os critérios:

a) número de criadouros: níveis; 0, 1 , 2 e mais de 2;

b) drenagens: presença (1) ou ausência (0);

c) áreas alagadas: presença (1) ou ausência (0);

d) floresta remanescente: presença (1) ou ausência (0);

e) nascentes: presença (1) ou ausência (0);

f) risco de contrair a doença, segundo o Índice P arasitário Anual (IPA):

sem risco IPA = 0 (nível 0); baixo risco 0,1 a 9,9 (nível 1); médio risco 10

a 49,9 (nível 2); alto risco IPA maior ou igual a 50 (nível 3).

Criadouros Drenagens Áreas

alagadas

Florestas

Remanescentes Nascentes Riscos

BAIRROS

0 1 2 >2 Sim Não Sim Não Sim Não Sim Não 0 1 2 3

1 0 0 0 1 1 0 1 0 1 0 1 0 0 0 1 0

2 0 1 0 0 1 0 1 0 0 1 1 0 0 1 0 0

3 1 0 0 0 1 0 1 0 1 0 1 0 0 0 1 0

4 0 0 1 0 1 0 0 1 0 1 1 0 0 0 1 0

5 0 1 0 0 1 0 1 0 1 0 1 0 0 0 1 0

6 1 0 0 0 1 0 0 1 1 0 1 0 0 0 1 0

7 0 1 0 0 1 0 1 0 1 0 1 0 0 0 1 0

8 1 0 0 0 0 1 1 0 0 1 0 1 0 1 0 0

9 0 1 0 0 1 0 0 1 0 1 1 0 0 1 0 0

10 1 0 0 0 1 0 1 0 1 0 0 1 0 0 1 0

11 0 0 0 1 1 0 1 0 1 0 1 0 0 0 1 0

12 1 0 0 0 0 1 1 0 0 1 0 1 0 1 0 0

13 0 1 0 0 1 0 0 1 0 1 1 0 0 1 0 0

14 0 0 1 0 1 0 1 0 1 0 1 0 0 1 0 0

15 0 0 0 1 1 0 1 0 1 0 1 0 0 0 0 1

16 0 1 0 0 1 0 1 0 0 1 1 0 0 1 0 0

17 1 0 0 0 1 0 0 1 0 1 1 0 0 0 0 1

18 1 0 0 0 1 0 1 0 0 1 1 0 0 0 1 0

19 1 0 0 0 0 1 1 0 0 1 1 0 0 1 0 0

20 1 0 0 0 1 0 1 0 0 1 1 0 0 1 0 0

21 1 0 0 0 1 0 0 1 1 0 1 0 0 0 1 0

22 1 0 0 0 1 0 0 1 0 1 0 1 0 1 0 0

23 1 0 0 0 0 1 1 0 1 0 0 1 0 0 1 0

24 0 1 0 0 1 0 1 0 1 0 1 0 0 1 0 0

25 0 1 0 0 1 0 1 0 1 0 1 0 0 1 0 0

26 0 1 0 0 1 0 1 0 1 0 1 0 0 1 0 0

27 1 0 0 0 0 1 1 0 0 1 1 0 0 1 0 0

28 1 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0

29 0 0 0 1 1 0 1 0 1 0 1 0 0 0 0 1

30 0 0 0 1 1 0 1 0 0 1 0 1 0 1 0 0

31 1 0 0 0 0 1 0 1 0 1 0 1 0 0 1 0

32 1 0 0 0 0 1 1 0 0 1 0 1 0 1 0 0

33 0 0 1 0 1 0 1 0 1 0 1 0 0 1 0 0

34 1 0 0 0 0 1 0 1 0 1 0 1 0 1 0 0

35 0 0 1 0 0 1 1 0 0 1 0 1 0 0 1 0

36 0 1 0 0 1 0 1 0 0 1 0 1 0 0 1 0

37 1 0 0 0 1 0 0 1 1 0 1 0 0 1 0 0

38 1 0 0 0 1 0 1 0 1 0 1 0 0 1 0 0

26

27 28

Análise de Correspondências:Levantamento de solos efetuado pelo “Swiss Federal Institute ofTechnology” em Lausanne/Suíça, tendo sido coletado um total de 100 amostras

30

Na matriz de dados apresentada no exercício 02 constam valores para Cd, Cu e Pb.

6

Os limites máximos considerados toleráveis para o consumo humano são:

Cd = 0.8; Cu = 50; Pb = 50

Tendo em vista esses valores, preliminarmente, efetuar uma transformação para as variáveis Cd, Cu e Pb da seguinte maneira:Se Cdi ≥ 0.8, substituir pelo valor 1 (um); caso contrário pelo valor 0 (zero)Se Cu ≥ 50, substituir pelo valor 1 (um); caso contrário pelo valor 0 (zero)Se Pb ≥ 50, substituir pelo valor 1 (um); caso contrário pelo valor 0 (zero)

31 32

Para a transformação binária usar o aplicativo Excel®|função (fx)|Lógica|SE, da seguinte maneira:

Para cádmio: =SE(x,y<=0.8;0;1)Para cobre: =SE(x,y<=50;0;1)Para chumbo =SE(x,y<=50;0;1)

De posse dessa nova tabela, com valores binários, efetuar análise de correspondências múltiplas para confrontar os resultados das 3 variáveis geoquímicas tanto com a litologia como com o uso da terra.

33 34

35 36

7

37

Concentrações de Cd e Pb

acima dos limites toleráveis estão associadas à lavoura.

Associação entre pradaria e

terrenos J3; entre floresta e terrenos J2.

explicação

38

39 40

41

Dados: metais pesados (ppm) provenientes de diversas profundidades (cm) de uma sondagem no leito de uma laguna

8

43

Tendência do teor em metais pesados com o aumento da profundidade?

Comportamento das variáveis é o mesmo com o aumento da profundidade?