Introdução à Análise Exploratória de Dados Multivariados · Publicações Matemáticas Introdução à Análise Exploratória de Dados Multivariados Pedro J. Fernandez Provokers

Introdução à Análise Exploratória de Dados Multivariados

Publicações Matemáticas

Introdução à Análise Exploratória de Dados Multivariados

Pedro J. Fernandez Provokers do Brasil

Victor Yohai

Universidad de Buenos Aires

Copyright 2014 by Pedro J. Fernandez e Victor Yohai

Impresso no Brasil / Printed in Brazil

Capa: Noni Geiger / Sérgio R. Vaz

Publicações Matemáticas • Introdução à Topologia Diferencial – Elon Lages Lima

• Criptografia, Números Primos e Algoritmos – Manoel Lemos

• Introdução à Economia Dinâmica e Mercados Incompletos – Aloísio Araújo

• Conjuntos de Cantor, Dinâmica e Aritmética – Carlos Gustavo Moreira

• Introdução à Economia Matemática – Aloísio Araújo

• The Index Formula for Dirac Operators: an Introduction – Levi Lopes de Lima

• Introduction to Symplectic and Hamiltonian Geometry – Ana Cannas da Silva

• Primos de Mersenne (e outros primos muito grandes) – Carlos Gustavo T. A. Moreira e

Nicolau Saldanha

• The Contact Process on Graphs – Márcia Salzano

• Introduction to Toric Varieties – Jean-Paul Brasselet

• Birational Geometry of Foliations – Marco Brunella

• Teoria dos Corpos – Otto Endler

• Introdução à Dinâmica de Aplicações do Tipo Twist – Clodoaldo G. Ragazzo, Mário J.

Dias Carneiro e Salvador Addas Zanata

• Elementos de Estatística Computacional usando Plataformas de Software Livre/Gratuito

– Alejandro C. Frery e Francisco Cribari-Neto

• Uma Introdução a Soluções de Viscosidade para Equações de Hamilton-Jacobi – Helena

J. Nussenzveig Lopes, Milton C. Lopes Filho

• Elements of Analytic Hypoellipticity – Nicholas Hanges

• Variedades Diferenciáveis – Elon Lages Lima

• A Student's Guide to Symplectic Spaces, Grassmannians and Maslov Index – Paolo

Piccione e Daniel Victor Tausk

• Métodos Topológicos en el Análisis no Lineal – Pablo Amster

• Tópicos em Combinatória Contemporânea – Carlos Gustavo Moreira e Yoshiharu

Kohayakawa

• O Teorema de Poncelet – Marcos Sebastiani

• Aspectos Ergódicos da Teoria dos Números – Alexander Arbieto, Carlos Matheus e C.

G. Moreira

• A Survey on Hiperbolicity of Projective Hypersurfaces – Simone Diverio e Erwan

Rousseau

• Algebraic Stacks and Moduli of Vector Bundles – Frank Neumann

• O Teorema de Sard e suas Aplicações – Edson Durão Júdice

• Holonomy Groups in Riemannian Geometry – Andrew Clark e Bianca Santoro

• Linear ODEs:an Algebraic Perspective - Letterio Gatto

IMPA - [email protected]

http://www.impa.br

ISBN: 978-85-244-0393-4

“RAIZ”2014/10/28page 1

✐

✐

✐

✐

✐

✐

✐

✐

INDICE

Capıtulo 1 – Revisao de Algebra Linear . . . . . . . . . . . . . . . 5

Capıtulo 2 – Analise de Componentes Principais . . . . . . . . . . 24

Capıtulo 3 – Analise de Correspondencia . . . . . . . . . . . . . . 60

Capıtulo 4 – Escalonamento Multivariado . . . . . . . . . . . . . 109

Referencias – . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

“RAIZ”2014/10/28page 3

✐

✐

✐

✐

✐

✐

✐

✐

INTRODUCAO (1980)

Nesta monografia estao incluıdas algumas tecnicas de Analise de Dadosespecialmente uteis para a analise de grandes conjuntos de dados. Estastecnicas sao de natureza exploratoria e nao confirmatoria. Todas elas saobasicamente tecnicas dependentes de um uso adequado de resultados deAlgebra Linear. No Capıtulo 1 apresentamos um resumo dos principaisresultados de Algebra Linear que utilizaremos. O Capıtulo 2 trata decomponentes principais. A versao que apresentamos e especialmenteadequada para ser aplicada posteriormente nos Capıtulos 3 e 4 nos quaisas tecnicas de Analise de Correspondencias e Escalamento Multivariadosao apresentadas. Exemplos de aplicacao sao incluıdos em todos oscapıtulos.

Rio de Janeiro, junho/1980

“RAIZ”2014/10/28page 4

✐

✐

✐

✐

✐

✐

✐

✐

Introducao a Edicao Digital

Esta versao tem como objetivo fazer disponıvel a versao original daMonografia sobre algumas Tecnicas de Analise de Dados cuja edicaooriginal, publicada em 1980 por ocasiao do Coloquio de Matematica,esta esgotada .As partes puramente matematicas e estatısticas foram preservadas deforma identica a versao original. Naturalmente com o passar dos anos osoftware disponivel para analizar os dados tem tido um desenvolvimentosurprendente.Para todos os exemplos temos usado R Statistical Software.R e simulta-neamente uma linguagem de programacao e um poderoso e importanteconjunto de software “open source”.R pode ser baixado e instalado visitando o site http://www.r-project.orgTemos trocado os exemplos originais por outros mais relevantes aos pro-blemas atuais e analisados eles usando diferentes pacotes disponıveis emR.Os dados fazem parte das bases de dados de diferentes pacotes. Isto faci-lita a eventual reproducao dos resultados e evita o uso de bases de dadosque nao podem ser disponibilizadas devido a sua confidencialidade.

Rio de Janeiro, Janeiro 2014

“RAIZ”2014/10/28page 5

✐

✐

✐

✐

✐

✐

✐

✐

Capıtulo 1

Revisao de Algebra Linear

O presente capıtulo tem como objetivo introduzir a notacao basicae enunciar os principais resultados de algebra linear a serem utilizadosnos proximos capıtulos. So serao incluıdas as demonstracoes daquelesresultados que sao menos conhecidos ou que pela sua frequente aparicaonos capıtulos seguintes merecam um destaque ou enfase especial.

O leitor deve estar familiarizado com a nocao de espaco vetorial,subespaco, dependencia e independencia linear de vetores, bases, trans-formacoes lineares e sua representacao matricial fixadas as bases, mu-danca de base, sistemas lineares, autovalores e autovetores. Strang(1988), Lima (1998) podem ser consultados com proveito para escla-recimento ou aprofundamento desses pontos.Neste capıtulo introduzimos uma versao essencialmente matricial dosmesmos.

Passamos agora a apresentacao concisa dos principais temas que saoobjeto deste capıtulo.

Se A indica uma matriz, A′ indicara a sua transposta e caso A sejaquadrada, |A| indicara o determinante de A. Se |A| 6= 0, A−1 indicara amatriz inversa da matriz A. Se A tem elementos aij usaremos a notacaoA = (aij) ou tambem A(i, j) = ai,j para indicar que o elemento (i, j) deA e aij .

Se x ∈ Rm tem componentes{xi}i=1,...,m

indicaremos com ||x|| =√n∑

i=1x2i a norma de x (ou comprimento de x).

5

“RAIZ”2014/10/28page 6

✐

✐

✐

✐

✐

✐

✐

✐

6 Revisao de Algebra Linear Cap.1

Sejam A e B matrizes particionadas em blocos

A =

A11

∣∣∣∣ A12

. . . . . . . . . . . .

A21

∣∣∣∣ A22

B =

B11

∣∣∣∣ B12

. . . . . . . . . . . .

B21

∣∣∣∣ B22

onde Aij e Bij representam matrizes para todo i e j.

As afirmacoes (ii) e (iii) da Proposicao 1 abaixo sao validas sempreque as operacoes indicadas sejam compatıveis com as dimensoes dasmatrizes.

Proposicao 1.

(i) A′ =

A11

∣∣∣∣ A12

. . . . . . . . . . . .

A21

∣∣∣∣ A22

′

=

A′11

∣∣∣∣ A′21

. . . . . . . . . . . .

A′12

∣∣∣∣ A′22

(ii)

AB =

A11

∣∣∣∣ A12

. . . . . . . . . . . .

A21

∣∣∣∣ A22

B11

∣∣∣∣ B12

. . . . . . . . . . . .

B21

∣∣∣∣ B22

=

=

A11B11 +A12B21

∣∣∣∣ A11B12 +A12B22

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

A21B11 +A22B21

∣∣∣∣ A21B12 +A22B22

“RAIZ”2014/10/28page 7

✐

✐

✐

✐

✐

✐

✐

✐

Cap.1 - Revisao de Algebra Linear 7

(iii)

A+B =

A11

∣∣∣∣ A12

. . . . . . . . . . . .

A21

∣∣∣∣ A22

+

B11

∣∣∣∣ B12

. . . . . . . . . . . .

B21

∣∣∣∣ B22

=

A11 +B11

∣∣∣∣ A12 +B12

. . . . . . . . . . . . . . . . . . . . . . . .

A21 +B21

∣∣∣∣ A22 +B22

Seja A uma matriz quadrada tal que

A =

A11

∣∣∣∣ A12

. . . . . . . . . . . .

A21

∣∣∣∣ A22

com A11 e A22 matrizes quadradas.

Proposicao 2.

(i) Se A =

A11

∣∣∣∣ 0

. . . . . . . . . . . .

A21

∣∣∣∣ A22

entao A = |A11| |A22|

(ii) Se |A22| 6= 0, entao |A| = |A22| |A11 −A12A−122 A21|

(iii) Se |A11| 6= 0, entao |A| = |A11| |A22 −A21A−111 A12|

Demonstracao:

(i) Procedemos por inducao na ordem de A. Se A e 2 × 2, A =(a11 0a21 a22

), temos que |A| = a11 a22 , que e o resultado procurado

para ordem 2.

“RAIZ”2014/10/28page 8

✐

✐

✐

✐

✐

✐

✐

✐


Suponhamos que o resultado e valido para matrizes de ordem menorou igual a n− 1. Seja A n×n. Temos pelo desenvolvimento de Laplacepela primeira linha que

|A| =n∑

j=1

a1j(−1)1+j A1j =

p∑

j=1

a1j(−1)1+j A1j

onde p e a ordem de A11 e A1j e o menor de A correspondente ao

elemento a1j . Agora A1j e um determinante (n − 1) × (n − 1). Porinducao temos

A1j = (menor de a1j em A11) · |A22|.

Portanto

|A| = |A22|p∑

j=1

a1j(−1)1+j (menor de a1j em A11) =

= |A22| |A11|.

A soma entre parenteses e igual a |A11| pelo desenvolvimento deLaplace.

∣∣∣∣∣∣

A11 A12

A21 A22

∣∣∣∣∣∣=

∣∣∣∣∣∣

A11 A12

A21 A22

∣∣∣∣∣∣

∣∣∣∣∣∣

I 0

−A−122 A21 I

∣∣∣∣∣∣=(ii)

=

∣∣∣∣∣∣

A11 A12

A21 A22

I 0

−A−122 A21 I

∣∣∣∣∣∣=

= |A22| |A11 −A−122 A−1

22 A21|.

A primeira e quarta igualdades utilizam a parte (i) da Proposicao 2.

(iii) O Argumento e igual ao desenvolvido para a parte (ii).

Lembremos que o traco de uma matriz quadrada A = (aij) e definidocomo a soma dos elementos contidos na diagonal de A. Ou seja

Tr(A) =n∑

i=1

aii .

“RAIZ”2014/10/28page 9

✐

✐

✐

✐

✐

✐

✐

✐


Seja A n×p, eB p×n duas matrizes. O traco tem a seguinte propriedadede demonstracao imediata.

Proposicao 3.

Tr(AB) = Tr(BA).

Mais geralmente

Tr(A1A2 . . . An) = Tr(AnA1A2 . . . An−1) = · · · = Tr(A2A3 . . . AnA1).

Duas situacoes de aplicacao frequente desta propriedade sao as se-guintes: Seja A (n× n) e x um vetor (n× 1). Entao

Tr(xx′) = Tr(x′x) = x′x

Tr(Axx′) = Tr(x′Ax) = x′Ax

Indicaremos com Rm o espaco euclidianom-dimensional. Se A e umamatriz m × m, A induz uma transformacao linear em Rm da seguinteforma natural

T (x) = Ax, x ∈ Rm x m× 1

Se ei = (0, . . . , 1, . . . , 0)′ indica o i-esimo vetor da base canonica de Rm

(o 1 esta na posicao i) temos que Tei = ai onde ai e a coluna i de

A e A =(a1

... · · · ... am). (Esta notacao que sera usada frequentemente,

descreve A como uma matriz particionada em m blocos de ordem m× 1correspondentes as m colunas de A). Como Tei = ai , a representacaode T na base canonica de Rm e precisamente A.

Definicao 1. Se existe λ real (λ ∈ R1) e x 6= 0, x ∈ Rm tal que Ax = λx,entao λ e chamado autovalor de A e x autovetor de A associado a λ.

Note-se que Ax = λx, e equivalente a (A − λI)x = 0. Como x 6=0, para que essa equacao tenha uma solucao nao trivial devemos ter|A − λI| = 0. |A − λI| e um polinomio em λ de grau m. Portanto osautovalores sao raızes da equacao de grau m |A− λI| = 0. Se a matrizA e simetrica, resulta que os autovalores sao reais. Temos ainda paramatrizes simetricas o seguinte resultado fundamental.

Teorema 1 (Teorema Espectral). Seja A uma matriz simetrica m×m.

“RAIZ”2014/10/28page 10

✐

✐

✐

✐

✐

✐

✐

✐


Existe uma matriz ortogonal U m×m tal que

U ′AU = Λ =

λ1

λ2 0. . .

0 λm

onde Λ e uma matriz diagonal. Se Ui indica a coluna i da matriz Utemos que AUi = λi Ui . Ou seja Ui e autovetor de A correspondente ao

autovalor λi .

Note-se que por ser U ortogonal temos que ||Ui|| = 1, i = 1, . . . ,me mais geralmene U ′

iUj = δij onde δij = 1 se i = j e 0 se i 6= j.

Trocando, caso seja necessario, as colunas de U sempre podemossupor que λ1 ≥ λ2 ≥ · · · ≥ λm .

Os valores λ que aparecem na matriz diagonal Λ, que sao os auto-valores de A e portanto da equacao |A− λI| = 0 aparecem tantas vezescomo e indicado pela sua multiplicidade.

Note-se tambem que U ′AU e a matriz correspondente a transformacaolinear determinada por A, na base ortonormal formada pelos autovetoresde A. A tese do Teorema 1 e que nessa base a transformacao e simplesde descrever, consistindo em uma homotetia ao longo de cada novo eixo.

As identidades

U ′AU = Λ

U ′U = I

podem ser escritas, utilizando os resultados de produto de matrizes emblocos, da seguinte forma

A = UΛU ′ =(U1

... · · · ...Um

)Λ

U ′1

. . ....

. . .U ′m

=m∑

i=1

λiUiU′i

I = UU ′ =(U1

... · · · ...Um

)

U ′1

. . ....

. . .U ′m

=m∑

i=1

UiU′i

“RAIZ”2014/10/28page 11

✐

✐

✐

✐

✐

✐

✐

✐


Como λi = U ′iAUi , se A fosse definida nao negativa (resp. definida

positiva) terıamos λi ≥ 0 (resp. λi > 0).

Como o posto de uma matriz (maximo numero de linhas ou co-lunas linearmente independentes) permanece inalterado com produtoscom matrizes nao singulares temos que o posto de A e igual ao posto deΛ que por sua vez e igual ao numero de autovalores diferentes de 0.

A seguinte proposicao e uma consequencia util do Teorema Espectral.

Proposicao 4. Seja A simetrica definida nao negativa. Entao

(i) Existe B tal que A = B′B.

(ii) Existe C tal que A = C2.

Se A e definida positiva, entao C e nao singular. C e chamada raiz

quadrade de A e e denotada por A1/2.

Demonstracao. (i) Seja A = UΛU ′. Indicaremos com Λ1/2 a ma-

triz diag(λ1/21 , . . . , λ

1/2m

)ou seja a matriz diagonal cujos elementos di-

agonais sao as raızes quadradas dos elementos de Λ. Temos entaoA = UΛ1/2 Λ1/2 U ′. Seja B = Λ1/2 U ′. Entao A = B′B. Se A e de-finida positiva todos os λi sao positivos e portanto Λ e nao singular oque implica B nao singular.

(ii) Temos que A = UΛ1/2 Λ1/2U ′ = UΛ1/2 U ′U Λ1/2U ′.

Chamando C = UΛ1/2U ′ temos A = C2.

Como na parte (i), se A e definida positiva Λ e portanto Λ1/2 sao naosingulares, o que implica que C e tambem nao singular.

Teorema 2 (Teorema Espectral Generalizado). Sejam A e B duas

matrizes simetricas m×m com B definida positiva. Existe uma matriz

U tal que

U ′AU = Λ =

λ1 0

. . .

0 λm

U ′BU = I

Os valores λ1, . . . , λm sao raızes da equacao |A− λB| = 0. Se Ui indica

a coluna i de U , Ui e autovetor de B−1A correspondente ao autovalor

“RAIZ”2014/10/28page 12

✐

✐

✐

✐

✐

✐

✐

✐


λi ou seja (B−1A)U = UΛ. Tambem os λi , 1 ≤ i ≤ m sao autovalores

da matriz AB−1 correspondentes aos autovetores Vi = AUi .

Demonstracao. Como B e definida positiva existe uma matriz naosingular T tal que B = T ′T . Temos que

|A− λB| = |A− λT ′T | = |T ′| |T ′−1AT−1 − λI| |T | = |T ′| |C − λI| |T |

onde C = T ′−1AT−1.

Portanto a equacao |A − λB| = 0 e equivalente a |C − λI| = 0.Como C e uma matriz simetrica existe pelo Teorema Espectral umamatriz ortogonal P tal que

P ′CP = Λ =

λ1 0

. . .

0 λm

P ′P = I

Os valores λ sao as raızes da equacao |C = λI| = 0 ou equivalentemente|A− λB| = 0. Substituindo-se C por T ′−1AT−1 temos

P ′T ′−1AT−1 P = Λ

P ′P = I

Seja U = T−1P . Temos entao TU = P e as equacoes acima transformam-se em

U ′AU = Λ

U ′T ′TU = U ′BU = I

Estas identidades podem ser escritas da forma

AU = U ′−1A

BU = U ′−1

Portanto AU = BUA e tambem (multiplicando por B−1) (B−1A)U =UΛ. Se Ui indica a coluna i de U temos que Ui e autovetor de B−1Acorrespondente ao autovalor λi . Tambem multiplicando a ultima ex-pressao por A temos (AB−1)(AU) = (AU)Λ. Portanto AUi e autovetorde AB−1 correspondente ao autovalor λi .

“RAIZ”2014/10/28page 13

✐

✐

✐

✐

✐

✐

✐

✐


Note-se que tambem podemos escrever

A = U ′−1 ΛU−1 = (U−1)′ ΛU−1

B = U ′−1 U−1 = (U−1)′ U−1

Portanto se Si indica a coluna i de (U−1)′ temos da mesma forma quepara o Teorema Espectral

A =m∑

i=1

λiSiS′i

B =

m∑

i=1

SiS′i

Se V e um espaco vetorial (todos os espacos vetoriais que utilizaremosserao reais) indicaremos com 〈·, ·〉 um produto interno ou seja uma formabilinear, simetrica e positiva. Todo produto interno pode ser represen-tado atraves de uma matriz simetrica e definida positiva. Ou seja existeuma matriz Σ simetrica e definida positiva tal que

〈x, y〉 = x′Σy.

Usaremos as vezes a notacao 〈·, ·〉Σ para indicar que o produto internoque estamos considerando esta determinado pela matriz Σ. Um produtointerno induz uma norma

||x|| =(x′Σx

)1/2.

As vezes usaremos a notacao ||x||Σ para enfatizar a dependencia sobreΣ. A seguinte desigualdade e bem conhecida.

Proposicao 5 (Desigualdade de Cauchy-Schwarz).

|〈x, y〉| ≤ ||x|| ||y||.

Com igualdade se e somente se x e y sao proporcionais.

Seja E ⊆ V um subespaco vetorial do espaco vetorial V . Seja Σ umamatriz simetrica definida positiva e a ∈ V . Entao existe a∗ ∈ E unicotal que realiza o

minb∈E

||a− b||Σ = ||a∗ − b||Σ

“RAIZ”2014/10/28page 14

✐

✐

✐

✐

✐

✐

✐

✐


a∗ e chamado projecao de a em E e denotada por PΣ(a,E) = a∗.A seguinte proposicao resume os principais fatos relacionados com aprojecao de um vetor num subespaco.

Proposicao 6. (i) PΣ(a,E) e uma transformacao linear idempotente.

(ii) Se E⊥ indica o conjunto dos vetores Σ-ortogonais a todos os vetoers

de E, resulta que E⊥ e subespaco e todo vetor a ∈ V escreve-se de forma

unica como soma de um vetor a∗ em E e outro vetor a∗∗ ∈ E⊥. Ou seja

a = a∗ + a∗∗, a∗ = PΣ(a,E) ∈ E, a∗∗ ∈ E⊥

(iii) ||a− a∗||2Σ = ||a||2Σ − ||a∗||2Σ(iv) ||a∗||2Σ ≤ ||a||2Σ(v) Seja {a1, . . . , ap} uma base Σ-ortonormal de E. Entao esta base

pode ser extendida a uma base {a1, . . . , ap, ap+1, . . . , an} Σ-ortonormal

do espaco vetorial V .

Temos tambem para todo a ∈ V

a =

n∑

i=1

〈a, ai〉Σ ai

a∗ =p∑

i=1

〈a, ai〉Σ ai

O seguinte teorema tera uma serie de importantes aplicacoes noscapıtulos seguintes.

Teorema 3 (Decomposicao em valores singulares). Seja Y uma matriz

n×m de posto r. Seja Σ1 uma matriz n×n simetrica definida positiva,

e Σ2 m×m outra matriz simetrica definida positiva. (Σ1 e Σ2 induzem

produtos internos em Rn e Rm respectivamente). Entao existem U n×ne V m×m tais que:

a) Os vetores coluna da matriz U , U1, . . . , Un , sao Σ1-ortonormais.

b) Os vetores coluna da matriz V , V1, . . . , Vm , sao Σ2-ortonormais.

“RAIZ”2014/10/28page 15

✐

✐

✐

✐

✐

✐

✐

✐


c) U ′Y V =

θ1 0

∣∣∣∣∣ 0

. . .

∣∣∣∣∣

0 θr

∣∣∣∣∣. . . . . . . . . . . . .0 0

onde θ1 ≥ θ2 ≥ · · · ≥ θr > 0.

Demonstracao. A matriz Y Σ−12 Y ′ e uma matriz n× n simetrica, de-

finida nao negativa e de posto r. Pelo Teorema Espectral (generalizado)existe U n× n tal que

U ′ Y Σ−12 Y ′ U =

θ21 0

. . .

0 θ2n

U ′Σ1 U = I

onde θ21 ≥ θ22 ≥ · · · ≥ θ2r > θ2r+1 = · · · = θ2n = 0.

(Note-se que os autovalores de Y Σ−12 Y ′ sao nao negativos porque esta

matriz e definida nao negativa). Se Ui indica a coluna i de U sabemostambem que (

Σ−11 Y Σ−1

2 Y ′)Ui = θ2i Ui

ou seja Ui e autovetor de Σ−11 Y Σ−1

2 Y ′ correspondente ao autovetor θ2i .Para i = 1, 2, . . . , r seja

Vi =Σ−12 Y ′ Ui

θi·

Temos

(Σ−12 Y ′Σ−1

1 Y)Vi =

Σ−12 Y ′Σ−1

1 Y Σ−12 Y ′ Ui

θi=

=Σ−12 Y ′ (Σ−1

1 Y Σ−12 Y ′)Ui

θi= θiΣ

−12 Y ′ Ui = θ2i Vi

Ou seja V1, . . . , Vr sao autovetores de Σ−12 Y ′Σ−1

1 Y correspondentes aosautovalores θ21, . . . , θ

2r .

“RAIZ”2014/10/28page 16

✐

✐

✐

✐

✐

✐

✐

✐


Temos tambem

V ′i ,Σ2 Vj =

U ′i Y Σ−1

2

θiΣ2

Σ−12 Y ′ Uj

θj=

U ′i Y Σ−1

2 Y ′ Uj

θiθj=

=δij θ

2i

θiθj= δij

Ou seja V1, . . . , Vr sao Σ2-ortonormais.

Para escolher os restantes Vj procedemos da seguinte forma. A matrizΣ−12 Y ′Σ−1

1 Y e uma matriz m × m de posto r. Portanto como trans-formacao de Rm em Rm temos que dimensao

(Nucleo

(Σ−12 Y ′

Σ−11 Y

))= m − r. Seja Vr+1, . . . , Vm uma base Σ2-ortonormal desse

nucleo. Vamos verificar primeiro que Y Vj = 0 para j ≥ r + 1. Temos(Σ−12 Y ′Σ−1

1 Y)Vj = 0 e portanto como Σ2 e nao singular

(Y ′Σ−1

1 Y)Vj =

0. Como Σ−11 e simetrica e definida positiva existe uma matriz P nao

singular tal que Σ−11 = P ′P . Temos entao

(Y ′ P ′ P Y )Vj = 0.

Multiplicando a esquerda por V ′j

0 = V ′j Y

′ P ′ P Y Vj = ||P Y Pj ||2I .

Portanto P Y Vj = 0 e como P e nao singular Y Vj = 0 como querıamosprovar. Vamos verificar agora que o conjunto {V1, . . . , Vm} e Σ2-ortonormal.Pelo visto ate agora e suficiente verificar que se i ≤ r e j > r

V ′i Σ2 Vj = 0.

Mas

V ′i Σ2 Vj =

U ′i Y Σ−1

2

θiΣ2 Vj =

U ′i Y Vj

θi= 0

porque Y Vj = 0.

Finalmente vamos verificar que os vetores Ui e Vj satisfazem a identidadeda parte c). Ou seja vamos verificar que

U ′i Y Vj =

{δij θi i ≤ r, j ≤ r

0 i > r ou j > r

“RAIZ”2014/10/28page 17

✐

✐

✐

✐

✐

✐

✐

✐


Se j ≤ r

U ′i Y Vj = U ′

i YΣ−12 Y ′ Uj

θj=

δij θ2i

θj= δij θi .

Se j > r como Y Vj = 0 temos

U ′i Y Vj = 0.

Portanto se V e a matriz que tem como colunas os Vj temos

U ′ Y V =

θ1 0

∣∣∣∣∣ 0

. . .

∣∣∣∣∣

0 θr

∣∣∣∣∣. . . . . . . . . . . . .0 0

como querıamos demonstrar.

Corolario 1. Definindo θi = 0 para todo i > r temos

(i) θi Vi = Σ−12 Y ′ Ui

(ii) θi Ui = Σ−11 Y Vi

Demonstracao. (i) e valida para i ≤ r por definicao.Para i > r θi = 0 ou seja o membro esquerdo e 0. Temos que verificar

que o membro direito tambem e nulo. Σ−12 e uma matriz simetrica

definida positiva e sabemos que

U ′ Y Σ−12 Y ′ U =

θ21 0

∣∣∣∣∣ 0

. . .

∣∣∣∣∣

0 θ2r

∣∣∣∣∣. . . . . . . . . . . . .0 0

“RAIZ”2014/10/28page 18

✐

✐

✐

✐

✐

✐

✐

✐


Portanto para i > r

0 = U ′i Y Σ−1

2 Y ′ Ui =∥∥Y ′ Ui

∥∥2Σ−1

2

o que implica que Y ′ Ui = 0 e que o membro direito de (i) e nulo.

Vamos verificar agora (ii). Se i ≤ r temos

Σ−11 Y Vi = Σ−1

1 YΣ−12 Y ′ Ui

θi=

θ2i Ui

θi= θi Ui .

Se i > r vimos na demonstracao do Teorema da Decomposicao em Va-lores Singulares que Y Vi = 0. Ou seja o membro direito de (ii) e 0 parai > r que e o valor do membro esquerdo.

Corolario 2. Nas condicoes do Teorema da D.V.S.

maxX∈Rn,||X||Σ1

=1X ′ Y Z = θ1

Z ∈ Rm, ||Z||Σ2 = 1

O maximo e atingido se X = U1 e Z = V1 .

Demonstracao. Sejam U e V tais que

U ′ Y V =

θ1 0

∣∣∣∣∣ 0

. . .

∣∣∣∣∣

0 θr

∣∣∣∣∣. . . . . . . . . . . . .0 0

X =n∑

i=1ci Ui e Z =

m∑j=1

dj Vj comn∑

i=1c2i =

m∑j=1

d2j = 1.

Entao

X ′ Y Z =

(n∑

i=1

ci U′i

)Y

m∑

j=1

dj Vj

=

r∑

i=1

θi ci di .

“RAIZ”2014/10/28page 19

✐

✐

✐

✐

✐

✐

✐

✐


Temos pela desigualdade de Cauchy-Schwartz

∣∣∣∣∣

r∑

i=1

θi ci di

∣∣∣∣∣ ≤(

r∑

i=1

θi c2i

)1/2( r∑

i=1

θi d2i

)1/2

=

≤ θ1/21

(r∑

i=1

c2i

)1/2

θ1/21

(r∑

i=1

d2i

)1/2

Como

(r∑

i=1c2i

)1/2

≤ 1 e

(r∑

i=1d2i

)1/2

≤ 1 temos que |X ′ Y Z| =∣∣∣∣

r∑i=1

θi ci di

∣∣∣∣ ≤ θ1 .

Se c1 = d1 = 1 e o resto e zero, temosX = U1 Z = V1 eX′ Y Z = θ1

e portanto o maximo e atingido.

Outro resultado importante sobre maximizacao de formas quadraticasesta contido na seguinte proposicao.

Proposicao 7. Seja A n × n simetrica e B n × n simetrica definida

positiva. Seja U tal que

U ′AU =

λ1 0

. . .

0 λn

U ′B U = I

Sejam U1, U2, . . . , Un os vetores coluna de U .

Sejam X1, . . . , Xp p vetores B-ortogonais.

Entao

supX1,...,Xp

p∑

i=1

X ′i AXi

X ′i BXi

= λ1 + · · ·+ λp

e o maximo e atingido tomando Xi = Ui , i = 1, . . . , p.

Demonstracao. {U1, . . . , Un} e uma base ortonormal de Rn. Seja

Xi =n∑

ℓ=1

ciℓ Uℓ , i = 1, . . . , p. Completemos os Xi ate obter uma base

“RAIZ”2014/10/28page 20

✐

✐

✐

✐

✐

✐

✐

✐


B-ortogonal de Rn. Temos

δij ||Xi||2B =

⟨Xi, Xj

⟩

B

=

⟨ n∑

ℓ=1

ciℓ Uℓ ,n∑

k=1

cjk Uk

⟩=

=∑

ℓ

∑

k

ciℓ cjkUℓ, Uk =∑

ℓ

ciℓ cjℓ .

Se definirmos αij =cij

||Xi||Btemos que

n∑ℓ=1

αiℓ αjℓ = δij ou seja a

matriz A = (αij) e ortogonal.

Temos em particular quen∑

j=1α2ij = 1 para todo i,

p∑i=1

α2ij ≤ 1 para todo

j ep∑

i=1

n∑j=1

α2ij = p.

Agora, a expressao a maximizar e igual a

p∑

i=1

(n∑

ℓ=1

ciℓU′ℓ

)A

(n∑

j=1cijUj

)

X ′i BXi

=

p∑

i=1

n∑j=1

c2ijλj

||Xi||2B=

=

p∑

i=1

n∑

j=1

α2ijλj =

n∑

j=1

λj

( p∑

i=1

α2ij

)=

n∑

j=1

λjγj

onde γj =p∑

i=1α2ij por definicao.

Temos pelo provado anteriormente que

γj ≥ 0, γj ≤ 1,n∑

j=1

γj = p.

Portanto o maximo den∑

j=1λjγj se obtem tomando-se γ1 = γ2 = · · · =

γp = 1, γp+1 = · = γn = 0. Dessa forma o maximo fica igual ap∑

i=1λi .

Para essa escolha de γ’s temos que

C =

c11 c1p

∣∣∣∣ 0

cp1 cpp

∣∣∣∣

“RAIZ”2014/10/28page 21

✐

✐

✐

✐

✐

✐

✐

✐


Tomando C = (I... 0) atingimos o maximo

p∑i=1

λi . Esta escolha de C

equivale a tomar Xi = Ui para i = 1, . . . , p. A Proposicao 8 generalizao Corolario 2.

Proposicao 8. Seja Y n×m de posto r. Sejam U e V as matrizes que

aparecem na decomposicao de Y em valores singulares

U ′ Y V =

θ1 0

∣∣∣∣∣ 0

. . .

∣∣∣∣∣

0 θr

∣∣∣∣∣. . . . . . . . . . . . .0 0

θ1 ≥ θ2 ≥ · · · ≥ θr > 0

Entao se p ≤ min(m.n)

minXi Σ1−ortonormaisZi Σ2−ortonormais

p∑

i=1

X ′i Y Zi =

p∑

i=1

θi.

O maximo e atingido tomando Xi = Ui , i = 1, . . . , p e Zi = Vi ,

i = 1, . . . , p onde Ui e Vi sao as colunas de U e V respectivamente.

Demonstracao. Sejam U (n × n) e V (m × m) as matrizes queaparecem na decomposicao em valores singulares de Y :

U ′ Y V =

θ1 0

∣∣∣∣∣ 0

. . .

∣∣∣∣∣

0 θr

∣∣∣∣∣. . . . . . . . . . . . .0 0

com θ1 ≥ θ2 ≥ · · · ≥ θr > 0 e r = posto(Y ).

“RAIZ”2014/10/28page 22

✐

✐

✐

✐

✐

✐

✐

✐


Seja Xi =n∑

ℓ=1

ciℓUℓ e Zi =m∑

h=1

dihVh .

Temos

X ′i Y Zi =

(n∑

ℓ=1

ciℓUℓ

)′

Y

(m∑

h=1

dihVh

)=

r∑

ℓ=1

ciℓdiℓθℓ .

Portantop∑

i=1

X ′i Y Zi =

r∑

ℓ=1

(p∑

i=1

ciℓdiℓ

)θℓ .

Seja γℓ =p∑

i=1ciℓdiℓ .

Como os Xi (resp. Zi) sao Σ1-ortonormais (resp. Σ2-ortornormais)podemos sempre supor que sao parte de uma base Σ1-ortonormal (resp.Σ2-ortonormal) de Rn (resp. de Rm). Ou seja podemos supor que amatriz dos ciℓ (resp. diℓ) e uma matriz ortogonal n× n (resp. m×m).Temos agora

|γℓ| =∣∣∣∣∣

p∑

i=1

ciℓdiℓ

∣∣∣∣∣ ≤(

p∑

i=1

c2iℓ

)1/2( p∑

i=1

d2iℓ

)1/2

≤

≤(

n∑

i=1

c2iℓ

)1/2( m∑

i=1

d2iℓ

)1/2

≤ 1

∣∣∣∣∣

r∑

ℓ=1

γℓ

∣∣∣∣∣ =∣∣∣∣∣

r∑

ℓ=1

p∑

i=1

ciℓdiℓ

∣∣∣∣∣ =∣∣∣∣∣

p∑

i=1

r∑

ℓ=1

ciℓdiℓ

∣∣∣∣∣ ≤

≤p∑

i=1

∣∣∣∣∣

r∑

ℓ=1

ciℓdiℓ

∣∣∣∣∣ ≤p∑

i=1

(r∑

ℓ=1

c2iℓ

)1/2( r∑

ℓ=1

diℓ

)1/2

≤

≤p∑

i=1

(n∑

ℓ=1

c2iℓ

)1/2( m∑

ℓ=1

d2iℓ

)1/2

≤ p.

Estas duas desigualdades implicam que o maximo der∑

ℓ=1

γℓ θγ e obtido

tomando γℓ = 1 para ℓ = 1, . . . , p e γℓ = 0 para ℓ > p. (Note-se que p

pode ser maior que r). Ou seja o maximo e igual ap∑

ℓ=1

θℓ .

“RAIZ”2014/10/28page 23

✐

✐

✐

✐

✐

✐

✐

✐


O maximo e atingido tomando Xi = Ui , i = 1, . . . , p e Zi = Vi , i =1, . . . , p.

“RAIZ”2014/10/28page 24

✐

✐

✐

✐

✐

✐

✐

✐

Capıtulo 2

Analise de ComponentesPrincipais

A tecnica de Componentes Principais pode ser apresentada por dife-rentes pontos de vista. Nos comecaremos a exposicao tomando o pontode vista de Analise de Dados, isto e, uma tecnica de representacao dedados que permite reduzir tabelas de grande dimensao e tabelas maispequenas que podem ser graficadas e sobre as quais a interpretacaoe descoberta de relacoes entre os dados seja bem mais simples. Estareducao do numero de dados conservando na medida do possıvel a “in-formacao” contida nos dados originais e feita utilizando certos criteriosde otimalidade geometrica e/ou algebrica.

2.1 Notacao e descricao do problema

A situacao tıpica na qual a Analise de Componentes Principais e execu-tada e a seguinte:

Sobre cada um dos integrantes de um grupo de indivıduos (objetos,famılias, classes de renda, paıses, etc.) e levantado ou determinado umcerto numero de medidas ou variaveis.

Por exemplo sobre cada indivıduo a quantidade de diversas substanciasquımicas na urina e no sangue podem ser analisadas.

Ou para cada famılia e determinado a quantidade de dinheiro gastoem diferentes tipos de despesas (alimentos, transporte, educacao, saude,etc.).

24

“RAIZ”2014/10/28page 25

✐

✐

✐

✐

✐

✐

✐

✐

Cap.2 - Analise de Componentes Principais 25

Em qualquer caso o conjunto de dados objeto da analise consistenuma tabela na qual colocaremos em cada linha os valores das variaveismedidas sobre o indivıduo correspondente a essa linha. Mais precisa-mente seja I o numero de indivıduos e J o numero de variaveis. Atabela a ser analisada consiste de uma matriz X = (xij) I × J onde xije o valor da variavel j no indivıduo i. Vamos nos referir as linhas damatriz como indivıduos ou observacoes e as colunas como variaveis.

Dado o carater repetitivo que tem as linhas de X, e conveniente asvezes pensar a tabela como um conjunto de I observacoes de um vetoraleatorio em RJ .

Indicaremos com xi o vetor de RJ contendo os valores das variaveissobre o indivıduo i. Ou seja x′i = (xi1, . . . , xiJ). Se Σ e uma matrizsimetrica definida positiva ||xi − xi′ ||2Σ indicara o quadrado da distanciadeterminada por Σ entre os vetores xi e xi′ . Os casos usuais seraoΣ = I (a matriz identidade e o numero de indivıduos serao denotadospelo mesmo sımbolo I; o contexto indicara naturalmente de que se trata)e neste caso

∥∥xi − xi′∥∥2Σ=

J∑

j=1

(xij − xi′j

)2

ou se Σ = diag(λ1, . . . , λJ) com os λ’s todos positivos e entao

∥∥xi − xi′∥∥2Σ=

J∑

j=1

λj

(xij − xi′j

)2.

No caso geral

∥∥xi − xi′∥∥2Σ=(xi − xi′

)Σ(xi − xi′

).

Se V e uma variedade linear (transladado de subespaco) indicaremoscom x∗i = PΣ(xi, V ) a projecao do vetor xi na variedade V com relacaoao produto interno determinado por Σ. x∗i satisfaz

x∗i = PΣ(xi, V ) e miny∈V

∥∥xi − y∥∥2Σ=∥∥xi − x∗i

∥∥Σ.

Finalmente e importante em diversas situacoes (por exemplo emAnalise de Correspondencias) considerar o caso no qual os indivıduosnao sao todos igualmente importantes ou, em outros termos, nao tem

“RAIZ”2014/10/28page 26

✐

✐

✐

✐

✐

✐

✐

✐

26 Analise de Componentes Principais Cap.2

todos o mesmo peso. Introduzimos entao numeros µi i = 1, . . . , I nao

negativos e tais queI∑

i=1µi = 1. Nos casos usuais, µi =

1

I, i = 1, . . . , I.

O problema de Analise de Componentes Principais pode agora sercolocado da seguinte Fma:

Dado p ≤ J , encontrar uma variedade linear de dimensao p tal que

I∑

i=1

µi

∥∥xi − x∗i∥∥2Σ

seja mınimo.

A condicaoI∑

i=1µi = 1 nao e utilizada em geral. Em algumas Pro-

posicoes (por exemplo na Proposicao 2.2 (vi) mais adiante) so introdu-ziria uma constante no resultado final.

2.2 Reducao a subespacos

Se V e uma variedade linear em RJ , existe b ∈ RJ tal que V = b + Eonde E e um subespaco.

O seguinte lema e de facil demonstracao

Lema 2.1. Se V = b+ E entao

PΣ(x, V ) = PΣ(x− b, E) + b;

A seguinte proposicao vai reduzir o problema de achar a melhorvariedade ao de determinar o melhor subespaco.

Proposicao 2.1. SeI∑

i=1µi xi = 0 a variedade linear otima (que e a

solucao do problema de Componentes Principais) e um subespaco.

Demonstracao. Queremos provar que

I∑

i=1

µi

∥∥PΣ(xi, V )− xi∥∥2Σ≥

I∑

i=1

µi

∥∥PΣ(xi, E)− xi∥∥2Σ.

“RAIZ”2014/10/28page 27

✐

✐

✐

✐

✐

✐

✐

✐


Ou seja para toda variedade V existe um subespaco E com soma menore portanto podemos nos retringir a subespacos.Temos que

∥∥PΣ(xi, V )− xi∥∥2Σ=∥∥PΣ(xi − b, E)− xi + b

∥∥2Σ

=

=∥∥(PΣ(xi, E)− xi)− (PΣ(b, E)− b

∥∥2Σ

=

=∥∥PΣ(xi, E)− xi

∥∥2Σ+∥∥PΣ(b, E)− b

∥∥2Σ−

− 2⟨PΣ(xi, E)− xi , PΣ(b, E)− b

⟩.

A primeira igualdade e valida pelo Lema anteriior. Multiplicando porµi e somando temos

I∑

i=1

µi

∥∥PΣ(xi, V )− xi∥∥2Σ=

I∑

i=1

µi

∥∥PΣ(xi, E)− xi∥∥2Σ+

+

i∑

i=1

µi

∥∥PΣ(b, E)− b∥∥2Σ− 2

I∑

i=1

µi

⟨PΣ(xi, E)− xi, PΣ(b, E)− b

⟩Σ.

Para provar a desigualdade basta provar que o ultimo termo do membrodireito e 0 porque o seguinte termo e nao negativo. Mas o ultimo termoe igual a

2⟨PΣ

( I∑

i=1

µi xi, E)−

i∑

i=1

µi xi , PΣ(b, E)− b⟩

usando as propriedades de bilinearidade de 〈, 〉 e linearidade de PΣ .

Como por hipotesesI∑

i=1µi xi = 0 o ultimo termo e igual a 0 e a desigual-

dade fica provada.

A Proposicao 2.1 e utilizada da seguinte forma. Para uma matriz X

defino x =I∑

i=1µi xi . Seja yi = xi − x. Esta nova matriz com linhas y′i

satisfaz a restricaoI∑

i=1µi yi = 0. Seja E o espaco vetorial otimo para esta

nova matriz. Entao a variedade linear x+E e a solucao do problema deComponentes Principais original.

De agora em diante vamos supor queI∑

i=1µi xi = 0 e portanto limitar

a procura da solucao otima a subespacos.

“RAIZ”2014/10/28page 28

✐

✐

✐

✐

✐

✐

✐

✐


2.3 Solucao do problema de Componentes Prin-cipais

Em lugar de procurar um subespaco E vamos determinar um conjunto dep vetores, W1, . . . ,Wp , Σ-ortonormais, que sejam uma base para E, ouseja E = [W1, . . . ,Wp] onde [ ] indica o subespaco gerado pelos vetoresW1, . . . ,Wp .

Teorema 2.1.

(i) Seja C =I∑

i=1µi xi x

′i . Entao C e simetrica e definida nao negativa.

(ii) Seja U J × J tal que

U ′C U =

λ1 0

. . .

0 λJ

λ1 ≥ λ2 ≥ · · · ≥ λJ

U ′Σ−1 U = I

(Note que como C e definida nao negativa os λ’s sao nao negativos). SejaUα a coluna α de U e Wα = Σ−1 Uα . Entao o conjunto {W1, . . . ,Wp} e

Σ-ortonormal e o subespaco E = [W1, . . . ,Wp] e otimo, no sentido queI∑

i=1µi

∥∥xi − x∗i∥∥2Σe mınimo onde x∗i = PΣ(xi, E).

Demonstracao.

(i) A verificacao e imediata.

(ii) Como∥∥xi − x∗i

∥∥2Σ=∥∥xi∥∥2Σ−∥∥x∗i∥∥2Σ, mimizar

I∑i=1

µi

∥∥xi − x∗i∥∥2Σe

equivalente a maximizarI∑

i=1µi

∥∥x∗i∥∥2Σ.

Seja W1, . . . ,Wp uma base Σ-ortonormal do subespaco E (desconhe-cido).

Temos

∥∥x∗i∥∥2Σ=

p∑

α=1

(⟨xi,Wα

⟩Σ

)2=

p∑

α=1

(W ′αΣxi)(x

′iΣWα).

“RAIZ”2014/10/28page 29

✐

✐

✐

✐

✐

✐

✐

✐


Portanto

I∑

i=1

µi

∥∥x∗i∥∥2Σ=

I∑

i=1

µi

p∑

α=1

(W ′αΣxi)(x

′iΣWα) =

=

p∑

α=1

W ′αΣ( I∑

i=1

µi xi x′i

)ΣWα =

p∑

α=1

W ′αΣC ΣWα =

=

p∑

α=1

U ′αC Uα onde Uα = ΣWα

Os Uα sao Σ−1-ortonormais porque em geral se Uα sao Σ−1-ortonormaisWα = Σ−1 Uα sao Σ-ortonormais

U ′αΣ

−1 U ′α = W ′

αΣΣ−1ΣW ′α = δαα′ .

Portanto para encontrar o maximo da expressaop∑

α=1U ′αC Uα com C

simetrica e o conjunto {U1, . . . , Up} Σ−1-ortonormal, podemos utilizara Proposicao 7 do Capıtulo 1. Por essa Proposicao existe uma matrizU J × J tal que

U ′C U =

λ1 0

. . .

0 λJ

λ1 ≥ · · · ≥ λJ

U ′Σ−1 U = I

O maximo dep∑

α=1X ′

αC Xα onde Xα ∈ RJ e os XiΣ−1 ortonormais e

λ + · · · + λp e este maximo e atingido tomando Xα = Uα para α =1, 2, . . . , p. Isto termina a demonstracao do Teorema 2.1. Note-se quena demonstracao acabamos tmbem calculando o valor do maximo deI∑

i=1µi

∥∥x∗i∥∥2Σque e igual a

p∑α=1

λα .

Note-se tambem que a demonstracao indica o melhor subespaco para

uma matriz de dados iniciaisX, independentemente da hipoteseI∑

i=1µi xi =

0.

Em diversas situacoes utilizaremos todos os J vetores W1, . . . ,WJ

(ou U1, . . . , UJ) sendo que os p primeiros W1, . . . ,Wp geram o subespacootimo de dimensao p.

“RAIZ”2014/10/28page 30

✐

✐

✐

✐

✐

✐

✐

✐


Indicaremos com Fα(i) a componente do vetor xi sobre o eixo α. Ouseja

xi =

J∑

α=1

Fα(i)Wα

e tambem

x∗i =p∑

α=1

Fα(i)Wα

Fα(i) sera chamada a α-esima componente principal do indivıduo i.

F(p)i indicara o vetor de Rp contendo as p componentes principais do

vetor xi . Ou seja

F(p)i =

F1(i)F2(i)...

Fp(i)

A seguinte proposicao indica as principais propriedades das componentesprincipais.

Proposicao 2.2.

(i) Fα(i) = U ′α xi

(ii)∥∥xi − x∗i

∥∥2Σ=

J∑α=p+1

F 2α(i)

(iii)I∑

i=1µi Fα(i) = 0

I∑i=1

µi Fα(i)Fα′(i) = λα δαα′

Em particularI∑

i=1µi Fα(i)

2 = λα ; ou seja as componentes sobre o

eixo α tem media 0 e variancia λα .

(iv)I∑

i=1µi

∥∥xi∥∥2Σ=

J∑j=1

λj

e

“RAIZ”2014/10/28page 31

✐

✐

✐

✐

✐

✐

✐

✐


I∑i=1

µi

∥∥xi − x∗i∥∥2Σ=

J∑j=p+1

λj

(v)∥∥x∗i − x∗i′

∥∥2Σ=∥∥F (p)

i − F(p)i′

∥∥2i

Ou seja a distancia Σ entre x∗i e x∗i′ e igual a distancia euclidiana

entre os vetores F(p)i e F

(p)i′ .

(vi)∑i

∑i′

µi µ′i

∣∣∣∥∥x∗i − x∗i′

∥∥2Σ−∥∥xi − xi′

∥∥2Σ

∣∣∣ = 2J∑

α=p+1λα

(vii) O subespaco gerado por W1, . . . ,Wp minimiza a expressao

∑

i

∑

i′

µi µi′

∣∣∣∥∥x∗i − x∗i′

∥∥2Σ−∥∥xi − xi′

∥∥2Σ

∣∣∣

Demonstracao.

(i) Fα(i) = 〈Wα, xi〉Σ = W ′αΣxi = U ′

α xi

(ii) Temos xi =J∑

α=1Fα(i)Wα e

x∗i =p∑

α=1Fα(i)Wα

Portanto

∥∥xi − x∗i∥∥2Σ=∥∥∥

J∑

α=p+1

Fα(i)Wα

∥∥∥2

Σ=

J∑

α=p+1

F 2α(i)

porque os Wα sao Σ-ortonormais.

(iii)I∑

i=1µi Fα(i) =

I∑j=1

µi U′α xi = U ′

α

( I∑i=1

µi xi

)= 0

porqueI∑

i=1µi xi = 0.

I∑i=1

µi Fα(i)Fα′(i) =I∑

i=1µi U

′α xi x

′i Uα′ =

= U ′α

( I∑i=1

µi xi x′i

)Uα′ = U ′

αC Uα′ = λα δαα′

“RAIZ”2014/10/28page 32

✐

✐

✐

✐

✐

✐

✐

✐


(iv) Sabemos queI∑

i=1µi

∥∥x∗i∥∥2Σ=

p∑j=1

λj .

Se p = J , x∗i = xi , o que prova a primeira igualdade.

Temos tambem que

I∑

i=1

µi

∥∥xi − x∗i∥∥2Σ=

I∑

i=1

µi

∥∥xi∥∥2Σ−

I∑

i=1

µi

∥∥x∗i∥∥2Σ

=

=J∑

j=1

λj −p∑

j=1

λj =J∑

j=p+1

λj .

(v)∥∥x∗i − x∗i′

∥∥2Σ=∥∥∥

p∑α=1

Fα(i)Wα −p∑

α=1Fα(i

′)Wα

∥∥∥2

Σ=

=∥∥∥

p∑α=1

(Fα(i)− Fα(i′))Wα

∥∥∥2

Σ=

p∑α=1

(Fα(i)− Fα(i′))2 =

=∥∥F (p)

i − F(p)i′

∥∥2I.

(vi)∑i

∑i′

µi µi′

∣∣∣∥∥x∗i − x∗i′

∥∥2Σ−∥∥xi − xi′

∥∥2Σ

∣∣∣ =∑i

∑i′

µi µi′(∥∥xi − xi′

∥∥2Σ−∥∥x∗i − x∗i′

∥∥2Σ

)=

∑i

∑i′

µi′∥∥xi − xi′

∥∥2Σ−∑

i

∑i′

µi µi′∥∥x∗i − x∗i′

∥∥2Σ

Vamos calcular agora o segundo membro desta diferenca:∑i

∑i′

µi′∥∥x∗i − x∗i′

∥∥2Σ. Note-se que o primeiro membro e um caso parti-

cular, correspondendo ao caso p = J (e portanto x∗i = xi). Temos

∑

i

∑

i′


∥∥2Σ=∑

i

∑

i′

µi µi′

p∑

α=1

(Fα(i)− Fα(i′))2 =

=∑

i

∑

i′

∑

α

µi µi′ F2α(i) +

∑

i

∑

i′

∑

α

µi µi′ F2α(i

′)

− 2∑

i

∑

i′

∑

α

µi µi′ Fα(i)Fα(i′) =

=

p∑

α=1

( I∑

i=1

µi F2α(i)

)+

p∑

α=1

( I∑

i′=1

µi′ F2α(i

′))

− 2

p∑

α=1

( I∑

i=1

µi Fα(i))( I∑

i′=1

µi′ Fα(i′))= 2

p∑

α=1

λα .

“RAIZ”2014/10/28page 33

✐

✐

✐

✐

✐

✐

✐

✐


A primeira igualdade desta cadeia usa a parte (v), e a ultima igualdadedecorre da parte (iii).

Temos entao que

∑

i

∑

i′

µi µi′

∣∣∣∥∥x∗i − x∗i′

∥∥2Σ−∥∥xi − xi′

∥∥2Σ

∣∣∣ =

= 2J∑

α=1

λα − 2

p∑

α=1

λα = 2J∑

α=p+1

λα

como querıamos provar.

(vii) Temos que

∑

i

∑

i′

µi µi′

∣∣∣∥∥x∗i − x∗i′

∥∥2Σ−∥∥xi − xi′

∥∥2Σ

∣∣∣ =∑

i

∑

i′

µi µi′∥∥xi − xi′

∥∥2Σ−∑

i

∑

i′


∥∥2Σ

Portanto minimizar o membro esquerdo desta igualdade e equivalente amaximizar ∑

i

∑

i′


∥∥2Σ.

Esta expressao e igual a

∑

i

∑

i′

µi µi′

{∥∥x∗i∥∥2Σ+∥∥x∗i′

∥∥2Σ− 2〈x∗i , x∗i′〉Σ

}=

= 2∑

i

µi

∥∥x∗i∥∥2Σ− 2⟨∑

i

µi x∗i ,∑

i′

µi′ x∗i′

⟩.

Agora o ultimo termo desta diferenca e igual a zero porque∑iµi xi = 0 e

∑iµi x

∗i =

∑iµi PΣ(xi, E) = PΣ

(∑iµi xi, E

)= 0. Portanto a expressao

a maximizar e igual a 2∑iµi

∥∥x∗i∥∥2Σ

o que e equivalente a minimizar

I∑i=1

µi

∥∥xi − x∗i∥∥2Σcomo vimos na demonstracao da parte (ii) do Teorema

2.1. Tambem vimos nesse teorema que o mınimo deI∑

i=1µi

∥∥xi − x∗i∥∥2Σ

“RAIZ”2014/10/28page 34

✐

✐

✐

✐

✐

✐

✐

✐


obtem-se tomando como subespaco o gerado por W1, . . . ,Wp . Isto prova(vii) e a Proposicao 2.2.

Note-se que como consequencia das partes (iv) e (vi)

I∑i=1

µi

∥∥xi − x∗i∥∥2Σ

I∑i=1

µi

∥∥xi∥∥2Σ

=

∑i

∑i′µiµi′

∣∣∣∥∥x∗i − x∗i′

∥∥2Σ−∥∥xi − xi′

∥∥2Σ

∣∣∣∑i

∑i′µiµi′

∥∥xi − xi′∥∥2Σ

=

J∑α=p+1

λα

J∑α=1

λα

·

Este ultimo quociente e chamado erro relativo e da uma ideia da qua-lidade da representacao em Rp. Se quisermos, por exemplo, que o errorelativo seja menor que 10% escolhemos p de forma tal que( J∑

α=p+1λα

)/( J∑α=1

λα

)≤ 0, 1. Indicaremos o erro relativo com a notacao

ERp ; ou seja

ERp =

J∑α=p+1

λα

J∑α=1

λα

·

O quociente

ERp =

I∑i=1

I∑i′=1

µiµi′

∣∣∣∥∥x∗i − x∗i′

∥∥2Σ−∥∥xi − xi′

∥∥2Σ

∣∣∣I∑

i=1

I∑i′=1

µiµi′∥∥xi − xi′

∥∥2Σ

da o erro relativo medio entre os quadrados das distancias entre paresde elementos (indivıduos) quando os xi sao substituıdos pelos x∗i .

A representacao dos xi pelos x∗i nao e muito util devido a duas razoes:

a) Os x∗i estao num subespaco de dimensao menor, mas ainda em RJ .Portanto nao podem ser graficados.

b) A distancia relevante entre os x∗i e a dada pela matriz Σ e e defıcilde visualizar.

A utilizacao dos F(p)i em lugar dos x∗i elimina esses problemas. Note-

se que por (v) temos

∥∥x∗i − x∗i′∥∥2Σ=∥∥F (p)

i − F(p)i′

∥∥2I.

“RAIZ”2014/10/28page 35

✐

✐

✐

✐

✐

✐

✐

✐


Portanto podemos escrever

ERp =

I∑i=1

I∑i′=1

µiµi′

∣∣∣∥∥xi − xi′

∥∥2Σ−∥∥F (p)

i − F(p)i′

∥∥2I

∣∣∣I∑

i=1

I∑i′=1

µiµi′∥∥xi − xi′

∥∥2Σ

·

Os F(p)i estao num espaco de dimensao menor (usualmente pequeno)

p, e as distancias relevantes entre eles e a distancia euclidiana usual dadapela matriz I.

Por exemplo se p = 2 e ER2 e pequeno os F(p)i serao graficados em

um plano e observando a distancia usual entre eles teremos uma ideiaaproximada da distancia entre os xi correspondentes a matriz Σ. Sep = 4 pode-se graficar em um plano as primeiras duas coordenadas do

F(p)i e em outro plano as duas ultimas.

ERp e, porem, uma medida que superestima (pessimista) o erro rela-

tivo da representacao dos xi pelos F(p)i . O motivo e o seguinte. Desde o

ponto de vista da representacao geometrica, como esta depende de uma

escala arbitraria, vai ser equivalente representar os F(p)i ou os λF

(p)i onde

λ e um escalar fixo. Podemos entao escolher λ de forma tal que minimize

I∑

i=1

I∑

i′=1

µi µi′

∣∣∣∥∥λF (p)

i − λF(p)i′

∥∥2I−∥∥xi − xi′

∥∥2Σ

∣∣∣.

Indiquemos com λ0 o valor de λ que minimiza essa expressao. Definimos

entao o erro relativo corrigido (ERCp) da representacao dos xi pelos F(p)i

como

ERCp =

I∑i=1

I∑i′=1

µi µi′

∣∣∣∥∥λF (p)

i − λF(p)i′

∥∥2I−∥∥xi − xi′

∥∥2Σ

∣∣∣I∑

i=1

I∑i′=1

µi µi′∥∥xi − xi′

∥∥2Σ

·

Pode-se provar que λ20 e a medida dos valores Zii′ =∥∥xi−xi′

∥∥2Σ

/∥∥F (p)i −F

(p)i′

∥∥2Idando a cada um deles um peso proporcional a

wii′ = µi µi′∥∥F (p)

i −F(p)i′

∥∥2I. De outra forma: sejam gh , 1 ≤ h ≤ I(I − 1)

2

“RAIZ”2014/10/28page 36

✐

✐

✐

✐

✐

✐

✐

✐


os valores de Zii′ ordenados de menor a maior e wh os pesos correspon-dentes. Seja h0 um inteiro tal que

h0∑h=1

wh

N∑h=1

wh

≤ 0, 5 e

h0+1∑h=1

wh

N∑h=1

wh

> 0, 5.

Entao λ20 e qualquer valor tal que

gh0 ≤ λ20 ≤ gh0+1 .

Seh0∑h=1

wh

N∑h=1

wh

= 0, 5

entao λ20 = gh0 .

O valor de ERCp sera menor ou igual que ERp e λ20 ≥ 1. Esta ultima

desigualdade resulta do fato que∥∥F (p)

i −F(p)i′

∥∥2I=∥∥x∗i−x∗i′

∥∥ ≤∥∥xi−xi′

∥∥ .(1 ≤ gi ≤ g2 ≤ · · · ≤ gN ).

Como antes o valor de p pode ser escolhido de forma tal que ERCp

seja menor que uma margem de erro fixado a priori.

Proposicao 2.3. ρ(Xj , Fα) =

√λαWα(j)

Sjonde ρ(Xj , Fα) indica o coe-

ficiente de correlacao entre a variavel j e o eixo α, e Sj =( I∑

i=1µi(xij)

2)1/2

.

ρ(Xj , Fα) =cov(Xj , Fα)

Sj

√λα

=

I∑i=1

xij Fα(i)µi

Sj

√λα

=

=

I∑i=1

µixij

( J∑j′=1

xij′ Uα(j′))

Sj

√λα

=

J∑j′=1

( I∑i=1

xij′ xij µi

)Uα(j

′)

Sj

√λα

=

=

J∑j′=1

C(j, j′)Uα(j′)

Sj

√λα

=C Uα(j)

Sj

√λα

·

“RAIZ”2014/10/28page 37

✐

✐

✐

✐

✐

✐

✐

✐


Como C Uα = λαΣ−1 Uα = λαWα temos que o ultimo quociente e igual

a

Wα(j)λα

Sj

√λα

=

√λαWα(j)

Sj

como querısmos demonstrar.

2.4 Decomposicao em valores singulares da ma-triz X ′. Relacao entre as analises em RI eRJ

Lembremos que os vetores Uα , essenciais para o calculo das componentesprincipais sao obtidos das relacoes

U ′C U = Λ =

λ1 0

. . .

0 λJ

U ′Σ−1 U = I

onde λ1 ≥ λ2 ≥ · · · ≥ λJ .

Temos que

C =

I∑

i=1

µi xi x′i = X ′DX onde D =

µ1 0

. . .

0 µI

ou seja D e a matriz diagonal formada pelo peso dos I indivıduos.

Temos entao

U ′X ′DX U = Λ

U ′Σ−1 U = I

Estas identidades sao as que aparecem na demonstracao do Teorema daDecomposicao em Valores Singulares tomando Σ1 = Σ−1, Σ2 = D−1 eY = X ′.

“RAIZ”2014/10/28page 38

✐

✐

✐

✐

✐

✐

✐

✐


Se V e a matriz I × I construıda naquele teorema com colunas D−1-ortonormais, temos

U ′X ′ V =

√λ1

∣∣∣∣. . .

∣∣∣∣ 0

√λJ

∣∣∣∣

e para λα > 0, α = 1, . . . , r = posto (X),

Vα =DX Uα√

λα·

Como X Uα = Fα temos tambem

Vα(i) =µi Fα(i)√

λαα = 1, . . . , r = posto (X).

No caso importante Σ = I e D = I, ou seja o caso de utilizar a distanciaeuclidiana com todos os indivıduos com o mesmo peso, podemos natural-mente pensar nas colunas como indivıduos e nas linhas como variaveis ouobservacoes. As componentes que no caso anterior eram obtidas atravesde XU , serao agora obtidas de X ′V . Pela Decomposicao em ValoresSingulares temos

X ′V = U(A1/2 ... 0

)=(√

λ1 U1, . . . ,√λJ Uj

... 0).

Portanto Gα(j) = Uα(j)√λα .

Note-se que ainda no casoI∑

i=1xi = 0 (variaveis centradas) a analise de

componentes principais sobre as colunas deX determinara valores Gα(j)

que nao satisfaraoJ∑

j=1Gα(j) = 0. Os valores Gα(j) sao as componentes

na base ortonormal do subespaco otimo e nao na melhor variedade linear.

No caso Σ = I, D = I e com variaveis centradas e padroniza-

das(S2j =

I∑i=1

(xij)2 = 1

)a Proposicao 2.3 indica que ρ(Xj , Fα) =

√λα Uα(j)

√I.

“RAIZ”2014/10/28page 39

✐

✐

✐

✐

✐

✐

✐

✐


Neste caso temos tambem que Gα(j) = Uα(j)√λα

√I. Ou seja

ρ(Xj , Fα) = Gα(j).

Portanto a correlacao entre a variavel e o eixo e igual a coordenada davariavel. Este resultado e util em diversas aplicacoes para leitura e inter-pretacao das saıdas graficas, contendo simultaneamente a representacaodos pontos-indivıduos e pontos-variaveis sobre os dois primeiros eixosfatoriais (duas primeiras componentes principais).

Note-se tambem quep∑

α=1G2

α(j) ≤ 1. As variaveis para as quais

p∑j=1

G2α(j) seja aproximadamente 1 serao variaveis bem ajustadas. Para

interpretacao eventual dos eixos deverıamos olhar para aquelas variaveislocalizadas na parte sombreada do grafico a seguir.

“RAIZ”2014/10/28page 40

✐

✐

✐

✐

✐

✐

✐

✐


2.5 Aproximacao da matriz X. Taxa de inercia

Vimos na secao anterior que (com Σ1 = I e Σ2 = I)

U ′X ′ V =(Λ1/2 ... 0

)

Portanto X ′ = U(Λ1/2

... 0)V ′ e entao

X = V

Λ1/2

. . . .0

U ′ =

(√λ1 VI , . . . ,

√λJ Vj

)

U ′1

. . ..... . .U ′J

=

=J∑

α=1

√λα Vα U

′α .

A matriz X pode ser aproximada pela matriz X∗, obtida somando so osprimeiros p termos ou seja

X∗ =p∑

α=1

√λα Vα U

′α .

A qualidade da aproximacao pode ser medida pelo quociente

∑ij

(x∗ij)2

∑ij

(xij)2

onde x∗ij indica o termo (i, j) da matriz X∗. Este quociente e chamadotaxa de inercia ou parte da variancia explicada pelas primeiras p com-

ponents ou p fatores.

Uma expressao mais simples pode ser obtida utilizando a seguinte ob-servacao. Para uma matriz Z quadrada qualquer

∑ij

(Zij

)2= Tr(Z ′Z).

Para X∗ temos

X∗′X∗ =( p∑

α=1

√λα Uα V

′α

)( p∑

α′=1

√λα′ Vα′ U ′

α′

)=

p∑

α=1

λα Uα U′α .

“RAIZ”2014/10/28page 41

✐

✐

✐

✐

✐

✐

✐

✐


Portanto

Tr(X∗′X∗) =

p∑

α=1

λα

J∑

j=1

(Uα(j)

)2=

p∑

α=1

λα

porque∥∥Uα

∥∥2I= 1.

Da mesma forma podemos obter Tr(X ′X) =J∑

α=1λα . Portanto a taxa

de inercia e igual a

p∑α=1

λα

J∑α=1

λα

= 1−

J∑α=p+1

λα

J∑α=1

λα

= 1− erro relativo.

2.6 Aproximacao de uma matriz de posto r poruma de posto k, k ≤ r. Biplot de matrizes

Sejam {µi

}i=1....,n

e{γj}j=1,...,m

numeros positivos e D1 = diag(µ1, . . . , µn) e D2 = diag(γ1, . . . , γm).Seja Y uma matriz n × m de posto r. Indicaremos com yi o vetorcorrespondente a linha i de Y . Seja p ≤ m e consideremos o problemade minimizar

n∑

i=1

µi

∥∥yi − y∗i∥∥2D2

onde os y∗i pertencem a um subespaco de dimensao p. Sabemos que

a solucao desse problema obtem-se definindo C =n∑

i=1µi yi y

′i (C =

Y ′D1 Y ) e tomando U tal que

U ′C U = U ′ Y ′D1 Y U =

λ1 0

. . .

0 λm

U ′D−12 U = I

“RAIZ”2014/10/28page 42

✐

✐

✐

✐

✐

✐

✐

✐


Se Wα = D−12 Uα , [W1, . . . ,Wp] e o subespaco solucao e os y∗i sao as

projecoes dos yi sobre este subespaco. As componentes de y∗i na basedos {Wα} estao dadas por Fα(i) = y′i Uα . Note-se que as equacoes acimasao as que aparecem na deccomposicao em valores singulares de Y ′ setomarmos em Rm o produto interno determinado por D−1

2 e em Rn oproduto interno determinado por D−1

1 . Mais precisamente

U ′ Y ′ V =

√λ1

∣∣∣∣ 0

. . .

∣∣∣∣√λJ

∣∣∣∣. . . . . . . . . . . . .

0 0

U ′D−12 U = I

V ′D−11 V = I

Temos tambem

√λα Uα = D2 Y

′ Vα√λα Vα = D1 Y Uα

Se yj indica a coluna j de Y e o problema fosse minimizarm∑j=1

γj∥∥yj − yj∗

∥∥D1

o papel anterior de U seria assumido por V . As

componentes de yj∗ seriam Gα(j) = yj′

Vα . Ou de outra forma Gα =

Y ′ Vα =√λαD

−12 Uα .

Proposicao 5.1. Seja Y uma matriz n × m de posto r. A matriz Zn×m de posto p ≤ r que minimiza

n∑

i=1

m∑

j=1

µi γj(yij − Zij

)2

e dada por

Z =

p∑

α=1

1√λα

FαG′α .

“RAIZ”2014/10/28page 43

✐

✐

✐

✐

✐

✐

✐

✐


Demonstracao. Seja Zi o vetor correspondente a linha i de Z. Utili-zando a notacao anterior temos

infposto (Z)≤p

n∑

i=1

m∑

j=1

µi γj(yij − zij

)2=

= infposto (Z)≤p

n∑

i=1

µi

∥∥yi − zi∥∥2D2

=

= infsubespacos de dimensao≤p

n∑

i=1

µi

∥∥yi − y∗i∥∥2D2

onde y∗i e a projecao de yi sobre o subespaco. Como aumentando a

dimensao do espaco,∥∥yi − y∗i

∥∥2D2

diminui, temos que a expressao acimae igual a

infsubespaco de dimensao p

n∑

i=1

µi

∥∥yi − y∗i∥∥2D2

.

Temos entao um problema de componentes principais. Note-se que nestecaso a soma das colunas de Y nao e necessariamente igual a zero (ou

equivalentementen∑

i=1yi nao e zero necessariamente). Calcularemos agora

Zkj = y∗k(j). Sempre utilizando a notacao anterior temos

y∗k =

p∑

α=1

⟨yk,Wα

⟩D2

Wα =

p∑

α=1

(y′k D2Wα)Wα =

p∑

α=1

(y′k Uα)Wα =

=

p∑

α=1

(y′k Uα)D−12 Uα .

Como D−12 Uα =

Gα√λα

e y′k Uα = Fα(k) temos que a ultima expressao e

igual ap∑

α=1

Fα(k)Gα√λα

.

Portanto Zkj = y∗k(j) =p∑

α=1

1√λα

Fα(k)Gα(j) ou seja

Z =

p∑

α=1

1√λα

FαG′α

“RAIZ”2014/10/28page 44

✐

✐

✐

✐

✐

✐

✐

✐


como querıamos demonstrar.

Nota: Se Λp =

λ1 0

. . .

0 λp

, F

(p)i =

F1(i)...

Fp(i)

e

G(p)j =

G1(j)

...Gp(j)

temos que

Zij =⟨F

(p)i , G

(p)j

⟩Λ−1/2p

= F(p)1i Λ−1/2

p G(p)j .

De outra forma

Z =

F(p)′

1

. . . . ....

. . . . .

F(p)′

n

1

λ1. . .

1

λp

(G

(p)1

∣∣∣∣ . . .∣∣∣∣G

(p)m

)

Corolario 5.1. Se p = r temos

Y =r∑

α=1

1√λα

FαG′α .

Note-se que a matrizp∑

α=1

1√λα

FαG′α e igual a

(F1... . . .

...Fp)

1

λ10

. . .

01

λp

G′1

. . ..... . .G′

p

=

=

(F1√λ1

... . . ....

)

G′1

. . ..... . .G′

p

“RAIZ”2014/10/28page 45

✐

✐

✐

✐

✐

✐

✐

✐


ou seja e da forma HG′ onde H e uma matriz n × p e G uma matriz

m× p.

Portanto o problema (problema do Biplot; ver Gabriel (1971)) de acharduas matrizes H e G tais que

n∑

i=1

m∑

j=1

µi γj(yij − h′i gj

)2

seja mınimo (hi (resp. gj) indica a linha i (resp. j) de H (resp. G)) e

tambem solucionado pela matrizp∑

α=1

1√λα

FαG′α . Note-se que nao ha

unicidade nas matrizes H e G.

2.7 Indivıduos e variaveis suplementares

E frequente na pratica ter informacao complementar sobre os indivıduos(observacoes de variaveis adicionais sobre os I indivıduos) e tambemobservacoes sobre novos indivıduos. Estas duas situacoes aparecem re-presentadas na figura a seguir.

A matriz X+ corresponde a novos indivıduos e a X+ a novas variaveissobre os indivıduos originais. Indicaremos com Uα , Fα , λα os vetores e

“RAIZ”2014/10/28page 46

✐

✐

✐

✐

✐

✐

✐

✐


autovalores obtidos da analise de componentes principais sobre a matriz

X. Uma analise sobre a matriz(X

...X+

)determinaria coordenadas

para os novos indivıduos. Se o peso destes indivıduos e relativamentepequeno as suas coordenadas serao aproximadamente dadas por

Fα(i) =J∑

j=1

x+ij Uα(j).

Esta aproximacao evita naturalmente repetir a analise com toda a ma-triz.

Da mesma forma

Gα(j) =1√λα

I∑

i=1

µi Fα(i)x+ij

indicara as coordenadas aproximadas das novas variaveis. Os valores

exatos seriam os obtidos fazendo a analise sobre a matriz(X

...X+).

Naturalmente os valores x+ij e x+ij utilizados para calcular Fα(i) eGα(j) deverao ser valores centrados (ou centrados e normalizados) sesobre os valores originais foram executadas estas transformacoes.

2.7 Exemplos.

Os exemplos deste capıtulo utilizam a funcao prcomp() e o pacote Bi-plotGUI do R. O primeiro exemplo utiliza dados publicos disponıveis(ver Referencia no Exemplo 1) . Tem varios pacotes e funcoes do R quepodem ser utilizados. Por exemplo: princomp(), prcomp(), e PCA dopacote FactoMineR.

Exemplo 1. Consumo de Proteinas em Europa.

Os dados indicam o consumo de 9 proteinas (em % sobre o total deproteina) para cada um de 25 paises Europeus.

Os dados podem ser encontrados em Hand e outros. (1994).

Os dados sao os seguintes:

“RAIZ”2014/10/28page 47

✐

✐

✐

✐

✐

✐

✐

✐


Country

RedMeat

WhiteMeat

Eggs

Milk

Fish

Cereals

Starch

Nuts

Fr.Veg

Albania

10,1

1,4

0,5

8,9

0,2

42,3

0,6

5,5

1,7

Austria

8,9

14

4,3

19,9

2,1

28

3,6

1,3

4,3

Belgium

13,5

9,3

4,1

17,5

4,5

26,6

5,7

2,1

4

Bulgaria

7,8

61,6

8,3

1,2

56,7

1,1

3,7

4,2

Czechoslov

9,7

11,4

2,8

12,5

234,3

51,1

4

Denmark

10,6

10,8

3,7

25

9,9

21,9

4,8

0,7

2,4

EGerm

any

8,4

11,6

3,7

11,1

5,4

24,6

6,5

0,8

3,6

Finland

9,5

4,9

2,7

33,7

5,8

26,3

5,1

11,4

France

18

9,9

3,3

19,5

5,7

28,1

4,8

2,4

6,5

Greece

10,2

32,8

17,6

5,9

41,7

2,2

7,8

6,5

Hungary

5,3

12,4

2,9

9,7

0,3

40,1

45,4

4,2

Ireland

13,9

10

4,7

25,8

2,2

24

6,2

1,6

2,9

Italy

95,1

2,9

13,7

3,4

36,8

2,1

4,3

6,7

Netherland

9,5

13,6

3,6

23,4

2,5

22,4

4,2

1,8

3,7

Norw

ay

9,4

4,7

2,7

23,3

9,7

23

4,6

1,6

2,7

Poland

6,9

10,2

2,7

19,3

336,1

5,9

26,6

Portugal

6,2

3,7

1,1

4,9

14,2

27

5,9

4,7

7,9

Romania

6,2

6,3

1,5

11,1

149,6

3,1

5,3

2,8

Spain

7,1

3,4

3,1

8,6

729,2

5,7

5,9

7,2

Sweden

9,9

7,8

3,5

24,7

7,5

19,5

3,7

1,4

2

Switzerland

13,1

10,1

3,1

23,8

2,3

25,6

2,8

2,4

4,9

UK

17,4

5,7

4,7

20,6

4,3

24,3

4,7

3,4

3,3

USSR

9,3

4,6

2,1

16,6

343,6

6,4

3,4

2,9

WGerm

any

11,4

12,5

4,1

18,8

3,4

18,6

5,2

1,5

3,8

Yugoslavia

4,4

51,2

9,5

0,6

55,9

35,7

3,2

“RAIZ”2014/10/28page 48

✐

✐

✐

✐

✐

✐

✐

✐


Em primeiro lugar algumas informacoes basicas sobre as variaveis. AFigura 2 mostra as medias e variancias das variaveis. Dada a variacaoentre estas ultimas os dados serao normalizados antes da analise, ou sejausaremos as variaveis padronizadas (media zero e variancia 1).

Figura 2. Medias e Variancas das variaveis.

Variavel Media Variavel Variancia

RedMeat 9,828 RedMeat 3,3470783

WhiteMeat 7,896 WhiteMeat 3,6940809

Eggs 2,936 Eggs 1,1176165

Milk 17,112 Milk 7,1054158

Fish 4,284 Fish 3,4025334

Cereals 32,248 Cereals 10,974786

Starch 4,276 Starch 1,6340849

Nuts 3,072 Nuts 1,9856821

Fr.Veg 4,136 Fr.Veg 1,8039032

A Figura 3 mostra a correlacao entre as variaveis.

“RAIZ”2014/10/28page 49

✐

✐

✐

✐

✐

✐

✐

✐


Figura 3

As cores, inclinaçao e forma das elipses da uma idea grafica rapida das correlacoes.

Azuis: inclinacao positiva , correlaçao positiva. Marroes: inclinacao negativa, correlaçao negativa.

Forma proxima de um circulo indica uma correlaçao proxima de zero.

A escala de cores a direita do grafico da os valores das correlaçoes.

Temos uma correlacao positiva entre as variaveis (consumo de) White-Meat, Eggs,Read Meat e Milk.O mesmo acontece entre Cereais e Nuts e com menor intensidade entreStarch e Fish .

“RAIZ”2014/10/28page 50

✐

✐

✐

✐

✐

✐

✐

✐


A Figura 4 indica as cargas das componentes principais (loadings ) sobreas 9 componentes.Note-se que a Primeira Componente (a mais importante) separa clara-mente as carnes vermelha, branca, ovos e leite, de nozes e cereais. Asegunda componente esta determinada pelo consumo de peixe e vegetais(e em menor grau amidos).

Figura 4. Cargas da componentes (loadings).

Variavel PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9

RedMeat 0,303 0,056 0,298 0,646 0,322 0,460 0,150 0,020 0,246

WhiteMeat 0,311 0,237 0,624 0,037 0,300 0,121 0,020 0,028 0,592

Eggs 0,427 0,035 0,182 0,313 0,079 0,361 0,443 0,491 0,333

Milk 0,378 0,185 0,386 0,003 0,200 0,618 0,462 0,081 0,178

Fish 0,136 0,647 0,321 0,216 0,290 0,137 0,106 0,449 0,313

Cereals 0,438 0,233 0,096 0,006 0,238 0,081 0,405 0,703 0,152

Starch 0,297 0,353 0,243 0,337 0,736 0,148 0,153 0,115 0,122

Nuts 0,420 0,143 0,054 0,330 0,151 0,447 0,407 0,184 0,518

Fr.Veg 0,110 0,536 0,408 0,462 0,234 0,119 0,450 0,092 0,203

Utilizando as cargas e as variaveis originais (normalizadas) calculamosa posicao de cada linha da matriz de dados (pais) sobre cada uma dascomponentes. Os valores estao indicados na Figura 5.

“RAIZ”2014/10/28page 51

✐

✐

✐

✐

✐

✐

✐

✐


Figura 5. Componentes (scores).

PC1

PC2

PC3

PC4

PC5

PC6

PC7

PC8

PC9

Albania

3,485

1,630

1,761

0,230

0,023

1,034

0,472

0,762

0,103

Austria

1,423

1,041

1,338

0,168

0,933

0,218

0,181

0,251

0,217

Belgium

1,622

0,159

0,217

0,521

0,755

0,290

0,196

0,203

0,033

Bulgaria

3,134

1,301

0,151

0,214

0,485

0,696

0,465

0,808

0,300

Czechoslov

0,370

0,603

1,196

0,464

0,257

0,823

0,315

0,012

0,149

Denmark

2,365

0,285

0,752

0,967

0,752

0,170

0,226

0,621

0,480

EGerm

any

1,422

0,450

1,303

1,136

0,423

0,648

0,555

0,163

0,260

Finland

1,564

0,596

2,050

1,415

0,037

0,834

0,726

0,226

0,133

France

1,488

0,785

0,002

1,957

0,250

0,899

0,946

0,022

0,544

Greece

2,240

1,001

0,883

1,794

0,405

1,144

0,147

0,306

0,388

Hungary

1,457

0,816

1,914

0,217

0,041

0,539

0,768

0,146

0,537

Ireland

2,663

0,764

0,020

0,435

1,014

0,482

0,029

0,023

0,079

Italy

1,535

0,399

0,126

1,222

0,804

0,214

0,150

0,080

0,732

Netherland

1,641

0,912

0,766

0,126

0,761

0,298

0,062

0,460

0,261

Norw

ay

0,975

0,822

1,704

1,138

0,415

0,056

0,043

0,107

0,147

Poland

0,122

0,532

1,475

0,458

0,023

0,588

1,261

0,192

0,221

Portugal

1,706

4,289

0,044

0,894

0,385

0,697

0,046

0,205

0,263

Romania

2,757

1,119

0,070

0,615

0,317

0,131

0,133

0,027

0,338

Spain

1,312

2,554

0,515

0,359

0,516

0,669

0,597

0,235

0,477

Sweden

1,634

0,207

1,280

0,734

0,820

0,044

0,541

0,072

0,108

Switzerland

0,912

0,751

0,154

1,170

0,831

0,090

0,512

0,529

0,067

UK

1,735

0,094

1,153

1,734

1,084

0,097

0,651

0,239

0,132

USSR

0,783

0,111

0,370

0,928

1,670

0,185

0,574

0,052

0,092

WGerm

any

2,094

0,294

0,804

0,109

0,068

0,201

0,457

0,357

0,025

Yugoslavia

3,623

1,038

0,206

0,822

0,378

0,354

0,061

0,193

0,149

Como vimos o uso do metodo de Componentes Principais transforma asvariaveis originais em variaveis ortogonais e de forma que as primeirascomponentes capturam a maior proporcao da variancia a ser explicada.Para explicar totalmente esta variacao deverıamos usar todas as 9 com-ponentes. Em geral se a matriz de dados e n× p terıamos min(n− 1, p)componentes principais. Nao estamos interessados em todas elas. Soum numero pequeno delas para poder analisar e interpretar os dados.Podemos explicar uma grande parte dela usando somente umas poucascomponentes (2 ou 3 por exemplo). A proporcao explicada por cadacomponente relativa ao total e usualmente resumida em um grafico cha-mado de Scree Plot.

“RAIZ”2014/10/28page 52

✐

✐

✐

✐

✐

✐

✐

✐


Figura 6. Screeplot.

RedMeat WhiteMeatEggs Milk Fish Cereals Starch Nuts Fr.Veg

0,44516 0,181667 0,125324 0,106074 0,051538 0,036126 0,030178 0,012921 0,011012

O Grafico da Figura 6 mostra que a primeira componente representamais de 40% da variacao total e o Grafico seguinte da Figura 7 mostraque os dois primeiros representam mais de 60% do total.

“RAIZ”2014/10/28page 53

✐

✐

✐

✐

✐

✐

✐

✐


Figura 7. Proporcao da variancia explicada.

Variancia acumulada

0,45 0,63 0,75 0,86 0,91 0,95 0,98 0,99 1,00

Nao existe um metodo formal de determinanar o numero de componen-tes. Os procedimentos sao relativamente ad-hoc e influenciados pela areade aplicacao onde sao utilizados. Por exemplo em dados provenientes deCiencias Sociais e comun que os dados contenham muito “ruido” (erroaleatorio). Nestes casos curvas como as da Figura 7 crescem lentamente.

Um procedimento ad hoc frequentemente utilizado e um sugerido porCattell (1960) que consiste em selecionar componentes ate atingir o “co-tovelo” da curva do Scree Plot. Ou seja uma situacao na qual a curvaja passou pela sua pincipal descida e esta mais ou menos estabilizada.Em nosso caso corresponderia a escolher 2 ou 3 dimensoes. Ficaremoscom 2 dimensoes ja que permite uma apresentacao grafica mais simplese direta.

Como sugerido pelos resultados em 2.6, uma representacao convenientee obtida atraves de um Biplot.

Neste caso as linhas da matriz de dados sao representadas como pon-tos (coordenadas sobre as duas primeiras componentes principais) e asvariaveis como direcoes. Direcoes aproximadamente horizontais sao al-tamente correlacionadas com a primeira componente. Direcoes aproxi-

“RAIZ”2014/10/28page 54

✐

✐

✐

✐

✐

✐

✐

✐


madamente verticais seriam mais correlacionadas com a segunda com-ponente principal.

A Figura 8 mostra o grafico. Vemos por exemplo que Espanha e Portugalsao um grupo de paıses diferenciado assim como Romenia, Bulgaria,Albania e Yugoslavia.

Figura 8. Biplot tradicional.

Espanha e Portugal mostram que sao consumidores de mais peixe, ve-getais e amidos em menor grau que outros paıses. O mesmo acontececom o consumo de cereais e nozes em Albania, Bulgaria, Romenia eYogoslavia.

O grafico sugere tambem uma segmentacao entre os paıses em funcaodo seu consumo de Proteinas.

Uma versao muito interessante do Biplot pode ser consultada em Gowere outros (2011). Nesta versao os vetores correspondentes aos atributossao tomados como direcoes e suas escalas mudadas para conseguir umapropriedade interessante: se projetamos perpendicularmente um pontolinha sobre uma direcao o valor de sua projecao corresponde aproxima-damente ao valor do atributo original. Ou seja poderıamos usar o grafico

“RAIZ”2014/10/28page 55

✐

✐

✐

✐

✐

✐

✐

✐


para ter rapidamente uma ideia do valor das variaveis. Naturalmente asinterpretacoes de menor angulo entre direcoes indicar maior correlacaoentre as variaveis e a de direcoes proximas aos eixos indicar loadingsmaiores sobre os mesmos sao mantidas.

A Figura 9 mostra o grafico so dos pontos sem as variaveis (e sem osvalores das coordenadas que) para ter uma visao “limpa” da posicao dospaıses. Vemos de novo que Espanha e Portugal sao um grupo de paısesdiferenciado assim como Romenia, Bulgaria, Albania e Yugoslavia.

Figura 9. Mapa dos paıses sobre as duas primeiras componen-tes principais.

“RAIZ”2014/10/28page 56

✐

✐

✐

✐

✐

✐

✐

✐


A Figura 10 mostra o resultado completo com com paıses (pontos) evarieveis (direcoes).

Figura 10. Mapa dos paıses sobre as duas componentes prin-cipais. Inclui as direcoes dos atributos utilizados (Biplot).

Exemplo 2. Dados sobre caracterısticas de Vinho.

Para este exemplo so vamos indicar os principais quadros. Os dadoscorrespondem a 21 marcas de vinho frances sobre as quais 28 variaveisforam determinadas. Duas destas variaveis sao categoricas (fatores): La-bel (3 niveis: Saumur , Bourgueuil e Chinon) e Soil (4 niveis: Reference,Env1, Env2, Env4) indicando Regioes da Franca e tipos de solo.

“RAIZ”2014/10/28page 57

✐

✐

✐

✐

✐

✐

✐

✐


As 28 variaveis numericas e as 21 Marcas (codigos das marcas) sao:

Figura 1

Marcas

1 2EL

2 1CHA

3 1FON

4 1VAU

5 1DAM

6 2BOU

7 1BOI

8 3EL

9 DOM1

10 1TUR

11 4EL

12 PER1

13 2DAM

14 1POY

15 1ING

16 1BEN

17 2BEA

18 1ROC

19 2ING

20 T1

21 T2

Variaveis

1 Odor.Intensity.before.shaking

2 Aroma.quality.before.shaking

3 Fruity.before.shaking

4 Flower.before.shaking

5 Spice.before.shaking

6 Visual.intensity

7 Nuance

8 Surface.feeling

9 Odor.Intensity

10 Quality.of.odour

11 Fruity

12 Flower

13 Spice

14 Plante

15 Phenolic

16 Aroma.intensity

17 Aroma.persistency

18 Aroma.quality

19 Attack.intensity

20 Acidity

21 Astringency

22 Alcohol

23 Balance

24 Smooth

25 Bitterness

26 Intensity

27 Harmony

28 Overall.quality

A Figura 1 indica o posicionamnto das marcas. So uma variavel foienfatizada no grafico: a Qualidade Total, para nao poluir o grafico com

“RAIZ”2014/10/28page 58

✐

✐

✐

✐

✐

✐

✐

✐


muitas direcoes.

Figura 2

Env1 Env2 Env4 Reference

Odor.Intensity

Aroma.quality.

Fruity.before.

Flower.before.

Spice.before.s

Visual.intensiNuance

Surface.feelin

Odor.Intensity

Quality.of.odoFruity

Flower

SpicePlante Phenolic

Aroma.intensit

Aroma.persiste

Aroma.quality

Attack.intensi

Acidity

Astringency

Alcohol

Balance

Smooth

Bitterness

Intensity

Harmony

3.393

3.214

3.536

2.464

3.741

3.6433.714

3.393

3.2003.179

3.571

3.148

3.5713.929

3.643

3.750

3.5363.464

2.370

2.643

2.852

2EL

1CHA

1FON

1VAU

1DAM

2BOU1BOI

3EL

DOM11TUR

4EL

PER1

2DAM1POY1ING

1BEN

2BEA1ROC

2ING

T1

T2

wine$Overall.q

2.0

2.5

3.0

3.5

4.0

A Figura 2 e semelhante a Figura 1 onde foram agregadas capsulas con-vexas aos diferentes tipos de solo para visualizar mais claramente umaespecie de ordem de qualidade do vinho entre os grupos. As marcas doSolo de Referencia apresentam uma qualidade global muito homogenea.

“RAIZ”2014/10/28page 59

✐

✐

✐

✐

✐

✐

✐

✐


Figura 3. Posicionamento das Marcas adicionando capsulasconvexas dos grupos de solos. O Solo de Referencia e o quetem maior qualidade como um todo com 7 marcas no mesmo.

Env1

AB: Env1

TM: Env1

Env2

AB: Env2

TM: Env2

Env4

AB: Env4

TM: Env4

Reference

AB: Reference

TM: Reference

Odor.Intensity

Aroma.quality.

Fruity.before.

Flower.before.

Spice.before.s

Visual.intensiNuance

Surface.feelin

Odor.Intensity

Quality.of.odoFruity

Flower

SpicePlante Phenolic

Aroma.intensit

Aroma.persiste

Aroma.quality

Attack.intensi

Acidity

Astringency

Alcohol

Balance

Smooth

Bitterness

Intensity

Harmony

3.393

3.214

3.536

2.464

3.741

3.6433.714

3.393

3.2003.179

3.571

3.148

3.5713.929

3.643

3.750

3.5363.464

2.370

2.643

2.852

2EL

1CHA

1FON

1VAU

1DAM

2BOU1BOI

3EL

DOM11TUR

4EL

PER1

2DAM1POY1ING

1BEN

2BEA1ROC

2ING

T1

T2

wine$Overall.q

2.0

2.5

3.0

3.5

4.0

“RAIZ”2014/10/28page 60

✐

✐

✐

✐

✐

✐

✐

✐

Capıtulo 3

Analise de Correspondencia

A tecnica de analise de correspondencia foi desenvolvida para o trata-mento simultaneo das linhas e colunas de uma tabela bi-dimensional,onde as entradas sao numeros nao negativos. Como exemplos de taistabelas, podemos citar: 1 a) a tabeca de contingencia onde as linhas eas colunas representam variaveis categoricas e cada entrada o numerode observacoes das variaveis cruzadas, e 2 a) a tabela de incidencia ondeas linhas representam, por exemplo, indivıduos e as colunas represen-tam variaveis categoricas, por exemplo, nıvel de instrucao do pai, nıvelde instrucao da mae, etc... . Cada variavel dessas e dividida em classesmutuamente disjuntas, por exemplo, o nıvel de instrucao do pai podeser superior, colegial, primario completo, etc... . Cada entrada e 1 ou0, conforme o indivıduo possui ou nao uma determinada caracterıstica.Outros exemplos serao vistos mais tarde.

Como na tecnica de componentes principais, a analise de corres-pondencia pode ser apresentada de diferentes maneiras. (Ver Benzecri(1973), Lebart & Fenelon (1971), Lebart, Morineau & Tabard (1977) eHill (1974) ).

Comecaremos a exposicao tomando o ponto de vista de Analise deDados, que vai ser enfatizado, e depois daremos algumas formulacoesequivalenes. O objetivo e a representacao simultanea das linhas e colunasde uma tabela em um espaco de dimensao pequena onde possamos maisfacilmente interpretar as relacoes entre as linhas, entre as colunas e entreas linhas e as colunas. E claro que essa representacao simultanea deveser obtida, como na analise de componentes principais, conservando na

60

“RAIZ”2014/10/28page 61

✐

✐

✐

✐

✐

✐

✐

✐

Cap.3 - Analise de Correspondencia 61

medida do possıvel a “informacao” contida nos dados originais. De fato,o que faremos e transformar os dados de duas maneiras diferentes esobre cada transformacao aplicar uma analise de componentes principaisapropriada.

3.1 Notacao e descricao do problema

A analise de correspondencia e, tipicamente, utilizada para analisar umatabela de contingencia. Essa tabela de contingencia pode ter sido ob-tida, por exemplo, de um grupo de n indivıduos classificados em I clas-ses disjuntas A1, . . . , AI de um criterio A (por exemplo, municıpio deresidencia) e em J classes disjuntas B1, . . . , Bj de um criterio B (porexemplo, causa de morte ou nıvel de renda). Essa tabela pode ser re-presentada da seguinte maneira:

CriterioA�Criterio B B1 . . . Bj . . . BJ marginal de A

A1 n11 nij niJ n1·...

Ai ni1 nij niJ ni·...

AI nI1 nIj nIJ nI·marginal de B n·1 n·j n·J n

onde nij = numero de indivıduuos classificados simultaneamente em Ai

e Bj ,

ni··· =J∑

j=1

nij = numero de indivıduos classificados em Ai ,

n···j =I∑

i=1

nij = numero de indivıduos classificados em Bj .

E claro que temos

n =I∑

i=1

J∑

j=1

nij =I∑

i=1

ni··· =J∑

j=1

n···j .

“RAIZ”2014/10/28page 62

✐

✐

✐

✐

✐

✐

✐

✐

62 Analise de Correspondencia Cap.3

Mais geralmente, a analise de correspondencia e utilizada numa ta-bela onde as classes Ai e/ou as classes Bj nao precisam ser mutuamentedisjuntas, nij e a entrada correspondente a classe Ai e a classe Bj , coma restricao nij ≥ 0, ni··· , n···J e n sao como antes.

Chamemos a essa tabela de N , ie., N = (nij) 1≤i≤I1≤j≤J

.

Mas para facilitar a apresentacao da tecnica, podemos pensar numatabela de contingencia. A tabela N pode ser normalizada considerando-

se a tabela P =1

nN , que no caso da tabela de contingencia e a tabela

de frequencia.

Se p = (pij) 1≤i≤I1≤j≤J

, temos entao

pij =nij

n,

pi··· =J∑

j=1

pij =ni···n

,

p···j =I∑

i=1

pij =n···jn

e

1 =I∑

i=1

J∑

j=1

pij =I∑

i=1

pi··· =J∑

j=1

p···j .

Para compararmos, por exemplo, dois municıpios em relacao ao nıvelde renda de seus habitantes, nao e interessante trabalhar com o numerototal de habitantes, pois em geral, os municıpios tem numero de habitan-tes distintos, podendo ser um municıpio muito maior que o outro. O quee interessante e comparar os “perfis” dos municıpios, isto e, compararas frequencias relativas de cada classe de renda nos municıpios. Entao,se por exemplo, essas frequencias relativas sao aproximadamente iguaispara todas as classes de rendas, esses dois municıpios seriam similares.

Representamos entao cada classe Ai pelo vetor de frequencias con-dicionais pBi no espaco RJ , isto e,

(pBi)′=

(pi1pi···

, · · · , piJpi···

)=

(ni1

ni···, · · · , niJ

ni···

)·

“RAIZ”2014/10/28page 63

✐

✐

✐

✐

✐

✐

✐

✐


Analogamente, representamos cada classeBj pelo vetor de frequenciascondicionais pAj no espaco RI , isto e,

(pAj)′=

(p1jp···j

, · · · , pIjp···j

)=

(n1j

n···j, · · · , nIj

n···j

)·

Ao vetor pBi (pAj ) chamamos de perfil da classe Ai (Bj). Observamosque

J∑

j=1

pijpi···

= 1 e

J∑

i=1

pijp···j

= 1.

Temos entao para as classes A1, . . . , AI , representacoes comparaveisno espaco RJ e para as classes B1, . . . , Bj representacoes comparaveisno espaco RI .

Para podermos comparar as classes A1, . . . , AI , precisamos agoraintroduzir uma distancia no espaco RJ .

Procuremos entao, uma distancia quadratica

d2(Ai, Ai′) =∥∥pBi − pBi′

∥∥2ΣB =

J∑

j=1

λj

(pijpi···

− pi′jpi′···

)2

que tenha a seguinte propriedade de invariancia:

“Se agregamos duas classes Bj e Bj′ de mesmo perfil, isto e, tais quepAj = PA

j′ , nao alteramos a distancia entre duas classes quaisquer Ai e

Ai′ , isto e, d2(Ai, Ai′) permanece inalterada”.

Essa e uma propriedade desejavel, pois se duas classes de renda vizi-nhas tem aproximadamente o mesmo perfil, podemos entao agrupar es-sas duas classes de renda sem alterar a similaridade entre os municıpios.Esse fato garante uma certa invariabilidade dos resultados a divisao emclasses de renda, que e necessariamente arbitraria.

E claro que λj deve depender de Bj e como estamos interessados empoder agregar duas classes Bj e Bj′ de mesmo perfil, e natural tomarmosλj como uma funcao contınua λ de p···j , isto e, λj = λ(p···j).

Proposicao 3.1. A distancia entre as classes Ai e Ai′ que satisfaz essa

propriedade de invariancia, e, a menos de uma homotetia, dada por:

d2(Ai, Ai′) =∥∥pBi − pBi′

∥∥2ΣB =

J∑

j=1

1

p···j

(pijpi···


)2

,

“RAIZ”2014/10/28page 64

✐

✐

✐

✐

✐

✐

✐

✐


isto e, e a distancia quadratica em RJ , definida pela matriz ΣB =

diag

(1

p···1, · · · , 1

p···J

)·

Demonstracao. Sejam j1 e j2 dois ındices tais que pAj1 = pAj2 , isto e,pij1p···j1

=pij2p···j2

para todo i = 1, . . . , I.

Podemos entao grupar as classes Bj1 e Bj2 numa nova classe Bj0 .Temos entao

nij0 = nij1 + nij2 para todo i = 1, . . . , I e

n···j0 = n···j1 + n···j2 .

Comonij1

n···j1=

nij2

n···j2=

nij1 + nij2

n···j1 + n···j2=

nij0

n···j0,

temos

(*)pij1p···j1

=pij2p···j2

=pij0p···j0

para todo i = 1, . . . , I

Podemos escrever entao:

d2(Ai, Ai′) =J∑

j=1

λ(p···j)

(pijpi···


)2

=

= λ(p···j1)

(pij1pi···

− pi′j1pi′···

)2

+ λ(p···j2)

(pij2pi···

− pi′j2pi′···

)2

+

+∑

j 6=j1j 6=j2

λ(p···j)

(pijpi···


)2

·

Para que a propriedade de invariancia seja satisfeita, e necessario esuficiente que:

λ(p···j1)

(pij1pi···

− pi′j1pi′···

)2

+ λ(p···j2)

(pij2pi···

− pi′j2pi′···

)2

=

= λ(p···j0)

(pij0pi···

− pi′j0pi′···

)2

,

“RAIZ”2014/10/28page 65

✐

✐

✐

✐

✐

✐

✐

✐


ou seja que

λ(p···j1)p···j21

(pij1

pi··· p···j1

pi′j1pi′··· p···j1

)2

+

+ λ(p···j2)p2···j2

(pij2

pi··· p···j2− pi′j2

p′i ··· p···j2

)2

= λ(p···j0)p2···j0

(pij0

pi··· p···j0− pi′j0

pi′··· p···j0

)2

·

Por (pagina anterior), as expressoes entre parentesis sao iguais. Logotemos a igualdade:

λ(p···j1) p2···j1 + λ(p···j2) p

2···j2 = λ(p···j0) p

2···j0

para quaisquer p···j1 > 0, p···j2 > 0, com p···j0 = p···j1 + p···j2 .

O resultado segue entao do seguinte lema.

Lema. Se λ e uma funcao contınua definida nos reais positivos, satis-

fazendo a relacao

λ(a)2 a2 + λ(b) b2 = λ(a+ b)(a+ b)2,

entao λ(a) =c

aonde c = λ(1) e uma constante > 0.

Demonstracao. Mostra-se recursivamente que λ(na) =1

nλ(a) para

todo a > 0, n inteiro positivo. Segue entao que λ(n) =1

nλ(1) para

todo inteiro positivo. Mostra-se depois que λ(mn

)=

1

(m/n)λ(1) para

quaisquer inteiros positivos m e n. E entao, segue por continuidade que

λ(a) =1

aλ(1) para todo a > 0.

Analogamente, a distancia entre duas classes Bj e Bj′ , e dada por

d2(Bj , Bj′) =∥∥pAj − pAj′

∥∥2ΣA =

I∑

i=1

1

pi···

(pijp···j

− pij′

p···j′

)2

onde ΣA = diag

(1

p1···, · · · , 1

pI···

)·

Observacao 1. Se as classes Bj1 e Bj2 tem o mesmo perfil e sao gru-padas na classe Bj0 , entao

d2(Bj , Bj0) = d2(Bj , Bj1) = d2(Bj , Bj2) para todo j = 1, . . . , J.

“RAIZ”2014/10/28page 66

✐

✐

✐

✐

✐

✐

✐

✐


Esse fato segue diretamente de (*).

Observacao 2. Os valores λj =1

p···jem

d2(Ai, Ai′) =J∑

j=1

1

p···j

(pijpi···


)2

tem a propriedade de atenuar as disparidades causadas pelos diferentescontingentes n···j das classes Bj . Isto e, se p···j0 fosse consideravelmente

menos (mais) que os outros p···j ,(pij0pi···

− pi′j0pi′···

)2tenderia a ter um papel

muito mais (menos) importante que as demais parcelas na distancia

euclidianaJ∑

j=1

(pijpi···


)2.

Lembramos que nosso objetivo e a representacao simultanea das clas-ses Ai e Bj em um espaco de dimensao p menor que I e J . Pode-mos entao fazer uma analise de componentes principais para as classesA1, . . . , AI , representadas por seus perfis pB1 , . . . , p

BI e com a distancia

acima definida. Como essas classes tem, em geral, contingentes diferen-tes, e razoavel dar-lhes pesos µA

1 , . . . , µAI iguais as suas frequencias, isto

e, µAi = pi··· para todo i = 1, . . . , I. Fazemos o mesmo com as classes

B1, . . . , BJ , com pesos µBj = p···j para todo j = 1, . . . , J . Na proxima

secao, daremos propriedades dessas representacoes e relacoes entre elas.

3.2 Resultados

Consideremos as matrizes PB de dimensao I×J e PA de dimensao J×I,cujas linhas sao, respectivamente, os perfis das classes A1, . . . , Ai e osperfis das classes B1, . . . , BI , isto e:

PB = ΣAP =

(pB1)′

...(pBI)′

e PB = ΣBP =

(pA1)′

...(pAJ)′

Aplicaremos duas analises de componentes principais. A primeira,sobre os vetores pB1 , . . . , p

BI pertencentes ao espaco RJ munido do pro-

duto interno definida por ΣB e com pesos µAi = pi··· , i = 1, . . . , I. A

“RAIZ”2014/10/28page 67

✐

✐

✐

✐

✐

✐

✐

✐


segunda, sobre os vetores pA1 , . . . , pAJ pertencentes ao espaco RI munido

do produto interno definido por ΣA e com pesos µBj = p···j , j = 1, . . . , J .

Sejam

(pB···)′=( I∑

i=1

µAi pBi

)′= (p···1, . . . , p···j) e

(pA···)′=( J∑

j=1

µBj pAj

)′= (p1···, . . . , pI···) ,

os vetores medias ponderadas, respectivamente, dos vetores pBi e pAJ .Sejam xBi = pBi − pB··· e xAj = pAj − pA··· seus desvios.

Aplicamos agora o Teorema 2.1. Temos entao: (i) as matrizes decovariancia amostral

CB =I∑

i=1

µAi xBi (x

Bi )

′ =I∑

i=1

pi··· pBi (p

Bi )

′ − pB··· (pB··· )

′ =

= (pB)′(ΣA)−1(pB)− pB··· (pB··· )

′ = P ′ΣAP − pB··· (pB··· )

′

e

CA =J∑

j=1

µBj xAj (x

Aj )

′ = P ΣB P ′ − pA··· (pA··· )

e (ii) as matrizes

UB = (uB1 , . . . , uBJ ), (ΣB)−1 − ortonormal e

UA = (uA1 , . . . , uAI ), (ΣA)−1 − ortonormal

tais que:ΣB CB UB = ΛB UB

eΣACA UA = ΛA UA

onde ΛB = diag(λB1 , . . . , λ

BJ ) e ΛA = diag(λA

1 , . . . , λAI ) com

λB1 ≥ · · · ≥ λB

J ≥ 0 e λA1 ≥ · · · ≥ λA

I ≥ 0.

Ainda pelo Teorema 2.1, Fα(i) = (uBα )′ xBi e Gα(j) = (uAα )

′ xAj sao,respectivamente, as α-esimas componentes principais das classes Ai eBj .

“RAIZ”2014/10/28page 68

✐

✐

✐

✐

✐

✐

✐

✐


Teorema 3.1.

(i) O vetor uBJ = IJ = (1, . . . , 1)′ e autovetor de ΣB CB associado ao

autovalor λBj = 0.

O vetor uAI = 1A = (1, . . . , 1)′ e autovetor de ΣACA associado ao

autovalor λAi = 0.

(ii) Os autovetores uBα , α = 1, . . . , J − 1 satisfazem:

(pB··· )′ uBα =

B∑j=1

p···j uBα (j) = 0.

Os autovetores uAα , α = 1, . . . , I − 1 satisfazem:

(pA··· )′ uAα =

I∑i=1

pi··· uAα (i) = 0.

(iii) A matriz HB = ΣB P ′ΣA P de termo geral hjj′ =1

p···j

I∑i=1

pij pij′

pi···tem como autovetores uBα , 1 ≤ α ≤ J , associados aos autovalores

λB1 , . . . , λ

BJ−1 e λJ = 1.

A matriz HA = ΣA P ΣB P ′ de termo geral hii′ =1

pi···

J∑j=1

pij pij′

p···jtem como autovetores uAα , 1 ≤ α ≤ I, associados aos autovalores

λA1 , . . . , λ

AI−1 e λI = 1.

(iv) A matriz simetrica SB = (ΣB)1/2 P ′ΣA P (ΣB)1/2 de termo geral

SBjj′ =

I∑i=1

pij pij′

pi···√p···j p···j′

tem os mesmos autovalores que a matriz

HB e seus autovetores dBα sao ortonormais e satisfazem dBα =(ΣB)−1/2 uBα , isto e, dBα (j) =

√p···j uBα (j).

A matriz simetrica SA = (ΣA)1/2 P ΣB P ′(ΣA)1/2 de termo geral

SAii′ =

J∑j=1

pij pi′jp···j

√pi··· pi′···

tem os mesmos autovalores que a matriz HA e

seus autovetores dAα sao ortonormais e satisfazem dAα = (ΣA)−1/2 uAα ,

isto e, dAα (i) =√pi··· uAα (i).

(v) Os autovalores nao nulos de ΣB CB coincidem com os autovalores

nao nulos de ΣACA.

“RAIZ”2014/10/28page 69

✐

✐

✐

✐

✐

✐

✐

✐


(vi) Se λα > 0, entao

uBα =1√λα

ΣBP ′uAα , isto e, uBα (j),=

=1√λα

I∑

i=1

pijp···j

uAα (i), j = 1, . . . , J.

uAα =1√λα

ΣAPuBα , isto e, uAα (i) =

=1√λα

J∑

j=1

pijpi···

uBα (j), i = 1, . . . , I.

(vii) Sejam Fα = (Fα(1), . . . , Fα(I))′ e Gα = (Gα(1), . . . , Gα(J))

′. Entaose λα > 0, temos:

Fα =√λαu

Aα

e

Gα =√λαu

Bα

(viii) Se λα > 0, entao

Fα =1√λα

ΣAPGα , isto e, Fα(i) =1√λα

J∑

j=1

pijpi···

Gα(j), i = 1, . . . , I,

e

Gα =1√λα

ΣAP ′Fα , isto e, Gα(j) =1√λα

I∑

i=1

pijp···j

Fα(i), j = 1, . . . , J.

(ix) λα ≤ 1 para todo α.

Demonstracao. (i) Mostremos qye ΣB CB 1J = 0. Logo precisamosmostrar que a soma em cada linha de ΣB CB e igual a zero.

Como ΣB CB = ΣB P ′ΣAP − ΣB pB···(pB···)′, se Cb = (cBjj′), temos

J∑

j′=1

cjj′

p···j=

J∑

j′=1

1

p···j

I∑

i=1

pij pij′

pi···i−

J∑

j′=1

p···j p···j′

p···j=

=1

p···j

I∑

i=1

pijpi···

J∑

j′=1

pij′ −J∑

j′=1

p···j′ = 1− 1 = 0.

“RAIZ”2014/10/28page 70

✐

✐

✐

✐

✐

✐

✐

✐


(ii) Segue imediatamente do fato de que os uBα ’ sao(ΣB)−1

-ortonormaise uBJ = 1J .

(iii) Vimos em (i) que ΣB CB = HB − ΣB pB···(pB···)′. Logo para

1 ≤ α ≤ J − 1

λBα uBα = ΣB CB uBα = HB uBα − ΣB pB···

(pB···)′uBα

e o resultado segue de (ii).

Para α = J , o resultado segue da demonstracao de (i) onde mostra-mos que HB 1J = 1J .

(iv) HB uBα = ΣB P ′ΣA P uBα = λbα u

Bα .

Logo

(ΣB)1/2

P ′ΣA P(ΣB)1/2 (

ΣB)−1/2

uBα = λBα

(ΣB)−1/2

uBα

ou seja SB dBα = λBα dBα .

Logo os autovalores de SB e HB sao os mesmos e dBα =(ΣB)−1/2

uBαsao os autovetores de SB.

Alem disso,(dBα)′(

dBα′

)=(uBα)′(

ΣB)−1/2 (

ΣB)−1/2

uBα′ = δαα′ e por-

tanto os dB′

α sao ortonormais.

(v) Segue do fato que

SB =(ΣB)1/2

P ′(ΣA)1/2 (

ΣA)1/2

, P(ΣB)1/2

= L′L

eSA =

(ΣA)1/2

P(ΣB)1/2 (

ΣB)1/2

P ′(ΣA)1/2

= LL′

onde L =(ΣA)1/2

P(ΣB)1/2

.

(vi) Como SB = L′L e SA = LL′ e os dBα ’ e os dAα ’ tem norma 1, temos

dBα =1√λα

L′ dAα e dAα =1√λα

LdBα .

Logo(ΣB)1/2

uBα =1√λα

(ΣB)1/2

P ′(ΣA)1/2 (

ΣA)−1/2

uAα

ou seja uBα =1√λα

ΣB P ′ uAα .

“RAIZ”2014/10/28page 71

✐

✐

✐

✐

✐

✐

✐

✐


Analogamente uAα =1√λα

ΣA P uBα .

(vii) Fα(i) =(xBi)′uBα =

(pBi − pB···

)′uBα =

(pBi)′uBα devido a (ii).

Logo Fα = PB uBα = ΣA P uBα =√λα u

Aα por (vi).

Analogamente Gα =√λα u

B.

(viii) Imediato de (vii) e (vi).

(ix) Suponhamos que λα > 1. Entao1√λα

< 1.

Logo por (vi), mini

uAα (i) < uBα (j) < maxi

uAα (i) para todo j, poisI∑

i=1pi··· uAα (i) =

0 implica mini

uAα (i) < 0 < maxi

uAα (i).

Consequentemente mini

uAα (i) < minj

uBα (j) < maxj

uBα < maxi

uAα (i).

Novamente por (vi) e (ii), temos

minj

uBα (j) < uAα (i) < maxj

uAα (j)

o que implica mini

uAα (i) < minj

uBα (i) < mini

uAα (i). Portanto chegamos a

uma contradicao e λα tem que ser ≤ 1.

Observacoes

a)Na pratica, calculamos primeiro, os autovalores e autovetores damatriz SB (ou SA), que e uma matriz simetrica. Descartamos, entao, omaior autovalor 1 e seu autovetor associado

dB =

(1√p···1

, · · · , 1√p···J

)′ (dA =

(1√p···i

, · · · , 1√p···I

)′)·

b) O item (viii) nos diz que a α-esima coordenada da linha i e, amenos de uma dilatacao, a media ponderada das α-esimas coordenadasdas colunas, o peso da j-esima coluna sendo a frequencia condicionaldessa coluna dado a i-esima linha, isto e, pij/pi··· . E vice-versa.

Assim, se λα proximo de 1 e sepijpi···

grande (proximo de 1), a α-esima

coordenada da linha i devera estar proxima da α-esima coordenada dacoluna j.

Esse fato justifica a representacao simultanea das linhas e colunasno mesmo grafico.

“RAIZ”2014/10/28page 72

✐

✐

✐

✐

✐

✐

✐

✐


3.3 Formulacoes Equivalentes

(i) Metodo do escore de Fisher para tabelas de contingencia.

Seja P = (pij)1≤i≤I1≤j≤J

uma tabela de contingencia,∑i

∑jpij = 1. Po-

demos considerar pij como uma estimativa da probabilidade de ocorrenciado par (i, j). O metodo consiste em determinar funcoes f e g definidassobre {1, . . . , I} e {1, . . . , J} respectivamente, tais que tenham correlacaomaxima.

Para que esse problema tenha solucao, e necessario impor restricoesas funcoes f e g. Como e natural, impomos as restricoes de que asfuncoes f e g tenha media zero e variancia igual a um.

Logo, queremos maximizar cor(f, g) =∑i

∑jf(i)g(u)pij sujeito as

restricoes

Ef =∑

i

f(i)pi··· = 0, Eg =∑

j

g(j)p···j = 0

Var f =∑

i

f2(i)pi··· = 1, Var g =∑

j

g2(j)p···j = 1.

Nesse caso, o metodo e equivalente a determinar funcoes f e g satis-fazendo as restricoes acima e que minimizem E(f − g)2 =

∑i

∑j(f(i) −

g(j))2 pij .

De fato,

E(f − g)2 =∑

i

f2(i)pi··· +∑

j

g2(j)p···j − 2∑

i

∑

j

f(i)g(j)pij .

Logo E(f − g)2 = 2− 2 cor(f, g).

Uma vez achados f e g, podemos procurar funcoes f2 e g2 , defini-das em {1, . . . , I} e {1, . . . , J} respectivamente, que tenham correlacaomaxima, media zero, variancia um e sejam nao correlacionadas com f eg, isto e, procuramos funcoes f1 e f2 que maximizem

∑i

∑jf2(i)g2(j)pij

“RAIZ”2014/10/28page 73

✐

✐

✐

✐

✐

✐

✐

✐


sujeitas as restricoes.

Ef2 =∑

i

f2(i)pi = 0, Eg2 =∑

j

g2(j)p···j = 0,

Var f2 =∑

i

f22 (i)pi··· = 1, Var g2 =

∑

j

g22(j)p···j = 1,

cor(f, f2) =∑

i

f(i)f2(i)pi··· = 0, cor(g, g2) =∑

j

g(j)g2(j)p···j = 0,

cor(f, g2) =∑

i

∑

j

f(i)g2(j)pij = 0, corf2, g) =∑

i

∑

j

f2(i)g(j)pij = 0.

e assim por diante.

Os valores fα(i) e gα(j) sao chamados de α-esimos escores. Essemetodo esta descrito em Hirschfield (1935), Fisher (1940), Williams(1952), Kendall & Stuart (1961, pg. 569), Benzecri (1973), Lancaster(1969) e Hill (1974). Em particular, Kendall & Stuart (1961) forneceuma justificacao teorica baseada na distribuicao normal.

As funcoes f1, g1, f2, g2, etc... . Sao usualmente obtidas, utilizando-se, em cada etapa, os multiplicadores de Lagrange.

Mais geralmente, e usando-se notacao matricial, procuramos funcoesf1, . . . , fr definidas em {1, . . . , I} e funcoes g1, . . . , gr definidas em{1, . . . , J} tais que

(a) Efα =∑ifα(i)pi··· = 0 α = 1, . . . , r

Var fα =∑if2α(i)pi = f ′

α

(ΣA)−1

fα = 1,

onde

fα = (fα(1), . . . , fα(I))′, α = 1, . . . , r,

cor(fα, fα′) =∑ifα(i)fα′(i)pi··· = fα

(ΣA)−1

fα′ = 0 α 6= α′

(b) Egα =∑jgα(j)p···j = 0 α = 1, . . . , r

Var gα =∑jg2α(j)p···j = g′α

(ΣB)−1

gα = 1,

“RAIZ”2014/10/28page 74

✐

✐

✐

✐

✐

✐

✐

✐


onde

gα = (gα(1), . . . , gα(J))′, α = 1, . . . , r,

cor(gα, gα′) =∑jgα(j)gα′(j)p···j = gα′

(ΣB)−1

gα′ = 0 α 6= α′

(c) cor(fα, g′α) =

∑i

∑jfα(i)gα′(j)pij = f ′

α P gα′ = 0 α 6= α′

e que maximizemr∑

α=1cor(fα, gα) =

r∑α=1

f ′α P gα .

Como visto na Proposicao 8 do Capıtulo 1, a solucao desse problemae dada pelos vetores uAα e uBα , α = 1, . . . , r, autovetores das matrizesΣA P ΣB P ′ e ΣB P ′ΣA P , respectivamente, e associados aos autovaloresλ1 ≥ λ2 ≥ · · · ≥ λr . Isto e, fα(i) = uAα (i) e gα(j) = uBα (j), α = 1, . . . , r.Temos ainda pelo Teorema 2, que cor(fα, gα) =

√λα;

Observacao 1. Temos, essencialmente, a mesma solucao da analisede correspondencia, pois Fα(i) =

√λα u

Aα (i) e Gα(j) =

√λα u

Bα (j),

α = 1, . . . , r, i = 1, . . . , I e j = 1, . . . , J .

Observacao 2. O fato de que cor(fα, gα) = cor(uAα , uBα ) =

√λα , nos

da uma outra demonstracao de que λα ≤ 1.

Observacao 3. Os autovetores 1I e 1J de ΣA P ΣB P ′ e ΣB P ′ΣA P ,respectivamente, associados ao maior autovalor 1, nao satisfazem a res-tricao Ef = Eg = 0.

Observacao 4. O fato de que uAα e uBα minimizam E(fα(i)− gα(j)

)2=∑

i

∑j

(fα(i)−gα(j)

)2pij , nos da uma outra interpretacao a representacao

por nos obtida. Pois, nesse caso pij grande em relacao aos outros implicauAα (i) ≃ uBα (j), o que por sua vez implica Fα(i) ≃ G(j). E quanto maior√λα = cor(uAα , u

Bα ), mais verdadeiro e esse fato.

“RAIZ”2014/10/28page 75

✐

✐

✐

✐

✐

✐

✐

✐


(ii) Analise de correspondencia como um metodo de escala-mento simultaneo.

Suponhamos que temos uma tabela numerica N = (nij)1≤i≤I1≤j≤J

talque

nij ≥ 0, ni··· > 0, n···j > 0 para todo 1 ≤ i ≤ I, 1 ≤ j ≤ J . SejaP = (pij)1≤i≤I

1≤j≤J, pij = nij/n, onde n =

∑i

∑jnij , a tabela normali-

zada de frequencias. Podemos pensar, por exemplo, em uma tabela decontingencia.

Consideremos o seguinte problema: Queremos obter escores xi paraas linhas (classes Ai) e escores yj para as colunas (classes Bj) sobreum mesmo eixo tal que cada escore xi seja uma media ponderada dosescores yj , sendo o peso atribuıdo a yj igual a importancia relativa dacoluna j (classe Bj) em relacao a linha i (classe Ai), isto e, pij/pi . Dessamaneira, queremos

xi =∑

j

pijpi···

yj .

Analogamente, queremos

yj =∑

i

pijp···j

xi .

Em notacao matricial, sendo ΣA, Σb, como antes, X = (x1, . . . , xi)′

e Y = (y1, . . . , yj)′, temos

X = ΣA P Y

e

Y = ΣB P ′X.

E claro que a solucao trivial X = II , e Y = 1J nao e interessante.Em geral, nao existem outras solucoes do problema da maneira comoesta apresentado.

Uma modificacao possıvel, e ter os escores proporcionais a mediaponderada, isto e,

xi = β∑

j

pijpi···

yj e yj = β∑

i

pijp···j

xi

“RAIZ”2014/10/28page 76

✐

✐

✐

✐

✐

✐

✐

✐


com β tao proximo de 1 quanto possıvel, ou em notacao matricial

X = β ΣA P Y e Y = β ΣB P ′, X,

o que equivale a termos

X = β2ΣA P ′ΣB P ′X e Y = β2ΣB P ′ΣA P Y.

Temos, entao, que X deve ser autovetor de HA = ΣA P ΣB P ′ e Ydeve ser autovetor de HB = ΣB P ′ΣA P , ambos associados ao autovalor1/β2.

Essa modificacao e razoavel pois se partirmos de uma solucao inicialX0 6= 1I , definirmos Y0 = ΣB P ′X0 , X1 = ΣA P ′ Y0 , Y1 = ΣB P ′X1

e iterarmos, teremos:

Xn =(ΣA P ΣB P ′)nX0 e Yn =

(ΣB P ′ΣA P

)nY0 .

Sabemos que (ver por exemplo, Morrison (1967)) que se em cadaetapa, normalizamos Xn e Yn , Xn converge a um autovetor de HA eYn converge a um autovetor de HB.

Ver tambem Hill (1974) para motivacao.

Como vimos antes, HA e HB tem os mesmos autovalores e esses saosempre ≤ 1. Logo, como procuramos β tao proximo de 1 quanto possıvel,a solucao procurada e X = uA1 e Y = uB1 associados ao autovalor

λ1 =1

β2·

Podemos estender de maneira natural esse escalamento em um eixo, aum escalamento em k eixos ortonormais, ortonormalidade essa, definidaapropriadamente para as linhas e as colunas, e cuja solucao e X(α) = uAαe Y

(α)α = Y (α) = uBα , α = 1, . . . , k.

Logo, temos novamente, essencialmente, a solucao da analise de cor-respondencia.

3.4 Exemplos de tipos de tabela

Ja mencionamos varias vezes a tabela de contingencia A×B. Daremosexemplos, agora de outros tipos de tabela que podem ser considerados.

“RAIZ”2014/10/28page 77

✐

✐

✐

✐

✐

✐

✐

✐


(i) Tabelas de contingencia multivariadas.

Suponhamos que temos uma tabela de contingencia a 3 dimensoesA×B×C. Podemos tratar essa tabela, olhando as tabelas bidimensionaisA× (B × C), (A×B)× C e (A× C)×B.

Uma outra maneira de tratarmos o problema, quando estamos inte-ressados em explicar, digamos a categoria A, e considerarmos as tabelasA×B e A× C justapostas como na figura

B1 . . . Bj C1 . . . CK

A1...AI

E claro que podemos estender os conceitos acima, a tabelas de di-mensao maiores. No primeiro caso, caımos sempre numa tabela de con-tingencia bivariada. Consideremos entao o segundo caso em que temosjustaposicao de tabelas de contingencia bivariadas.

Consideremos entao, a categoria A com classes Ai = i = 1, . . . , I e

categorias B(q), q = 1, . . . , Q, a categoria B(q) com Jq classes B(q)j . For-

memos a tabela abaixo que e a justaposicao das tabelas de contingencia.A×B(q), q = 1, . . . , Q.

A�B B(1)1 . . . B

(1)J1

B(2)1 . . . B

(2)J2

. . . B(Q)1 . . . B

(Q)JQ

A1 n(1)11 n1J1 n

(2)11 n

1J(2)2

n(Q)11 n

(Q)1JQ

Qn1···

.

.

.

AI n(1)I1 n

(1)IJ1

n(2)I1 n

(2)IJ2

n(Q)I1 n

(Q)IJQ

QnI···

n(1)···1 n

(1)···J1

n(2)···1 n

(2)···J2

n(Q)···1 n

(Q)···JQ

Qn

Seja

n(q)ij = numero de elementos na classe Ai e classe B

(q)j ,

ni··· = numero de elementos na classe Ai

n(q)···j = numero de elementos na classe B

(q)j .

“RAIZ”2014/10/28page 78

✐

✐

✐

✐

✐

✐

✐

✐


Entao, usando-se a notacao com o subscrito q para a tabela A×B(q)

e sem o subscrito para a tabela geral, temos:

pi··· =Qni

Qn=

ni···n

= p(q)i para todo q = 1, . . . , Q,

p···j =n···jQn

=n(q)···j′

Qn=

1

Qp(q)···j′ para algum q e j′, e

pij =nij

Qn=

n(q)ij′

Qn=

1

Qp(q)ij′ para algum q e j′.

Logo

D2(Ai, Ai′) =

J1+···+JQ∑

j=1

1

p···j

(pijpi···


)2

=

=

Q∑

q=1

Jq∑

j=1

Q

p(q)···j

1

Q2

p

(q)ij

pi···−

p(q)i′j

p′i···

2

=1

Q

Q∑

q=1

[d(q)(Ai, Ai′)

]2,

isto e, o quadrado da distancia entre as classes Ai e Ai′ e a mediaaritmetica dos quadrados das distancias entre as classes Ai e Ai′ nastabelas A×B(q).

Temos tambem

d2(B

(q)j , B

(q′)j′

)=

I∑

i=1

1

pi···

p

(q)ij

p(q)···j

−p(q′)ij′

p(q′)···j′

2

·

Logo se q = q′; d2(B

(q)j , B

(q′)j′

)=[d(q)

(B

(q)j , B

(q)j′

)]2, isto e, a distancia

entre duas classes na mesma categoria B(q) permanece a mesma. E seduas classes, em categorias diferentes tem perfis parecidos, elas estaoproximas.

Vejamos agora, o que acontece com as coordenadas Fα e Gα .

Gα(j) =1√λα

I∑

i=1

pijp···j

Fα(i)

“RAIZ”2014/10/28page 79

✐

✐

✐

✐

✐

✐

✐

✐


e

Fα(i) =1√λα

J1+···+JQ∑

j=1

pijpi···

Gα(j) =1√λα

Q∑

q=1

Jq∑

j=1

1

Q

p(q)ij

pi···Gα(j) =

=1

Q

Q∑

q=1

1√

λα

Jq∑

j=1

p(q)ij

pi···Gα(j)

·

(ii) Tabelas de incidencia

Suponhamos I indivıduosAi eQ criterios ou perguntasB(1), . . . , B(Q).A pergunta B(q) e composta de Jq itens exclusivos, isto e, cada indivıduoso pode responder a um item da pergunta e tem que responder um deles.

Seja n(q)ij =

{1 se Ai responde B

(q)j

0 se Ai nao responde B(q)j

Temos entao a tabela

A�B B(1)1 . . . B

(1)J1

. . . B(Q)1 . . . B

(Q)JQ

A1 n(1)11 . . . n

(1)1J1

. . . n(Q)11 . . . n

(Q)1JQ

Q...

AI n(1)I1 n

(1)IJ1

n(Q)I1 n

(Q)IJQ

Q

n(1)···1 n

(1)···J1 n

(Q)···1 n

(Q)···JQ IQ

Segue entao que p(q)ij =

n(q)ij

Iem cada tabela A×B(q) e que na tabela

geral

pij =nij

IQ=

1

Q

n(q)ij′

I=

1

Qp(q)ij′ para algum q e j′.

Temos tambem p(q)i··· = pi··· =

1

Ie p···j = 1

Q p(q)···j′ para q e j′.

Consideremos a distancia entre dois indivıduos.

D2(Ai, Ai′) =

J1+···+JQ∑

j=1

1

p···j

(pijpi···


)2

=

“RAIZ”2014/10/28page 80

✐

✐

✐

✐

✐

✐

✐

✐


=

Q∑

q=1

JQ∑

j=1

IQ

n(q)···j

n

(q)ij − n

(q)i′j

Q

2

=1

Q

Q∑

q=1

Jq∑

j=1

1

n(q)···j

(n(q)ij − n

(q)i′j

)2·

Como n(q)ij = 1 ou 0 e n

(q)ij = 1 somente para um j em [1, Jq], seja

j(i, q) tal que n(q)ij(i,q) = 1. Entao

d2(Ai, Ai′) =I

Q

∑

q

1

n(q)···j(i,q)

+1

n(q)···j(i′,q)

δ

(q)ii′ =

=I

Q

∑

q

n

(q)···j(i,q) + n···j(i′,q)

n(q)···j(i,q) n

(q)···j(i′,q)

δ

q)ii′

onde

δ(q)ii′ =

{1 se j(i, q) 6= j(i′q)

0 caso contrario

No caso Jq = 2, q = 1, . . . , Q, temos

d2(Ai, Ai′) =I

Q

∑

q

I δii′

n(q)···1(I − n

(q)···1) =

1

Q

∑

q

1

p(q)···1(1− p

(q)···1) δ(q)ii′ .

O termo1

p(q)···1(1− p

(q)···1) δ(q)ii′ mede a distancia entre os indivıduos Ai e Ai′

com respeito a pergunta q. Se a resposta e a mesma, essa distancia enula, se a resposta e diferente, essa distancia depende de quao frequentessao cada um dos itens e quanto menos frequente um dos itens de resposta,

maior a distancia. Observemos que p(q)···1(1 − p

(q)···1)e a variancia de uma

distribuicao binomial com probabilidade p(p)···1 de sucesso.

Finalmente, d2(Ai, Ai′) e a media aritmetica dos quadrados das distan-cias dos indivıduos Ai e Ai′ com respeito as Q perguntas.

No caso geral, como B(q)J e B

(q)j′ sao disjuntos, podemos considerar a

frequencia conjunta das duas classes:

p(B

(q)j ∪B

(q)j′

)=

n(q)···j + n

(q)···j′

I= p

(q)···j + p

(q)···j′ ,

“RAIZ”2014/10/28page 81

✐

✐

✐

✐

✐

✐

✐

✐


e a frequencia condicional da classe B(q)j dada B

(q)j ∪B

(q)j′ :

p(B

(q)j

∣∣B(q)j ∪B

(q)j′

)=

n(q)···j

n(q)···j + n

(q)···j′

=p(q)···j

p(q)···j + p

(q)···j′

·

Temos entaod2(Ai, Ai′) =

=1

Q

∑

q

δii′

p(B

(q)

j(i,q) ∪B(q)

j(i′,q)

)p(B

(q)

j(i,q)

∣∣B(q)

j(i,q) ∪B(q)

j(i′,q)

)p(B

(q)

j(i′,q)

∣∣B(q)

j(i,q) ∪B(q)

j(i′,q)

)

e a interpretacao e a mesma que no caso particular. Por outro lado,

d2(B

(q)j , B

(q′)j′

)=

I∑

i=1

1

1/I

n

(q)ij

n(q)···j

−n(q′)ij′

n(q′)···j′

2

=

= II∑

i=1

n(q)ij[

n(q)···j

]2 +n(q′)ij′[

n(q′)···j′]2 − 2

n(q)ij n

(q′)ij′

n(q)···j − n

(q′)···j′

=

= I

1

n(q)···j

+1

n(q′)···j′

− 2

I∑i=1

n(q)ij n

(q′)ij′

n(q)···j n

(q1)···j′

=

= I

n(q)···j + n

(q′)···j′ − 2

I∑i=1

n(q)ij n

(q′)ij′

n(q)ij n

(q′)···j′

·

Chamando-se ♯B(q)j = n

(q)···j = numero de indivıduuos que responde-

ram o item j da pergunta q, B(q)j ∩ B

(q′)j′ ao conjunto dos indivıduos

que responderam simultaneamente o item j da pergunta q e o item j′ dapergunta q′, e finalmente denotando-se a diferenca simetrica de B

(q)j e

B(q′)j′ por B

(q)j △ B

(q′)j′ , isto e, o conjunto dos indivıduos que responderam

o item j da pergunta q, mas nao o item j′ da pergunta q′ e vice-versa,temos

d2(B

(q)j , B

(q′)j′

)= I

♯B(q)j + ♯B

(q′)j′ − 2♯B

(q)j ∩B

(q′)j′

♯B(q) ♯B(q′)=

“RAIZ”2014/10/28page 82

✐

✐

✐

✐

✐

✐

✐

✐


= I♯(B

(q)j △ B

(q′)j′

)

♯B(q)j ♯B

(q′)j′

=♯(B

(q′)j △ B

(q′)j′

)/I

p(q)···j p

(q′)···j′

·

No caso q = q′, ♯(B

(q)j ∩B

(q′)j′

)= 0 para j 6= j′ e temos:

d2(B

(q)j , B

(q)j′

)=

=1

p(B

(q)j ∪B

(q)j′

)p(B

(q)j

∣∣B(q)j ∪B

(q)j′

)p(B

(q)j′

∣∣B(q)j ∪B

(q)j′

) ·

Com respeito as representacoes simultaneas, temos:

Fα(i) =1√λα

J1+···+JQ∑

j=1

pijpi···

Gα(j) =1√λα

1

Q

Q∑

q=1

Gα(j(i, q))

e

Gα(j) =1√λα

I∑

i=1

pijp···j

Fα(i) =1√λα

I∑

i=1

nij

n···jFα(i).

Logo a α-esima coordenada do i-esimo indivıduo e a menos de umadilatacao, a media aritmetica das α-esimas coordenadas dos itens porele respondido e a α-esima coordenada do item j e a menos de umadilatacao, a media aritmetica das α-esimas coordenadas dos indivıduosque a responderam.

(iii) Tabelas de intensidade

Consideremos I indivıduos A1, . . . , AI , por exemplo, estudantes, esejam B(1). . . . , B(Q), Q criterios, por exemplo, disciplinas escolares.Suponhamos que as notas em cada disciplina variem de 0 a T , e seja x+iqa nota do i-esimo indivıduo na q-esima disciplina. Assim como consi-deramos essa nota de “bondade” x+iq , podemos considerar uma nota de

“ruindade” x−iq = T − x+iq e considerar a seguinte tabela

A�B B(1)+ B(1)− . . . B(Q)+ B(Q)−

A1 x+11 x−11 x+1Q x−1Q QT...

AI x+I1 x−I1 x+IQ x−IQ QT

x+···1 x−···1 x+···Q x−···1 IQT

“RAIZ”2014/10/28page 83

✐

✐

✐

✐

✐

✐

✐

✐


Essa tabela e uma generalizacao da tabela de incidencia, caso Jq = 2,para todo q, e do princıpio de se registrar ao mesmo tempo presenca eausencia. Ela tem a propriedade de que os indivıduos tem o mesmopeso, tornando os perfis dos indivıduos comparaveis.

Interpretemos as distancias.

d2(Ai, Ai′) =

Q∑

q=1

IQT

x+···q

[x+iq/IQT

1/I−

x+i′q/IQT

1/I

]2+

+∑

q=1

IQT

x−···q

[x−iq/IQT

1/I−

x−i′q/IQT

1/I

]2=

=I

QT

Q∑

q=1

(1

x+···q+

1

x−···q

)(x+iq−x+i′q

)2=

I2

Q

Q∑

q=1

1

x+···q(IT−x+···q)

(x+iq−x+i′q

)2=

=1

Q

Q∑

q=1

1

x+···qIT

(1−

x+···qIT

)(x+iqT

−x+i′qT

)2

·

De novo, encontramos o inverso da variancia de uma binomial pon-derando o quadrado da diferenca das notas normalizadas dos indivıduosAi e Ai′ . Observemos que o caso da tabela de incidencia e um casoparticular do caso acima.

Desse modo, novamente, o quadrado da distancia enre os indivıduosAi e Ai′ e a media aritmetica dos quadrados das distancias em relacaoa cada disciplina.

Por outro lado, d2(B(q)+, B(q′)+

)= I

I∑i=1

(x+iq

x+···q−

x+iq′

x+···q′

)2

, que e a me-

nos de uma constante, o quadrado da distancia euclidiana entre os perfis

“RAIZ”2014/10/28page 84

✐

✐

✐

✐

✐

✐

✐

✐


de B(q)+ e B(q′)+ . Analogamente para (−) no lugar de (+).

d2(B(q)+, B(q)−) = I

I∑

i=1

(x+iq

x+···q−

x−iqx−···q

)2

=

=IT 2

[x+···q(IT − x+···q

]2I∑

i=1

(Ix+iq − x+···q

)2=

=1

[x+···qIT

(1−

x+···qIT

)]21

I

I∑

i=1

(x+iqT

−x+i′qIT

)2

·

Assim, o quadrado da distancia entre B(q)+ e B(q)− e a razao entrea variancia amostral das notas normalizadas da disciplina B(q) e o qua-drado da variancia da binomial com parametro x+···q

/IT , que e a media

das notas normalizadas.

Quanto a representacao simultanea temos:

G+α (q) =

1√λα

I∑

i=1

x+iq

x+···qFα(i)

e

G−α (q) =

1√λα

I∑

i=1

x−iqx−···q

Fα(i).

Logo x+···q G+α (q) + x−···q G

−α (q) =

T√λα

I∑i=1

Fα(i) = 0.

Consequentemente, em qualquer eixo, G+α (q) e G−

α (q) tem sinais di-ferentes e sao inversamente proporcionais, em modulo, a x+···q e x−···q .

“RAIZ”2014/10/28page 85

✐

✐

✐

✐

✐

✐

✐

✐


Por outro lado,

Fα(i) =1√λα

Q∑

q=1

x+iq/IQT

1/IG+

α (q) +

Q∑

q=1

x−iq/IQT

1/IG−

α (q)

=

=1√λα

1

QT

Q∑

q=1

[x+iq G

+α (q) + x−iq G

−α (q)

]=

=1√λα

1

Q

Q∑

q=1

I x+iq − x+···qIT − x+···q

G+α (q) =

=1√λα

1

Q

Q∑

q=1

x+iq −

x+···qI

T −x+···qI

G+

α (q) =

=1√λα

1

Q

Q∑

q=1

x+iqT

−x+···qIT

1−x+···qIT

G+

α (q).

3.5 Relacao entre a tabela de contingencia e atabela de incidencia

Consideremos I indivıduos A1, . . . , AI e dois criterios B(1) e B(2), res-pectivamente com J1 e J2 itens exclusivos.

Podemos considerar entao a tabela de contingencia com J1 linhas,

J2 colunas e njj′ = ♯B(1)j ∩B

(2)j′ e a tabela de incidencia com I linhas e

J1 + J2 colunas conforme figuras a seguir.

B(1)�B(2) B(2)1 . . . B

(2)J2

B(1)1 n11 n1J2 n···1...

B(1)J1

nJ11 nJ1J2 nJ1···n···1 n···J2 n

“RAIZ”2014/10/28page 86

✐

✐

✐

✐

✐

✐

✐

✐


A�B B(1)1 . . . B

(1)J1

B(2)1 . . . B

(2)J2

A1 2...

...

AI 2

n(1)···1 n

(1)···J1 n

(2)···1 n

(2)···J2 2I

Essas duas tabelas estao em correspondencia 1-1, a menos de per-mutacao de linhas na tabela de incidencia.

Chamemos de Bi a tabela de incidencia A por B(i), i = 1, 2, e de

B = [B1...B2] a tabela de incidencia considerada obtida pela justaposicao

das tabelas B1 e B2 . Segue que a tabela de contingencia e dada porB′

1B2 .

(i) Relacao entre corelacao canonica sobre B[[B1;B2] e os es-cores de Fisher sobre B′

1B2 .

Facamos formalmente uma analise de correlacoes canonicas conside-rando os grupos de variaveis formados pelas colunas das tabelas B1 eB2 .

Queremos entao obter vetores x J1 × 1 e y J2 × 1 tais que maximi-zem a correlacao (B1x.B2y) sujeitos as restricoes EB1x = EB2y = 0 eVar B1x = Var B2y = 1.

Mas

EB1x =1

I

I∑

i=1

(B1x)i =1

I

J1∑

j=1

nj··· xj =J1∑

j=1

pj··· xj = 0

e

Var B1x =1

I

I∑

i=1

(B1x)2 =

1

I

J1∑

j=1

nj··· x2j =

J1∑

j=1

pj··· x2j = 1.

Analogamente

EB2y =

J2∑

j=1

p···j yj = 0 e Var B2y =

J2∑

j=1

p···j y2j = 1.

“RAIZ”2014/10/28page 87

✐

✐

✐

✐

✐

✐

✐

✐


E correlacao

(B1 x,B2 y) =1

I

I∑

i=1

(B1 x)i(B2 y)i =1

I

J1∑

j=1

J2∑

j=1

njj′ xj yj′ =

=

J1∑

j=1

J2∑

j′=1

pjj′xj yj′ .

Portanto recaımos no problema dos escores de Fisher para a tabelade contingencia B′

1B2 . E claro que podemos obter outras variaveiscanonicas da maneira usual.

(ii) Relacao entre as analises de correspondencia da tabela de con-

tingencia B′1B2 e da tabela de incidencia B = [B1

...B2].

Seja P =1

2IB, a tabela de incidencia normalizada.

Entao pi··· =2

2I

1

I, ΣA

P = diag

(1

p1···, . . . ,

1

pI···

)= I II×I e p

(i)···j =

n(i)···j2I

,

i = 1, 2, ΣBP = diag

(1

p(1)···1

, . . . ,1

p(1)···j1

,1

p(2)···1

, . . . ,1

p(2)···j2

)·

Logo

P(1)···j =

1

2pj··· 1 ≤ j ≤ J1 ,

p(2)···j =

1

2p···j 1 ≤ j ≤ J2

onde p···j e P···j referem-se as proporcoes na tabela B′1B2 e ΣB

P =

2

(ΣB1 00 ΣB2

)onde ΣB1 = diag

(1

p1···, . . . ,

1

pJ1···

)e ΣB2 =

diag

(1

p···1, . . . ,

1

p···J2

)·

“RAIZ”2014/10/28page 88

✐

✐

✐

✐

✐

✐

✐

✐


Logo

HBP = ΣB

P P ′ΣAP P =

ΣB1 0

0 ΣB2

1

2IB′ I II×I

1

2IB =

=1

2I

ΣB1 0

0 ΣB2

B′

1B1 B′1B2

B′2B2 B′

2B2

=

=1

2

ΣB1 0

0 ΣB2

(ΣB1

)−1PB′

1Bi

PB′

1B2

(ΣB2

)−1

=

=1

2

IJ1×J1 ΣB1 PB′

1B2

ΣB2 P ′B′

1B2IJ2×J2

onde PB′

1B2=

1

IB′

1B2 .

Mas HBP

a· · ·b

= µ

a· · ·b

se e somente se

1

2a+

1

2ΣB1 PB′

1B2b = µa

1

2ΣB2 P ′

B′

1B2a+

1

2b = µb

se e somente se

ΣB1 PB′

1B2b = (2µ− 1)a

ΣB2 PB′

1B2a = (2µ− 1)b

Reconhecemos entao a representacao simultanea das linhas e colunasda tabela de contingencia B′

1B2 . Logo aα = uB1α , bα = uB2

α e 2µα−1 =√λα ou seja µα =

1 +√λα

2·

A solucao aα = uB1α , bα = −uB2

α , 2µ′α − 1 = −

√λα ou seja

µ′α =

1−√λα

2nao e interessante, pois temos sempre µ′

α ≤ µα e estamos

interessados nos maiores autovalores.

“RAIZ”2014/10/28page 89

✐

✐

✐

✐

✐

✐

✐

✐


E importante notar que a α-esima coordenada de B(1)j na analise de

correspondencia da tabela de incidencia B = [B1, B2] e√µα u

B1α (j), en-

quanto que na analise da tabela de contingencia B′1B2 e

√λα u

B1α (j).

Da mesma maneira, para B(2)j , temos respectivamente

√µα u

B2α (j) e√

λα uB2α (j). Logo temos a mesma representacao a menos de uma ho-

motetia.

Na analise de correspondencia da tabela de incidencia B = [B1, B2],temos tambem a representacao dos indivıduos, e a coordenada do in-divıduo Ai no α-esimo eixo e

Fα(i) =1√µα

1

2

[√µα u

B1α (j) +

√µα u

B2α (j′)

]=

1

2

[uB1α (j) + uB2

α (j′)]

onde B(1)j e B

(2)j sao os itens escolhidos pelo indivıduo Ai .

3.6 Alguns comentarios sobre a tabela de in-cidencia

Seja B = [B1... · · · ...BQ] uma tabela de incidencia formada por I indivıduos

A1, . . . , AI e Q criterios B(1), . . . , B(Q), com J1, . . . , Jq itens exclusivos,respectivamente.

Podemos formar a tabela simetrica

B′B =

B′

1B1 . . . B′1BQ

......

B′QB1 . . . B′

QBQ

composta de todas as tabelas 2× 2.

E facil ver que no caso Q = 2, a correspondencia entre B, B′ e B′1B2

e 1-1 a menos de permutacoes nas linhas de B. Mas no caso Q > 2, issonao ocorre. Podemos ter tabelas de incidencia B e C distintas (isto e,qualquer tabela obtida de B por permutacao de linhas e diferente de C),e B′B = C ′C. Isso e o mesmo que dizer que as distribuicoes marginaisde ordem 2 nao determinam as distribuicoes marginais de ordem maiorque 2.

“RAIZ”2014/10/28page 90

✐

✐

✐

✐

✐

✐

✐

✐


Veremos abaixo, que a analise de correspondencia da tabela B e equi-valente a uma generalizacao da analise de correlacoes canonicas sobre ascolunas grupadas por B1, . . . , BQ . Antes, mostraremos que a analise decorrespondencia das tabelas B e B′B sao equivalentes.

Para a tabela B,

PB =1

QIB, ΣA

B = diag

(1

p1···, . . . ,

1

pI···

)= I II×I

e

ΣBB = diag

(1

p(1)···1

, . . . ,1

p(Q)···JQ

)= Q

ΣB1 0

. . .

0 ΣBQ

; p

(q)···j =

♯B(q)j

QI

onde

ΣBq = diag

(1

p(q)···j

, . . . ,1

p(q)···jq

), p

(q)···j =

♯B(q)j

I·

Logo

HBB = ΣB

B P ′B ΣA

B PB = ΣBB

1

QIB′ I II×I

1

QIB =

1

Q2IΣBB B′B

e para a tabela B′B,

PB′B =1

Q2IB′B, ΣA

B′B = ΣBB′B = Q

ΣB1 0

. . .

0 ΣBQ

= ΣB

B .

Logo

HBB′B = ΣB

B′B P ′B′B ΣA

B′,B PB′B = ΣBB

1

Q2IB′B ΣB

B

1

Q2IB′B = HB

B HBB .

Consequentemente HBB′B tem os mesmos autovetores que HB

B e seusautovalores sao os quadrados dos autovalores de HB

B .

Concluımos, portanto, que as representacoes dos criterios B(q)j sao as

mesmas nas duas analises, a menos de uma homotetia, pois se (UBα )′ =(

(uB1 )′, . . . , (uBQ)

′), uq vetor Jq × 1, e o α-esimo autovetor de HBB , cor-

respondente ao autovetor µα , entao a α-esima coordenada de B(q)j sera

“RAIZ”2014/10/28page 91

✐

✐

✐

✐

✐

✐

✐

✐


√µα u

Bq (j) na analise da tabela B e sera µα u

Bq (j) na analise da

tabela B′B.

Pela equivalencia da analise de correspondencia de uma tabela com osescores de Fisher e usando-se o fato de que B′B e uma matriz simetrica,

sabemos que UB1 maximiza

1

Q2IU ′B′B U em (UB)′ =

((uB1 )

′, . . . , (uBQ))

sujeito as restricoes E U = 0 e Var U = U ′(ΣBB′B

)−1U = 1, ou seja

maximiza1

Q2I

∑q,q

u′q B′q Bq′ uq′ sujeito as restricoes

U ′p··· =1

Q

Q∑

q=1

u′q p(q)··· = 0

e

1

Q

Q∑

q=1

u′q(ΣBq

)−1uq = 1

onde p′··· =1

Q

(p(1)′

··· , . . . , p(Q)′

···)

e p(q)′

··· =(p(q)···1 , . . . , p

(q)···JQ

)·

Mostremos que(uBq)′p(q)··· = 0 para todo q = 1, . . . , Q.

Seja uA1 o autovetor deHAB associado ao 1o autovalor µ1 . Lembremos

que(uA1)′pA··· =

1

I

∑iuA1 (i) = 0.

Temos entao:

(uBq)′p(q)··· =

Jq∑

j=1

p(q)···j uBq (j) =

Jq∑

j=1

p(q)···j

1√µ1

I∑

i=1

p(q)ij

p(q)···j

µ1(i) =

=1√µ1

I∑

i=1

Jq∑

j=1

p(q)ij

uA1 (i) =

1√µ1

1

I

I∑

i=1

µA1 (i) = 0.

Logo tanto faz considerarmos a restricao U ′p··· = 0 ou u′q p(q)··· = 0,

q = 1, . . . , Q. De fato, a restricao U ′p··· = 0 engloba um maior numero

de vetores U , e contem todos os vetores que satisfazem u′q p(q)··· = 0,

q = 1, . . . , Q.

“RAIZ”2014/10/28page 92

✐

✐

✐

✐

✐

✐

✐

✐


Por outro lado, voltando a tabela B = [B1... · · · ...BQ] podemos pro-

curar vetores u1, . . . , uQ tais que

EUq = u′q p···q = 0

e

1

Q

Q∑

q=1

Var uq =1

Q

Q∑

q=1

u′q(ΣBq

)−1uq = 1

o que maximizem

∑

q,q′

cor(Bquq , Bq′uq′

)=∑

q,q′

u′q B′q Bq′ uq′ .

Como vemos, obtemos a mesma solucao que antes. E claro quepodemos, de maneira usual, obter outras variaveis canonicas.

Observamos que a generalizacao de correlacoes canonicas acima ediferente das apresentadas por Kettering (1971). Uma dessas genera-lizacoes, tambem considerada por Horst (1965), usa a restricao Var uq =

u′q(ΣBq

)−1uq = 1, em vez da restricao

1

QΣ Var uq = 1.

No caso Q = 2, e facil ver, que essas duas generalizacoes apresentama mesma solucao.

3.7 Generalizacao do escore de Fisher para ta-belas de contingencia justapostas

Vimos na secao 3(i) desse capıtulo, a equivalencia entre o escore deFisher e a analise de correspondencia para uma tabela de contingencia.Como pode ser visto na demonstracao dessa equivalencia, a unica coisaque precisamos e de uma tabela numerica com entradas nao negativas emarginais positivas.

Consideremos entao, a tabela obtida pela justaposicao das tabelasde contingencia A×B(q), q = 1, . . . , Q, como na secao 4(i).

Procuramos entao funcoes f e g definidas, respectivamente em{1, . . . , I} e {1, . . . , J1 + · · · + JQ}, g′ = (g′1, . . . , g

′Q), gq assumindo

“RAIZ”2014/10/28page 93

✐

✐

✐

✐

✐

✐

✐

✐


Jq valores, tais que maximizam

cor(f, g) =∑

i,j

f(i)g(j)pij =1

Q

Q∑

q=1

∑

i

Jq∑

j=1

f(i)gq(j)p(q)ij =

=1

Q

Q∑

q=1

corq(f, gq),

onde cor(f, g) e a “correlacao definida pela tabela justaposta e corq(f, gq)e a correlacao definida pela tabela A × B(q), f e g sao normalizadassatisfazendo Ef = Eg = 0 e Var g = 1. Sabemos que a solucao desseproblema sao f = uA e g = uB.

Agora EuB =J1+···+JQ∑

j=1p···j uB(j) = 1

Q

Q∑q=1

Jq∑j=1

p(q)···j uBq (j) = 0.

Se mostramos queJQ∑j=1

p(q)···j uBq (j) = 0.

Jq∑

j=1

p(q)···j uBq (j) =

jQ∑

j=1

p(q)···j

1√λ1

I∑

i=1

pijp···j

uA(i) =

=1√λ1

I∑

i=1

Jq∑

j=1

p(q)···j

p(q)ij

p(q)···j

uA(i) =1√λ1

I∑

i=1

p···j uA(i) = 0.

Temos tambem

Var g = g′(ΣB)−1

g =1

Q

Q∑

q=1

g′q(ΣBq

)−1gq =

1

QVar gq ,

onde Varq gq e a variancia de gq definida pela tabela A×B(q).

Logo com raciocınio analogo ao da secao anterior, vemos que esseproblema e equivalente ao problema de procurar funcoes f, g1, . . . , gQ

tais que maximizemQ∑

q=1corq(f, gq) e sujeitas as restricoes Ef = Eq gq =

0, q = 1, . . . , Q, Var f = 1 e1

Q

Q∑q=1

Varq gq = 1.

“RAIZ”2014/10/28page 94

✐

✐

✐

✐

✐

✐

✐

✐


3.8 Interpretacao dos resultados

3.8.1 Correlacao, contribuicao relativa e contribuicao ab-soluta

Uma maneira natural de se interpretar os eixos, e olhar as correlacoesentre cada linha e coluna com os novos eixos. Lembramos que na analisede correspondencia, fazemos duas componentes principais generalizadas.

Pela Proposicao 2.3, temos

cor(Bj , Fα) =

(CBuBα

)(j)√

λα sj·

Lembramos que

s2j =I∑

i=1

pi···

(pijpi···

− p···j

)2

=I∑

i=1

1

pi···

(pij − pi··· p···j

)2=

= p2···j

I∑

i=1

1

pi···

(pijp···j

− pi···

)2

= p2···j d2(Bj , B)

onde B representa o centro de gravidade das variaveis Bj .

Por outro lado, d2(Bj , B) =∑αG2

α(j) =∑α

[(uAα)′pAj

]2, isto e,

d2(Bj , B) e a soma dos quadrados das projecoes de Bj − B sobre oseixos.

Podemos entao considerar a razao

crα(j) =G2

α(j)

d2(Bj , B)=

[(uAα)′pAj

]2

d2(Bj , B)=

p2···j

[(uAα)′pAj

]2

s2j,

que nos da a parte do quadrado da distancia de Bj ao centro de gravidadeexplicada pelo eixo α. A crα(j), Lebart, Morineau & Tabard (1977)chamam de contribuicao relativa do fator α a variavel Bj .

Lembremos que o quadrado da correlacao entre duas variaveis aleato-rias pode ser “interpretado como a parte da variancia de uma delasexplicada pela outra”. Mostraremos que

crα(j) = cor2(Bj , Fα).

“RAIZ”2014/10/28page 95

✐

✐

✐

✐

✐

✐

✐

✐


Sabemos que uAα =1√λα

ΣA P uBα .

Logo

P ′uAα =1√λα

P ′ΣA P uBα =1√λα

(CB + pB··· (p

B··· )

′)uBα =1√λα

CB uBα .

Portanto,

(pAj)′uAα =

1

p···j

(P ′ uAα

)(j) =

1

p···j

1√λα

(CB uBα

)(j)

e daı segue o resultado,

Outra medida utilizada na interpretacao e tirada da relacao

λα = Var Gα =∑

j

p···j G2α(j).

Consideramos a razao

caα(j) =p···j G2

α(j)

λα= p···j

[uBα (j)

]2,

que nos da a parte da variancia do fator α explicada pela variavel Bj .A caα(j), Lebart, Morineau & Tabard (1977) chamam de contribuicaoabsoluta da variavel Bj ao fator α.

Entao, se caα(j) e grande, boa parte da variancia do fator α e devidaa variavel Bj , enquanto que se crα(j) e grande, boa parte da distanciada variavel Bj ao centro de gravidade e devido ao fator α.

Exprimimos essas medidas de maneira analoga para os Ai’s.

3.8.2 Alguns comentarios sobre o valor das distancias

Para a interpretacao dos resultados, e importante saber quao bem re-presentados nos subespacos fatoriais, estao as diversas linhas e colunasda tabela original. Isso, em parte, nos e fornecido pelas contribuicoesrelativas dos eixos fatoriais as linhas e as colunas. Mas, e importantetambem ter uma ideia das distancias das linhas e colunas ao centro e oque uma distancia grande ou pequena significa.

“RAIZ”2014/10/28page 96

✐

✐

✐

✐

✐

✐

✐

✐


Se A representa o centro de gravidade das linhas A1, . . . , AI , A erepresentado pelo vetor (p···1, . . . , p···J) e

d2(Ai, A) =J∑

j=1

1

p···j

(pijpi···

− p···j

)2

=1

pi···

J∑

j=1

p2ijp···j

− 1.

Portanto

1

pi···minj

{pijp···j

; pij > 0

}− 1 ≤ d2(Ai, A) ≤

1

pi···max

j

{pijp···j

}− 1.

Observemos que d2(Ai, A) = 0 se e somente se,pijp···j

= pi··· para todo

j.

Logo se d2(A,A) pequeno,pijp···j

≈ pi··· para todo j.

Portanto, se minj

{pijp···j

; pij > 0

}“grande”, isto e, muito maior que

pi··· , entao existe associacao grande positiva entre Ai e alguns Bj ’s. De-vera tambem existir uma associacao grande negativa entre Ai e alguns

Bj ’s no sentido de que pij = 0 pois sepijp···j

≥ pi··· para todo j e maior para

algum j, entao ∑

j

pij >∑

j

pi··· p···j ⇒ pi··· > pi···

o que nos da uma contradicao.

No caso extremo minj

{pijp···j

; pij > 0

}“pequeno”, isto e, igual ou so-

mente um pouco maior que pi··· , entao d2(Ai, A) pequeno e todos ospijp···j

sao aproximadamente iguais e a classe Ai esta proximo do centro A.

No caso da matriz de incidencia, lembramos que nij = 1 ou 0,

pi··· =Q

QI=

1

Ie p···j =

n···jQI

·

Portanto

minj

{nij

n···j;nij > 0

}= min

j

{1

♯Bj;nij = 1

}=

1

maxj

{♯Bj ;nij = 1}·

“RAIZ”2014/10/28page 97

✐

✐

✐

✐

✐

✐

✐

✐


No caso extremo em que max{♯Bj ;nij = 1} = 1, o indivıduo Ai

respondeu todas as perguntas de maneira diferente dos outros indivıduose nesse caso d2(ai, A) = I − 1.

Analogamente

maxj

{nij

n···j

}= max

j

{1

♯Bj;nij = 1

}=

1

minj

{♯Bj ;nij = 1}·

Logo maxj

{nij

n···j

}pequeno implica min

j

{♯Bj ;nij = 1

}grande, o que

significa que todos os itens respondidos pelo indivıduo i, foram respon-didos tambem por muitos outros indivıduos.

Analogamente, se B representa o centro dos Bj ’s, entao d2(Bj , B) =

1

p2···j

I∑i=1

p2ijpi···

− 1, e temos

1

p···jmini

{pijpi···

; pij > 0

}− 1 ≤ d2(Bj , B) ≤ 1

p···jmax

i

{pijpi···

}− 1.

No caso da matriz de incidencia, pi··· =1

Ie constante e portanto

mini

{pijpi···

; pij > 0

}= max

i

{pijpi···

}=

1/QI

1/I=

1

Q·

Logo

d2(Bj , B) =1

p···j Q− 1 =

I

n···j− 1.

Portanto, no caso em que, por exemplo, Bj foi respondido por so-mente 1 indivıduo, d2(Bj , B) = I − 1.

3.8.3 Uso de linhas e colunas suplementares

Como na analise de componentes principais, podemos utilizar linhas ecolunas suplementares com o fim de ajudar na interpretacao dos eixos, oucom o objetivo de estudar a relacao entre esses elementos suplementarese os originais.

“RAIZ”2014/10/28page 98

✐

✐

✐

✐

✐

✐

✐

✐


Podemos calcular as coordenadas desses elementos suplementares,muito facilmente. Por exemplo, se BJ+1 e uma coluna suplementar,

Gα(J + 1) =1√λα

I∑

i=1

niJ+1

n···J+1Fα(i),

e se AI+1 e uma linha suplementar,

Fα(I + 1) =1√λα

J∑

j=1

nI+1,j

n(I+1)···Gα(j).

3.8.4 Reconstituicao da tabela P

Lembrando o Teorema 3.1, temos SB = LL′, onde L =(ΣA)1/2

P(ΣB)1/2

=∑α

√λα d

Aα

(dB

′

α

).

Logo

P =(ΣA)−1/2

[∑

α

√λα d

Aα

(dBα)′](ΣB)−1/2

=

=(ΣA)−1

[∑

α

√λα u

Aα

(uBα)′](ΣB)−1

.

Usando-se o fato de que 1J e 1I sao respectivamente, autovetores deHB e HA associados ao autovetor 1, temos

pij = pi··· p···j

[1 +

∑

α

√λα u

Aα (i)u

Bα (j)

]

ou seja

pij = pi··· p···j

[1 +

∑

α

√λα Fα(i)Gα(j)

].

Desse modo, a expressao

pijpi··· p···j

− 1 =∑

α

1√λα

Fα(i)Gα(j)

mede a associacao entre a linha i e a coluna j.

“RAIZ”2014/10/28page 99

✐

✐

✐

✐

✐

✐

✐

✐


3.9 Relacao com o teste χ2

Seja uma tabela de contingencia (nij)1≤i≤I,1≤j≤J

,∑i,j

nij = n. Entao temos

χ2 =I∑

i=1

J∑

j=1

n(pij − pi··· p···j)2

pi··· p···j= n

I∑

i=1

J∑

j=1

p2ijpi··· p···j

− 1

·

Mas Tr ΣB CB =I∑

i=1

J∑j=1


− 1 e Tr ΣB SB =I∑

i=1

J∑j=1


.

Logo χ2 = n Tr ΣB CB = n(Tr SB − 1) ou a medida de associacaoχ2

n= Tr ΣB CB = Tr SB − 1.

Logo se ha independencia entre as categorias A e B, pij ≈ pi··· p···j eχ2 = nTr ΣB CB e pequeno.

Lembremos que

Tr ΣB CB =∑

i

pi···∥∥xBi

∥∥1ΣB =

∑

i≤i′

pi··· pi′···∥∥xBi − xBi′

∥∥2ΣB =

J∑

α=1

λα

e portanto se as p primeiras componentes sao tais que

p∑

α=1λα

J∑

α=1λα

grande,

essas p primeiras componentes “explicam” o valor χ2.

No caso de tabelas de contingencia A×B(1), . . . , A×B(Q) justapostas,temos formalmente

χ2 = nQTr ΣB CB = nQ∑

i≤i′

pi··· pi′···∥∥xBi − xBi′

∥∥2ΣB =

= nQ∑

i≤i′

pi··· pi′··· d2(Ai, Ai′).

Mas como visto antes pi···i = p(q)i··· para q = 1, . . . , Q e

d2(Ai, Ai′) =1

Q

Q∑

q=1

d(q)2(Ai, Ai′).

“RAIZ”2014/10/28page 100

✐

✐

✐

✐

✐

✐

✐

✐


Logo

χ2 = nQ∑

i≤i′

pi··· pi′···1

Q

Q∑

q=1

d(q)2(Ai, Ai′) =

= n

Q∑

q=1

∑

i≤i′

p(q)i··· p

(q)i′··· d

(q)2 (Ai, Ai′) = n

Q∑

q=1

Tr ΣBq CBq =

= n

Q∑

q=1

χ2(q)

n

ou seja

χ2 =

Q∑

q=1

χ2(q), onde χ2(q) e o valor χ2 da tabela A×B(q).

E claro χ2(1), . . . , χ2(Q) nao sao independentes.

Tambem temos

Tr ΣB CB =1

Q

Q∑

q=1

Tr ΣBq CBq .

Mas dimΣB CB = J1 + · · · + JQ , logo devemos esperar que a “ex-

plicacao”

p∑α=1

λα

J1+···+JQ∑j=1

λα

seja menor que no caso de cada tabela A×B(q),

porque devera haver um numero grande de autovalores pequenos, quede certa maneira, podem ser considerados como “ruıdo”.

No caso da tabela de incidencia B =[B1

... · · · ...BQ

], podemos mostrar

resultado analogo, isto e,

χ2 =

Q∑

q=1

χ2(q) e Tr ΣB CB =1

Q

d∑

q=1

Tr ΣBq CBq .

Nesse caso, podemos calcular exatamente Tr ΣB CB. Consideremoso caso Q = 1.

“RAIZ”2014/10/28page 101

✐

✐

✐

✐

✐

✐

✐

✐


Entao

Tr ΣBq CBq =I∑

i=1

J∑

j=1


− 1.

Mas

p2ij =n2ij

I2=

nij

I2pois nij = 1 ou 0; pi··· =

1

Ie p···j =

1

I

∑

i=1

nij .

Logo

Tr = ΣB CB =

J∑

j=1

I∑

i=1

nij

p···j− 1 = J − 1.

E no caso geral

Tr ΣB CB =1

Q

q∑

q=1

(Jq − 1) =J

Q− 1.

3.10 Comentarios e exemplo

Analise de Correspondencia e uma tecnica de exploracao de dados, espe-cialmente util para visualizar dados coletados atraves de questionariosutilizados rotineiramente em pesquisa na area de ciencias sociais.Os dados consistem em geral em respostas a perguntas cada uma com umnumero finito de respostas posıveis. Ou seja um conjunto de variaveiscategoricas (tambem chamadas de “qualitativas”) cada uma com umcerto numero de nıveis ou categorias.Na linguagem do pacote R que usaremos para o exemplo seriam fatores.A parte mais util para aplicacoes sao as saidas graficas. Estas saidasdeveriam ser as mais “amigaveis” possıvel. Elas deveriam sugerir rapi-damente ideias, interpretacoes, ou problemas com os dados que estaosendo analisados.

Exemplo.

Os dados deste Exemplo foram analisados utilizando o pacote FactoMi-neR do R.

“RAIZ”2014/10/28page 102

✐

✐

✐

✐

✐

✐

✐

✐


Exemplo 1. Mercado de cha.

Os dados para este exemplo sao provenientes de uma pesquisa feita comconsumidores de Cha. Foram realizadas 300 entrevistas e o tema estarelacionado com habitos de consumo de Cha.Os dados completos da pesquisa podem ser encontrados em

http://factominer.free.fr/book/tea.csv.

Para nosso exemplo so selecionamos algumas variaveis correspondentesas perguntas indicadas abaixo junto com as modalidades/categorias deresposta. (Deixamos a pergunta na lingua original: Ingles).

1. What kind of tea do you drink the most?

“black” “Earl Grey” “green”

2. How do you take your tea?

“alone” “lemon” “milk” “other”

3. How the tea you drink is packed?

“tea bag” “tea bag+unpackaged” “unpackaged”

4. Do you add sugar to your tea.

“No sugar” “sugar”

5. Where do you buy your tea?

“chain store” “chain store+tea shop” “tea shop”

6. Do you drink tea in the afternoon?

“always” “Not always”

“RAIZ”2014/10/28page 103

✐

✐

✐

✐

✐

✐

✐

✐


A Figura 1 contem as primeiras 15 linhas do arquivo de dados:

#Tea

How

how

sugar

where

always

1black

alone

teabag

sugar

chainstore

Not.always

2black

milk

teabag

No.sugar

chainstore

Not.always

3EarlGrey

alone

teabag

No.sugar

chainstore

Not.always

4EarlGrey

alone

teabag

sugar

chainstore

Not.always

5EarlGrey

alone

teabag

No.sugar

chainstore

always

6EarlGrey

alone

teabag

No.sugar

chainstore

Not.always

7EarlGrey

alone

teabag

No.sugar

chainstore

Not.always

8black

milk

teabag

No.sugar

chainstore

Not.always

9EarlGrey

milk

teabag+unpacNo.sugar

chainstore+teashop

Not.always

10black

alone


chainstore+teashop

Not.always

11EarlGrey

alone

teabag

No.sugar

chainstore

Not.always

12EarlGrey

alone

teabag

sugar

chainstore

Not.always

13EarlGrey

milk


chainstore+teashop

Not.always

14black

milk

teabag

sugar

chainstore

Not.always

15black

milk

teabag

No.sugar

chainstore+teashop

Not.always

.....

.....

300black

milk

teabag

sugar

chainstore

Not.always

“RAIZ”2014/10/28page 104

✐

✐

✐

✐

✐

✐

✐

✐


A Figura 2 contem os valores dos autovalores e as percentagens davariancia e seus valores acumulados. Podemos esperar valores meno-res em geral que no caso de Principal componentes dado que o numerototal de categorias costuma ser maior que o de variaveis.

Figura 2

eigenvalue

percentage of

variance

cumulative

percentage of

variance

dim 1 0,28 15,26 15,26

dim 2 0,26 14,06 29,32

dim 3 0,22 12,01 41,33

dim 4 0,19 10,25 51,58

dim 5 0,17 9,21 60,78

dim 6 0,16 8,93 69,71

dim 7 0,15 8,34 78,05

dim 8 0,14 7,55 85,6

dim 9 0,12 6,31 91,91

dim 10 0,09 4,7 96,61

dim 11 0,06 3,39 100

“RAIZ”2014/10/28page 105

✐

✐

✐

✐

✐

✐

✐

✐


A Figura 3 contem as coordenadas das categorias a serem representadasno Mapa.

Figura 3

Dim 1 Dim 2

black 0,450 0,140

Earl Grey 0,250 0,110

green 0,460 0,970

alone 0,020 0,250

lemon 0,680 0,460

milk 0,330 0,230

other 0,290 2,140

tea bag 0,620 0,330

tea bag+unpackaged 0,370 1,000

unpackaged 1,940 1,060

No.sugar 0,240 0,040

sugar 0,250 0,040

chain store 0,530 0,340

chain store+tea shop 0,480 1,330

tea shop 2,160 1,270

always 0,110 0,120

Not.always 0,060 0,060

“RAIZ”2014/10/28page 106

✐

✐

✐

✐

✐

✐

✐

✐


A Figura 4 contem o Mapa com a posicao de cada uma das categorias.Cores diferentes indicam variaveis distintas.

Figura 4

Como foi mencionado e possıvel agregar no Mapa de base, variaveis su-plementares, ou seja variaveis que nao entram diretamente no calculomas que podem ser projetadas no Mapa da solucao. Sao uteis eventual-mente para visualizar algumas possıveis relacoes entre variaveis.Na Figuta 5 incorporamos a variavel Idade (age) ao Mapa. Na repre-sentacao vemos por exemplo a maior afinidade do grupos de pessoasmais jovens (15-24) pelo consumo em Tea Bugs, com acucar e a varia-dade (blend) Earl Gray.

“RAIZ”2014/10/28page 107

✐

✐

✐

✐

✐

✐

✐

✐


Figura 5

Em algumas cirscunstancias, pode tambem ser de interesse olhar o po-sicionamento sobre as primeiras dimensoes dos Indivıduos (ou seja aslinhas do arquivo de dados).Pode por exemplo sugerir a presenca de segmentos, ou grupo de in-divıduos com respostas similares.

“RAIZ”2014/10/28page 108

✐

✐

✐

✐

✐

✐

✐

✐


A Figura 6 mostra o Mapa dos indivıduos neste exemplo. Pareceriasugerir a presenca de mais de um segmento de consumidores.

Figura 6

“RAIZ”2014/10/28page 109

✐

✐

✐

✐

✐

✐

✐

✐

Capıtulo 4

EscalonamentoMultivariado

4.1 Introducao

As tecnicas de escalonamento multivariado permitem representar umconjunto de objetos como pontos de um espaco de dimensao relativa-mente pequena conhecendo as distancias entre os objetos ou somente aordenacao dessas distancias.

As tecnicas de escalonamento multivariado foram desenvolvidas fun-damentalmente por Shepard (1962) e Kruskal (1964) utilizando algorit-mos de calculo sofisticados. Neste capıtulo apresentamos um enfoquealternativo, devido a Benzecri (1973) que da uma solucao aproximada aotima, utilizando somente tecnicas de Algebra Linear.

Nos referiremos a esta ultima tecnica como Escalamento Multidi-mensional classico ou metrico. Nos refireremos a versao posterior deShepard (1962) e Kruskal (1964) como Escalamento Multidimensionalnao metrico.

Empiricamente os resultados obtidos com este metodo, diferem ge-ralmente muito pouco das solucoes obtidas atraves do uso da tecnicamais sofisticada de Kruskal (ver Benzecri 1973).

109

“RAIZ”2014/10/28page 110

✐

✐

✐

✐

✐

✐

✐

✐

110 Escalamento Multivariado Cap.4

4.2

Consideremos um conjunto de I objetos Xi , 1 ≤ i ≤ I. Suponhamosque nao temos nenhuma representacao numerica desses objetos e que so-mente e conhecida a distancia ou “dissimilaridade” entre dois quaisquerdeles. A distancia entre Xi e Xi′ sera denotada por dii′ . Vamos suporque as seguintes relacoes sao satisfeitas

(i) dii′ = di′i para todo i, i′.

(ii) dii′ ≥ 0 para todo i, i′.

(iii) dii′ = 0 se e somente se i = i′.

Seja Dii′ = d2ii .

O problema do escalonamento multivariado consiste em represen-

tar cada objeto Xi por um ponto F(p)i ∈ Rp de maneira que dii′ seja

aproximadamente ||F (p)i − F

(p)i′ ||I .

Vamos supor, como no Capıtulo 2, que cada Xi tem um peso µi comI∑

i=1µi = 1. Entao, o problema do escalonamento otimo em Rp, consiste

em achar pontos F(p)i em Rp tais que

(4.1)I∑

i=1

I∑

i′=I

µi µi′

∣∣∣Dii′ − ||F (p)i − F

(p)i′ ||2I

∣∣∣

seja mınimo.

As tecnicas desenvolvidas neste capıtulo permitem achar solucoesaproximadamente otimas. O primeiro passo consistira em representarcada Xi por um ponto xi ∈ RI−1 de maneira que

(4.2) Dii′ = ||xi −Xi′ ||2Σ∗

onde Σ∗ sera uma matriz nao necessariamente definida nao negativa.

Nota. Dada uma matriz Σ, p × p, nao necessariamente definida naonegativa definimos 〈a, b〉Σ = a′Σ b e ||a||2Σ = a′Σ a, onde a e b sao

“RAIZ”2014/10/28page 111

✐

✐

✐

✐

✐

✐

✐

✐


elementos de Rp. Os pontos xi que encontraremos em RI−1 satisfaraotambem a seguinte relacao linear

(4.3)I∑

i=1

µi xi = 0

ou seja terao media 0.

Provaremos primeiro o seguinte

Lema 4.1. Para que um conjunto de pontos xi , 1 ≤ i ≤ I, em Rp

que verifiquem (4.3) verifiquem tambem (4.2) e condicao necessaria e

suficiente que

(4.4) 〈xi, xi′〉Σ∗ =1

2

(−Dii′ +Di··· +Di′··· −D······

)

onde Di· =I∑

i′=1

µi′ Dii′ , D······ =I∑

i=1

I∑i′=1

µi µi′ Dii′ .

Demonstracao. (4.2) e equivalente a

Dii′ = ‖xi‖2Σ∗ + ‖xi′‖2Σ∗ − 2⟨xi, xi′

⟩Σ∗

e portanto equivalente a

(4.5)⟨xi, xi′

⟩Σ∗

=1

2

(−Dii′ + ‖xi‖2Σ∗ + ‖xi′‖2Σ∗

).

Multiplicando (4.5) por µi′ e somando temos

(4.6) ‖xi‖2Σ∗ = Di· −I∑

i=1

µi ‖xi‖2Σ∗ .

Multiplicando (4.6) por µi e somando temos

(4.7) D·· = 2

I∑

i=1

µi||xi||2Σ∗ .

Substituindo (4.6) e (4.7) em (4.5) temos (4.4). A suficiencia decorrefacilmente.

“RAIZ”2014/10/28page 112

✐

✐

✐

✐

✐

✐

✐

✐


O seguinte Lema indica como construir os pontos xi que satisfazem(4.2) e (4.3).

Lema 4.2. Seja xi =(xi,1, . . . , xi,I−1

)′, 1 ≤ i ≤ I − 1 defininido por

xi,j = δi,j . Ou seja x1, . . . , xI−1 e a base canonica de RI−1. Definimos

xI =(− µ1/µI , . . . ,−µi−1/µi

)′. Temos

(i)I∑

i=1µi xi = 0

(ii) Seja Σ = (σii′) a matriz I × I definida como

(4.8) σii′ =1

2

(−Dii′ +Di· +Di′· −D··

)

e Σ∗ a matriz (I − 1)× (I − 1) formada pelas primeiras (I − 1) linhas e

(I − 1) colunas da matriz Σ. Entao (4.2) e valida.

Demonstracao.

(i) Decorre imediatamente da definicao.

(ii) Pela Lema 4.1 e suficiente varificar (4.4). A verificacao e imediatapara i, i′ ≤ I − 1. Consideremos agora o caso i ≤ I, i′ = I. Por(4.3) temos

⟨xi, xI

⟩Σ∗

=

⟨xi′ −

I−1∑

i′=1

(µi′/µi)xi′

⟩

Σ∗

=

= −I−1∑

i′=1

(µi′/µI)〈xi, xi′〉Σ∗ =

= −I−1∑

i′=1

(µi′/µI)σii′ .

ComoI∑

i′=1

µi′ σii′ = 0 temos que

〈xi, xI〉 = σiI =1

2

(−DiI +Di· +Di′· −D··

)

“RAIZ”2014/10/28page 113

✐

✐

✐

✐

✐

✐

✐

✐


e portanto (4.4) e valida para i′ = I. Da mesma forma (4.4) pode serverificado pra i = i′ = I o que termina a prova do Lema.

O Lema 4.2 implica que para minimizar (4.1) e suficiente encontrar

F(p)I em Rp tais que minimizem

(4.9)I∑

i=1

I∑

i′=1

∣∣∣||xi − xi′ ||2Σ∗ − ||F (p) − F(p)i′ ||2I

∣∣∣ .

Se a matriz Σ∗ fosse definida positiva uma solucao aproximada po-deria obter-se com componentes principais utilizando a Proposicao 2.2do Capıtulo 2. Vamos aplicar esta tecnica formalmente com a unica

condicao que a matriz ΣD, onde D =

(µ1 0

. . .0 µI

), tenha pelo menos

p autovalores positivos. Vamos provar que o resultado a ser obtido ebom sempre que os (I − p) autovalores menores da matriz ΣD sejampequenos em valor absoluto comparados com os p maiores. O seguinteLema calcula os vetores D(p) da Proposicao 2.2 no caso em que Σ∗ sejadefinida positiva.

Lema 4.3. Sejam xi , 1 ≤ i ≤ I, os vetores do Lema 4.2. A matriz

Σ∗ = (σii′) de (I−1)× (I−1) com σii′ dada por (4.8). Suponhamos que

Σ∗ e definida positiva. A Proposicao 2.2 produz os seguintes resultados

i) A matriz C esta dada por

(4.10) C = D∗ + φ∗

onde D∗ =

(µ1 0

. . .0 µI−1

)e φ∗ e a matriz (I−1)×(I−1) com elemento

(i, i′) dado por ϕii′ = (µi, µi′)/µI .

ii) Seja U∗ = (U∗1 , . . . , U

∗I−1) a matriz U da Proposicao 2.2. Temos

(4.11) U∗′C U = Λ

(4.12) U∗′Σ∗−1 U∗ = I

“RAIZ”2014/10/28page 114

✐

✐

✐

✐

✐

✐

✐

✐


onde Λ =

( λ∗

1 0

. . .0 λ∗

I−1

)λ∗1 ≥ λ∗

2 ≥ · · · ≥ λ∗I−1 e portanto U∗

α e

autovetor de Σ∗C correspondente ao autovalor λ∗α . Temos entao

(4.13) Fα(i) = U∗′α xi = U∗

α(i) 1 ≤ i ≤ I − 1

(4.14) Fα(I) = −I−1∑

i=1

(µi/µI)µ∗α(i)

Demonstracao.

(i) E imediado dado a definicao dos xi .

(ii) Tambem e imediato dado a definicao dos xi .

De acordo com o visto no Teorema 2.1, se Σ∗ fosse definida positivauma solucao aproximada ao problema de minimizar (4.9) esta dada por

(4.15) F(p)i =

(F1(i), . . . , Fp(i)

)′.

O seguinte Teorema indica como pode generalizar-se este resultadoao caso no qual Σ∗ nao seja definida positiva. Tambem indica a relacaoque existe entre os autovalores e autovetores de Σ∗C e os de ΣD,D =(

µ1 0

. . .0 µI

). Este Teorema e valido sem supor que Σ∗ seja definida

positiva.

Teorema 4.1.

(i) A matriz ΣD admite o autovetor UI = (1, · · · , 1)′ correspondenteao autovalor λI = 0.

(ii) Sejam λ1 ≥ λ2 ≥ · · · ≥ λI−1 os outros autovalores de ΣD e os au-

tovetores correspondentes Uα =(Uα(1), . . . , Uα(I)

)′1 ≤ α ≤ I−1.

Os Uα podem ser escolhidos de forma tal que sejam satisfeitas

(4.16)I∑

i=1

µi Uα(i) = 0, α = 1, . . . , I − 1

“RAIZ”2014/10/28page 115

✐

✐

✐

✐

✐

✐

✐

✐


(4.17)I∑

i=1

µi Uα(i)Uα′(i) = δαα′ , α, α′ = 1, . . . , I − 1

(iii) λα = λ∗α onde os λ∗

α sao os autovalores de Σ∗C do Lema 4.3.

Por outro lado se os Uα satisfazem (4.16) e (4.17) e λα > 0 teremos

Uα =

(U∗α

/√λα ,−

I−1∑

i=1

µi/(µI

√λα

)U∗α(i)

)

onde U∗α e o autovetor de Σ∗C correspondente a λα que satisfaz U∗′

α Σ−1 Uα =1.

(iv) Sejam Fα(i) definidos por (4.13) e (4.14). Se λα > 0 temos:

Fα(i) =√λα(i)Uα(i) 1 ≤ i ≤ I 1 ≤ α ≤ I − 1.

Por (4.15) temos

(4.18) F(p)i =

√λα

(U1(i), . . . , Up(i)

)′

(v)

(4.19) Dii′ =I−1∑

α=1

(Uα(i)− Uα(i

′))2

λα

(4.20)I∑

i=1

I∑

i′=1

Dii′ = 2I−1∑

α=1

λα

(vi) Suponhamos que λα > 0 1 ≤ α ≤ p e definimos F(p)i por (4.18).

Temos

I∑

i=1

I∑

i′=1

µi µi′

∣∣∣Dii′ − ||F (p)i − F

(p)i′ ||2I

∣∣∣ ≤ 2I−1∑

α=p+1

|λα|

com igualdade se todos os λi sao positivos.

“RAIZ”2014/10/28page 116

✐

✐

✐

✐

✐

✐

✐

✐


Demonstracao. (i) Seja U1 = (1, . . . , 1)′. Por (4.8) temos

I∑

i′=1

(ΣD)ii′ UI(i′) =

1

2

I∑

i′=1

µi′(− dii + di· + di′· − d··

)=

=1

2

(− di· + di· + d·· − d··

)= 0.

(ii) Pelo Teorema 2 os autovalores de DΣ sao tambem λ1, . . . , λI−1 ,λI . Tambem pelo Teorema 2 existem autovetores de DΣ V1, . . . , VI

tais que

(4.21) V ′αD

−1 Vα = δαα′ .

Temos tambem que Uα = D−1 Vα , 1 ≤ α ≤ I sao os autovetores deΣD. Temos de (4.21) que

U ′αDUα = V ′

αD−1DDVα = δαα′

e portanto (4.17) e satisfeita. Tomando α′ = I temos (4.16).

(iii) Se α < I por (4.16) temos

(4.22) Uα(I) = −I−1∑

i=1

(µi/µI)Uα(i).

Portanto para provar (iii) e suficiente provar que

Uα =(Uα(1), . . . , Uα(I − 1)

)′

e autovetor de Σ∗C correspondente a λα e (4.23)

(4.23) Uα′ Σ∗−1 Uα =1

λα·

Como Uα e um autovetor de ΣD correspondente a λα temos

(4.24)I−1∑

i′=1

σii′ µi′ Uα(i) + σiI µI Uα(I) = λα Uα(i).

De (4.8) resulta

(4.25)

I∑

i′=1

µi′ σii′ = 0.

“RAIZ”2014/10/28page 117

✐

✐

✐

✐

✐

✐

✐

✐


Extraindo σiI de (4.25) e substituindo em (4.24) temos

σiI µi Uα(i) =−I−1∑

i′′=1

I−1∑

i′=1

σii′ µi′ µi′′ Uα(i′′)/µi+

+I−1∑

i′′=1

I−1∑

i′=1

σii′ ϕii′ Uα(i′′).

Como por (4.10) C = D∗ + φ∗ decorre que Uα e autovetor de Σ∗Ccorrespondente a λα .

Proporemos agora (4.23). Como Uα e autovetor de Σ∗C temos

(4.26) UαΣ∗−1 Uα =

UαC Uα

λα=

U ′α(D

∗ + φ∗)Uα

λα·

Mas

U ′α φ

∗ Uα = −I−1∑

i=1

I−1∑

i′=1

(µi µ′i/µI)Uα(i)Uα(i

′) =

= µI

(I−1∑

i=1

(µi/µI)Uα(i)

).

Utilizando (4.16) temos

U ′α φ

∗ Uα = µI U2α(I)

e substituindo em (4.26) obtemos

U ′αΣ

∗−1 Uα =

(I∑

i=1

µi U2α(i)

)/λα .

Portanto por (4.17) obtemos (4.23).

(iv) E imediato a partir de (iii).

(v) Seja V =

(v1

... . . ....VI

)uma matriz I × I onde Vα 1 ≤ α ≤ I e

definido como em (ii). Temos

(4.27) V ′ΣV = Λ =

λ1 0

. . .

0 λi

“RAIZ”2014/10/28page 118

✐

✐

✐

✐

✐

✐

✐

✐


(4.28) V ′D−1 V = I.

De (4.27) decorre

(4.29) Σ = V ′−1 ΛV −1

e de (4,28)

V −1 = V ′D−1.

Substituindo em (4.29) temos

Σ = D−1 V ΛV ′D

e pelo que vimos em (ii) e como D−1 V = U = (U1, . . . , UI) temos

(4.30) Σ = U ΛU ′.

Portanto

σii′ =I∑

i=1

λα Uα(i)Uα(i′) =

I−1∑

α=1

λα Uα(i)Uα(i′).

Alem do mais por (4.2)

Dii′ =∥∥xi − xi′

∥∥2Σ∗

=⟨xi, xi

⟩Σ∗

+⟨xi′ , xi′

⟩Σ∗

− 2⟨xi, xi′

⟩Σ∗

=

= σii + σii′ − 2σii′ =I−1∑

α=1

λα U2α(i) +

I−1∑

α=1

λα U2α(i

′)−

− 2I−1∑

α=1

λα Uα(i)Uα(i′) =

I−1∑

α=1

λα

(Uα(i)− Uα(i

′))2

e portanto (4.19) fica provada.

Antes de provar (4.20) provaremos o seguinte: para todo conjuntode numeros γp+1, . . . , γI−1 temos

(4.31)I∑

i′=1

I∑

i=1

I−1∑

α=p+1

µi µi′ γα(Uα(i)− Uα(i

′))2

= 2I−1∑

α=p+1

γα .

“RAIZ”2014/10/28page 119

✐

✐

✐

✐

✐

✐

✐

✐


Para provar (4.30) observamos que

I∑

i′=1

I∑

i=1

I−1∑

α=p+1

µi µi′ γα(Uα(i)− Uα(i

′))2

=

=I−1∑

α=p+1

γα

I∑

i′=1

I∑

i=1

µi µi′(Uα(i)− Uα(i

′))2

=

= 2I−1∑

α=p+1

γα

[I∑

i=1

µi U2α(1)−

I∑

i′=1

I∑

i=1

µi µi′ Uα(i)Uα(i′)

]=

= 2I−1∑

α=p+1

γα

I∑

i=1

µi U2α(i)−

(I∑

i=1

µi Uα(i)

)2

e usando (4.16) e (4.17) obtemos (4.31). Agora de (4.19) e aplicando(4.31) com p = 0 e γα = λα decorre (4.20).

(vi) De (4.18) e (4.19) decorre que

∣∣∣Dii′ −∥∥F (p)

i − F(p)i′

∥∥2I

∣∣∣ ≤I−1∑

α=p+1

|λα|(Uα(i)− Uα(i

′))2.

Aplicando agora (4.30) com γα = |λα| decorre (vi).

De acordo com (v) e (vi) do Teorema 4.1 um limite superior do erro

relativo ERp na representacao dos objetos xi pelos pontos F(p)i em Rp

esta dado por

E Rp =I∑

i′=1

I∑

i=1

µi µi′

∣∣∣Dii′ −∥∥F (p)

i − F(p)i′

∥∥2I

∣∣∣ ≤

(4.32)

≤

I−1∑i=p+1

|λi|

I−1∑i=1

|λi|= ER∗

p .

Como aconteceu no Capıtulo 2 ao estudar Componentes Principais

E Rp nao leva em consideracao que a representacao F(p)i 1 ≤ i ≤ I e

“RAIZ”2014/10/28page 120

✐

✐

✐

✐

✐

✐

✐

✐


equivalente a λF(p)i com λ um escalar arbitrario. Portanto um coefici-

ente mais preciso sera o dado por ERCp definido como

ERCp =

mınimoλ

I∑i′=1

I∑i=1

µiµi′∣∣Dii′ − λ

∥∥F (p)i − F

(p)i′

∥∥2I

∣∣

I∑i′=1

I∑i=1

µi µi′ Dii′

Pode-se provar que no caso no qual os objetos xi sejam elementos de

um espaco RJ e se dii′ =(x′i Σxi

)1/2onde Σ e definida positiva J × J ,

a solucao determinada neste capıtulo sera a mesma que resultaria daaplicacao de Componentes Principais aos xi da mesma forma como foiexplicado no Capıtulo 2.

Em alguns casos pode nao conhecer-se a matriz de dissimilaridadesdii′ , mas somente a ordem das mesmas quer dizer: e conhecido o par deobjetos que encontra-se a distancia mınima, o par que vem a continuacaoem ordem de distancias, etc., ate chegar ao par de objetos que encontrou-se a maior distancia. Suponhamos ter I objetos xi 1 ≤ i ≤ I e que Qii′

indica a ordem da distancia entre xi e xi′ . Ou seja Qii′ = 1 indicara queos objetos xi e xi′ sao os mais proximos e Qii′ = I(I − 1)

/2 (existem

I(I−1)/2 pares de objetos) indicara que xi e xi′ e o par de objetos maisdistantes entre si.

Benzecri (1973) propoe o seguinte procedimento heurıstico para de-finir a matriz Dii′ a partir de Qii′ .

Suponhamos que os xi possam ser representados em Rp e que te-nham uma distribuicao normal multivariada com matriz de covarianciaI. Entao Dii′/2 = ||xi − xi′ ||2I/2 teria uma distribuicao χ2 com p grausde liberdade. Portanto dii′/2 seria uma amostra (nao independente) detamanho N = I(I − 1)/2 desta distribuicao. Se Qii′ = k, Dii′/2 seria opercentil empırico k/N desta distribuicao e portanto poderia ser apro-ximado pelo correspondente percentil teorico da distribuicao χ2 com pgraus de liberdade. Quer dizer que poderia se reconstruir a matriz Dii′

porDii′

2= χ2

p−1(k/N) se Qii′ = k

“RAIZ”2014/10/28page 121

✐

✐

✐

✐

✐

✐

✐

✐


onde χ2p e a funcao de distribuicao de uma χ2 com p graus de liberdade.

Uma vez construıdos os Dii′ utilizarıamos o procedimento descrito an-teriormente.

Como neste caso so interessa conservar a ordem das distancias e nao osvalores que sao desconhecidos, e conveniente definir uma nova media doerro relativo. Esta medida chamada “Stress” e devida a Kruskal (1964).O Stress correspondente a solucao em Rp estava dada por

Sp = mınimof∈M

I∑i=1

I∑i′=1

µi µi′(∥∥F (p)

i − F(p)i′

∥∥I− f(Qii′)

)2

I∑i=1

I∑i′=1

µi µi′∥∥F p

i − F pi′

∥∥2I

onde M e o conjunto de funcoes monotonicas dos naturais nos reais.Para o calculo da f que realiza o mınimo pode ver-se Kruskal (1964).

(Isto e usualmente mencionado como Escalamento Multidimensional naoMetrico).

4.2 Notas e comentarios sobre MDS

Uma matriz D com elementos dij satisfazendo as propriedades (i),(ii) e(iii) do paragrafo 2 e chamada de matriz de dissimilaridades.

Se adicionalmente para todos as triplas i, j, k temos dij + djk ≥ dik (oque chamaremos de propriedade “metrica” ou desigualdade metrica) amatriz d seria chamada de matriz de distancias ou simplesmete umadistancia entre os elementos do conjunto I.

Exemplos mais frequentes de metricas que sao utilizadas sobre subcon-juntos I de n pontos em Rp sao as metricas euclideanas (Pitagoras), dosquarteroes (city- block), Chebychev (ou do maximo) definidas por:

Euclideana : de =

{p∑

i=1

(xi − yi)2

}1/2

City − Block : dcb =

p∑

i=1

|xi − yi|

Chebychev : dc = max{|xi − yi|, i = 1, 2, . . . , p

}

“RAIZ”2014/10/28page 122

✐

✐

✐

✐

✐

✐

✐

✐


As duas primeiras sao casos particulares de:

Minkowsky : dM =

{p∑

i=1

(xi − yi)m

}1/m

(de ordem m)

Quando os valores que os vetores xi e yi tomam sao somente 0 ou 1,algumas alternativas especıficas e interpretaveis sao usadas.

Jaccard : dJ = −p∑

i=1

xiyi/(

p∑

i=1

xi +

p∑

i=1

yi −p∑

i=1

xiyi

).

Coincidencia(matching): #(i : xi = yi)/p, onde # indica o cardinal doconjunto.

Uma medida de similaridade que usaremos em exemplo posterior e de-finida da seguinte forma. Sejam {Pk, k = 1, 2, . . . , n} um conjunto departicoes finitas de um conjunto finito e fixo I. Definimos para cada parde elementos i e j do conjunto I

sij = #{k : i e j pertencem ao mesmo subconjunto da particao k}

Definimos a dissimilaridade como dij = n− sij .

Medidas de dissimilaridade podem ser transformadas em medidas desimilaridade usando diversas trasformacoes como por exemplo sij =1/(1 + dij) ou sij = c− dij para alguma constante c maior que todos osdij .

Nem toda dissimilaridade e uma distancia ainda que muitas o sao. (VerGower J.C. 1982).

Nao existe uma “melhor” medida de similaridade. Algumas podem sermais apropriadas que outras para certas situacoes ou conjunto de dadosou aplicacao.

Uma nocao importante e a de imersao em um espaco euclidiano.

Uma matriz D(n×n) de elementos dij e Euclidiana se existem n pontosp1, p2, . . . , pn em algum Rp de forma tal que a distancia euclidiana entrepi e pj e exatamente dij .

Neste caso claramente D e uma matriz de distancias (e naturalmente dedissimilaridades).

Nem todo espaco metrico finito com matriz de distancias D e inmersivelem algum espaco Euclideano para algum valor de p.

“RAIZ”2014/10/28page 123

✐

✐

✐

✐

✐

✐

✐

✐


Seja D uma matriz de dissimilaridades, I a matriz identidade em Rn

e 1 um vetor de comprimento n com elementos todos iguais a 1 e B amatriz

B = (I−1s′)D(I−s1′) onde s indica a matriz transposta de s e s′1 = 1.

Teorema: (Condicao necessaria e suficiente para inmersibilidade).D e inmersivel em um Espaco Euclideano se e somente se B e semi-definida positiva para algum s tal que s′ = 1 e s′D 6= 0.

Outro resultado interessante para verificar se algumas expressoes defi-nem metricas esta dado pelo seguinte resultado (ver Deza, Elena (2006)).Seja f : R → R uma funcao duas vezes diferenciavel definida para x ≥ 0e tal que f(0) = 0, f ′ > 0 para todo x ≥ 0 e f ′′ ≤ 0 para todo x ≥ 0.Neste caso f e concava e em particular f(x+ y) ≤ f(x) + f(y).Dado u espaco metrico (X, d) a funcao df definida por df (x, y) = f(d(x, y))e uma metrica sobre X. As metricas sao de fato equivalentes (geram amesma topologia).

Exemplos: αd para α > 0, dα (0 < α < 1), ln(1 + d), arcsin d,arccosh d, e d/(1 + d).

4.3 Exemplos do Capitulo 4

Os exemplos deste capitulo foram rodados usando a funcao cmdscale()do R. Como ja foi mencionado, os resultados usando o escalamento naometrico sao muito semelhantes. Para o caso nao metrico o pacote smacofdo R e recomendado.

Exemplo 1

Este exemplo contem data de questionarios aplicado em estudantes deCiencias Polıticas sobre similaridades percebidas entre 12 paises: BEL,BRA, CHI, CUB, EGY, FRA, IND, ISR, USA, USS, YUG e ZAI.Cada entrevistado indicava em uma escala a dissimilaridade entre cadapar de paıses. Os resultados foram depois agregados sobre todos osparticipantes e uma dissimilaridade media foi calculada. Estes valoresentao indicados na Figura 1.

“RAIZ”2014/10/28page 124

✐

✐

✐

✐

✐

✐

✐

✐


Figura 1

BEL

BRA

CHI

CUB

EGY

FRA

IND

ISR

USA

USS

YUG

ZAI

BEL

05,58

77,08

4,83

2,17

6,42

3,42

2,5

6,08

5,25

4,75

BRA

5,58

06,5

75,08

5,75

55,5

4,92

6,67

6,83

3

CHI

76,5

03,83

8,17

6,67

5,58

6,42

6,25

4,25

4,5

6,08

CUB

7,08

73,83

05,83

6,92

66,42

7,33

2,67

3,75

6,67

EGY

4,83

5,08

8,17

5,83

04,92

4,67

54,5

65,75

5

FRA

2,17

5,75

6,67

6,92

4,92

06,42

3,92

2,25

6,17

5,42

5,58

IND

6,42

55,58

64,67

6,42

06,17

6,33

6,17

6,08

4,83

ISR

3,42

5,5

6,42

6,42

53,92

6,17

02,75

6,92

5,83

6,17

USA

2,5

4,92

6,25

7,33

4,5

2,25

6,33

2,75

06,17

6,67

5,67

USS

6,08

6,67

4,25

2,67

66,17

6,17

6,92

6,17

03,67

6,5

YUG

5,25

6,83

4,5

3,75

5,75

5,42

6,08

5,83

6,67

3,67

06,92

ZAI

4,75

36,08

6,67

55,58

4,83

6,17

5,67

6,5

6,92

0

“RAIZ”2014/10/28page 125

✐

✐

✐

✐

✐

✐

✐

✐


Esta forma de coletar dissimilaridades e bastante comum em outras areas como

na analise de comportamento de consumidores. Imaginemos que temos um

conjunto de marcas em uma categoria (digamos 15 marcas de detergente para

roupas) e queremos ter uma ideia do grau de concorrencia entre as marcas

em termos de como sao vistas como substitutas/alternativas de compra entre

os consumidores. Seriam marcas que o consumidor poderia comprar uma em

lugar da outra. Esta informacao e em geral valiosa para os fabricantes porque

indica a concorrencia mais direta entre marcas.

No Exemplo 2 veremos uma situacao deste tipo porem com uma coleta diferente

para determinar as dissimilaridades.

A Figura 2 usa os mesmos valores da Figura 1 so que em uma versao grafica

atraves de um grafico de nıveis (levelplot):

Figura 2

“RAIZ”2014/10/28page 126

✐

✐

✐

✐

✐

✐

✐

✐


A Figura 3 indica os valores dos autovalores na decomposicao espectral.

9 Autovalores positivos e tres negativos que indica que a matriz de Dis-similaridades nao e Euclidiana.

Figura 3

V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12

72,50 41,71 25,83 15,60 11,17 9,31 6,03 2,96 0,00 0,45 2,78 7,43

Adicionalmente os primeiros autovalores positivos são muito maiores que os negativos;

Adicionalmente os primeiros autovalores positivos sao muito maioresque os negativos; (ver Mardia e outros (1979)).Os valores absolutos acumulados dos autovalores estao indicados na Fi-gura 4:

Figura 4

Proporcao nas somas em valores absolutos acumuladas

V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12

0,37 0,58 0,72 0,80 0,85 0,90 0,93 0,95 0,95 0,95 0,96 1,00

Os dois primeiros autovalores indicam uma adequacao de 58,3%.Como as duas primeiras dimensoes representam proximo de 60% da va-riacao ficaremos com estas duas dimensoes para a representacao grafica.

“RAIZ”2014/10/28page 127

✐

✐

✐

✐

✐

✐

✐

✐


A Figura 5 contem as coordenadas dos pontos e a Figura 6 a sua repre-sentacao.

Figura 5

Pais Dimension 1 Dimension 2

BEL 5,915148 2,643098

BRA 3,712266 5,889597

CHI 7,573524 2,081641

CUB 8,292496 1,602484

EGY 2,286907 1,688705

FRA 5,610125 3,979386

IND 2,510442 5,640259

ISR 3,165117 4,59795

USA 7,061969 1,396854

USS 6,592312 2,807475

YUG 4,495912 4,729947

ZAI 1,713152 6,456992

“RAIZ”2014/10/28page 128

✐

✐

✐

✐

✐

✐

✐

✐


Figura 6

Note-se que os paises aparecem agrupados em 3 grandes grupos em ter-mos de suas similaridades com Egipto sendo algo diferenciado talvezmais proximo de Brasil e India.Exemplo 2. Como ja mencionamos anteriormente imaginemos quetemos um conjunto de n consumidores de uma categoria de produtos.Solicitamos a cada entrevistado que forme conjuntos de produtos deforma tal que dois produtos sejam colocados no mesmo grupo se saoconsiderados como eventuais substitutos um do outro.Sejam {Pk, k = 1, 2, . . . , n} a particao dos produtos feita por um con-sumidor determinado. Esta particao sera diferente para cada indivıduotanto nos subconjuntos que a definem como no seu numero. Definimospara cada par de elementos i e j do conjunto de produtos I sij = #vezes que i e j pertencem ao mesmo subconjunto/n (# indica numero).Definimos a dissimilaridade entre os produtos i e j como dij = 1− sij .A matriz a seguir indica a matriz de dissimilaridades obtida entre umconjunto de 370 consumidores entre 19 marcas de Margarina.

“RAIZ”2014/10/28page 129

✐

✐

✐

✐

✐

✐

✐

✐


DaniH

o

Dan

iMa

Flor

Golf

Cord

oHo

Codo

MyB

Mant

erina

Marg

aHo

Marg

aMa

Milh

ojas

MKT

Ho

MKT

Re

Prem

Ho

Prem

Tran

Pre

mM

Prim

icia

Prim

Ho

Prim

Ma

Supe

r

DaniHo

0,000,40

0,680,68

0,58

0,76

0,68

0,51

0,73

0,54

0,42

0,69

0,44

0,50

0,63

0,43

0,46

0,67

0,58

DaniM

a0,400,00

0,550,44

0,82

0,64

0,39

0,79

0,56

0,78

0,67

0,45

0,68

0,71

0,39

0,76

0,67

0,47

0,64

Flor

0,680,55

0,000,39

0,58

0,57

0,55

0,78

0,62

0,52

0,74

0,62

0,61

0,66

0,51

0,71

0,81

0,62

0,51

Golf

0,680,44

0,390,00

0,84

0,55

0,49

0,84

0,68

0,64

0,67

0,47

0,66

0,63

0,42

0,77

0,76

0,51

0,46

CordoHo

0,580,82

0,580,84

0,00

0,26

0,78

0,48

0,60

0,37

0,60

0,81

0,62

0,49

0,77

0,42

0,39

0,64

0,76

CodoMyB

0,760,64

0,570,55

0,26

0,00

0,61

0,68

0,40

0,63

0,77

0,61

0,76

0,67

0,60

0,63

0,60

0,45

0,80

Manterina

0,680,39

0,550,49

0,78

0,61

0,00

0,78

0,55

0,64

0,67

0,42

0,73

0,79

0,49

0,84

0,76

0,54

0,62

MargaHo

0,510,79

0,780,84

0,48

0,68

0,78

0,00

0,47

0,48

0,51

0,82

0,41

0,36

0,70

0,39

0,37

0,70

0,72

MargaMa

0,730,56

0,620,68

0,60

0,40

0,55

0,47

0,00

0,78

0,76

0,60

0,71

0,79

0,45

0,67

0,67

0,32

0,74

Milhojas

0,540,78

0,520,64

0,37

0,63

0,64

0,48

0,78

0,00

0,40

0,64

0,40

0,34

0,73

0,48

0,49

0,72

0,44

MKTHo

0,420,67

0,740,67

0,60

0,77

0,67

0,51

0,76

0,40

0,00

0,42

0,37

0,46

0,66

0,49

0,56

0,86

0,53

MKTRe

0,690,45

0,620,47

0,81

0,61

0,42

0,82

0,60

0,64

0,42

0,00

0,69

0,79

0,42

0,81

0,83

0,63

0,61

PremHo

0,440,68

0,610,66

0,62

0,76

0,73

0,41

0,71

0,40

0,37

0,69

0,00

0,19

0,36

0,45

0,48

0,74

0,58

PremTran

0,500,71

0,660,63

0,49

0,67

0,79

0,36

0,79

0,34

0,46

0,79

0,19

0,00

0,54

0,39

0,40

0,73

0,58

PremMa

0,630,39

0,510,42

0,77

0,60

0,49

0,70

0,45

0,73

0,66

0,42

0,36

0,54

0,00

0,75

0,73

0,45

0,61

Primicia

0,430,76

0,710,77

0,42

0,63

0,84

0,39

0,67

0,48

0,49

0,81

0,45

0,39

0,75

0,00

0,34

0,65

0,66

PrimHo

0,460,67

0,810,76

0,39

0,60

0,76

0,37

0,67

0,49

0,56

0,83

0,48

0,40

0,73

0,34

0,00

0,42

0,67

PrimMa

0,670,47

0,620,51

0,64

0,45

0,54

0,70

0,32

0,72

0,86

0,63

0,74

0,73

0,45

0,65

0,42

0,00

0,66

Super

0,580,64

0,510,46

0,76

0,80

0,62

0,72

0,74

0,44

0,53

0,61

0,58

0,58

0,61

0,66

0,67

0,66

0,00

“RAIZ”2014/10/28page 130

✐

✐

✐

✐

✐

✐

✐

✐


A Figura 2 indica os valores dos autovalores na decomposicao espectral.

Autovalores

Figura 2

11 Autovalores positivos o que indica que a matriz de Dissimilaridadesnao e Euclidiana.

V1 V2 V3 V4 V5 V6 V7 V8 V9

1,32 0,78 0,46 0,35 0,31 0,21 0,19 0,14 0,07

V10 V11 V12 V13 V14 V15 V16 V17 V18 V19

0,04 0,01 0,00 0,02 0,02 0,04 0,08 0,11 0,12 0,13

Adicionalmente os primeiros autovalores positivos sao muito maiores queos negativos. (Ver Mardia e outros (1979)).

Figura 3

Proporcao nas somas em valores absolutos acumuladas

V1 V2 V3 V4 V5 V6 V7 V8 V9

0,300932 0,48 0,585 0,665 0,73 0,782 0,825 0,857 0,87

V10 V11 V12 V13 V14 V15 V16 V17 V18 V19

0,881917 0,88 0,884 0,887 0,89 0,902 0,921 0,945 0,97 1

Os dois primeiros autovalores indicam uma adequacao de quase 50%

Como as duas primeiras dimensoes representam proximo de 50% da va-riacao ficaremos com estas duas dimensoes para a representacao grafica.

“RAIZ”2014/10/28page 131

✐

✐

✐

✐

✐

✐

✐

✐


A Figura 4 contem as coordenadas dos pontos e a Figura 5 a sua repre-sentacao.

Figura 4

Marcas Dimensao 1 Dimensao 2

DaniHo 0,158 0,139

DaniMa 0,323 0,053

Flor 0,204 0,041

Golf 0,326 0,144

CordoHo 0,281 0,277

CodoMyB 0,112 0,366

Manterina 0,353 0,031

MargaHo 0,345 0,119

MargaMa 0,187 0,342

Milhojas 0,230 0,132

MKTHo 0,188 0,296

MKTRe 0,333 0,162

PremHo 0,219 0,201

PremTran 0,304 0,119

PremMa 0,262 0,058

Primicia 0,349 0,075

PrimHo 0,299 0,164

PrimMa 0,218 0,311

Super 0,052 0,278

“RAIZ”2014/10/28page 132

✐

✐

✐

✐

✐

✐

✐

✐


Note-se que as marcas aparecem agrupadas em 4 grandes grupos emtermos de suas similaridades com a marca Super sendo algo diferenciada.

Exemplo 3.

Os dados deste exemplo encontra-se em Gower J. (1996) e no pacoteBiplotGUI em R.

Para fazer mobilia do tipo Old-Cape em South Africa tres variedadesde madeira foram utilizadas em diferentes momentos. As especies foram,Ocotea kenyensis.(Oken) 7 amostras, Ocotea bullata (Obul) 20 amostras,e Ocotea perosa (Opor) 10 amostras.

“RAIZ”2014/10/28page 133

✐

✐

✐

✐

✐

✐

✐

✐


Sobre estas 37 amostras foram medidas 7 variaveis que poderiamcaracterizar cada uma das especies:

Species

Indicador da especie. Um fator com nıveis Obul, Oken e Opor.

VesD

Tangential vessel diameter in micrometres. A numeric vector.

VesL

Vessel element length in micrometres. A numeric vector.

FibL

Fibre length in micrometres. A numeric vector.

RayH

Ray height in micrometres. A numeric vector.

RayW

Ray width in micrometres. A numeric vector.

NumVes

The number of vessels per millimetre squared. A numeric vector.

A seguir: Figura 1. Dados de tres especies de madeira.

“RAIZ”2014/10/28page 134

✐

✐

✐

✐

✐

✐

✐

✐


Species VesD VesL FibL RayH RayW NumVes

1 Obul 79 383 941 333 30 17

2 Obul 78 346 961 223 24 31

3 Obul 82 361 1039 316 27 25

4 Obul 79 324 1048 369 29 26

5 Obul 85 418 1051 347 34 14

6 Obul 111 448 1096 379 40 13

7 Obul 76 320 1130 347 29 13

8 Obul 103 371 1165 326 26 10

9 Obul 129 406 1165 428 44 11

10 Obul 74 281 1175 324 26 11

11 Obul 102 567 1221 395 40 11

12 Obul 95 415 1225 416 38 10

13 Obul 91 372 1234 375 26 11

14 Obul 113 314 1253 466 23 10

15 Obul 93 541 1267 347 34 14

16 Obul 94 437 1271 336 36 10

17 Obul 119 359 1280 412 32 11

18 Obul 104 387 1290 381 22 12

19 Obul 114 569 1369 568 52 11

20 Obul 141 621 1527 419 34 15

21 Oken 147 402 1391 440 32 9

22 Oken 142 393 1468 443 35 6

23 Oken 125 322 1530 459 34 11

24 Oken 156 401 1588 512 42 11

25 Oken 162 502 1591 369 42 8

26 Oken 103 378 1655 441 34 11

27 Oken 126 414 1759 459 42 8

28 Opor 122 346 981 393 40 14

29 Opor 139 133 993 342 33 14

30 Opor 130 368 1005 356 39 16

31 Opor 127 331 1027 473 38 20

32 Opor 112 309 1044 358 47 8

33 Opor 115 352 1048 300 36 14

34 Opor 130 471 1072 409 39 15

35 Opor 153 419 1077 392 48 20

36 Opor 135 370 1104 531 38 15

37 Opor 130 325 1166 428 36 12

“RAIZ”2014/10/28page 135

✐

✐

✐

✐

✐

✐

✐

✐


Usando as 7 variaveis, calculamos a distancia euclidiana usual entrecada par de linhas. Isto nos proporciona a matriz de distancias (oudissimilaridades) que sera usada para MDS.

A Figura 2 mostra graficamente a matriz de distancias entre cada parde elementos da amostra (37× 37 elementos). O grafico tambem sugerea presenca de tres grupos(ou segmentos) de amostras (que poderiam ounao coincidir com as especies de Ocotea analisadas).

Figura 2. Plot de nıveis (levelplot de matriz de distancias (dis-similaridades).

Note-se que todos sao nao negativos porque a matriz de dissimila-ridades e neste caso uma matriz de distancias euclideanas. Sao tem 6positivos porque temos 7 variaveis.

“RAIZ”2014/10/28page 136

✐

✐

✐

✐

✐

✐

✐

✐


Figura 3

V1 V2 V3 V4 V5 V6

102,3307 36,70507 33,60642 19,31997 15,69257 8,345266

As duas primeiras dimensoes representam 64 por cento da inerciatotal, o que e adequado para nossa representacao.

Figura 4. Proporcao nas somas em valores absolutos acumu-lados.

V1 V2 V3 V4 V5 V6

0,473753 0,643684 0,799269 0,888714 0,961365 1

Os dois primeiros autovalores indicam sua adequacao de 64%.

A Figura 5 contem o Scree Plot e grafico com os valores acumulados.

“RAIZ”2014/10/28page 137

✐

✐

✐

✐

✐

✐

✐

✐


Figura 5

“RAIZ”2014/10/28page 138

✐

✐

✐

✐

✐

✐

✐

✐


A Figura 6 contem o mapa com 37 pontos(amostras ). Os pontos foramcoloridos de forma diferente levando em conta a sua especie.

Note-se que o mapa mostra a presenca de 3 grupos/segmentos e queestes de fato correspondem aproximadamente a cada uma das especies.

Figura 6

“RAIZ”2014/10/28page 139

✐

✐

✐

✐

✐

✐

✐

✐

Referencias 139

REFERENCIAS

Benzeeri, J.P. (1973). L’Analyse des Donnees, Tome 2: L’Analysedes Correspondences, Dunod, Paris (2a. ed. 1976).

Cattel, R.B. (1966). The Scree test for the number of factors.Multivariate Behavioural Research, 1, 245-276.

Elena Deza e outros (2006). Dictionary of Distances, Elsevier.

Fischer, R.A. (1940). The Precision of Discriminant Functions.Ann. Eugen. Lond. 10, 422-429.

Gower, J.C. (1982). Euclidean Distance Geometry. MathematicalScientist, 7, 1-14.

Gower, J.C. & Hand, D,J. (1996). Biplots. Chapman & Hall.

Gower, J.C., Lubbe, S,. Le Roux N. (2011). Understanding Bi-plots. Wiley & Sons.

Gabriel, K.R. (1971). The biplot graphic display of matrices withapplication to principal component analysis. Biometrika, 5m, 3,,p.453.

Hand, D.J., Daly, F., Lunn, A.D. (1994). A handbook of smalldata sets. London: Chapman & Hill. pag. 297.

Hill, M.O. (1974). Correspondence Analysis: a Neglected Multi-variate Method. App. Stat 23, 340-354.

Hirschfied, H.O. (1935). A Connection Between Correlation andContingency. Proc. Camb. Phil. Soc. 31, 520-524.

Hoffman, K., Kunze, R, (1961). Linear Algebra. Prentice-Hall,Inc. Englewood Cliffs, N.J.

Horst, P. (1965). Factor Analysis of Data Matrices. Holt, Rinchart& Winston, New York.

Kendall, M.G. & Stuart, A. (1961). The Advanced Theory ofStatistics. vol. 2. Griffin, London.

“RAIZ”2014/10/28page 140

✐

✐

✐

✐

✐

✐

✐

✐

140 Referencias

Kettering, J.R. (1971). Canonical Analysis of Several Sets of Va-riables. Biometrika 58, 433-450.

Kruskal, J.B. (1964). Multidimensional scating by optimizing go-odness of fit to a nonmetric hypothesis. Psychometrika, vol. 29,1-27.

Kruskal, J.B. (1964). Nonmetric multidimensional scaling: A nu-merical method. Psychometrika, vol. 29, 28-42.

Lima Elon L. (1998). Algebra Linear. Colecao Matematica Uni-versitaria. IMPA, Rio de Janeiro.

Lancaster, H.O. (1969). The χ-squared Distribution. Wiley, NewYork.

Lebart, L., Fenelon, J.P. (1971). Statistique et Informatique Ap-pliquees. Dunod, Paria (3a. ed. 1975).

Lebart, L., Morineau, A. & Tabard, N. (1977). Techniques de laDescription Statistique. Dunod. Paris.

Mardia, K.V., Kent, J.T. and Bibby, J.M. (1979). Chapter 14 ofMultivariate Analysis, London: Academic Press.

Morrison, D.F. (1967). Multivariate Statistical Methods. McGrawHill (2a. ed. 1976).

Pitombeira, J.C. (1972). Introducao a Algebra Linear. Ao LivroTecnico S.A. e Editora Universidade de Brasılia. Rio de Janeiro.

Sherpard, R.N. (1962). The analysis of proximities: Muldidimen-sional scaling with an unknown distance function. Phychometrikavol. 27, 125-139, 219-246.

Documents

Introdução à Análise Exploratória de Dados Multivariados · Publicações Matemáticas Introdução à Análise Exploratória de Dados Multivariados Pedro J. Fernandez Provokers