Upload
phungcong
View
220
Download
0
Embed Size (px)
Citation preview
Introdução à Análise Exploratória de Dados Multivariados
Publicações Matemáticas
Introdução à Análise Exploratória de Dados Multivariados
Pedro J. Fernandez Provokers do Brasil
Victor Yohai
Universidad de Buenos Aires
Copyright 2014 by Pedro J. Fernandez e Victor Yohai
Impresso no Brasil / Printed in Brazil
Capa: Noni Geiger / Sérgio R. Vaz
Publicações Matemáticas • Introdução à Topologia Diferencial – Elon Lages Lima
• Criptografia, Números Primos e Algoritmos – Manoel Lemos
• Introdução à Economia Dinâmica e Mercados Incompletos – Aloísio Araújo
• Conjuntos de Cantor, Dinâmica e Aritmética – Carlos Gustavo Moreira
• Introdução à Economia Matemática – Aloísio Araújo
• The Index Formula for Dirac Operators: an Introduction – Levi Lopes de Lima
• Introduction to Symplectic and Hamiltonian Geometry – Ana Cannas da Silva
• Primos de Mersenne (e outros primos muito grandes) – Carlos Gustavo T. A. Moreira e
Nicolau Saldanha
• The Contact Process on Graphs – Márcia Salzano
• Introduction to Toric Varieties – Jean-Paul Brasselet
• Birational Geometry of Foliations – Marco Brunella
• Teoria dos Corpos – Otto Endler
• Introdução à Dinâmica de Aplicações do Tipo Twist – Clodoaldo G. Ragazzo, Mário J.
Dias Carneiro e Salvador Addas Zanata
• Elementos de Estatística Computacional usando Plataformas de Software Livre/Gratuito
– Alejandro C. Frery e Francisco Cribari-Neto
• Uma Introdução a Soluções de Viscosidade para Equações de Hamilton-Jacobi – Helena
J. Nussenzveig Lopes, Milton C. Lopes Filho
• Elements of Analytic Hypoellipticity – Nicholas Hanges
• Variedades Diferenciáveis – Elon Lages Lima
• A Student's Guide to Symplectic Spaces, Grassmannians and Maslov Index – Paolo
Piccione e Daniel Victor Tausk
• Métodos Topológicos en el Análisis no Lineal – Pablo Amster
• Tópicos em Combinatória Contemporânea – Carlos Gustavo Moreira e Yoshiharu
Kohayakawa
• O Teorema de Poncelet – Marcos Sebastiani
• Aspectos Ergódicos da Teoria dos Números – Alexander Arbieto, Carlos Matheus e C.
G. Moreira
• A Survey on Hiperbolicity of Projective Hypersurfaces – Simone Diverio e Erwan
Rousseau
• Algebraic Stacks and Moduli of Vector Bundles – Frank Neumann
• O Teorema de Sard e suas Aplicações – Edson Durão Júdice
• Holonomy Groups in Riemannian Geometry – Andrew Clark e Bianca Santoro
• Linear ODEs:an Algebraic Perspective - Letterio Gatto
IMPA - [email protected]
http://www.impa.br
ISBN: 978-85-244-0393-4
“RAIZ”2014/10/28page 1
✐
✐
✐
✐
✐
✐
✐
✐
INDICE
Capıtulo 1 – Revisao de Algebra Linear . . . . . . . . . . . . . . . 5
Capıtulo 2 – Analise de Componentes Principais . . . . . . . . . . 24
Capıtulo 3 – Analise de Correspondencia . . . . . . . . . . . . . . 60
Capıtulo 4 – Escalonamento Multivariado . . . . . . . . . . . . . 109
Referencias – . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
“RAIZ”2014/10/28page 3
✐
✐
✐
✐
✐
✐
✐
✐
INTRODUCAO (1980)
Nesta monografia estao incluıdas algumas tecnicas de Analise de Dadosespecialmente uteis para a analise de grandes conjuntos de dados. Estastecnicas sao de natureza exploratoria e nao confirmatoria. Todas elas saobasicamente tecnicas dependentes de um uso adequado de resultados deAlgebra Linear. No Capıtulo 1 apresentamos um resumo dos principaisresultados de Algebra Linear que utilizaremos. O Capıtulo 2 trata decomponentes principais. A versao que apresentamos e especialmenteadequada para ser aplicada posteriormente nos Capıtulos 3 e 4 nos quaisas tecnicas de Analise de Correspondencias e Escalamento Multivariadosao apresentadas. Exemplos de aplicacao sao incluıdos em todos oscapıtulos.
Rio de Janeiro, junho/1980
“RAIZ”2014/10/28page 4
✐
✐
✐
✐
✐
✐
✐
✐
Introducao a Edicao Digital
Esta versao tem como objetivo fazer disponıvel a versao original daMonografia sobre algumas Tecnicas de Analise de Dados cuja edicaooriginal, publicada em 1980 por ocasiao do Coloquio de Matematica,esta esgotada .As partes puramente matematicas e estatısticas foram preservadas deforma identica a versao original. Naturalmente com o passar dos anos osoftware disponivel para analizar os dados tem tido um desenvolvimentosurprendente.Para todos os exemplos temos usado R Statistical Software.R e simulta-neamente uma linguagem de programacao e um poderoso e importanteconjunto de software “open source”.R pode ser baixado e instalado visitando o site http://www.r-project.orgTemos trocado os exemplos originais por outros mais relevantes aos pro-blemas atuais e analisados eles usando diferentes pacotes disponıveis emR.Os dados fazem parte das bases de dados de diferentes pacotes. Isto faci-lita a eventual reproducao dos resultados e evita o uso de bases de dadosque nao podem ser disponibilizadas devido a sua confidencialidade.
Rio de Janeiro, Janeiro 2014
“RAIZ”2014/10/28page 5
✐
✐
✐
✐
✐
✐
✐
✐
Capıtulo 1
Revisao de Algebra Linear
O presente capıtulo tem como objetivo introduzir a notacao basicae enunciar os principais resultados de algebra linear a serem utilizadosnos proximos capıtulos. So serao incluıdas as demonstracoes daquelesresultados que sao menos conhecidos ou que pela sua frequente aparicaonos capıtulos seguintes merecam um destaque ou enfase especial.
O leitor deve estar familiarizado com a nocao de espaco vetorial,subespaco, dependencia e independencia linear de vetores, bases, trans-formacoes lineares e sua representacao matricial fixadas as bases, mu-danca de base, sistemas lineares, autovalores e autovetores. Strang(1988), Lima (1998) podem ser consultados com proveito para escla-recimento ou aprofundamento desses pontos.Neste capıtulo introduzimos uma versao essencialmente matricial dosmesmos.
Passamos agora a apresentacao concisa dos principais temas que saoobjeto deste capıtulo.
Se A indica uma matriz, A′ indicara a sua transposta e caso A sejaquadrada, |A| indicara o determinante de A. Se |A| 6= 0, A−1 indicara amatriz inversa da matriz A. Se A tem elementos aij usaremos a notacaoA = (aij) ou tambem A(i, j) = ai,j para indicar que o elemento (i, j) deA e aij .
Se x ∈ Rm tem componentes{xi}i=1,...,m
indicaremos com ||x|| =√n∑
i=1x2i a norma de x (ou comprimento de x).
5
“RAIZ”2014/10/28page 6
✐
✐
✐
✐
✐
✐
✐
✐
6 Revisao de Algebra Linear Cap.1
Sejam A e B matrizes particionadas em blocos
A =
A11
∣∣∣∣ A12
. . . . . . . . . . . .
A21
∣∣∣∣ A22
B =
B11
∣∣∣∣ B12
. . . . . . . . . . . .
B21
∣∣∣∣ B22
onde Aij e Bij representam matrizes para todo i e j.
As afirmacoes (ii) e (iii) da Proposicao 1 abaixo sao validas sempreque as operacoes indicadas sejam compatıveis com as dimensoes dasmatrizes.
Proposicao 1.
(i) A′ =
A11
∣∣∣∣ A12
. . . . . . . . . . . .
A21
∣∣∣∣ A22
′
=
A′11
∣∣∣∣ A′21
. . . . . . . . . . . .
A′12
∣∣∣∣ A′22
(ii)
AB =
A11
∣∣∣∣ A12
. . . . . . . . . . . .
A21
∣∣∣∣ A22
B11
∣∣∣∣ B12
. . . . . . . . . . . .
B21
∣∣∣∣ B22
=
=
A11B11 +A12B21
∣∣∣∣ A11B12 +A12B22
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A21B11 +A22B21
∣∣∣∣ A21B12 +A22B22
“RAIZ”2014/10/28page 7
✐
✐
✐
✐
✐
✐
✐
✐
Cap.1 - Revisao de Algebra Linear 7
(iii)
A+B =
A11
∣∣∣∣ A12
. . . . . . . . . . . .
A21
∣∣∣∣ A22
+
B11
∣∣∣∣ B12
. . . . . . . . . . . .
B21
∣∣∣∣ B22
=
A11 +B11
∣∣∣∣ A12 +B12
. . . . . . . . . . . . . . . . . . . . . . . .
A21 +B21
∣∣∣∣ A22 +B22
Seja A uma matriz quadrada tal que
A =
A11
∣∣∣∣ A12
. . . . . . . . . . . .
A21
∣∣∣∣ A22
com A11 e A22 matrizes quadradas.
Proposicao 2.
(i) Se A =
A11
∣∣∣∣ 0
. . . . . . . . . . . .
A21
∣∣∣∣ A22
entao A = |A11| |A22|
(ii) Se |A22| 6= 0, entao |A| = |A22| |A11 −A12A−122 A21|
(iii) Se |A11| 6= 0, entao |A| = |A11| |A22 −A21A−111 A12|
Demonstracao:
(i) Procedemos por inducao na ordem de A. Se A e 2 × 2, A =(a11 0a21 a22
), temos que |A| = a11 a22 , que e o resultado procurado
para ordem 2.
“RAIZ”2014/10/28page 8
✐
✐
✐
✐
✐
✐
✐
✐
8 Revisao de Algebra Linear Cap.1
Suponhamos que o resultado e valido para matrizes de ordem menorou igual a n− 1. Seja A n×n. Temos pelo desenvolvimento de Laplacepela primeira linha que
|A| =n∑
j=1
a1j(−1)1+j A1j =
p∑
j=1
a1j(−1)1+j A1j
onde p e a ordem de A11 e A1j e o menor de A correspondente ao
elemento a1j . Agora A1j e um determinante (n − 1) × (n − 1). Porinducao temos
A1j = (menor de a1j em A11) · |A22|.
Portanto
|A| = |A22|p∑
j=1
a1j(−1)1+j (menor de a1j em A11) =
= |A22| |A11|.
A soma entre parenteses e igual a |A11| pelo desenvolvimento deLaplace.
∣∣∣∣∣∣
A11 A12
A21 A22
∣∣∣∣∣∣=
∣∣∣∣∣∣
A11 A12
A21 A22
∣∣∣∣∣∣
∣∣∣∣∣∣
I 0
−A−122 A21 I
∣∣∣∣∣∣=(ii)
=
∣∣∣∣∣∣
A11 A12
A21 A22
I 0
−A−122 A21 I
∣∣∣∣∣∣=
= |A22| |A11 −A−122 A−1
22 A21|.
A primeira e quarta igualdades utilizam a parte (i) da Proposicao 2.
(iii) O Argumento e igual ao desenvolvido para a parte (ii).
Lembremos que o traco de uma matriz quadrada A = (aij) e definidocomo a soma dos elementos contidos na diagonal de A. Ou seja
Tr(A) =n∑
i=1
aii .
“RAIZ”2014/10/28page 9
✐
✐
✐
✐
✐
✐
✐
✐
Cap.1 - Revisao de Algebra Linear 9
Seja A n×p, eB p×n duas matrizes. O traco tem a seguinte propriedadede demonstracao imediata.
Proposicao 3.
Tr(AB) = Tr(BA).
Mais geralmente
Tr(A1A2 . . . An) = Tr(AnA1A2 . . . An−1) = · · · = Tr(A2A3 . . . AnA1).
Duas situacoes de aplicacao frequente desta propriedade sao as se-guintes: Seja A (n× n) e x um vetor (n× 1). Entao
Tr(xx′) = Tr(x′x) = x′x
Tr(Axx′) = Tr(x′Ax) = x′Ax
Indicaremos com Rm o espaco euclidianom-dimensional. Se A e umamatriz m × m, A induz uma transformacao linear em Rm da seguinteforma natural
T (x) = Ax, x ∈ Rm x m× 1
Se ei = (0, . . . , 1, . . . , 0)′ indica o i-esimo vetor da base canonica de Rm
(o 1 esta na posicao i) temos que Tei = ai onde ai e a coluna i de
A e A =(a1
... · · · ... am). (Esta notacao que sera usada frequentemente,
descreve A como uma matriz particionada em m blocos de ordem m× 1correspondentes as m colunas de A). Como Tei = ai , a representacaode T na base canonica de Rm e precisamente A.
Definicao 1. Se existe λ real (λ ∈ R1) e x 6= 0, x ∈ Rm tal que Ax = λx,entao λ e chamado autovalor de A e x autovetor de A associado a λ.
Note-se que Ax = λx, e equivalente a (A − λI)x = 0. Como x 6=0, para que essa equacao tenha uma solucao nao trivial devemos ter|A − λI| = 0. |A − λI| e um polinomio em λ de grau m. Portanto osautovalores sao raızes da equacao de grau m |A− λI| = 0. Se a matrizA e simetrica, resulta que os autovalores sao reais. Temos ainda paramatrizes simetricas o seguinte resultado fundamental.
Teorema 1 (Teorema Espectral). Seja A uma matriz simetrica m×m.
“RAIZ”2014/10/28page 10
✐
✐
✐
✐
✐
✐
✐
✐
10 Revisao de Algebra Linear Cap.1
Existe uma matriz ortogonal U m×m tal que
U ′AU = Λ =
λ1
λ2 0. . .
0 λm
onde Λ e uma matriz diagonal. Se Ui indica a coluna i da matriz Utemos que AUi = λi Ui . Ou seja Ui e autovetor de A correspondente ao
autovalor λi .
Note-se que por ser U ortogonal temos que ||Ui|| = 1, i = 1, . . . ,me mais geralmene U ′
iUj = δij onde δij = 1 se i = j e 0 se i 6= j.
Trocando, caso seja necessario, as colunas de U sempre podemossupor que λ1 ≥ λ2 ≥ · · · ≥ λm .
Os valores λ que aparecem na matriz diagonal Λ, que sao os auto-valores de A e portanto da equacao |A− λI| = 0 aparecem tantas vezescomo e indicado pela sua multiplicidade.
Note-se tambem que U ′AU e a matriz correspondente a transformacaolinear determinada por A, na base ortonormal formada pelos autovetoresde A. A tese do Teorema 1 e que nessa base a transformacao e simplesde descrever, consistindo em uma homotetia ao longo de cada novo eixo.
As identidades
U ′AU = Λ
U ′U = I
podem ser escritas, utilizando os resultados de produto de matrizes emblocos, da seguinte forma
A = UΛU ′ =(U1
... · · · ...Um
)Λ
U ′1
. . ....
. . .U ′m
=m∑
i=1
λiUiU′i
I = UU ′ =(U1
... · · · ...Um
)
U ′1
. . ....
. . .U ′m
=m∑
i=1
UiU′i
“RAIZ”2014/10/28page 11
✐
✐
✐
✐
✐
✐
✐
✐
Cap.1 - Revisao de Algebra Linear 11
Como λi = U ′iAUi , se A fosse definida nao negativa (resp. definida
positiva) terıamos λi ≥ 0 (resp. λi > 0).
Como o posto de uma matriz (maximo numero de linhas ou co-lunas linearmente independentes) permanece inalterado com produtoscom matrizes nao singulares temos que o posto de A e igual ao posto deΛ que por sua vez e igual ao numero de autovalores diferentes de 0.
A seguinte proposicao e uma consequencia util do Teorema Espectral.
Proposicao 4. Seja A simetrica definida nao negativa. Entao
(i) Existe B tal que A = B′B.
(ii) Existe C tal que A = C2.
Se A e definida positiva, entao C e nao singular. C e chamada raiz
quadrade de A e e denotada por A1/2.
Demonstracao. (i) Seja A = UΛU ′. Indicaremos com Λ1/2 a ma-
triz diag(λ1/21 , . . . , λ
1/2m
)ou seja a matriz diagonal cujos elementos di-
agonais sao as raızes quadradas dos elementos de Λ. Temos entaoA = UΛ1/2 Λ1/2 U ′. Seja B = Λ1/2 U ′. Entao A = B′B. Se A e de-finida positiva todos os λi sao positivos e portanto Λ e nao singular oque implica B nao singular.
(ii) Temos que A = UΛ1/2 Λ1/2U ′ = UΛ1/2 U ′U Λ1/2U ′.
Chamando C = UΛ1/2U ′ temos A = C2.
Como na parte (i), se A e definida positiva Λ e portanto Λ1/2 sao naosingulares, o que implica que C e tambem nao singular.
Teorema 2 (Teorema Espectral Generalizado). Sejam A e B duas
matrizes simetricas m×m com B definida positiva. Existe uma matriz
U tal que
U ′AU = Λ =
λ1 0
. . .
0 λm
U ′BU = I
Os valores λ1, . . . , λm sao raızes da equacao |A− λB| = 0. Se Ui indica
a coluna i de U , Ui e autovetor de B−1A correspondente ao autovalor
“RAIZ”2014/10/28page 12
✐
✐
✐
✐
✐
✐
✐
✐
12 Revisao de Algebra Linear Cap.1
λi ou seja (B−1A)U = UΛ. Tambem os λi , 1 ≤ i ≤ m sao autovalores
da matriz AB−1 correspondentes aos autovetores Vi = AUi .
Demonstracao. Como B e definida positiva existe uma matriz naosingular T tal que B = T ′T . Temos que
|A− λB| = |A− λT ′T | = |T ′| |T ′−1AT−1 − λI| |T | = |T ′| |C − λI| |T |
onde C = T ′−1AT−1.
Portanto a equacao |A − λB| = 0 e equivalente a |C − λI| = 0.Como C e uma matriz simetrica existe pelo Teorema Espectral umamatriz ortogonal P tal que
P ′CP = Λ =
λ1 0
. . .
0 λm
P ′P = I
Os valores λ sao as raızes da equacao |C = λI| = 0 ou equivalentemente|A− λB| = 0. Substituindo-se C por T ′−1AT−1 temos
P ′T ′−1AT−1 P = Λ
P ′P = I
Seja U = T−1P . Temos entao TU = P e as equacoes acima transformam-se em
U ′AU = Λ
U ′T ′TU = U ′BU = I
Estas identidades podem ser escritas da forma
AU = U ′−1A
BU = U ′−1
Portanto AU = BUA e tambem (multiplicando por B−1) (B−1A)U =UΛ. Se Ui indica a coluna i de U temos que Ui e autovetor de B−1Acorrespondente ao autovalor λi . Tambem multiplicando a ultima ex-pressao por A temos (AB−1)(AU) = (AU)Λ. Portanto AUi e autovetorde AB−1 correspondente ao autovalor λi .
“RAIZ”2014/10/28page 13
✐
✐
✐
✐
✐
✐
✐
✐
Cap.1 - Revisao de Algebra Linear 13
Note-se que tambem podemos escrever
A = U ′−1 ΛU−1 = (U−1)′ ΛU−1
B = U ′−1 U−1 = (U−1)′ U−1
Portanto se Si indica a coluna i de (U−1)′ temos da mesma forma quepara o Teorema Espectral
A =m∑
i=1
λiSiS′i
B =
m∑
i=1
SiS′i
Se V e um espaco vetorial (todos os espacos vetoriais que utilizaremosserao reais) indicaremos com 〈·, ·〉 um produto interno ou seja uma formabilinear, simetrica e positiva. Todo produto interno pode ser represen-tado atraves de uma matriz simetrica e definida positiva. Ou seja existeuma matriz Σ simetrica e definida positiva tal que
〈x, y〉 = x′Σy.
Usaremos as vezes a notacao 〈·, ·〉Σ para indicar que o produto internoque estamos considerando esta determinado pela matriz Σ. Um produtointerno induz uma norma
||x|| =(x′Σx
)1/2.
As vezes usaremos a notacao ||x||Σ para enfatizar a dependencia sobreΣ. A seguinte desigualdade e bem conhecida.
Proposicao 5 (Desigualdade de Cauchy-Schwarz).
|〈x, y〉| ≤ ||x|| ||y||.
Com igualdade se e somente se x e y sao proporcionais.
Seja E ⊆ V um subespaco vetorial do espaco vetorial V . Seja Σ umamatriz simetrica definida positiva e a ∈ V . Entao existe a∗ ∈ E unicotal que realiza o
minb∈E
||a− b||Σ = ||a∗ − b||Σ
“RAIZ”2014/10/28page 14
✐
✐
✐
✐
✐
✐
✐
✐
14 Revisao de Algebra Linear Cap.1
a∗ e chamado projecao de a em E e denotada por PΣ(a,E) = a∗.A seguinte proposicao resume os principais fatos relacionados com aprojecao de um vetor num subespaco.
Proposicao 6. (i) PΣ(a,E) e uma transformacao linear idempotente.
(ii) Se E⊥ indica o conjunto dos vetores Σ-ortogonais a todos os vetoers
de E, resulta que E⊥ e subespaco e todo vetor a ∈ V escreve-se de forma
unica como soma de um vetor a∗ em E e outro vetor a∗∗ ∈ E⊥. Ou seja
a = a∗ + a∗∗, a∗ = PΣ(a,E) ∈ E, a∗∗ ∈ E⊥
(iii) ||a− a∗||2Σ = ||a||2Σ − ||a∗||2Σ(iv) ||a∗||2Σ ≤ ||a||2Σ(v) Seja {a1, . . . , ap} uma base Σ-ortonormal de E. Entao esta base
pode ser extendida a uma base {a1, . . . , ap, ap+1, . . . , an} Σ-ortonormal
do espaco vetorial V .
Temos tambem para todo a ∈ V
a =
n∑
i=1
〈a, ai〉Σ ai
a∗ =p∑
i=1
〈a, ai〉Σ ai
O seguinte teorema tera uma serie de importantes aplicacoes noscapıtulos seguintes.
Teorema 3 (Decomposicao em valores singulares). Seja Y uma matriz
n×m de posto r. Seja Σ1 uma matriz n×n simetrica definida positiva,
e Σ2 m×m outra matriz simetrica definida positiva. (Σ1 e Σ2 induzem
produtos internos em Rn e Rm respectivamente). Entao existem U n×ne V m×m tais que:
a) Os vetores coluna da matriz U , U1, . . . , Un , sao Σ1-ortonormais.
b) Os vetores coluna da matriz V , V1, . . . , Vm , sao Σ2-ortonormais.
“RAIZ”2014/10/28page 15
✐
✐
✐
✐
✐
✐
✐
✐
Cap.1 - Revisao de Algebra Linear 15
c) U ′Y V =
θ1 0
∣∣∣∣∣ 0
. . .
∣∣∣∣∣
0 θr
∣∣∣∣∣. . . . . . . . . . . . .0 0
onde θ1 ≥ θ2 ≥ · · · ≥ θr > 0.
Demonstracao. A matriz Y Σ−12 Y ′ e uma matriz n× n simetrica, de-
finida nao negativa e de posto r. Pelo Teorema Espectral (generalizado)existe U n× n tal que
U ′ Y Σ−12 Y ′ U =
θ21 0
. . .
0 θ2n
U ′Σ1 U = I
onde θ21 ≥ θ22 ≥ · · · ≥ θ2r > θ2r+1 = · · · = θ2n = 0.
(Note-se que os autovalores de Y Σ−12 Y ′ sao nao negativos porque esta
matriz e definida nao negativa). Se Ui indica a coluna i de U sabemostambem que (
Σ−11 Y Σ−1
2 Y ′)Ui = θ2i Ui
ou seja Ui e autovetor de Σ−11 Y Σ−1
2 Y ′ correspondente ao autovetor θ2i .Para i = 1, 2, . . . , r seja
Vi =Σ−12 Y ′ Ui
θi·
Temos
(Σ−12 Y ′Σ−1
1 Y)Vi =
Σ−12 Y ′Σ−1
1 Y Σ−12 Y ′ Ui
θi=
=Σ−12 Y ′ (Σ−1
1 Y Σ−12 Y ′)Ui
θi= θiΣ
−12 Y ′ Ui = θ2i Vi
Ou seja V1, . . . , Vr sao autovetores de Σ−12 Y ′Σ−1
1 Y correspondentes aosautovalores θ21, . . . , θ
2r .
“RAIZ”2014/10/28page 16
✐
✐
✐
✐
✐
✐
✐
✐
16 Revisao de Algebra Linear Cap.1
Temos tambem
V ′i ,Σ2 Vj =
U ′i Y Σ−1
2
θiΣ2
Σ−12 Y ′ Uj
θj=
U ′i Y Σ−1
2 Y ′ Uj
θiθj=
=δij θ
2i
θiθj= δij
Ou seja V1, . . . , Vr sao Σ2-ortonormais.
Para escolher os restantes Vj procedemos da seguinte forma. A matrizΣ−12 Y ′Σ−1
1 Y e uma matriz m × m de posto r. Portanto como trans-formacao de Rm em Rm temos que dimensao
(Nucleo
(Σ−12 Y ′
Σ−11 Y
))= m − r. Seja Vr+1, . . . , Vm uma base Σ2-ortonormal desse
nucleo. Vamos verificar primeiro que Y Vj = 0 para j ≥ r + 1. Temos(Σ−12 Y ′Σ−1
1 Y)Vj = 0 e portanto como Σ2 e nao singular
(Y ′Σ−1
1 Y)Vj =
0. Como Σ−11 e simetrica e definida positiva existe uma matriz P nao
singular tal que Σ−11 = P ′P . Temos entao
(Y ′ P ′ P Y )Vj = 0.
Multiplicando a esquerda por V ′j
0 = V ′j Y
′ P ′ P Y Vj = ||P Y Pj ||2I .
Portanto P Y Vj = 0 e como P e nao singular Y Vj = 0 como querıamosprovar. Vamos verificar agora que o conjunto {V1, . . . , Vm} e Σ2-ortonormal.Pelo visto ate agora e suficiente verificar que se i ≤ r e j > r
V ′i Σ2 Vj = 0.
Mas
V ′i Σ2 Vj =
U ′i Y Σ−1
2
θiΣ2 Vj =
U ′i Y Vj
θi= 0
porque Y Vj = 0.
Finalmente vamos verificar que os vetores Ui e Vj satisfazem a identidadeda parte c). Ou seja vamos verificar que
U ′i Y Vj =
{δij θi i ≤ r, j ≤ r
0 i > r ou j > r
“RAIZ”2014/10/28page 17
✐
✐
✐
✐
✐
✐
✐
✐
Cap.1 - Revisao de Algebra Linear 17
Se j ≤ r
U ′i Y Vj = U ′
i YΣ−12 Y ′ Uj
θj=
δij θ2i
θj= δij θi .
Se j > r como Y Vj = 0 temos
U ′i Y Vj = 0.
Portanto se V e a matriz que tem como colunas os Vj temos
U ′ Y V =
θ1 0
∣∣∣∣∣ 0
. . .
∣∣∣∣∣
0 θr
∣∣∣∣∣. . . . . . . . . . . . .0 0
como querıamos demonstrar.
Corolario 1. Definindo θi = 0 para todo i > r temos
(i) θi Vi = Σ−12 Y ′ Ui
(ii) θi Ui = Σ−11 Y Vi
Demonstracao. (i) e valida para i ≤ r por definicao.Para i > r θi = 0 ou seja o membro esquerdo e 0. Temos que verificar
que o membro direito tambem e nulo. Σ−12 e uma matriz simetrica
definida positiva e sabemos que
U ′ Y Σ−12 Y ′ U =
θ21 0
∣∣∣∣∣ 0
. . .
∣∣∣∣∣
0 θ2r
∣∣∣∣∣. . . . . . . . . . . . .0 0
“RAIZ”2014/10/28page 18
✐
✐
✐
✐
✐
✐
✐
✐
18 Revisao de Algebra Linear Cap.1
Portanto para i > r
0 = U ′i Y Σ−1
2 Y ′ Ui =∥∥Y ′ Ui
∥∥2Σ−1
2
o que implica que Y ′ Ui = 0 e que o membro direito de (i) e nulo.
Vamos verificar agora (ii). Se i ≤ r temos
Σ−11 Y Vi = Σ−1
1 YΣ−12 Y ′ Ui
θi=
θ2i Ui
θi= θi Ui .
Se i > r vimos na demonstracao do Teorema da Decomposicao em Va-lores Singulares que Y Vi = 0. Ou seja o membro direito de (ii) e 0 parai > r que e o valor do membro esquerdo.
Corolario 2. Nas condicoes do Teorema da D.V.S.
maxX∈Rn,||X||Σ1
=1X ′ Y Z = θ1
Z ∈ Rm, ||Z||Σ2 = 1
O maximo e atingido se X = U1 e Z = V1 .
Demonstracao. Sejam U e V tais que
U ′ Y V =
θ1 0
∣∣∣∣∣ 0
. . .
∣∣∣∣∣
0 θr
∣∣∣∣∣. . . . . . . . . . . . .0 0
X =n∑
i=1ci Ui e Z =
m∑j=1
dj Vj comn∑
i=1c2i =
m∑j=1
d2j = 1.
Entao
X ′ Y Z =
(n∑
i=1
ci U′i
)Y
m∑
j=1
dj Vj
=
r∑
i=1
θi ci di .
“RAIZ”2014/10/28page 19
✐
✐
✐
✐
✐
✐
✐
✐
Cap.1 - Revisao de Algebra Linear 19
Temos pela desigualdade de Cauchy-Schwartz
∣∣∣∣∣
r∑
i=1
θi ci di
∣∣∣∣∣ ≤(
r∑
i=1
θi c2i
)1/2( r∑
i=1
θi d2i
)1/2
=
≤ θ1/21
(r∑
i=1
c2i
)1/2
θ1/21
(r∑
i=1
d2i
)1/2
Como
(r∑
i=1c2i
)1/2
≤ 1 e
(r∑
i=1d2i
)1/2
≤ 1 temos que |X ′ Y Z| =∣∣∣∣
r∑i=1
θi ci di
∣∣∣∣ ≤ θ1 .
Se c1 = d1 = 1 e o resto e zero, temosX = U1 Z = V1 eX′ Y Z = θ1
e portanto o maximo e atingido.
Outro resultado importante sobre maximizacao de formas quadraticasesta contido na seguinte proposicao.
Proposicao 7. Seja A n × n simetrica e B n × n simetrica definida
positiva. Seja U tal que
U ′AU =
λ1 0
. . .
0 λn
U ′B U = I
Sejam U1, U2, . . . , Un os vetores coluna de U .
Sejam X1, . . . , Xp p vetores B-ortogonais.
Entao
supX1,...,Xp
p∑
i=1
X ′i AXi
X ′i BXi
= λ1 + · · ·+ λp
e o maximo e atingido tomando Xi = Ui , i = 1, . . . , p.
Demonstracao. {U1, . . . , Un} e uma base ortonormal de Rn. Seja
Xi =n∑
ℓ=1
ciℓ Uℓ , i = 1, . . . , p. Completemos os Xi ate obter uma base
“RAIZ”2014/10/28page 20
✐
✐
✐
✐
✐
✐
✐
✐
20 Revisao de Algebra Linear Cap.1
B-ortogonal de Rn. Temos
δij ||Xi||2B =
⟨Xi, Xj
⟩
B
=
⟨ n∑
ℓ=1
ciℓ Uℓ ,n∑
k=1
cjk Uk
⟩=
=∑
ℓ
∑
k
ciℓ cjkUℓ, Uk =∑
ℓ
ciℓ cjℓ .
Se definirmos αij =cij
||Xi||Btemos que
n∑ℓ=1
αiℓ αjℓ = δij ou seja a
matriz A = (αij) e ortogonal.
Temos em particular quen∑
j=1α2ij = 1 para todo i,
p∑i=1
α2ij ≤ 1 para todo
j ep∑
i=1
n∑j=1
α2ij = p.
Agora, a expressao a maximizar e igual a
p∑
i=1
(n∑
ℓ=1
ciℓU′ℓ
)A
(n∑
j=1cijUj
)
X ′i BXi
=
p∑
i=1
n∑j=1
c2ijλj
||Xi||2B=
=
p∑
i=1
n∑
j=1
α2ijλj =
n∑
j=1
λj
( p∑
i=1
α2ij
)=
n∑
j=1
λjγj
onde γj =p∑
i=1α2ij por definicao.
Temos pelo provado anteriormente que
γj ≥ 0, γj ≤ 1,n∑
j=1
γj = p.
Portanto o maximo den∑
j=1λjγj se obtem tomando-se γ1 = γ2 = · · · =
γp = 1, γp+1 = · = γn = 0. Dessa forma o maximo fica igual ap∑
i=1λi .
Para essa escolha de γ’s temos que
C =
c11 c1p
∣∣∣∣ 0
cp1 cpp
∣∣∣∣
“RAIZ”2014/10/28page 21
✐
✐
✐
✐
✐
✐
✐
✐
Cap.1 - Revisao de Algebra Linear 21
Tomando C = (I... 0) atingimos o maximo
p∑i=1
λi . Esta escolha de C
equivale a tomar Xi = Ui para i = 1, . . . , p. A Proposicao 8 generalizao Corolario 2.
Proposicao 8. Seja Y n×m de posto r. Sejam U e V as matrizes que
aparecem na decomposicao de Y em valores singulares
U ′ Y V =
θ1 0
∣∣∣∣∣ 0
. . .
∣∣∣∣∣
0 θr
∣∣∣∣∣. . . . . . . . . . . . .0 0
θ1 ≥ θ2 ≥ · · · ≥ θr > 0
Entao se p ≤ min(m.n)
minXi Σ1−ortonormaisZi Σ2−ortonormais
p∑
i=1
X ′i Y Zi =
p∑
i=1
θi.
O maximo e atingido tomando Xi = Ui , i = 1, . . . , p e Zi = Vi ,
i = 1, . . . , p onde Ui e Vi sao as colunas de U e V respectivamente.
Demonstracao. Sejam U (n × n) e V (m × m) as matrizes queaparecem na decomposicao em valores singulares de Y :
U ′ Y V =
θ1 0
∣∣∣∣∣ 0
. . .
∣∣∣∣∣
0 θr
∣∣∣∣∣. . . . . . . . . . . . .0 0
com θ1 ≥ θ2 ≥ · · · ≥ θr > 0 e r = posto(Y ).
“RAIZ”2014/10/28page 22
✐
✐
✐
✐
✐
✐
✐
✐
22 Revisao de Algebra Linear Cap.1
Seja Xi =n∑
ℓ=1
ciℓUℓ e Zi =m∑
h=1
dihVh .
Temos
X ′i Y Zi =
(n∑
ℓ=1
ciℓUℓ
)′
Y
(m∑
h=1
dihVh
)=
r∑
ℓ=1
ciℓdiℓθℓ .
Portantop∑
i=1
X ′i Y Zi =
r∑
ℓ=1
(p∑
i=1
ciℓdiℓ
)θℓ .
Seja γℓ =p∑
i=1ciℓdiℓ .
Como os Xi (resp. Zi) sao Σ1-ortonormais (resp. Σ2-ortornormais)podemos sempre supor que sao parte de uma base Σ1-ortonormal (resp.Σ2-ortonormal) de Rn (resp. de Rm). Ou seja podemos supor que amatriz dos ciℓ (resp. diℓ) e uma matriz ortogonal n× n (resp. m×m).Temos agora
|γℓ| =∣∣∣∣∣
p∑
i=1
ciℓdiℓ
∣∣∣∣∣ ≤(
p∑
i=1
c2iℓ
)1/2( p∑
i=1
d2iℓ
)1/2
≤
≤(
n∑
i=1
c2iℓ
)1/2( m∑
i=1
d2iℓ
)1/2
≤ 1
∣∣∣∣∣
r∑
ℓ=1
γℓ
∣∣∣∣∣ =∣∣∣∣∣
r∑
ℓ=1
p∑
i=1
ciℓdiℓ
∣∣∣∣∣ =∣∣∣∣∣
p∑
i=1
r∑
ℓ=1
ciℓdiℓ
∣∣∣∣∣ ≤
≤p∑
i=1
∣∣∣∣∣
r∑
ℓ=1
ciℓdiℓ
∣∣∣∣∣ ≤p∑
i=1
(r∑
ℓ=1
c2iℓ
)1/2( r∑
ℓ=1
diℓ
)1/2
≤
≤p∑
i=1
(n∑
ℓ=1
c2iℓ
)1/2( m∑
ℓ=1
d2iℓ
)1/2
≤ p.
Estas duas desigualdades implicam que o maximo der∑
ℓ=1
γℓ θγ e obtido
tomando γℓ = 1 para ℓ = 1, . . . , p e γℓ = 0 para ℓ > p. (Note-se que p
pode ser maior que r). Ou seja o maximo e igual ap∑
ℓ=1
θℓ .
“RAIZ”2014/10/28page 23
✐
✐
✐
✐
✐
✐
✐
✐
Cap.1 - Revisao de Algebra Linear 23
O maximo e atingido tomando Xi = Ui , i = 1, . . . , p e Zi = Vi , i =1, . . . , p.
“RAIZ”2014/10/28page 24
✐
✐
✐
✐
✐
✐
✐
✐
Capıtulo 2
Analise de ComponentesPrincipais
A tecnica de Componentes Principais pode ser apresentada por dife-rentes pontos de vista. Nos comecaremos a exposicao tomando o pontode vista de Analise de Dados, isto e, uma tecnica de representacao dedados que permite reduzir tabelas de grande dimensao e tabelas maispequenas que podem ser graficadas e sobre as quais a interpretacaoe descoberta de relacoes entre os dados seja bem mais simples. Estareducao do numero de dados conservando na medida do possıvel a “in-formacao” contida nos dados originais e feita utilizando certos criteriosde otimalidade geometrica e/ou algebrica.
2.1 Notacao e descricao do problema
A situacao tıpica na qual a Analise de Componentes Principais e execu-tada e a seguinte:
Sobre cada um dos integrantes de um grupo de indivıduos (objetos,famılias, classes de renda, paıses, etc.) e levantado ou determinado umcerto numero de medidas ou variaveis.
Por exemplo sobre cada indivıduo a quantidade de diversas substanciasquımicas na urina e no sangue podem ser analisadas.
Ou para cada famılia e determinado a quantidade de dinheiro gastoem diferentes tipos de despesas (alimentos, transporte, educacao, saude,etc.).
24
“RAIZ”2014/10/28page 25
✐
✐
✐
✐
✐
✐
✐
✐
Cap.2 - Analise de Componentes Principais 25
Em qualquer caso o conjunto de dados objeto da analise consistenuma tabela na qual colocaremos em cada linha os valores das variaveismedidas sobre o indivıduo correspondente a essa linha. Mais precisa-mente seja I o numero de indivıduos e J o numero de variaveis. Atabela a ser analisada consiste de uma matriz X = (xij) I × J onde xije o valor da variavel j no indivıduo i. Vamos nos referir as linhas damatriz como indivıduos ou observacoes e as colunas como variaveis.
Dado o carater repetitivo que tem as linhas de X, e conveniente asvezes pensar a tabela como um conjunto de I observacoes de um vetoraleatorio em RJ .
Indicaremos com xi o vetor de RJ contendo os valores das variaveissobre o indivıduo i. Ou seja x′i = (xi1, . . . , xiJ). Se Σ e uma matrizsimetrica definida positiva ||xi − xi′ ||2Σ indicara o quadrado da distanciadeterminada por Σ entre os vetores xi e xi′ . Os casos usuais seraoΣ = I (a matriz identidade e o numero de indivıduos serao denotadospelo mesmo sımbolo I; o contexto indicara naturalmente de que se trata)e neste caso
∥∥xi − xi′∥∥2Σ=
J∑
j=1
(xij − xi′j
)2
ou se Σ = diag(λ1, . . . , λJ) com os λ’s todos positivos e entao
∥∥xi − xi′∥∥2Σ=
J∑
j=1
λj
(xij − xi′j
)2.
No caso geral
∥∥xi − xi′∥∥2Σ=(xi − xi′
)Σ(xi − xi′
).
Se V e uma variedade linear (transladado de subespaco) indicaremoscom x∗i = PΣ(xi, V ) a projecao do vetor xi na variedade V com relacaoao produto interno determinado por Σ. x∗i satisfaz
x∗i = PΣ(xi, V ) e miny∈V
∥∥xi − y∥∥2Σ=∥∥xi − x∗i
∥∥Σ.
Finalmente e importante em diversas situacoes (por exemplo emAnalise de Correspondencias) considerar o caso no qual os indivıduosnao sao todos igualmente importantes ou, em outros termos, nao tem
“RAIZ”2014/10/28page 26
✐
✐
✐
✐
✐
✐
✐
✐
26 Analise de Componentes Principais Cap.2
todos o mesmo peso. Introduzimos entao numeros µi i = 1, . . . , I nao
negativos e tais queI∑
i=1µi = 1. Nos casos usuais, µi =
1
I, i = 1, . . . , I.
O problema de Analise de Componentes Principais pode agora sercolocado da seguinte Fma:
Dado p ≤ J , encontrar uma variedade linear de dimensao p tal que
I∑
i=1
µi
∥∥xi − x∗i∥∥2Σ
seja mınimo.
A condicaoI∑
i=1µi = 1 nao e utilizada em geral. Em algumas Pro-
posicoes (por exemplo na Proposicao 2.2 (vi) mais adiante) so introdu-ziria uma constante no resultado final.
2.2 Reducao a subespacos
Se V e uma variedade linear em RJ , existe b ∈ RJ tal que V = b + Eonde E e um subespaco.
O seguinte lema e de facil demonstracao
Lema 2.1. Se V = b+ E entao
PΣ(x, V ) = PΣ(x− b, E) + b;
A seguinte proposicao vai reduzir o problema de achar a melhorvariedade ao de determinar o melhor subespaco.
Proposicao 2.1. SeI∑
i=1µi xi = 0 a variedade linear otima (que e a
solucao do problema de Componentes Principais) e um subespaco.
Demonstracao. Queremos provar que
I∑
i=1
µi
∥∥PΣ(xi, V )− xi∥∥2Σ≥
I∑
i=1
µi
∥∥PΣ(xi, E)− xi∥∥2Σ.
“RAIZ”2014/10/28page 27
✐
✐
✐
✐
✐
✐
✐
✐
Cap.2 - Analise de Componentes Principais 27
Ou seja para toda variedade V existe um subespaco E com soma menore portanto podemos nos retringir a subespacos.Temos que
∥∥PΣ(xi, V )− xi∥∥2Σ=∥∥PΣ(xi − b, E)− xi + b
∥∥2Σ
=
=∥∥(PΣ(xi, E)− xi)− (PΣ(b, E)− b
∥∥2Σ
=
=∥∥PΣ(xi, E)− xi
∥∥2Σ+∥∥PΣ(b, E)− b
∥∥2Σ−
− 2⟨PΣ(xi, E)− xi , PΣ(b, E)− b
⟩.
A primeira igualdade e valida pelo Lema anteriior. Multiplicando porµi e somando temos
I∑
i=1
µi
∥∥PΣ(xi, V )− xi∥∥2Σ=
I∑
i=1
µi
∥∥PΣ(xi, E)− xi∥∥2Σ+
+
i∑
i=1
µi
∥∥PΣ(b, E)− b∥∥2Σ− 2
I∑
i=1
µi
⟨PΣ(xi, E)− xi, PΣ(b, E)− b
⟩Σ.
Para provar a desigualdade basta provar que o ultimo termo do membrodireito e 0 porque o seguinte termo e nao negativo. Mas o ultimo termoe igual a
2⟨PΣ
( I∑
i=1
µi xi, E)−
i∑
i=1
µi xi , PΣ(b, E)− b⟩
usando as propriedades de bilinearidade de 〈, 〉 e linearidade de PΣ .
Como por hipotesesI∑
i=1µi xi = 0 o ultimo termo e igual a 0 e a desigual-
dade fica provada.
A Proposicao 2.1 e utilizada da seguinte forma. Para uma matriz X
defino x =I∑
i=1µi xi . Seja yi = xi − x. Esta nova matriz com linhas y′i
satisfaz a restricaoI∑
i=1µi yi = 0. Seja E o espaco vetorial otimo para esta
nova matriz. Entao a variedade linear x+E e a solucao do problema deComponentes Principais original.
De agora em diante vamos supor queI∑
i=1µi xi = 0 e portanto limitar
a procura da solucao otima a subespacos.
“RAIZ”2014/10/28page 28
✐
✐
✐
✐
✐
✐
✐
✐
28 Analise de Componentes Principais Cap.2
2.3 Solucao do problema de Componentes Prin-cipais
Em lugar de procurar um subespaco E vamos determinar um conjunto dep vetores, W1, . . . ,Wp , Σ-ortonormais, que sejam uma base para E, ouseja E = [W1, . . . ,Wp] onde [ ] indica o subespaco gerado pelos vetoresW1, . . . ,Wp .
Teorema 2.1.
(i) Seja C =I∑
i=1µi xi x
′i . Entao C e simetrica e definida nao negativa.
(ii) Seja U J × J tal que
U ′C U =
λ1 0
. . .
0 λJ
λ1 ≥ λ2 ≥ · · · ≥ λJ
U ′Σ−1 U = I
(Note que como C e definida nao negativa os λ’s sao nao negativos). SejaUα a coluna α de U e Wα = Σ−1 Uα . Entao o conjunto {W1, . . . ,Wp} e
Σ-ortonormal e o subespaco E = [W1, . . . ,Wp] e otimo, no sentido queI∑
i=1µi
∥∥xi − x∗i∥∥2Σe mınimo onde x∗i = PΣ(xi, E).
Demonstracao.
(i) A verificacao e imediata.
(ii) Como∥∥xi − x∗i
∥∥2Σ=∥∥xi∥∥2Σ−∥∥x∗i∥∥2Σ, mimizar
I∑i=1
µi
∥∥xi − x∗i∥∥2Σe
equivalente a maximizarI∑
i=1µi
∥∥x∗i∥∥2Σ.
Seja W1, . . . ,Wp uma base Σ-ortonormal do subespaco E (desconhe-cido).
Temos
∥∥x∗i∥∥2Σ=
p∑
α=1
(⟨xi,Wα
⟩Σ
)2=
p∑
α=1
(W ′αΣxi)(x
′iΣWα).
“RAIZ”2014/10/28page 29
✐
✐
✐
✐
✐
✐
✐
✐
Cap.2 - Analise de Componentes Principais 29
Portanto
I∑
i=1
µi
∥∥x∗i∥∥2Σ=
I∑
i=1
µi
p∑
α=1
(W ′αΣxi)(x
′iΣWα) =
=
p∑
α=1
W ′αΣ( I∑
i=1
µi xi x′i
)ΣWα =
p∑
α=1
W ′αΣC ΣWα =
=
p∑
α=1
U ′αC Uα onde Uα = ΣWα
Os Uα sao Σ−1-ortonormais porque em geral se Uα sao Σ−1-ortonormaisWα = Σ−1 Uα sao Σ-ortonormais
U ′αΣ
−1 U ′α = W ′
αΣΣ−1ΣW ′α = δαα′ .
Portanto para encontrar o maximo da expressaop∑
α=1U ′αC Uα com C
simetrica e o conjunto {U1, . . . , Up} Σ−1-ortonormal, podemos utilizara Proposicao 7 do Capıtulo 1. Por essa Proposicao existe uma matrizU J × J tal que
U ′C U =
λ1 0
. . .
0 λJ
λ1 ≥ · · · ≥ λJ
U ′Σ−1 U = I
O maximo dep∑
α=1X ′
αC Xα onde Xα ∈ RJ e os XiΣ−1 ortonormais e
λ + · · · + λp e este maximo e atingido tomando Xα = Uα para α =1, 2, . . . , p. Isto termina a demonstracao do Teorema 2.1. Note-se quena demonstracao acabamos tmbem calculando o valor do maximo deI∑
i=1µi
∥∥x∗i∥∥2Σque e igual a
p∑α=1
λα .
Note-se tambem que a demonstracao indica o melhor subespaco para
uma matriz de dados iniciaisX, independentemente da hipoteseI∑
i=1µi xi =
0.
Em diversas situacoes utilizaremos todos os J vetores W1, . . . ,WJ
(ou U1, . . . , UJ) sendo que os p primeiros W1, . . . ,Wp geram o subespacootimo de dimensao p.
“RAIZ”2014/10/28page 30
✐
✐
✐
✐
✐
✐
✐
✐
30 Analise de Componentes Principais Cap.2
Indicaremos com Fα(i) a componente do vetor xi sobre o eixo α. Ouseja
xi =
J∑
α=1
Fα(i)Wα
e tambem
x∗i =p∑
α=1
Fα(i)Wα
Fα(i) sera chamada a α-esima componente principal do indivıduo i.
F(p)i indicara o vetor de Rp contendo as p componentes principais do
vetor xi . Ou seja
F(p)i =
F1(i)F2(i)...
Fp(i)
A seguinte proposicao indica as principais propriedades das componentesprincipais.
Proposicao 2.2.
(i) Fα(i) = U ′α xi
(ii)∥∥xi − x∗i
∥∥2Σ=
J∑α=p+1
F 2α(i)
(iii)I∑
i=1µi Fα(i) = 0
I∑i=1
µi Fα(i)Fα′(i) = λα δαα′
Em particularI∑
i=1µi Fα(i)
2 = λα ; ou seja as componentes sobre o
eixo α tem media 0 e variancia λα .
(iv)I∑
i=1µi
∥∥xi∥∥2Σ=
J∑j=1
λj
e
“RAIZ”2014/10/28page 31
✐
✐
✐
✐
✐
✐
✐
✐
Cap.2 - Analise de Componentes Principais 31
I∑i=1
µi
∥∥xi − x∗i∥∥2Σ=
J∑j=p+1
λj
(v)∥∥x∗i − x∗i′
∥∥2Σ=∥∥F (p)
i − F(p)i′
∥∥2i
Ou seja a distancia Σ entre x∗i e x∗i′ e igual a distancia euclidiana
entre os vetores F(p)i e F
(p)i′ .
(vi)∑i
∑i′
µi µ′i
∣∣∣∥∥x∗i − x∗i′
∥∥2Σ−∥∥xi − xi′
∥∥2Σ
∣∣∣ = 2J∑
α=p+1λα
(vii) O subespaco gerado por W1, . . . ,Wp minimiza a expressao
∑
i
∑
i′
µi µi′
∣∣∣∥∥x∗i − x∗i′
∥∥2Σ−∥∥xi − xi′
∥∥2Σ
∣∣∣
Demonstracao.
(i) Fα(i) = 〈Wα, xi〉Σ = W ′αΣxi = U ′
α xi
(ii) Temos xi =J∑
α=1Fα(i)Wα e
x∗i =p∑
α=1Fα(i)Wα
Portanto
∥∥xi − x∗i∥∥2Σ=∥∥∥
J∑
α=p+1
Fα(i)Wα
∥∥∥2
Σ=
J∑
α=p+1
F 2α(i)
porque os Wα sao Σ-ortonormais.
(iii)I∑
i=1µi Fα(i) =
I∑j=1
µi U′α xi = U ′
α
( I∑i=1
µi xi
)= 0
porqueI∑
i=1µi xi = 0.
I∑i=1
µi Fα(i)Fα′(i) =I∑
i=1µi U
′α xi x
′i Uα′ =
= U ′α
( I∑i=1
µi xi x′i
)Uα′ = U ′
αC Uα′ = λα δαα′
“RAIZ”2014/10/28page 32
✐
✐
✐
✐
✐
✐
✐
✐
32 Analise de Componentes Principais Cap.2
(iv) Sabemos queI∑
i=1µi
∥∥x∗i∥∥2Σ=
p∑j=1
λj .
Se p = J , x∗i = xi , o que prova a primeira igualdade.
Temos tambem que
I∑
i=1
µi
∥∥xi − x∗i∥∥2Σ=
I∑
i=1
µi
∥∥xi∥∥2Σ−
I∑
i=1
µi
∥∥x∗i∥∥2Σ
=
=J∑
j=1
λj −p∑
j=1
λj =J∑
j=p+1
λj .
(v)∥∥x∗i − x∗i′
∥∥2Σ=∥∥∥
p∑α=1
Fα(i)Wα −p∑
α=1Fα(i
′)Wα
∥∥∥2
Σ=
=∥∥∥
p∑α=1
(Fα(i)− Fα(i′))Wα
∥∥∥2
Σ=
p∑α=1
(Fα(i)− Fα(i′))2 =
=∥∥F (p)
i − F(p)i′
∥∥2I.
(vi)∑i
∑i′
µi µi′
∣∣∣∥∥x∗i − x∗i′
∥∥2Σ−∥∥xi − xi′
∥∥2Σ
∣∣∣ =∑i
∑i′
µi µi′(∥∥xi − xi′
∥∥2Σ−∥∥x∗i − x∗i′
∥∥2Σ
)=
∑i
∑i′
µi′∥∥xi − xi′
∥∥2Σ−∑
i
∑i′
µi µi′∥∥x∗i − x∗i′
∥∥2Σ
Vamos calcular agora o segundo membro desta diferenca:∑i
∑i′
µi′∥∥x∗i − x∗i′
∥∥2Σ. Note-se que o primeiro membro e um caso parti-
cular, correspondendo ao caso p = J (e portanto x∗i = xi). Temos
∑
i
∑
i′
µi µi′∥∥x∗i − x∗i′
∥∥2Σ=∑
i
∑
i′
µi µi′
p∑
α=1
(Fα(i)− Fα(i′))2 =
=∑
i
∑
i′
∑
α
µi µi′ F2α(i) +
∑
i
∑
i′
∑
α
µi µi′ F2α(i
′)
− 2∑
i
∑
i′
∑
α
µi µi′ Fα(i)Fα(i′) =
=
p∑
α=1
( I∑
i=1
µi F2α(i)
)+
p∑
α=1
( I∑
i′=1
µi′ F2α(i
′))
− 2
p∑
α=1
( I∑
i=1
µi Fα(i))( I∑
i′=1
µi′ Fα(i′))= 2
p∑
α=1
λα .
“RAIZ”2014/10/28page 33
✐
✐
✐
✐
✐
✐
✐
✐
Cap.2 - Analise de Componentes Principais 33
A primeira igualdade desta cadeia usa a parte (v), e a ultima igualdadedecorre da parte (iii).
Temos entao que
∑
i
∑
i′
µi µi′
∣∣∣∥∥x∗i − x∗i′
∥∥2Σ−∥∥xi − xi′
∥∥2Σ
∣∣∣ =
= 2J∑
α=1
λα − 2
p∑
α=1
λα = 2J∑
α=p+1
λα
como querıamos provar.
(vii) Temos que
∑
i
∑
i′
µi µi′
∣∣∣∥∥x∗i − x∗i′
∥∥2Σ−∥∥xi − xi′
∥∥2Σ
∣∣∣ =∑
i
∑
i′
µi µi′∥∥xi − xi′
∥∥2Σ−∑
i
∑
i′
µi µi′∥∥x∗i − x∗i′
∥∥2Σ
Portanto minimizar o membro esquerdo desta igualdade e equivalente amaximizar ∑
i
∑
i′
µi µi′∥∥x∗i − x∗i′
∥∥2Σ.
Esta expressao e igual a
∑
i
∑
i′
µi µi′
{∥∥x∗i∥∥2Σ+∥∥x∗i′
∥∥2Σ− 2〈x∗i , x∗i′〉Σ
}=
= 2∑
i
µi
∥∥x∗i∥∥2Σ− 2⟨∑
i
µi x∗i ,∑
i′
µi′ x∗i′
⟩.
Agora o ultimo termo desta diferenca e igual a zero porque∑iµi xi = 0 e
∑iµi x
∗i =
∑iµi PΣ(xi, E) = PΣ
(∑iµi xi, E
)= 0. Portanto a expressao
a maximizar e igual a 2∑iµi
∥∥x∗i∥∥2Σ
o que e equivalente a minimizar
I∑i=1
µi
∥∥xi − x∗i∥∥2Σcomo vimos na demonstracao da parte (ii) do Teorema
2.1. Tambem vimos nesse teorema que o mınimo deI∑
i=1µi
∥∥xi − x∗i∥∥2Σ
“RAIZ”2014/10/28page 34
✐
✐
✐
✐
✐
✐
✐
✐
34 Analise de Componentes Principais Cap.2
obtem-se tomando como subespaco o gerado por W1, . . . ,Wp . Isto prova(vii) e a Proposicao 2.2.
Note-se que como consequencia das partes (iv) e (vi)
I∑i=1
µi
∥∥xi − x∗i∥∥2Σ
I∑i=1
µi
∥∥xi∥∥2Σ
=
∑i
∑i′µiµi′
∣∣∣∥∥x∗i − x∗i′
∥∥2Σ−∥∥xi − xi′
∥∥2Σ
∣∣∣∑i
∑i′µiµi′
∥∥xi − xi′∥∥2Σ
=
J∑α=p+1
λα
J∑α=1
λα
·
Este ultimo quociente e chamado erro relativo e da uma ideia da qua-lidade da representacao em Rp. Se quisermos, por exemplo, que o errorelativo seja menor que 10% escolhemos p de forma tal que( J∑
α=p+1λα
)/( J∑α=1
λα
)≤ 0, 1. Indicaremos o erro relativo com a notacao
ERp ; ou seja
ERp =
J∑α=p+1
λα
J∑α=1
λα
·
O quociente
ERp =
I∑i=1
I∑i′=1
µiµi′
∣∣∣∥∥x∗i − x∗i′
∥∥2Σ−∥∥xi − xi′
∥∥2Σ
∣∣∣I∑
i=1
I∑i′=1
µiµi′∥∥xi − xi′
∥∥2Σ
da o erro relativo medio entre os quadrados das distancias entre paresde elementos (indivıduos) quando os xi sao substituıdos pelos x∗i .
A representacao dos xi pelos x∗i nao e muito util devido a duas razoes:
a) Os x∗i estao num subespaco de dimensao menor, mas ainda em RJ .Portanto nao podem ser graficados.
b) A distancia relevante entre os x∗i e a dada pela matriz Σ e e defıcilde visualizar.
A utilizacao dos F(p)i em lugar dos x∗i elimina esses problemas. Note-
se que por (v) temos
∥∥x∗i − x∗i′∥∥2Σ=∥∥F (p)
i − F(p)i′
∥∥2I.
“RAIZ”2014/10/28page 35
✐
✐
✐
✐
✐
✐
✐
✐
Cap.2 - Analise de Componentes Principais 35
Portanto podemos escrever
ERp =
I∑i=1
I∑i′=1
µiµi′
∣∣∣∥∥xi − xi′
∥∥2Σ−∥∥F (p)
i − F(p)i′
∥∥2I
∣∣∣I∑
i=1
I∑i′=1
µiµi′∥∥xi − xi′
∥∥2Σ
·
Os F(p)i estao num espaco de dimensao menor (usualmente pequeno)
p, e as distancias relevantes entre eles e a distancia euclidiana usual dadapela matriz I.
Por exemplo se p = 2 e ER2 e pequeno os F(p)i serao graficados em
um plano e observando a distancia usual entre eles teremos uma ideiaaproximada da distancia entre os xi correspondentes a matriz Σ. Sep = 4 pode-se graficar em um plano as primeiras duas coordenadas do
F(p)i e em outro plano as duas ultimas.
ERp e, porem, uma medida que superestima (pessimista) o erro rela-
tivo da representacao dos xi pelos F(p)i . O motivo e o seguinte. Desde o
ponto de vista da representacao geometrica, como esta depende de uma
escala arbitraria, vai ser equivalente representar os F(p)i ou os λF
(p)i onde
λ e um escalar fixo. Podemos entao escolher λ de forma tal que minimize
I∑
i=1
I∑
i′=1
µi µi′
∣∣∣∥∥λF (p)
i − λF(p)i′
∥∥2I−∥∥xi − xi′
∥∥2Σ
∣∣∣.
Indiquemos com λ0 o valor de λ que minimiza essa expressao. Definimos
entao o erro relativo corrigido (ERCp) da representacao dos xi pelos F(p)i
como
ERCp =
I∑i=1
I∑i′=1
µi µi′
∣∣∣∥∥λF (p)
i − λF(p)i′
∥∥2I−∥∥xi − xi′
∥∥2Σ
∣∣∣I∑
i=1
I∑i′=1
µi µi′∥∥xi − xi′
∥∥2Σ
·
Pode-se provar que λ20 e a medida dos valores Zii′ =∥∥xi−xi′
∥∥2Σ
/∥∥F (p)i −F
(p)i′
∥∥2Idando a cada um deles um peso proporcional a
wii′ = µi µi′∥∥F (p)
i −F(p)i′
∥∥2I. De outra forma: sejam gh , 1 ≤ h ≤ I(I − 1)
2
“RAIZ”2014/10/28page 36
✐
✐
✐
✐
✐
✐
✐
✐
36 Analise de Componentes Principais Cap.2
os valores de Zii′ ordenados de menor a maior e wh os pesos correspon-dentes. Seja h0 um inteiro tal que
h0∑h=1
wh
N∑h=1
wh
≤ 0, 5 e
h0+1∑h=1
wh
N∑h=1
wh
> 0, 5.
Entao λ20 e qualquer valor tal que
gh0 ≤ λ20 ≤ gh0+1 .
Seh0∑h=1
wh
N∑h=1
wh
= 0, 5
entao λ20 = gh0 .
O valor de ERCp sera menor ou igual que ERp e λ20 ≥ 1. Esta ultima
desigualdade resulta do fato que∥∥F (p)
i −F(p)i′
∥∥2I=∥∥x∗i−x∗i′
∥∥ ≤∥∥xi−xi′
∥∥ .(1 ≤ gi ≤ g2 ≤ · · · ≤ gN ).
Como antes o valor de p pode ser escolhido de forma tal que ERCp
seja menor que uma margem de erro fixado a priori.
Proposicao 2.3. ρ(Xj , Fα) =
√λαWα(j)
Sjonde ρ(Xj , Fα) indica o coe-
ficiente de correlacao entre a variavel j e o eixo α, e Sj =( I∑
i=1µi(xij)
2)1/2
.
ρ(Xj , Fα) =cov(Xj , Fα)
Sj
√λα
=
I∑i=1
xij Fα(i)µi
Sj
√λα
=
=
I∑i=1
µixij
( J∑j′=1
xij′ Uα(j′))
Sj
√λα
=
J∑j′=1
( I∑i=1
xij′ xij µi
)Uα(j
′)
Sj
√λα
=
=
J∑j′=1
C(j, j′)Uα(j′)
Sj
√λα
=C Uα(j)
Sj
√λα
·
“RAIZ”2014/10/28page 37
✐
✐
✐
✐
✐
✐
✐
✐
Cap.2 - Analise de Componentes Principais 37
Como C Uα = λαΣ−1 Uα = λαWα temos que o ultimo quociente e igual
a
Wα(j)λα
Sj
√λα
=
√λαWα(j)
Sj
como querısmos demonstrar.
2.4 Decomposicao em valores singulares da ma-triz X ′. Relacao entre as analises em RI eRJ
Lembremos que os vetores Uα , essenciais para o calculo das componentesprincipais sao obtidos das relacoes
U ′C U = Λ =
λ1 0
. . .
0 λJ
U ′Σ−1 U = I
onde λ1 ≥ λ2 ≥ · · · ≥ λJ .
Temos que
C =
I∑
i=1
µi xi x′i = X ′DX onde D =
µ1 0
. . .
0 µI
ou seja D e a matriz diagonal formada pelo peso dos I indivıduos.
Temos entao
U ′X ′DX U = Λ
U ′Σ−1 U = I
Estas identidades sao as que aparecem na demonstracao do Teorema daDecomposicao em Valores Singulares tomando Σ1 = Σ−1, Σ2 = D−1 eY = X ′.
“RAIZ”2014/10/28page 38
✐
✐
✐
✐
✐
✐
✐
✐
38 Analise de Componentes Principais Cap.2
Se V e a matriz I × I construıda naquele teorema com colunas D−1-ortonormais, temos
U ′X ′ V =
√λ1
∣∣∣∣. . .
∣∣∣∣ 0
√λJ
∣∣∣∣
e para λα > 0, α = 1, . . . , r = posto (X),
Vα =DX Uα√
λα·
Como X Uα = Fα temos tambem
Vα(i) =µi Fα(i)√
λαα = 1, . . . , r = posto (X).
No caso importante Σ = I e D = I, ou seja o caso de utilizar a distanciaeuclidiana com todos os indivıduos com o mesmo peso, podemos natural-mente pensar nas colunas como indivıduos e nas linhas como variaveis ouobservacoes. As componentes que no caso anterior eram obtidas atravesde XU , serao agora obtidas de X ′V . Pela Decomposicao em ValoresSingulares temos
X ′V = U(A1/2 ... 0
)=(√
λ1 U1, . . . ,√λJ Uj
... 0).
Portanto Gα(j) = Uα(j)√λα .
Note-se que ainda no casoI∑
i=1xi = 0 (variaveis centradas) a analise de
componentes principais sobre as colunas deX determinara valores Gα(j)
que nao satisfaraoJ∑
j=1Gα(j) = 0. Os valores Gα(j) sao as componentes
na base ortonormal do subespaco otimo e nao na melhor variedade linear.
No caso Σ = I, D = I e com variaveis centradas e padroniza-
das(S2j =
I∑i=1
(xij)2 = 1
)a Proposicao 2.3 indica que ρ(Xj , Fα) =
√λα Uα(j)
√I.
“RAIZ”2014/10/28page 39
✐
✐
✐
✐
✐
✐
✐
✐
Cap.2 - Analise de Componentes Principais 39
Neste caso temos tambem que Gα(j) = Uα(j)√λα
√I. Ou seja
ρ(Xj , Fα) = Gα(j).
Portanto a correlacao entre a variavel e o eixo e igual a coordenada davariavel. Este resultado e util em diversas aplicacoes para leitura e inter-pretacao das saıdas graficas, contendo simultaneamente a representacaodos pontos-indivıduos e pontos-variaveis sobre os dois primeiros eixosfatoriais (duas primeiras componentes principais).
Note-se tambem quep∑
α=1G2
α(j) ≤ 1. As variaveis para as quais
p∑j=1
G2α(j) seja aproximadamente 1 serao variaveis bem ajustadas. Para
interpretacao eventual dos eixos deverıamos olhar para aquelas variaveislocalizadas na parte sombreada do grafico a seguir.
“RAIZ”2014/10/28page 40
✐
✐
✐
✐
✐
✐
✐
✐
40 Analise de Componentes Principais Cap.2
2.5 Aproximacao da matriz X. Taxa de inercia
Vimos na secao anterior que (com Σ1 = I e Σ2 = I)
U ′X ′ V =(Λ1/2 ... 0
)
Portanto X ′ = U(Λ1/2
... 0)V ′ e entao
X = V
Λ1/2
. . . .0
U ′ =
(√λ1 VI , . . . ,
√λJ Vj
)
U ′1
. . ..... . .U ′J
=
=J∑
α=1
√λα Vα U
′α .
A matriz X pode ser aproximada pela matriz X∗, obtida somando so osprimeiros p termos ou seja
X∗ =p∑
α=1
√λα Vα U
′α .
A qualidade da aproximacao pode ser medida pelo quociente
∑ij
(x∗ij)2
∑ij
(xij)2
onde x∗ij indica o termo (i, j) da matriz X∗. Este quociente e chamadotaxa de inercia ou parte da variancia explicada pelas primeiras p com-
ponents ou p fatores.
Uma expressao mais simples pode ser obtida utilizando a seguinte ob-servacao. Para uma matriz Z quadrada qualquer
∑ij
(Zij
)2= Tr(Z ′Z).
Para X∗ temos
X∗′X∗ =( p∑
α=1
√λα Uα V
′α
)( p∑
α′=1
√λα′ Vα′ U ′
α′
)=
p∑
α=1
λα Uα U′α .
“RAIZ”2014/10/28page 41
✐
✐
✐
✐
✐
✐
✐
✐
Cap.2 - Analise de Componentes Principais 41
Portanto
Tr(X∗′X∗) =
p∑
α=1
λα
J∑
j=1
(Uα(j)
)2=
p∑
α=1
λα
porque∥∥Uα
∥∥2I= 1.
Da mesma forma podemos obter Tr(X ′X) =J∑
α=1λα . Portanto a taxa
de inercia e igual a
p∑α=1
λα
J∑α=1
λα
= 1−
J∑α=p+1
λα
J∑α=1
λα
= 1− erro relativo.
2.6 Aproximacao de uma matriz de posto r poruma de posto k, k ≤ r. Biplot de matrizes
Sejam {µi
}i=1....,n
e{γj}j=1,...,m
numeros positivos e D1 = diag(µ1, . . . , µn) e D2 = diag(γ1, . . . , γm).Seja Y uma matriz n × m de posto r. Indicaremos com yi o vetorcorrespondente a linha i de Y . Seja p ≤ m e consideremos o problemade minimizar
n∑
i=1
µi
∥∥yi − y∗i∥∥2D2
onde os y∗i pertencem a um subespaco de dimensao p. Sabemos que
a solucao desse problema obtem-se definindo C =n∑
i=1µi yi y
′i (C =
Y ′D1 Y ) e tomando U tal que
U ′C U = U ′ Y ′D1 Y U =
λ1 0
. . .
0 λm
U ′D−12 U = I
“RAIZ”2014/10/28page 42
✐
✐
✐
✐
✐
✐
✐
✐
42 Analise de Componentes Principais Cap.2
Se Wα = D−12 Uα , [W1, . . . ,Wp] e o subespaco solucao e os y∗i sao as
projecoes dos yi sobre este subespaco. As componentes de y∗i na basedos {Wα} estao dadas por Fα(i) = y′i Uα . Note-se que as equacoes acimasao as que aparecem na deccomposicao em valores singulares de Y ′ setomarmos em Rm o produto interno determinado por D−1
2 e em Rn oproduto interno determinado por D−1
1 . Mais precisamente
U ′ Y ′ V =
√λ1
∣∣∣∣ 0
. . .
∣∣∣∣√λJ
∣∣∣∣. . . . . . . . . . . . .
0 0
U ′D−12 U = I
V ′D−11 V = I
Temos tambem
√λα Uα = D2 Y
′ Vα√λα Vα = D1 Y Uα
Se yj indica a coluna j de Y e o problema fosse minimizarm∑j=1
γj∥∥yj − yj∗
∥∥D1
o papel anterior de U seria assumido por V . As
componentes de yj∗ seriam Gα(j) = yj′
Vα . Ou de outra forma Gα =
Y ′ Vα =√λαD
−12 Uα .
Proposicao 5.1. Seja Y uma matriz n × m de posto r. A matriz Zn×m de posto p ≤ r que minimiza
n∑
i=1
m∑
j=1
µi γj(yij − Zij
)2
e dada por
Z =
p∑
α=1
1√λα
FαG′α .
“RAIZ”2014/10/28page 43
✐
✐
✐
✐
✐
✐
✐
✐
Cap.2 - Analise de Componentes Principais 43
Demonstracao. Seja Zi o vetor correspondente a linha i de Z. Utili-zando a notacao anterior temos
infposto (Z)≤p
n∑
i=1
m∑
j=1
µi γj(yij − zij
)2=
= infposto (Z)≤p
n∑
i=1
µi
∥∥yi − zi∥∥2D2
=
= infsubespacos de dimensao≤p
n∑
i=1
µi
∥∥yi − y∗i∥∥2D2
onde y∗i e a projecao de yi sobre o subespaco. Como aumentando a
dimensao do espaco,∥∥yi − y∗i
∥∥2D2
diminui, temos que a expressao acimae igual a
infsubespaco de dimensao p
n∑
i=1
µi
∥∥yi − y∗i∥∥2D2
.
Temos entao um problema de componentes principais. Note-se que nestecaso a soma das colunas de Y nao e necessariamente igual a zero (ou
equivalentementen∑
i=1yi nao e zero necessariamente). Calcularemos agora
Zkj = y∗k(j). Sempre utilizando a notacao anterior temos
y∗k =
p∑
α=1
⟨yk,Wα
⟩D2
Wα =
p∑
α=1
(y′k D2Wα)Wα =
p∑
α=1
(y′k Uα)Wα =
=
p∑
α=1
(y′k Uα)D−12 Uα .
Como D−12 Uα =
Gα√λα
e y′k Uα = Fα(k) temos que a ultima expressao e
igual ap∑
α=1
Fα(k)Gα√λα
.
Portanto Zkj = y∗k(j) =p∑
α=1
1√λα
Fα(k)Gα(j) ou seja
Z =
p∑
α=1
1√λα
FαG′α
“RAIZ”2014/10/28page 44
✐
✐
✐
✐
✐
✐
✐
✐
44 Analise de Componentes Principais Cap.2
como querıamos demonstrar.
Nota: Se Λp =
λ1 0
. . .
0 λp
, F
(p)i =
F1(i)...
Fp(i)
e
G(p)j =
G1(j)
...Gp(j)
temos que
Zij =⟨F
(p)i , G
(p)j
⟩Λ−1/2p
= F(p)1i Λ−1/2
p G(p)j .
De outra forma
Z =
F(p)′
1
. . . . ....
. . . . .
F(p)′
n
1
λ1. . .
1
λp
(G
(p)1
∣∣∣∣ . . .∣∣∣∣G
(p)m
)
Corolario 5.1. Se p = r temos
Y =r∑
α=1
1√λα
FαG′α .
Note-se que a matrizp∑
α=1
1√λα
FαG′α e igual a
(F1... . . .
...Fp)
1
λ10
. . .
01
λp
G′1
. . ..... . .G′
p
=
=
(F1√λ1
... . . ....
)
G′1
. . ..... . .G′
p
“RAIZ”2014/10/28page 45
✐
✐
✐
✐
✐
✐
✐
✐
Cap.2 - Analise de Componentes Principais 45
ou seja e da forma HG′ onde H e uma matriz n × p e G uma matriz
m× p.
Portanto o problema (problema do Biplot; ver Gabriel (1971)) de acharduas matrizes H e G tais que
n∑
i=1
m∑
j=1
µi γj(yij − h′i gj
)2
seja mınimo (hi (resp. gj) indica a linha i (resp. j) de H (resp. G)) e
tambem solucionado pela matrizp∑
α=1
1√λα
FαG′α . Note-se que nao ha
unicidade nas matrizes H e G.
2.7 Indivıduos e variaveis suplementares
E frequente na pratica ter informacao complementar sobre os indivıduos(observacoes de variaveis adicionais sobre os I indivıduos) e tambemobservacoes sobre novos indivıduos. Estas duas situacoes aparecem re-presentadas na figura a seguir.
A matriz X+ corresponde a novos indivıduos e a X+ a novas variaveissobre os indivıduos originais. Indicaremos com Uα , Fα , λα os vetores e
“RAIZ”2014/10/28page 46
✐
✐
✐
✐
✐
✐
✐
✐
46 Analise de Componentes Principais Cap.2
autovalores obtidos da analise de componentes principais sobre a matriz
X. Uma analise sobre a matriz(X
...X+
)determinaria coordenadas
para os novos indivıduos. Se o peso destes indivıduos e relativamentepequeno as suas coordenadas serao aproximadamente dadas por
Fα(i) =J∑
j=1
x+ij Uα(j).
Esta aproximacao evita naturalmente repetir a analise com toda a ma-triz.
Da mesma forma
Gα(j) =1√λα
I∑
i=1
µi Fα(i)x+ij
indicara as coordenadas aproximadas das novas variaveis. Os valores
exatos seriam os obtidos fazendo a analise sobre a matriz(X
...X+).
Naturalmente os valores x+ij e x+ij utilizados para calcular Fα(i) eGα(j) deverao ser valores centrados (ou centrados e normalizados) sesobre os valores originais foram executadas estas transformacoes.
2.7 Exemplos.
Os exemplos deste capıtulo utilizam a funcao prcomp() e o pacote Bi-plotGUI do R. O primeiro exemplo utiliza dados publicos disponıveis(ver Referencia no Exemplo 1) . Tem varios pacotes e funcoes do R quepodem ser utilizados. Por exemplo: princomp(), prcomp(), e PCA dopacote FactoMineR.
Exemplo 1. Consumo de Proteinas em Europa.
Os dados indicam o consumo de 9 proteinas (em % sobre o total deproteina) para cada um de 25 paises Europeus.
Os dados podem ser encontrados em Hand e outros. (1994).
Os dados sao os seguintes:
“RAIZ”2014/10/28page 47
✐
✐
✐
✐
✐
✐
✐
✐
Cap.2 - Analise de Componentes Principais 47
Country
RedMeat
WhiteMeat
Eggs
Milk
Fish
Cereals
Starch
Nuts
Fr.Veg
Albania
10,1
1,4
0,5
8,9
0,2
42,3
0,6
5,5
1,7
Austria
8,9
14
4,3
19,9
2,1
28
3,6
1,3
4,3
Belgium
13,5
9,3
4,1
17,5
4,5
26,6
5,7
2,1
4
Bulgaria
7,8
61,6
8,3
1,2
56,7
1,1
3,7
4,2
Czechoslov
9,7
11,4
2,8
12,5
234,3
51,1
4
Denmark
10,6
10,8
3,7
25
9,9
21,9
4,8
0,7
2,4
EGerm
any
8,4
11,6
3,7
11,1
5,4
24,6
6,5
0,8
3,6
Finland
9,5
4,9
2,7
33,7
5,8
26,3
5,1
11,4
France
18
9,9
3,3
19,5
5,7
28,1
4,8
2,4
6,5
Greece
10,2
32,8
17,6
5,9
41,7
2,2
7,8
6,5
Hungary
5,3
12,4
2,9
9,7
0,3
40,1
45,4
4,2
Ireland
13,9
10
4,7
25,8
2,2
24
6,2
1,6
2,9
Italy
95,1
2,9
13,7
3,4
36,8
2,1
4,3
6,7
Netherland
9,5
13,6
3,6
23,4
2,5
22,4
4,2
1,8
3,7
Norw
ay
9,4
4,7
2,7
23,3
9,7
23
4,6
1,6
2,7
Poland
6,9
10,2
2,7
19,3
336,1
5,9
26,6
Portugal
6,2
3,7
1,1
4,9
14,2
27
5,9
4,7
7,9
Romania
6,2
6,3
1,5
11,1
149,6
3,1
5,3
2,8
Spain
7,1
3,4
3,1
8,6
729,2
5,7
5,9
7,2
Sweden
9,9
7,8
3,5
24,7
7,5
19,5
3,7
1,4
2
Switzerland
13,1
10,1
3,1
23,8
2,3
25,6
2,8
2,4
4,9
UK
17,4
5,7
4,7
20,6
4,3
24,3
4,7
3,4
3,3
USSR
9,3
4,6
2,1
16,6
343,6
6,4
3,4
2,9
WGerm
any
11,4
12,5
4,1
18,8
3,4
18,6
5,2
1,5
3,8
Yugoslavia
4,4
51,2
9,5
0,6
55,9
35,7
3,2
“RAIZ”2014/10/28page 48
✐
✐
✐
✐
✐
✐
✐
✐
48 Analise de Componentes Principais Cap.2
Em primeiro lugar algumas informacoes basicas sobre as variaveis. AFigura 2 mostra as medias e variancias das variaveis. Dada a variacaoentre estas ultimas os dados serao normalizados antes da analise, ou sejausaremos as variaveis padronizadas (media zero e variancia 1).
Figura 2. Medias e Variancas das variaveis.
Variavel Media Variavel Variancia
RedMeat 9,828 RedMeat 3,3470783
WhiteMeat 7,896 WhiteMeat 3,6940809
Eggs 2,936 Eggs 1,1176165
Milk 17,112 Milk 7,1054158
Fish 4,284 Fish 3,4025334
Cereals 32,248 Cereals 10,974786
Starch 4,276 Starch 1,6340849
Nuts 3,072 Nuts 1,9856821
Fr.Veg 4,136 Fr.Veg 1,8039032
A Figura 3 mostra a correlacao entre as variaveis.
“RAIZ”2014/10/28page 49
✐
✐
✐
✐
✐
✐
✐
✐
Cap.2 - Analise de Componentes Principais 49
Figura 3
As cores, inclinaçao e forma das elipses da uma idea grafica rapida das correlacoes.
Azuis: inclinacao positiva , correlaçao positiva. Marroes: inclinacao negativa, correlaçao negativa.
Forma proxima de um circulo indica uma correlaçao proxima de zero.
A escala de cores a direita do grafico da os valores das correlaçoes.
Temos uma correlacao positiva entre as variaveis (consumo de) White-Meat, Eggs,Read Meat e Milk.O mesmo acontece entre Cereais e Nuts e com menor intensidade entreStarch e Fish .
“RAIZ”2014/10/28page 50
✐
✐
✐
✐
✐
✐
✐
✐
50 Analise de Componentes Principais Cap.2
A Figura 4 indica as cargas das componentes principais (loadings ) sobreas 9 componentes.Note-se que a Primeira Componente (a mais importante) separa clara-mente as carnes vermelha, branca, ovos e leite, de nozes e cereais. Asegunda componente esta determinada pelo consumo de peixe e vegetais(e em menor grau amidos).
Figura 4. Cargas da componentes (loadings).
Variavel PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9
RedMeat 0,303 0,056 0,298 0,646 0,322 0,460 0,150 0,020 0,246
WhiteMeat 0,311 0,237 0,624 0,037 0,300 0,121 0,020 0,028 0,592
Eggs 0,427 0,035 0,182 0,313 0,079 0,361 0,443 0,491 0,333
Milk 0,378 0,185 0,386 0,003 0,200 0,618 0,462 0,081 0,178
Fish 0,136 0,647 0,321 0,216 0,290 0,137 0,106 0,449 0,313
Cereals 0,438 0,233 0,096 0,006 0,238 0,081 0,405 0,703 0,152
Starch 0,297 0,353 0,243 0,337 0,736 0,148 0,153 0,115 0,122
Nuts 0,420 0,143 0,054 0,330 0,151 0,447 0,407 0,184 0,518
Fr.Veg 0,110 0,536 0,408 0,462 0,234 0,119 0,450 0,092 0,203
Utilizando as cargas e as variaveis originais (normalizadas) calculamosa posicao de cada linha da matriz de dados (pais) sobre cada uma dascomponentes. Os valores estao indicados na Figura 5.
“RAIZ”2014/10/28page 51
✐
✐
✐
✐
✐
✐
✐
✐
Cap.2 - Analise de Componentes Principais 51
Figura 5. Componentes (scores).
PC1
PC2
PC3
PC4
PC5
PC6
PC7
PC8
PC9
Albania
3,485
1,630
1,761
0,230
0,023
1,034
0,472
0,762
0,103
Austria
1,423
1,041
1,338
0,168
0,933
0,218
0,181
0,251
0,217
Belgium
1,622
0,159
0,217
0,521
0,755
0,290
0,196
0,203
0,033
Bulgaria
3,134
1,301
0,151
0,214
0,485
0,696
0,465
0,808
0,300
Czechoslov
0,370
0,603
1,196
0,464
0,257
0,823
0,315
0,012
0,149
Denmark
2,365
0,285
0,752
0,967
0,752
0,170
0,226
0,621
0,480
EGerm
any
1,422
0,450
1,303
1,136
0,423
0,648
0,555
0,163
0,260
Finland
1,564
0,596
2,050
1,415
0,037
0,834
0,726
0,226
0,133
France
1,488
0,785
0,002
1,957
0,250
0,899
0,946
0,022
0,544
Greece
2,240
1,001
0,883
1,794
0,405
1,144
0,147
0,306
0,388
Hungary
1,457
0,816
1,914
0,217
0,041
0,539
0,768
0,146
0,537
Ireland
2,663
0,764
0,020
0,435
1,014
0,482
0,029
0,023
0,079
Italy
1,535
0,399
0,126
1,222
0,804
0,214
0,150
0,080
0,732
Netherland
1,641
0,912
0,766
0,126
0,761
0,298
0,062
0,460
0,261
Norw
ay
0,975
0,822
1,704
1,138
0,415
0,056
0,043
0,107
0,147
Poland
0,122
0,532
1,475
0,458
0,023
0,588
1,261
0,192
0,221
Portugal
1,706
4,289
0,044
0,894
0,385
0,697
0,046
0,205
0,263
Romania
2,757
1,119
0,070
0,615
0,317
0,131
0,133
0,027
0,338
Spain
1,312
2,554
0,515
0,359
0,516
0,669
0,597
0,235
0,477
Sweden
1,634
0,207
1,280
0,734
0,820
0,044
0,541
0,072
0,108
Switzerland
0,912
0,751
0,154
1,170
0,831
0,090
0,512
0,529
0,067
UK
1,735
0,094
1,153
1,734
1,084
0,097
0,651
0,239
0,132
USSR
0,783
0,111
0,370
0,928
1,670
0,185
0,574
0,052
0,092
WGerm
any
2,094
0,294
0,804
0,109
0,068
0,201
0,457
0,357
0,025
Yugoslavia
3,623
1,038
0,206
0,822
0,378
0,354
0,061
0,193
0,149
Como vimos o uso do metodo de Componentes Principais transforma asvariaveis originais em variaveis ortogonais e de forma que as primeirascomponentes capturam a maior proporcao da variancia a ser explicada.Para explicar totalmente esta variacao deverıamos usar todas as 9 com-ponentes. Em geral se a matriz de dados e n× p terıamos min(n− 1, p)componentes principais. Nao estamos interessados em todas elas. Soum numero pequeno delas para poder analisar e interpretar os dados.Podemos explicar uma grande parte dela usando somente umas poucascomponentes (2 ou 3 por exemplo). A proporcao explicada por cadacomponente relativa ao total e usualmente resumida em um grafico cha-mado de Scree Plot.
“RAIZ”2014/10/28page 52
✐
✐
✐
✐
✐
✐
✐
✐
52 Analise de Componentes Principais Cap.2
Figura 6. Screeplot.
RedMeat WhiteMeatEggs Milk Fish Cereals Starch Nuts Fr.Veg
0,44516 0,181667 0,125324 0,106074 0,051538 0,036126 0,030178 0,012921 0,011012
O Grafico da Figura 6 mostra que a primeira componente representamais de 40% da variacao total e o Grafico seguinte da Figura 7 mostraque os dois primeiros representam mais de 60% do total.
“RAIZ”2014/10/28page 53
✐
✐
✐
✐
✐
✐
✐
✐
Cap.2 - Analise de Componentes Principais 53
Figura 7. Proporcao da variancia explicada.
Variancia acumulada
0,45 0,63 0,75 0,86 0,91 0,95 0,98 0,99 1,00
Nao existe um metodo formal de determinanar o numero de componen-tes. Os procedimentos sao relativamente ad-hoc e influenciados pela areade aplicacao onde sao utilizados. Por exemplo em dados provenientes deCiencias Sociais e comun que os dados contenham muito “ruido” (erroaleatorio). Nestes casos curvas como as da Figura 7 crescem lentamente.
Um procedimento ad hoc frequentemente utilizado e um sugerido porCattell (1960) que consiste em selecionar componentes ate atingir o “co-tovelo” da curva do Scree Plot. Ou seja uma situacao na qual a curvaja passou pela sua pincipal descida e esta mais ou menos estabilizada.Em nosso caso corresponderia a escolher 2 ou 3 dimensoes. Ficaremoscom 2 dimensoes ja que permite uma apresentacao grafica mais simplese direta.
Como sugerido pelos resultados em 2.6, uma representacao convenientee obtida atraves de um Biplot.
Neste caso as linhas da matriz de dados sao representadas como pon-tos (coordenadas sobre as duas primeiras componentes principais) e asvariaveis como direcoes. Direcoes aproximadamente horizontais sao al-tamente correlacionadas com a primeira componente. Direcoes aproxi-
“RAIZ”2014/10/28page 54
✐
✐
✐
✐
✐
✐
✐
✐
54 Analise de Componentes Principais Cap.2
madamente verticais seriam mais correlacionadas com a segunda com-ponente principal.
A Figura 8 mostra o grafico. Vemos por exemplo que Espanha e Portugalsao um grupo de paıses diferenciado assim como Romenia, Bulgaria,Albania e Yugoslavia.
Figura 8. Biplot tradicional.
Espanha e Portugal mostram que sao consumidores de mais peixe, ve-getais e amidos em menor grau que outros paıses. O mesmo acontececom o consumo de cereais e nozes em Albania, Bulgaria, Romenia eYogoslavia.
O grafico sugere tambem uma segmentacao entre os paıses em funcaodo seu consumo de Proteinas.
Uma versao muito interessante do Biplot pode ser consultada em Gowere outros (2011). Nesta versao os vetores correspondentes aos atributossao tomados como direcoes e suas escalas mudadas para conseguir umapropriedade interessante: se projetamos perpendicularmente um pontolinha sobre uma direcao o valor de sua projecao corresponde aproxima-damente ao valor do atributo original. Ou seja poderıamos usar o grafico
“RAIZ”2014/10/28page 55
✐
✐
✐
✐
✐
✐
✐
✐
Cap.2 - Analise de Componentes Principais 55
para ter rapidamente uma ideia do valor das variaveis. Naturalmente asinterpretacoes de menor angulo entre direcoes indicar maior correlacaoentre as variaveis e a de direcoes proximas aos eixos indicar loadingsmaiores sobre os mesmos sao mantidas.
A Figura 9 mostra o grafico so dos pontos sem as variaveis (e sem osvalores das coordenadas que) para ter uma visao “limpa” da posicao dospaıses. Vemos de novo que Espanha e Portugal sao um grupo de paısesdiferenciado assim como Romenia, Bulgaria, Albania e Yugoslavia.
Figura 9. Mapa dos paıses sobre as duas primeiras componen-tes principais.
“RAIZ”2014/10/28page 56
✐
✐
✐
✐
✐
✐
✐
✐
56 Analise de Componentes Principais Cap.2
A Figura 10 mostra o resultado completo com com paıses (pontos) evarieveis (direcoes).
Figura 10. Mapa dos paıses sobre as duas componentes prin-cipais. Inclui as direcoes dos atributos utilizados (Biplot).
Exemplo 2. Dados sobre caracterısticas de Vinho.
Para este exemplo so vamos indicar os principais quadros. Os dadoscorrespondem a 21 marcas de vinho frances sobre as quais 28 variaveisforam determinadas. Duas destas variaveis sao categoricas (fatores): La-bel (3 niveis: Saumur , Bourgueuil e Chinon) e Soil (4 niveis: Reference,Env1, Env2, Env4) indicando Regioes da Franca e tipos de solo.
“RAIZ”2014/10/28page 57
✐
✐
✐
✐
✐
✐
✐
✐
Cap.2 - Analise de Componentes Principais 57
As 28 variaveis numericas e as 21 Marcas (codigos das marcas) sao:
Figura 1
Marcas
1 2EL
2 1CHA
3 1FON
4 1VAU
5 1DAM
6 2BOU
7 1BOI
8 3EL
9 DOM1
10 1TUR
11 4EL
12 PER1
13 2DAM
14 1POY
15 1ING
16 1BEN
17 2BEA
18 1ROC
19 2ING
20 T1
21 T2
Variaveis
1 Odor.Intensity.before.shaking
2 Aroma.quality.before.shaking
3 Fruity.before.shaking
4 Flower.before.shaking
5 Spice.before.shaking
6 Visual.intensity
7 Nuance
8 Surface.feeling
9 Odor.Intensity
10 Quality.of.odour
11 Fruity
12 Flower
13 Spice
14 Plante
15 Phenolic
16 Aroma.intensity
17 Aroma.persistency
18 Aroma.quality
19 Attack.intensity
20 Acidity
21 Astringency
22 Alcohol
23 Balance
24 Smooth
25 Bitterness
26 Intensity
27 Harmony
28 Overall.quality
A Figura 1 indica o posicionamnto das marcas. So uma variavel foienfatizada no grafico: a Qualidade Total, para nao poluir o grafico com
“RAIZ”2014/10/28page 58
✐
✐
✐
✐
✐
✐
✐
✐
58 Analise de Componentes Principais Cap.2
muitas direcoes.
Figura 2
Env1 Env2 Env4 Reference
Odor.Intensity
Aroma.quality.
Fruity.before.
Flower.before.
Spice.before.s
Visual.intensiNuance
Surface.feelin
Odor.Intensity
Quality.of.odoFruity
Flower
SpicePlante Phenolic
Aroma.intensit
Aroma.persiste
Aroma.quality
Attack.intensi
Acidity
Astringency
Alcohol
Balance
Smooth
Bitterness
Intensity
Harmony
3.393
3.214
3.536
2.464
3.741
3.6433.714
3.393
3.2003.179
3.571
3.148
3.5713.929
3.643
3.750
3.5363.464
2.370
2.643
2.852
2EL
1CHA
1FON
1VAU
1DAM
2BOU1BOI
3EL
DOM11TUR
4EL
PER1
2DAM1POY1ING
1BEN
2BEA1ROC
2ING
T1
T2
wine$Overall.q
2.0
2.5
3.0
3.5
4.0
A Figura 2 e semelhante a Figura 1 onde foram agregadas capsulas con-vexas aos diferentes tipos de solo para visualizar mais claramente umaespecie de ordem de qualidade do vinho entre os grupos. As marcas doSolo de Referencia apresentam uma qualidade global muito homogenea.
“RAIZ”2014/10/28page 59
✐
✐
✐
✐
✐
✐
✐
✐
Cap.2 - Analise de Componentes Principais 59
Figura 3. Posicionamento das Marcas adicionando capsulasconvexas dos grupos de solos. O Solo de Referencia e o quetem maior qualidade como um todo com 7 marcas no mesmo.
Env1
AB: Env1
TM: Env1
Env2
AB: Env2
TM: Env2
Env4
AB: Env4
TM: Env4
Reference
AB: Reference
TM: Reference
Odor.Intensity
Aroma.quality.
Fruity.before.
Flower.before.
Spice.before.s
Visual.intensiNuance
Surface.feelin
Odor.Intensity
Quality.of.odoFruity
Flower
SpicePlante Phenolic
Aroma.intensit
Aroma.persiste
Aroma.quality
Attack.intensi
Acidity
Astringency
Alcohol
Balance
Smooth
Bitterness
Intensity
Harmony
3.393
3.214
3.536
2.464
3.741
3.6433.714
3.393
3.2003.179
3.571
3.148
3.5713.929
3.643
3.750
3.5363.464
2.370
2.643
2.852
2EL
1CHA
1FON
1VAU
1DAM
2BOU1BOI
3EL
DOM11TUR
4EL
PER1
2DAM1POY1ING
1BEN
2BEA1ROC
2ING
T1
T2
wine$Overall.q
2.0
2.5
3.0
3.5
4.0
“RAIZ”2014/10/28page 60
✐
✐
✐
✐
✐
✐
✐
✐
Capıtulo 3
Analise de Correspondencia
A tecnica de analise de correspondencia foi desenvolvida para o trata-mento simultaneo das linhas e colunas de uma tabela bi-dimensional,onde as entradas sao numeros nao negativos. Como exemplos de taistabelas, podemos citar: 1 a) a tabeca de contingencia onde as linhas eas colunas representam variaveis categoricas e cada entrada o numerode observacoes das variaveis cruzadas, e 2 a) a tabela de incidencia ondeas linhas representam, por exemplo, indivıduos e as colunas represen-tam variaveis categoricas, por exemplo, nıvel de instrucao do pai, nıvelde instrucao da mae, etc... . Cada variavel dessas e dividida em classesmutuamente disjuntas, por exemplo, o nıvel de instrucao do pai podeser superior, colegial, primario completo, etc... . Cada entrada e 1 ou0, conforme o indivıduo possui ou nao uma determinada caracterıstica.Outros exemplos serao vistos mais tarde.
Como na tecnica de componentes principais, a analise de corres-pondencia pode ser apresentada de diferentes maneiras. (Ver Benzecri(1973), Lebart & Fenelon (1971), Lebart, Morineau & Tabard (1977) eHill (1974) ).
Comecaremos a exposicao tomando o ponto de vista de Analise deDados, que vai ser enfatizado, e depois daremos algumas formulacoesequivalenes. O objetivo e a representacao simultanea das linhas e colunasde uma tabela em um espaco de dimensao pequena onde possamos maisfacilmente interpretar as relacoes entre as linhas, entre as colunas e entreas linhas e as colunas. E claro que essa representacao simultanea deveser obtida, como na analise de componentes principais, conservando na
60
“RAIZ”2014/10/28page 61
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 61
medida do possıvel a “informacao” contida nos dados originais. De fato,o que faremos e transformar os dados de duas maneiras diferentes esobre cada transformacao aplicar uma analise de componentes principaisapropriada.
3.1 Notacao e descricao do problema
A analise de correspondencia e, tipicamente, utilizada para analisar umatabela de contingencia. Essa tabela de contingencia pode ter sido ob-tida, por exemplo, de um grupo de n indivıduos classificados em I clas-ses disjuntas A1, . . . , AI de um criterio A (por exemplo, municıpio deresidencia) e em J classes disjuntas B1, . . . , Bj de um criterio B (porexemplo, causa de morte ou nıvel de renda). Essa tabela pode ser re-presentada da seguinte maneira:
CriterioA�Criterio B B1 . . . Bj . . . BJ marginal de A
A1 n11 nij niJ n1·...
Ai ni1 nij niJ ni·...
AI nI1 nIj nIJ nI·marginal de B n·1 n·j n·J n
onde nij = numero de indivıduuos classificados simultaneamente em Ai
e Bj ,
ni··· =J∑
j=1
nij = numero de indivıduos classificados em Ai ,
n···j =I∑
i=1
nij = numero de indivıduos classificados em Bj .
E claro que temos
n =I∑
i=1
J∑
j=1
nij =I∑
i=1
ni··· =J∑
j=1
n···j .
“RAIZ”2014/10/28page 62
✐
✐
✐
✐
✐
✐
✐
✐
62 Analise de Correspondencia Cap.3
Mais geralmente, a analise de correspondencia e utilizada numa ta-bela onde as classes Ai e/ou as classes Bj nao precisam ser mutuamentedisjuntas, nij e a entrada correspondente a classe Ai e a classe Bj , coma restricao nij ≥ 0, ni··· , n···J e n sao como antes.
Chamemos a essa tabela de N , ie., N = (nij) 1≤i≤I1≤j≤J
.
Mas para facilitar a apresentacao da tecnica, podemos pensar numatabela de contingencia. A tabela N pode ser normalizada considerando-
se a tabela P =1
nN , que no caso da tabela de contingencia e a tabela
de frequencia.
Se p = (pij) 1≤i≤I1≤j≤J
, temos entao
pij =nij
n,
pi··· =J∑
j=1
pij =ni···n
,
p···j =I∑
i=1
pij =n···jn
e
1 =I∑
i=1
J∑
j=1
pij =I∑
i=1
pi··· =J∑
j=1
p···j .
Para compararmos, por exemplo, dois municıpios em relacao ao nıvelde renda de seus habitantes, nao e interessante trabalhar com o numerototal de habitantes, pois em geral, os municıpios tem numero de habitan-tes distintos, podendo ser um municıpio muito maior que o outro. O quee interessante e comparar os “perfis” dos municıpios, isto e, compararas frequencias relativas de cada classe de renda nos municıpios. Entao,se por exemplo, essas frequencias relativas sao aproximadamente iguaispara todas as classes de rendas, esses dois municıpios seriam similares.
Representamos entao cada classe Ai pelo vetor de frequencias con-dicionais pBi no espaco RJ , isto e,
(pBi)′=
(pi1pi···
, · · · , piJpi···
)=
(ni1
ni···, · · · , niJ
ni···
)·
“RAIZ”2014/10/28page 63
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 63
Analogamente, representamos cada classeBj pelo vetor de frequenciascondicionais pAj no espaco RI , isto e,
(pAj)′=
(p1jp···j
, · · · , pIjp···j
)=
(n1j
n···j, · · · , nIj
n···j
)·
Ao vetor pBi (pAj ) chamamos de perfil da classe Ai (Bj). Observamosque
J∑
j=1
pijpi···
= 1 e
J∑
i=1
pijp···j
= 1.
Temos entao para as classes A1, . . . , AI , representacoes comparaveisno espaco RJ e para as classes B1, . . . , Bj representacoes comparaveisno espaco RI .
Para podermos comparar as classes A1, . . . , AI , precisamos agoraintroduzir uma distancia no espaco RJ .
Procuremos entao, uma distancia quadratica
d2(Ai, Ai′) =∥∥pBi − pBi′
∥∥2ΣB =
J∑
j=1
λj
(pijpi···
− pi′jpi′···
)2
que tenha a seguinte propriedade de invariancia:
“Se agregamos duas classes Bj e Bj′ de mesmo perfil, isto e, tais quepAj = PA
j′ , nao alteramos a distancia entre duas classes quaisquer Ai e
Ai′ , isto e, d2(Ai, Ai′) permanece inalterada”.
Essa e uma propriedade desejavel, pois se duas classes de renda vizi-nhas tem aproximadamente o mesmo perfil, podemos entao agrupar es-sas duas classes de renda sem alterar a similaridade entre os municıpios.Esse fato garante uma certa invariabilidade dos resultados a divisao emclasses de renda, que e necessariamente arbitraria.
E claro que λj deve depender de Bj e como estamos interessados empoder agregar duas classes Bj e Bj′ de mesmo perfil, e natural tomarmosλj como uma funcao contınua λ de p···j , isto e, λj = λ(p···j).
Proposicao 3.1. A distancia entre as classes Ai e Ai′ que satisfaz essa
propriedade de invariancia, e, a menos de uma homotetia, dada por:
d2(Ai, Ai′) =∥∥pBi − pBi′
∥∥2ΣB =
J∑
j=1
1
p···j
(pijpi···
− pi′jpi′···
)2
,
“RAIZ”2014/10/28page 64
✐
✐
✐
✐
✐
✐
✐
✐
64 Analise de Correspondencia Cap.3
isto e, e a distancia quadratica em RJ , definida pela matriz ΣB =
diag
(1
p···1, · · · , 1
p···J
)·
Demonstracao. Sejam j1 e j2 dois ındices tais que pAj1 = pAj2 , isto e,pij1p···j1
=pij2p···j2
para todo i = 1, . . . , I.
Podemos entao grupar as classes Bj1 e Bj2 numa nova classe Bj0 .Temos entao
nij0 = nij1 + nij2 para todo i = 1, . . . , I e
n···j0 = n···j1 + n···j2 .
Comonij1
n···j1=
nij2
n···j2=
nij1 + nij2
n···j1 + n···j2=
nij0
n···j0,
temos
(*)pij1p···j1
=pij2p···j2
=pij0p···j0
para todo i = 1, . . . , I
Podemos escrever entao:
d2(Ai, Ai′) =J∑
j=1
λ(p···j)
(pijpi···
− pi′jpi′···
)2
=
= λ(p···j1)
(pij1pi···
− pi′j1pi′···
)2
+ λ(p···j2)
(pij2pi···
− pi′j2pi′···
)2
+
+∑
j 6=j1j 6=j2
λ(p···j)
(pijpi···
− pi′jpi′···
)2
·
Para que a propriedade de invariancia seja satisfeita, e necessario esuficiente que:
λ(p···j1)
(pij1pi···
− pi′j1pi′···
)2
+ λ(p···j2)
(pij2pi···
− pi′j2pi′···
)2
=
= λ(p···j0)
(pij0pi···
− pi′j0pi′···
)2
,
“RAIZ”2014/10/28page 65
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 65
ou seja que
λ(p···j1)p···j21
(pij1
pi··· p···j1
pi′j1pi′··· p···j1
)2
+
+ λ(p···j2)p2···j2
(pij2
pi··· p···j2− pi′j2
p′i ··· p···j2
)2
= λ(p···j0)p2···j0
(pij0
pi··· p···j0− pi′j0
pi′··· p···j0
)2
·
Por (pagina anterior), as expressoes entre parentesis sao iguais. Logotemos a igualdade:
λ(p···j1) p2···j1 + λ(p···j2) p
2···j2 = λ(p···j0) p
2···j0
para quaisquer p···j1 > 0, p···j2 > 0, com p···j0 = p···j1 + p···j2 .
O resultado segue entao do seguinte lema.
Lema. Se λ e uma funcao contınua definida nos reais positivos, satis-
fazendo a relacao
λ(a)2 a2 + λ(b) b2 = λ(a+ b)(a+ b)2,
entao λ(a) =c
aonde c = λ(1) e uma constante > 0.
Demonstracao. Mostra-se recursivamente que λ(na) =1
nλ(a) para
todo a > 0, n inteiro positivo. Segue entao que λ(n) =1
nλ(1) para
todo inteiro positivo. Mostra-se depois que λ(mn
)=
1
(m/n)λ(1) para
quaisquer inteiros positivos m e n. E entao, segue por continuidade que
λ(a) =1
aλ(1) para todo a > 0.
Analogamente, a distancia entre duas classes Bj e Bj′ , e dada por
d2(Bj , Bj′) =∥∥pAj − pAj′
∥∥2ΣA =
I∑
i=1
1
pi···
(pijp···j
− pij′
p···j′
)2
onde ΣA = diag
(1
p1···, · · · , 1
pI···
)·
Observacao 1. Se as classes Bj1 e Bj2 tem o mesmo perfil e sao gru-padas na classe Bj0 , entao
d2(Bj , Bj0) = d2(Bj , Bj1) = d2(Bj , Bj2) para todo j = 1, . . . , J.
“RAIZ”2014/10/28page 66
✐
✐
✐
✐
✐
✐
✐
✐
66 Analise de Correspondencia Cap.3
Esse fato segue diretamente de (*).
Observacao 2. Os valores λj =1
p···jem
d2(Ai, Ai′) =J∑
j=1
1
p···j
(pijpi···
− pi′jpi′···
)2
tem a propriedade de atenuar as disparidades causadas pelos diferentescontingentes n···j das classes Bj . Isto e, se p···j0 fosse consideravelmente
menos (mais) que os outros p···j ,(pij0pi···
− pi′j0pi′···
)2tenderia a ter um papel
muito mais (menos) importante que as demais parcelas na distancia
euclidianaJ∑
j=1
(pijpi···
− pi′jpi′···
)2.
Lembramos que nosso objetivo e a representacao simultanea das clas-ses Ai e Bj em um espaco de dimensao p menor que I e J . Pode-mos entao fazer uma analise de componentes principais para as classesA1, . . . , AI , representadas por seus perfis pB1 , . . . , p
BI e com a distancia
acima definida. Como essas classes tem, em geral, contingentes diferen-tes, e razoavel dar-lhes pesos µA
1 , . . . , µAI iguais as suas frequencias, isto
e, µAi = pi··· para todo i = 1, . . . , I. Fazemos o mesmo com as classes
B1, . . . , BJ , com pesos µBj = p···j para todo j = 1, . . . , J . Na proxima
secao, daremos propriedades dessas representacoes e relacoes entre elas.
3.2 Resultados
Consideremos as matrizes PB de dimensao I×J e PA de dimensao J×I,cujas linhas sao, respectivamente, os perfis das classes A1, . . . , Ai e osperfis das classes B1, . . . , BI , isto e:
PB = ΣAP =
(pB1)′
...(pBI)′
e PB = ΣBP =
(pA1)′
...(pAJ)′
Aplicaremos duas analises de componentes principais. A primeira,sobre os vetores pB1 , . . . , p
BI pertencentes ao espaco RJ munido do pro-
duto interno definida por ΣB e com pesos µAi = pi··· , i = 1, . . . , I. A
“RAIZ”2014/10/28page 67
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 67
segunda, sobre os vetores pA1 , . . . , pAJ pertencentes ao espaco RI munido
do produto interno definido por ΣA e com pesos µBj = p···j , j = 1, . . . , J .
Sejam
(pB···)′=( I∑
i=1
µAi pBi
)′= (p···1, . . . , p···j) e
(pA···)′=( J∑
j=1
µBj pAj
)′= (p1···, . . . , pI···) ,
os vetores medias ponderadas, respectivamente, dos vetores pBi e pAJ .Sejam xBi = pBi − pB··· e xAj = pAj − pA··· seus desvios.
Aplicamos agora o Teorema 2.1. Temos entao: (i) as matrizes decovariancia amostral
CB =I∑
i=1
µAi xBi (x
Bi )
′ =I∑
i=1
pi··· pBi (p
Bi )
′ − pB··· (pB··· )
′ =
= (pB)′(ΣA)−1(pB)− pB··· (pB··· )
′ = P ′ΣAP − pB··· (pB··· )
′
e
CA =J∑
j=1
µBj xAj (x
Aj )
′ = P ΣB P ′ − pA··· (pA··· )
e (ii) as matrizes
UB = (uB1 , . . . , uBJ ), (ΣB)−1 − ortonormal e
UA = (uA1 , . . . , uAI ), (ΣA)−1 − ortonormal
tais que:ΣB CB UB = ΛB UB
eΣACA UA = ΛA UA
onde ΛB = diag(λB1 , . . . , λ
BJ ) e ΛA = diag(λA
1 , . . . , λAI ) com
λB1 ≥ · · · ≥ λB
J ≥ 0 e λA1 ≥ · · · ≥ λA
I ≥ 0.
Ainda pelo Teorema 2.1, Fα(i) = (uBα )′ xBi e Gα(j) = (uAα )
′ xAj sao,respectivamente, as α-esimas componentes principais das classes Ai eBj .
“RAIZ”2014/10/28page 68
✐
✐
✐
✐
✐
✐
✐
✐
68 Analise de Correspondencia Cap.3
Teorema 3.1.
(i) O vetor uBJ = IJ = (1, . . . , 1)′ e autovetor de ΣB CB associado ao
autovalor λBj = 0.
O vetor uAI = 1A = (1, . . . , 1)′ e autovetor de ΣACA associado ao
autovalor λAi = 0.
(ii) Os autovetores uBα , α = 1, . . . , J − 1 satisfazem:
(pB··· )′ uBα =
B∑j=1
p···j uBα (j) = 0.
Os autovetores uAα , α = 1, . . . , I − 1 satisfazem:
(pA··· )′ uAα =
I∑i=1
pi··· uAα (i) = 0.
(iii) A matriz HB = ΣB P ′ΣA P de termo geral hjj′ =1
p···j
I∑i=1
pij pij′
pi···tem como autovetores uBα , 1 ≤ α ≤ J , associados aos autovalores
λB1 , . . . , λ
BJ−1 e λJ = 1.
A matriz HA = ΣA P ΣB P ′ de termo geral hii′ =1
pi···
J∑j=1
pij pij′
p···jtem como autovetores uAα , 1 ≤ α ≤ I, associados aos autovalores
λA1 , . . . , λ
AI−1 e λI = 1.
(iv) A matriz simetrica SB = (ΣB)1/2 P ′ΣA P (ΣB)1/2 de termo geral
SBjj′ =
I∑i=1
pij pij′
pi···√p···j p···j′
tem os mesmos autovalores que a matriz
HB e seus autovetores dBα sao ortonormais e satisfazem dBα =(ΣB)−1/2 uBα , isto e, dBα (j) =
√p···j uBα (j).
A matriz simetrica SA = (ΣA)1/2 P ΣB P ′(ΣA)1/2 de termo geral
SAii′ =
J∑j=1
pij pi′jp···j
√pi··· pi′···
tem os mesmos autovalores que a matriz HA e
seus autovetores dAα sao ortonormais e satisfazem dAα = (ΣA)−1/2 uAα ,
isto e, dAα (i) =√pi··· uAα (i).
(v) Os autovalores nao nulos de ΣB CB coincidem com os autovalores
nao nulos de ΣACA.
“RAIZ”2014/10/28page 69
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 69
(vi) Se λα > 0, entao
uBα =1√λα
ΣBP ′uAα , isto e, uBα (j),=
=1√λα
I∑
i=1
pijp···j
uAα (i), j = 1, . . . , J.
uAα =1√λα
ΣAPuBα , isto e, uAα (i) =
=1√λα
J∑
j=1
pijpi···
uBα (j), i = 1, . . . , I.
(vii) Sejam Fα = (Fα(1), . . . , Fα(I))′ e Gα = (Gα(1), . . . , Gα(J))
′. Entaose λα > 0, temos:
Fα =√λαu
Aα
e
Gα =√λαu
Bα
(viii) Se λα > 0, entao
Fα =1√λα
ΣAPGα , isto e, Fα(i) =1√λα
J∑
j=1
pijpi···
Gα(j), i = 1, . . . , I,
e
Gα =1√λα
ΣAP ′Fα , isto e, Gα(j) =1√λα
I∑
i=1
pijp···j
Fα(i), j = 1, . . . , J.
(ix) λα ≤ 1 para todo α.
Demonstracao. (i) Mostremos qye ΣB CB 1J = 0. Logo precisamosmostrar que a soma em cada linha de ΣB CB e igual a zero.
Como ΣB CB = ΣB P ′ΣAP − ΣB pB···(pB···)′, se Cb = (cBjj′), temos
J∑
j′=1
cjj′
p···j=
J∑
j′=1
1
p···j
I∑
i=1
pij pij′
pi···i−
J∑
j′=1
p···j p···j′
p···j=
=1
p···j
I∑
i=1
pijpi···
J∑
j′=1
pij′ −J∑
j′=1
p···j′ = 1− 1 = 0.
“RAIZ”2014/10/28page 70
✐
✐
✐
✐
✐
✐
✐
✐
70 Analise de Correspondencia Cap.3
(ii) Segue imediatamente do fato de que os uBα ’ sao(ΣB)−1
-ortonormaise uBJ = 1J .
(iii) Vimos em (i) que ΣB CB = HB − ΣB pB···(pB···)′. Logo para
1 ≤ α ≤ J − 1
λBα uBα = ΣB CB uBα = HB uBα − ΣB pB···
(pB···)′uBα
e o resultado segue de (ii).
Para α = J , o resultado segue da demonstracao de (i) onde mostra-mos que HB 1J = 1J .
(iv) HB uBα = ΣB P ′ΣA P uBα = λbα u
Bα .
Logo
(ΣB)1/2
P ′ΣA P(ΣB)1/2 (
ΣB)−1/2
uBα = λBα
(ΣB)−1/2
uBα
ou seja SB dBα = λBα dBα .
Logo os autovalores de SB e HB sao os mesmos e dBα =(ΣB)−1/2
uBαsao os autovetores de SB.
Alem disso,(dBα)′(
dBα′
)=(uBα)′(
ΣB)−1/2 (
ΣB)−1/2
uBα′ = δαα′ e por-
tanto os dB′
α sao ortonormais.
(v) Segue do fato que
SB =(ΣB)1/2
P ′(ΣA)1/2 (
ΣA)1/2
, P(ΣB)1/2
= L′L
eSA =
(ΣA)1/2
P(ΣB)1/2 (
ΣB)1/2
P ′(ΣA)1/2
= LL′
onde L =(ΣA)1/2
P(ΣB)1/2
.
(vi) Como SB = L′L e SA = LL′ e os dBα ’ e os dAα ’ tem norma 1, temos
dBα =1√λα
L′ dAα e dAα =1√λα
LdBα .
Logo(ΣB)1/2
uBα =1√λα
(ΣB)1/2
P ′(ΣA)1/2 (
ΣA)−1/2
uAα
ou seja uBα =1√λα
ΣB P ′ uAα .
“RAIZ”2014/10/28page 71
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 71
Analogamente uAα =1√λα
ΣA P uBα .
(vii) Fα(i) =(xBi)′uBα =
(pBi − pB···
)′uBα =
(pBi)′uBα devido a (ii).
Logo Fα = PB uBα = ΣA P uBα =√λα u
Aα por (vi).
Analogamente Gα =√λα u
B.
(viii) Imediato de (vii) e (vi).
(ix) Suponhamos que λα > 1. Entao1√λα
< 1.
Logo por (vi), mini
uAα (i) < uBα (j) < maxi
uAα (i) para todo j, poisI∑
i=1pi··· uAα (i) =
0 implica mini
uAα (i) < 0 < maxi
uAα (i).
Consequentemente mini
uAα (i) < minj
uBα (j) < maxj
uBα < maxi
uAα (i).
Novamente por (vi) e (ii), temos
minj
uBα (j) < uAα (i) < maxj
uAα (j)
o que implica mini
uAα (i) < minj
uBα (i) < mini
uAα (i). Portanto chegamos a
uma contradicao e λα tem que ser ≤ 1.
Observacoes
a)Na pratica, calculamos primeiro, os autovalores e autovetores damatriz SB (ou SA), que e uma matriz simetrica. Descartamos, entao, omaior autovalor 1 e seu autovetor associado
dB =
(1√p···1
, · · · , 1√p···J
)′ (dA =
(1√p···i
, · · · , 1√p···I
)′)·
b) O item (viii) nos diz que a α-esima coordenada da linha i e, amenos de uma dilatacao, a media ponderada das α-esimas coordenadasdas colunas, o peso da j-esima coluna sendo a frequencia condicionaldessa coluna dado a i-esima linha, isto e, pij/pi··· . E vice-versa.
Assim, se λα proximo de 1 e sepijpi···
grande (proximo de 1), a α-esima
coordenada da linha i devera estar proxima da α-esima coordenada dacoluna j.
Esse fato justifica a representacao simultanea das linhas e colunasno mesmo grafico.
“RAIZ”2014/10/28page 72
✐
✐
✐
✐
✐
✐
✐
✐
72 Analise de Correspondencia Cap.3
3.3 Formulacoes Equivalentes
(i) Metodo do escore de Fisher para tabelas de contingencia.
Seja P = (pij)1≤i≤I1≤j≤J
uma tabela de contingencia,∑i
∑jpij = 1. Po-
demos considerar pij como uma estimativa da probabilidade de ocorrenciado par (i, j). O metodo consiste em determinar funcoes f e g definidassobre {1, . . . , I} e {1, . . . , J} respectivamente, tais que tenham correlacaomaxima.
Para que esse problema tenha solucao, e necessario impor restricoesas funcoes f e g. Como e natural, impomos as restricoes de que asfuncoes f e g tenha media zero e variancia igual a um.
Logo, queremos maximizar cor(f, g) =∑i
∑jf(i)g(u)pij sujeito as
restricoes
Ef =∑
i
f(i)pi··· = 0, Eg =∑
j
g(j)p···j = 0
Var f =∑
i
f2(i)pi··· = 1, Var g =∑
j
g2(j)p···j = 1.
Nesse caso, o metodo e equivalente a determinar funcoes f e g satis-fazendo as restricoes acima e que minimizem E(f − g)2 =
∑i
∑j(f(i) −
g(j))2 pij .
De fato,
E(f − g)2 =∑
i
f2(i)pi··· +∑
j
g2(j)p···j − 2∑
i
∑
j
f(i)g(j)pij .
Logo E(f − g)2 = 2− 2 cor(f, g).
Uma vez achados f e g, podemos procurar funcoes f2 e g2 , defini-das em {1, . . . , I} e {1, . . . , J} respectivamente, que tenham correlacaomaxima, media zero, variancia um e sejam nao correlacionadas com f eg, isto e, procuramos funcoes f1 e f2 que maximizem
∑i
∑jf2(i)g2(j)pij
“RAIZ”2014/10/28page 73
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 73
sujeitas as restricoes.
Ef2 =∑
i
f2(i)pi = 0, Eg2 =∑
j
g2(j)p···j = 0,
Var f2 =∑
i
f22 (i)pi··· = 1, Var g2 =
∑
j
g22(j)p···j = 1,
cor(f, f2) =∑
i
f(i)f2(i)pi··· = 0, cor(g, g2) =∑
j
g(j)g2(j)p···j = 0,
cor(f, g2) =∑
i
∑
j
f(i)g2(j)pij = 0, corf2, g) =∑
i
∑
j
f2(i)g(j)pij = 0.
e assim por diante.
Os valores fα(i) e gα(j) sao chamados de α-esimos escores. Essemetodo esta descrito em Hirschfield (1935), Fisher (1940), Williams(1952), Kendall & Stuart (1961, pg. 569), Benzecri (1973), Lancaster(1969) e Hill (1974). Em particular, Kendall & Stuart (1961) forneceuma justificacao teorica baseada na distribuicao normal.
As funcoes f1, g1, f2, g2, etc... . Sao usualmente obtidas, utilizando-se, em cada etapa, os multiplicadores de Lagrange.
Mais geralmente, e usando-se notacao matricial, procuramos funcoesf1, . . . , fr definidas em {1, . . . , I} e funcoes g1, . . . , gr definidas em{1, . . . , J} tais que
(a) Efα =∑ifα(i)pi··· = 0 α = 1, . . . , r
Var fα =∑if2α(i)pi = f ′
α
(ΣA)−1
fα = 1,
onde
fα = (fα(1), . . . , fα(I))′, α = 1, . . . , r,
cor(fα, fα′) =∑ifα(i)fα′(i)pi··· = fα
(ΣA)−1
fα′ = 0 α 6= α′
(b) Egα =∑jgα(j)p···j = 0 α = 1, . . . , r
Var gα =∑jg2α(j)p···j = g′α
(ΣB)−1
gα = 1,
“RAIZ”2014/10/28page 74
✐
✐
✐
✐
✐
✐
✐
✐
74 Analise de Correspondencia Cap.3
onde
gα = (gα(1), . . . , gα(J))′, α = 1, . . . , r,
cor(gα, gα′) =∑jgα(j)gα′(j)p···j = gα′
(ΣB)−1
gα′ = 0 α 6= α′
(c) cor(fα, g′α) =
∑i
∑jfα(i)gα′(j)pij = f ′
α P gα′ = 0 α 6= α′
e que maximizemr∑
α=1cor(fα, gα) =
r∑α=1
f ′α P gα .
Como visto na Proposicao 8 do Capıtulo 1, a solucao desse problemae dada pelos vetores uAα e uBα , α = 1, . . . , r, autovetores das matrizesΣA P ΣB P ′ e ΣB P ′ΣA P , respectivamente, e associados aos autovaloresλ1 ≥ λ2 ≥ · · · ≥ λr . Isto e, fα(i) = uAα (i) e gα(j) = uBα (j), α = 1, . . . , r.Temos ainda pelo Teorema 2, que cor(fα, gα) =
√λα;
Observacao 1. Temos, essencialmente, a mesma solucao da analisede correspondencia, pois Fα(i) =
√λα u
Aα (i) e Gα(j) =
√λα u
Bα (j),
α = 1, . . . , r, i = 1, . . . , I e j = 1, . . . , J .
Observacao 2. O fato de que cor(fα, gα) = cor(uAα , uBα ) =
√λα , nos
da uma outra demonstracao de que λα ≤ 1.
Observacao 3. Os autovetores 1I e 1J de ΣA P ΣB P ′ e ΣB P ′ΣA P ,respectivamente, associados ao maior autovalor 1, nao satisfazem a res-tricao Ef = Eg = 0.
Observacao 4. O fato de que uAα e uBα minimizam E(fα(i)− gα(j)
)2=∑
i
∑j
(fα(i)−gα(j)
)2pij , nos da uma outra interpretacao a representacao
por nos obtida. Pois, nesse caso pij grande em relacao aos outros implicauAα (i) ≃ uBα (j), o que por sua vez implica Fα(i) ≃ G(j). E quanto maior√λα = cor(uAα , u
Bα ), mais verdadeiro e esse fato.
“RAIZ”2014/10/28page 75
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 75
(ii) Analise de correspondencia como um metodo de escala-mento simultaneo.
Suponhamos que temos uma tabela numerica N = (nij)1≤i≤I1≤j≤J
talque
nij ≥ 0, ni··· > 0, n···j > 0 para todo 1 ≤ i ≤ I, 1 ≤ j ≤ J . SejaP = (pij)1≤i≤I
1≤j≤J, pij = nij/n, onde n =
∑i
∑jnij , a tabela normali-
zada de frequencias. Podemos pensar, por exemplo, em uma tabela decontingencia.
Consideremos o seguinte problema: Queremos obter escores xi paraas linhas (classes Ai) e escores yj para as colunas (classes Bj) sobreum mesmo eixo tal que cada escore xi seja uma media ponderada dosescores yj , sendo o peso atribuıdo a yj igual a importancia relativa dacoluna j (classe Bj) em relacao a linha i (classe Ai), isto e, pij/pi . Dessamaneira, queremos
xi =∑
j
pijpi···
yj .
Analogamente, queremos
yj =∑
i
pijp···j
xi .
Em notacao matricial, sendo ΣA, Σb, como antes, X = (x1, . . . , xi)′
e Y = (y1, . . . , yj)′, temos
X = ΣA P Y
e
Y = ΣB P ′X.
E claro que a solucao trivial X = II , e Y = 1J nao e interessante.Em geral, nao existem outras solucoes do problema da maneira comoesta apresentado.
Uma modificacao possıvel, e ter os escores proporcionais a mediaponderada, isto e,
xi = β∑
j
pijpi···
yj e yj = β∑
i
pijp···j
xi
“RAIZ”2014/10/28page 76
✐
✐
✐
✐
✐
✐
✐
✐
76 Analise de Correspondencia Cap.3
com β tao proximo de 1 quanto possıvel, ou em notacao matricial
X = β ΣA P Y e Y = β ΣB P ′, X,
o que equivale a termos
X = β2ΣA P ′ΣB P ′X e Y = β2ΣB P ′ΣA P Y.
Temos, entao, que X deve ser autovetor de HA = ΣA P ΣB P ′ e Ydeve ser autovetor de HB = ΣB P ′ΣA P , ambos associados ao autovalor1/β2.
Essa modificacao e razoavel pois se partirmos de uma solucao inicialX0 6= 1I , definirmos Y0 = ΣB P ′X0 , X1 = ΣA P ′ Y0 , Y1 = ΣB P ′X1
e iterarmos, teremos:
Xn =(ΣA P ΣB P ′)nX0 e Yn =
(ΣB P ′ΣA P
)nY0 .
Sabemos que (ver por exemplo, Morrison (1967)) que se em cadaetapa, normalizamos Xn e Yn , Xn converge a um autovetor de HA eYn converge a um autovetor de HB.
Ver tambem Hill (1974) para motivacao.
Como vimos antes, HA e HB tem os mesmos autovalores e esses saosempre ≤ 1. Logo, como procuramos β tao proximo de 1 quanto possıvel,a solucao procurada e X = uA1 e Y = uB1 associados ao autovalor
λ1 =1
β2·
Podemos estender de maneira natural esse escalamento em um eixo, aum escalamento em k eixos ortonormais, ortonormalidade essa, definidaapropriadamente para as linhas e as colunas, e cuja solucao e X(α) = uAαe Y
(α)α = Y (α) = uBα , α = 1, . . . , k.
Logo, temos novamente, essencialmente, a solucao da analise de cor-respondencia.
3.4 Exemplos de tipos de tabela
Ja mencionamos varias vezes a tabela de contingencia A×B. Daremosexemplos, agora de outros tipos de tabela que podem ser considerados.
“RAIZ”2014/10/28page 77
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 77
(i) Tabelas de contingencia multivariadas.
Suponhamos que temos uma tabela de contingencia a 3 dimensoesA×B×C. Podemos tratar essa tabela, olhando as tabelas bidimensionaisA× (B × C), (A×B)× C e (A× C)×B.
Uma outra maneira de tratarmos o problema, quando estamos inte-ressados em explicar, digamos a categoria A, e considerarmos as tabelasA×B e A× C justapostas como na figura
B1 . . . Bj C1 . . . CK
A1...AI
E claro que podemos estender os conceitos acima, a tabelas de di-mensao maiores. No primeiro caso, caımos sempre numa tabela de con-tingencia bivariada. Consideremos entao o segundo caso em que temosjustaposicao de tabelas de contingencia bivariadas.
Consideremos entao, a categoria A com classes Ai = i = 1, . . . , I e
categorias B(q), q = 1, . . . , Q, a categoria B(q) com Jq classes B(q)j . For-
memos a tabela abaixo que e a justaposicao das tabelas de contingencia.A×B(q), q = 1, . . . , Q.
A�B B(1)1 . . . B
(1)J1
B(2)1 . . . B
(2)J2
. . . B(Q)1 . . . B
(Q)JQ
A1 n(1)11 n1J1 n
(2)11 n
1J(2)2
n(Q)11 n
(Q)1JQ
Qn1···
.
.
.
AI n(1)I1 n
(1)IJ1
n(2)I1 n
(2)IJ2
n(Q)I1 n
(Q)IJQ
QnI···
n(1)···1 n
(1)···J1
n(2)···1 n
(2)···J2
n(Q)···1 n
(Q)···JQ
Qn
Seja
n(q)ij = numero de elementos na classe Ai e classe B
(q)j ,
ni··· = numero de elementos na classe Ai
n(q)···j = numero de elementos na classe B
(q)j .
“RAIZ”2014/10/28page 78
✐
✐
✐
✐
✐
✐
✐
✐
78 Analise de Correspondencia Cap.3
Entao, usando-se a notacao com o subscrito q para a tabela A×B(q)
e sem o subscrito para a tabela geral, temos:
pi··· =Qni
Qn=
ni···n
= p(q)i para todo q = 1, . . . , Q,
p···j =n···jQn
=n(q)···j′
Qn=
1
Qp(q)···j′ para algum q e j′, e
pij =nij
Qn=
n(q)ij′
Qn=
1
Qp(q)ij′ para algum q e j′.
Logo
D2(Ai, Ai′) =
J1+···+JQ∑
j=1
1
p···j
(pijpi···
− pi′jpi′···
)2
=
=
Q∑
q=1
Jq∑
j=1
Q
p(q)···j
1
Q2
p
(q)ij
pi···−
p(q)i′j
p′i···
2
=1
Q
Q∑
q=1
[d(q)(Ai, Ai′)
]2,
isto e, o quadrado da distancia entre as classes Ai e Ai′ e a mediaaritmetica dos quadrados das distancias entre as classes Ai e Ai′ nastabelas A×B(q).
Temos tambem
d2(B
(q)j , B
(q′)j′
)=
I∑
i=1
1
pi···
p
(q)ij
p(q)···j
−p(q′)ij′
p(q′)···j′
2
·
Logo se q = q′; d2(B
(q)j , B
(q′)j′
)=[d(q)
(B
(q)j , B
(q)j′
)]2, isto e, a distancia
entre duas classes na mesma categoria B(q) permanece a mesma. E seduas classes, em categorias diferentes tem perfis parecidos, elas estaoproximas.
Vejamos agora, o que acontece com as coordenadas Fα e Gα .
Gα(j) =1√λα
I∑
i=1
pijp···j
Fα(i)
“RAIZ”2014/10/28page 79
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 79
e
Fα(i) =1√λα
J1+···+JQ∑
j=1
pijpi···
Gα(j) =1√λα
Q∑
q=1
Jq∑
j=1
1
Q
p(q)ij
pi···Gα(j) =
=1
Q
Q∑
q=1
1√
λα
Jq∑
j=1
p(q)ij
pi···Gα(j)
·
(ii) Tabelas de incidencia
Suponhamos I indivıduosAi eQ criterios ou perguntasB(1), . . . , B(Q).A pergunta B(q) e composta de Jq itens exclusivos, isto e, cada indivıduoso pode responder a um item da pergunta e tem que responder um deles.
Seja n(q)ij =
{1 se Ai responde B
(q)j
0 se Ai nao responde B(q)j
Temos entao a tabela
A�B B(1)1 . . . B
(1)J1
. . . B(Q)1 . . . B
(Q)JQ
A1 n(1)11 . . . n
(1)1J1
. . . n(Q)11 . . . n
(Q)1JQ
Q...
AI n(1)I1 n
(1)IJ1
n(Q)I1 n
(Q)IJQ
Q
n(1)···1 n
(1)···J1 n
(Q)···1 n
(Q)···JQ IQ
Segue entao que p(q)ij =
n(q)ij
Iem cada tabela A×B(q) e que na tabela
geral
pij =nij
IQ=
1
Q
n(q)ij′
I=
1
Qp(q)ij′ para algum q e j′.
Temos tambem p(q)i··· = pi··· =
1
Ie p···j = 1
Q p(q)···j′ para q e j′.
Consideremos a distancia entre dois indivıduos.
D2(Ai, Ai′) =
J1+···+JQ∑
j=1
1
p···j
(pijpi···
− pi′jpi′···
)2
=
“RAIZ”2014/10/28page 80
✐
✐
✐
✐
✐
✐
✐
✐
80 Analise de Correspondencia Cap.3
=
Q∑
q=1
JQ∑
j=1
IQ
n(q)···j
n
(q)ij − n
(q)i′j
Q
2
=1
Q
Q∑
q=1
Jq∑
j=1
1
n(q)···j
(n(q)ij − n
(q)i′j
)2·
Como n(q)ij = 1 ou 0 e n
(q)ij = 1 somente para um j em [1, Jq], seja
j(i, q) tal que n(q)ij(i,q) = 1. Entao
d2(Ai, Ai′) =I
Q
∑
q
1
n(q)···j(i,q)
+1
n(q)···j(i′,q)
δ
(q)ii′ =
=I
Q
∑
q
n
(q)···j(i,q) + n···j(i′,q)
n(q)···j(i,q) n
(q)···j(i′,q)
δ
q)ii′
onde
δ(q)ii′ =
{1 se j(i, q) 6= j(i′q)
0 caso contrario
No caso Jq = 2, q = 1, . . . , Q, temos
d2(Ai, Ai′) =I
Q
∑
q
I δii′
n(q)···1(I − n
(q)···1) =
1
Q
∑
q
1
p(q)···1(1− p
(q)···1) δ(q)ii′ .
O termo1
p(q)···1(1− p
(q)···1) δ(q)ii′ mede a distancia entre os indivıduos Ai e Ai′
com respeito a pergunta q. Se a resposta e a mesma, essa distancia enula, se a resposta e diferente, essa distancia depende de quao frequentessao cada um dos itens e quanto menos frequente um dos itens de resposta,
maior a distancia. Observemos que p(q)···1(1 − p
(q)···1)e a variancia de uma
distribuicao binomial com probabilidade p(p)···1 de sucesso.
Finalmente, d2(Ai, Ai′) e a media aritmetica dos quadrados das distan-cias dos indivıduos Ai e Ai′ com respeito as Q perguntas.
No caso geral, como B(q)J e B
(q)j′ sao disjuntos, podemos considerar a
frequencia conjunta das duas classes:
p(B
(q)j ∪B
(q)j′
)=
n(q)···j + n
(q)···j′
I= p
(q)···j + p
(q)···j′ ,
“RAIZ”2014/10/28page 81
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 81
e a frequencia condicional da classe B(q)j dada B
(q)j ∪B
(q)j′ :
p(B
(q)j
∣∣B(q)j ∪B
(q)j′
)=
n(q)···j
n(q)···j + n
(q)···j′
=p(q)···j
p(q)···j + p
(q)···j′
·
Temos entaod2(Ai, Ai′) =
=1
Q
∑
q
δii′
p(B
(q)
j(i,q) ∪B(q)
j(i′,q)
)p(B
(q)
j(i,q)
∣∣B(q)
j(i,q) ∪B(q)
j(i′,q)
)p(B
(q)
j(i′,q)
∣∣B(q)
j(i,q) ∪B(q)
j(i′,q)
)
e a interpretacao e a mesma que no caso particular. Por outro lado,
d2(B
(q)j , B
(q′)j′
)=
I∑
i=1
1
1/I
n
(q)ij
n(q)···j
−n(q′)ij′
n(q′)···j′
2
=
= II∑
i=1
n(q)ij[
n(q)···j
]2 +n(q′)ij′[
n(q′)···j′]2 − 2
n(q)ij n
(q′)ij′
n(q)···j − n
(q′)···j′
=
= I
1
n(q)···j
+1
n(q′)···j′
− 2
I∑i=1
n(q)ij n
(q′)ij′
n(q)···j n
(q1)···j′
=
= I
n(q)···j + n
(q′)···j′ − 2
I∑i=1
n(q)ij n
(q′)ij′
n(q)ij n
(q′)···j′
·
Chamando-se ♯B(q)j = n
(q)···j = numero de indivıduuos que responde-
ram o item j da pergunta q, B(q)j ∩ B
(q′)j′ ao conjunto dos indivıduos
que responderam simultaneamente o item j da pergunta q e o item j′ dapergunta q′, e finalmente denotando-se a diferenca simetrica de B
(q)j e
B(q′)j′ por B
(q)j △ B
(q′)j′ , isto e, o conjunto dos indivıduos que responderam
o item j da pergunta q, mas nao o item j′ da pergunta q′ e vice-versa,temos
d2(B
(q)j , B
(q′)j′
)= I
♯B(q)j + ♯B
(q′)j′ − 2♯B
(q)j ∩B
(q′)j′
♯B(q) ♯B(q′)=
“RAIZ”2014/10/28page 82
✐
✐
✐
✐
✐
✐
✐
✐
82 Analise de Correspondencia Cap.3
= I♯(B
(q)j △ B
(q′)j′
)
♯B(q)j ♯B
(q′)j′
=♯(B
(q′)j △ B
(q′)j′
)/I
p(q)···j p
(q′)···j′
·
No caso q = q′, ♯(B
(q)j ∩B
(q′)j′
)= 0 para j 6= j′ e temos:
d2(B
(q)j , B
(q)j′
)=
=1
p(B
(q)j ∪B
(q)j′
)p(B
(q)j
∣∣B(q)j ∪B
(q)j′
)p(B
(q)j′
∣∣B(q)j ∪B
(q)j′
) ·
Com respeito as representacoes simultaneas, temos:
Fα(i) =1√λα
J1+···+JQ∑
j=1
pijpi···
Gα(j) =1√λα
1
Q
Q∑
q=1
Gα(j(i, q))
e
Gα(j) =1√λα
I∑
i=1
pijp···j
Fα(i) =1√λα
I∑
i=1
nij
n···jFα(i).
Logo a α-esima coordenada do i-esimo indivıduo e a menos de umadilatacao, a media aritmetica das α-esimas coordenadas dos itens porele respondido e a α-esima coordenada do item j e a menos de umadilatacao, a media aritmetica das α-esimas coordenadas dos indivıduosque a responderam.
(iii) Tabelas de intensidade
Consideremos I indivıduos A1, . . . , AI , por exemplo, estudantes, esejam B(1). . . . , B(Q), Q criterios, por exemplo, disciplinas escolares.Suponhamos que as notas em cada disciplina variem de 0 a T , e seja x+iqa nota do i-esimo indivıduo na q-esima disciplina. Assim como consi-deramos essa nota de “bondade” x+iq , podemos considerar uma nota de
“ruindade” x−iq = T − x+iq e considerar a seguinte tabela
A�B B(1)+ B(1)− . . . B(Q)+ B(Q)−
A1 x+11 x−11 x+1Q x−1Q QT...
AI x+I1 x−I1 x+IQ x−IQ QT
x+···1 x−···1 x+···Q x−···1 IQT
“RAIZ”2014/10/28page 83
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 83
Essa tabela e uma generalizacao da tabela de incidencia, caso Jq = 2,para todo q, e do princıpio de se registrar ao mesmo tempo presenca eausencia. Ela tem a propriedade de que os indivıduos tem o mesmopeso, tornando os perfis dos indivıduos comparaveis.
Interpretemos as distancias.
d2(Ai, Ai′) =
Q∑
q=1
IQT
x+···q
[x+iq/IQT
1/I−
x+i′q/IQT
1/I
]2+
+∑
q=1
IQT
x−···q
[x−iq/IQT
1/I−
x−i′q/IQT
1/I
]2=
=I
QT
Q∑
q=1
(1
x+···q+
1
x−···q
)(x+iq−x+i′q
)2=
I2
Q
Q∑
q=1
1
x+···q(IT−x+···q)
(x+iq−x+i′q
)2=
=1
Q
Q∑
q=1
1
x+···qIT
(1−
x+···qIT
)(x+iqT
−x+i′qT
)2
·
De novo, encontramos o inverso da variancia de uma binomial pon-derando o quadrado da diferenca das notas normalizadas dos indivıduosAi e Ai′ . Observemos que o caso da tabela de incidencia e um casoparticular do caso acima.
Desse modo, novamente, o quadrado da distancia enre os indivıduosAi e Ai′ e a media aritmetica dos quadrados das distancias em relacaoa cada disciplina.
Por outro lado, d2(B(q)+, B(q′)+
)= I
I∑i=1
(x+iq
x+···q−
x+iq′
x+···q′
)2
, que e a me-
nos de uma constante, o quadrado da distancia euclidiana entre os perfis
“RAIZ”2014/10/28page 84
✐
✐
✐
✐
✐
✐
✐
✐
84 Analise de Correspondencia Cap.3
de B(q)+ e B(q′)+ . Analogamente para (−) no lugar de (+).
d2(B(q)+, B(q)−) = I
I∑
i=1
(x+iq
x+···q−
x−iqx−···q
)2
=
=IT 2
[x+···q(IT − x+···q
]2I∑
i=1
(Ix+iq − x+···q
)2=
=1
[x+···qIT
(1−
x+···qIT
)]21
I
I∑
i=1
(x+iqT
−x+i′qIT
)2
·
Assim, o quadrado da distancia entre B(q)+ e B(q)− e a razao entrea variancia amostral das notas normalizadas da disciplina B(q) e o qua-drado da variancia da binomial com parametro x+···q
/IT , que e a media
das notas normalizadas.
Quanto a representacao simultanea temos:
G+α (q) =
1√λα
I∑
i=1
x+iq
x+···qFα(i)
e
G−α (q) =
1√λα
I∑
i=1
x−iqx−···q
Fα(i).
Logo x+···q G+α (q) + x−···q G
−α (q) =
T√λα
I∑i=1
Fα(i) = 0.
Consequentemente, em qualquer eixo, G+α (q) e G−
α (q) tem sinais di-ferentes e sao inversamente proporcionais, em modulo, a x+···q e x−···q .
“RAIZ”2014/10/28page 85
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 85
Por outro lado,
Fα(i) =1√λα
Q∑
q=1
x+iq/IQT
1/IG+
α (q) +
Q∑
q=1
x−iq/IQT
1/IG−
α (q)
=
=1√λα
1
QT
Q∑
q=1
[x+iq G
+α (q) + x−iq G
−α (q)
]=
=1√λα
1
Q
Q∑
q=1
I x+iq − x+···qIT − x+···q
G+α (q) =
=1√λα
1
Q
Q∑
q=1
x+iq −
x+···qI
T −x+···qI
G+
α (q) =
=1√λα
1
Q
Q∑
q=1
x+iqT
−x+···qIT
1−x+···qIT
G+
α (q).
3.5 Relacao entre a tabela de contingencia e atabela de incidencia
Consideremos I indivıduos A1, . . . , AI e dois criterios B(1) e B(2), res-pectivamente com J1 e J2 itens exclusivos.
Podemos considerar entao a tabela de contingencia com J1 linhas,
J2 colunas e njj′ = ♯B(1)j ∩B
(2)j′ e a tabela de incidencia com I linhas e
J1 + J2 colunas conforme figuras a seguir.
B(1)�B(2) B(2)1 . . . B
(2)J2
B(1)1 n11 n1J2 n···1...
B(1)J1
nJ11 nJ1J2 nJ1···n···1 n···J2 n
“RAIZ”2014/10/28page 86
✐
✐
✐
✐
✐
✐
✐
✐
86 Analise de Correspondencia Cap.3
A�B B(1)1 . . . B
(1)J1
B(2)1 . . . B
(2)J2
A1 2...
...
AI 2
n(1)···1 n
(1)···J1 n
(2)···1 n
(2)···J2 2I
Essas duas tabelas estao em correspondencia 1-1, a menos de per-mutacao de linhas na tabela de incidencia.
Chamemos de Bi a tabela de incidencia A por B(i), i = 1, 2, e de
B = [B1...B2] a tabela de incidencia considerada obtida pela justaposicao
das tabelas B1 e B2 . Segue que a tabela de contingencia e dada porB′
1B2 .
(i) Relacao entre corelacao canonica sobre B[[B1;B2] e os es-cores de Fisher sobre B′
1B2 .
Facamos formalmente uma analise de correlacoes canonicas conside-rando os grupos de variaveis formados pelas colunas das tabelas B1 eB2 .
Queremos entao obter vetores x J1 × 1 e y J2 × 1 tais que maximi-zem a correlacao (B1x.B2y) sujeitos as restricoes EB1x = EB2y = 0 eVar B1x = Var B2y = 1.
Mas
EB1x =1
I
I∑
i=1
(B1x)i =1
I
J1∑
j=1
nj··· xj =J1∑
j=1
pj··· xj = 0
e
Var B1x =1
I
I∑
i=1
(B1x)2 =
1
I
J1∑
j=1
nj··· x2j =
J1∑
j=1
pj··· x2j = 1.
Analogamente
EB2y =
J2∑
j=1
p···j yj = 0 e Var B2y =
J2∑
j=1
p···j y2j = 1.
“RAIZ”2014/10/28page 87
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 87
E correlacao
(B1 x,B2 y) =1
I
I∑
i=1
(B1 x)i(B2 y)i =1
I
J1∑
j=1
J2∑
j=1
njj′ xj yj′ =
=
J1∑
j=1
J2∑
j′=1
pjj′xj yj′ .
Portanto recaımos no problema dos escores de Fisher para a tabelade contingencia B′
1B2 . E claro que podemos obter outras variaveiscanonicas da maneira usual.
(ii) Relacao entre as analises de correspondencia da tabela de con-
tingencia B′1B2 e da tabela de incidencia B = [B1
...B2].
Seja P =1
2IB, a tabela de incidencia normalizada.
Entao pi··· =2
2I
1
I, ΣA
P = diag
(1
p1···, . . . ,
1
pI···
)= I II×I e p
(i)···j =
n(i)···j2I
,
i = 1, 2, ΣBP = diag
(1
p(1)···1
, . . . ,1
p(1)···j1
,1
p(2)···1
, . . . ,1
p(2)···j2
)·
Logo
P(1)···j =
1
2pj··· 1 ≤ j ≤ J1 ,
p(2)···j =
1
2p···j 1 ≤ j ≤ J2
onde p···j e P···j referem-se as proporcoes na tabela B′1B2 e ΣB
P =
2
(ΣB1 00 ΣB2
)onde ΣB1 = diag
(1
p1···, . . . ,
1
pJ1···
)e ΣB2 =
diag
(1
p···1, . . . ,
1
p···J2
)·
“RAIZ”2014/10/28page 88
✐
✐
✐
✐
✐
✐
✐
✐
88 Analise de Correspondencia Cap.3
Logo
HBP = ΣB
P P ′ΣAP P =
ΣB1 0
0 ΣB2
1
2IB′ I II×I
1
2IB =
=1
2I
ΣB1 0
0 ΣB2
B′
1B1 B′1B2
B′2B2 B′
2B2
=
=1
2
ΣB1 0
0 ΣB2
(ΣB1
)−1PB′
1Bi
PB′
1B2
(ΣB2
)−1
=
=1
2
IJ1×J1 ΣB1 PB′
1B2
ΣB2 P ′B′
1B2IJ2×J2
onde PB′
1B2=
1
IB′
1B2 .
Mas HBP
a· · ·b
= µ
a· · ·b
se e somente se
1
2a+
1
2ΣB1 PB′
1B2b = µa
1
2ΣB2 P ′
B′
1B2a+
1
2b = µb
se e somente se
ΣB1 PB′
1B2b = (2µ− 1)a
ΣB2 PB′
1B2a = (2µ− 1)b
Reconhecemos entao a representacao simultanea das linhas e colunasda tabela de contingencia B′
1B2 . Logo aα = uB1α , bα = uB2
α e 2µα−1 =√λα ou seja µα =
1 +√λα
2·
A solucao aα = uB1α , bα = −uB2
α , 2µ′α − 1 = −
√λα ou seja
µ′α =
1−√λα
2nao e interessante, pois temos sempre µ′
α ≤ µα e estamos
interessados nos maiores autovalores.
“RAIZ”2014/10/28page 89
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 89
E importante notar que a α-esima coordenada de B(1)j na analise de
correspondencia da tabela de incidencia B = [B1, B2] e√µα u
B1α (j), en-
quanto que na analise da tabela de contingencia B′1B2 e
√λα u
B1α (j).
Da mesma maneira, para B(2)j , temos respectivamente
√µα u
B2α (j) e√
λα uB2α (j). Logo temos a mesma representacao a menos de uma ho-
motetia.
Na analise de correspondencia da tabela de incidencia B = [B1, B2],temos tambem a representacao dos indivıduos, e a coordenada do in-divıduo Ai no α-esimo eixo e
Fα(i) =1√µα
1
2
[√µα u
B1α (j) +
√µα u
B2α (j′)
]=
1
2
[uB1α (j) + uB2
α (j′)]
onde B(1)j e B
(2)j sao os itens escolhidos pelo indivıduo Ai .
3.6 Alguns comentarios sobre a tabela de in-cidencia
Seja B = [B1... · · · ...BQ] uma tabela de incidencia formada por I indivıduos
A1, . . . , AI e Q criterios B(1), . . . , B(Q), com J1, . . . , Jq itens exclusivos,respectivamente.
Podemos formar a tabela simetrica
B′B =
B′
1B1 . . . B′1BQ
......
B′QB1 . . . B′
QBQ
composta de todas as tabelas 2× 2.
E facil ver que no caso Q = 2, a correspondencia entre B, B′ e B′1B2
e 1-1 a menos de permutacoes nas linhas de B. Mas no caso Q > 2, issonao ocorre. Podemos ter tabelas de incidencia B e C distintas (isto e,qualquer tabela obtida de B por permutacao de linhas e diferente de C),e B′B = C ′C. Isso e o mesmo que dizer que as distribuicoes marginaisde ordem 2 nao determinam as distribuicoes marginais de ordem maiorque 2.
“RAIZ”2014/10/28page 90
✐
✐
✐
✐
✐
✐
✐
✐
90 Analise de Correspondencia Cap.3
Veremos abaixo, que a analise de correspondencia da tabela B e equi-valente a uma generalizacao da analise de correlacoes canonicas sobre ascolunas grupadas por B1, . . . , BQ . Antes, mostraremos que a analise decorrespondencia das tabelas B e B′B sao equivalentes.
Para a tabela B,
PB =1
QIB, ΣA
B = diag
(1
p1···, . . . ,
1
pI···
)= I II×I
e
ΣBB = diag
(1
p(1)···1
, . . . ,1
p(Q)···JQ
)= Q
ΣB1 0
. . .
0 ΣBQ
; p
(q)···j =
♯B(q)j
QI
onde
ΣBq = diag
(1
p(q)···j
, . . . ,1
p(q)···jq
), p
(q)···j =
♯B(q)j
I·
Logo
HBB = ΣB
B P ′B ΣA
B PB = ΣBB
1
QIB′ I II×I
1
QIB =
1
Q2IΣBB B′B
e para a tabela B′B,
PB′B =1
Q2IB′B, ΣA
B′B = ΣBB′B = Q
ΣB1 0
. . .
0 ΣBQ
= ΣB
B .
Logo
HBB′B = ΣB
B′B P ′B′B ΣA
B′,B PB′B = ΣBB
1
Q2IB′B ΣB
B
1
Q2IB′B = HB
B HBB .
Consequentemente HBB′B tem os mesmos autovetores que HB
B e seusautovalores sao os quadrados dos autovalores de HB
B .
Concluımos, portanto, que as representacoes dos criterios B(q)j sao as
mesmas nas duas analises, a menos de uma homotetia, pois se (UBα )′ =(
(uB1 )′, . . . , (uBQ)
′), uq vetor Jq × 1, e o α-esimo autovetor de HBB , cor-
respondente ao autovetor µα , entao a α-esima coordenada de B(q)j sera
“RAIZ”2014/10/28page 91
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 91
√µα u
Bq (j) na analise da tabela B e sera µα u
Bq (j) na analise da
tabela B′B.
Pela equivalencia da analise de correspondencia de uma tabela com osescores de Fisher e usando-se o fato de que B′B e uma matriz simetrica,
sabemos que UB1 maximiza
1
Q2IU ′B′B U em (UB)′ =
((uB1 )
′, . . . , (uBQ))
sujeito as restricoes E U = 0 e Var U = U ′(ΣBB′B
)−1U = 1, ou seja
maximiza1
Q2I
∑q,q
u′q B′q Bq′ uq′ sujeito as restricoes
U ′p··· =1
Q
Q∑
q=1
u′q p(q)··· = 0
e
1
Q
Q∑
q=1
u′q(ΣBq
)−1uq = 1
onde p′··· =1
Q
(p(1)′
··· , . . . , p(Q)′
···)
e p(q)′
··· =(p(q)···1 , . . . , p
(q)···JQ
)·
Mostremos que(uBq)′p(q)··· = 0 para todo q = 1, . . . , Q.
Seja uA1 o autovetor deHAB associado ao 1o autovalor µ1 . Lembremos
que(uA1)′pA··· =
1
I
∑iuA1 (i) = 0.
Temos entao:
(uBq)′p(q)··· =
Jq∑
j=1
p(q)···j uBq (j) =
Jq∑
j=1
p(q)···j
1õ1
I∑
i=1
p(q)ij
p(q)···j
µ1(i) =
=1õ1
I∑
i=1
Jq∑
j=1
p(q)ij
uA1 (i) =
1õ1
1
I
I∑
i=1
µA1 (i) = 0.
Logo tanto faz considerarmos a restricao U ′p··· = 0 ou u′q p(q)··· = 0,
q = 1, . . . , Q. De fato, a restricao U ′p··· = 0 engloba um maior numero
de vetores U , e contem todos os vetores que satisfazem u′q p(q)··· = 0,
q = 1, . . . , Q.
“RAIZ”2014/10/28page 92
✐
✐
✐
✐
✐
✐
✐
✐
92 Analise de Correspondencia Cap.3
Por outro lado, voltando a tabela B = [B1... · · · ...BQ] podemos pro-
curar vetores u1, . . . , uQ tais que
EUq = u′q p···q = 0
e
1
Q
Q∑
q=1
Var uq =1
Q
Q∑
q=1
u′q(ΣBq
)−1uq = 1
o que maximizem
∑
q,q′
cor(Bquq , Bq′uq′
)=∑
q,q′
u′q B′q Bq′ uq′ .
Como vemos, obtemos a mesma solucao que antes. E claro quepodemos, de maneira usual, obter outras variaveis canonicas.
Observamos que a generalizacao de correlacoes canonicas acima ediferente das apresentadas por Kettering (1971). Uma dessas genera-lizacoes, tambem considerada por Horst (1965), usa a restricao Var uq =
u′q(ΣBq
)−1uq = 1, em vez da restricao
1
QΣ Var uq = 1.
No caso Q = 2, e facil ver, que essas duas generalizacoes apresentama mesma solucao.
3.7 Generalizacao do escore de Fisher para ta-belas de contingencia justapostas
Vimos na secao 3(i) desse capıtulo, a equivalencia entre o escore deFisher e a analise de correspondencia para uma tabela de contingencia.Como pode ser visto na demonstracao dessa equivalencia, a unica coisaque precisamos e de uma tabela numerica com entradas nao negativas emarginais positivas.
Consideremos entao, a tabela obtida pela justaposicao das tabelasde contingencia A×B(q), q = 1, . . . , Q, como na secao 4(i).
Procuramos entao funcoes f e g definidas, respectivamente em{1, . . . , I} e {1, . . . , J1 + · · · + JQ}, g′ = (g′1, . . . , g
′Q), gq assumindo
“RAIZ”2014/10/28page 93
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 93
Jq valores, tais que maximizam
cor(f, g) =∑
i,j
f(i)g(j)pij =1
Q
Q∑
q=1
∑
i
Jq∑
j=1
f(i)gq(j)p(q)ij =
=1
Q
Q∑
q=1
corq(f, gq),
onde cor(f, g) e a “correlacao definida pela tabela justaposta e corq(f, gq)e a correlacao definida pela tabela A × B(q), f e g sao normalizadassatisfazendo Ef = Eg = 0 e Var g = 1. Sabemos que a solucao desseproblema sao f = uA e g = uB.
Agora EuB =J1+···+JQ∑
j=1p···j uB(j) = 1
Q
Q∑q=1
Jq∑j=1
p(q)···j uBq (j) = 0.
Se mostramos queJQ∑j=1
p(q)···j uBq (j) = 0.
Jq∑
j=1
p(q)···j uBq (j) =
jQ∑
j=1
p(q)···j
1√λ1
I∑
i=1
pijp···j
uA(i) =
=1√λ1
I∑
i=1
Jq∑
j=1
p(q)···j
p(q)ij
p(q)···j
uA(i) =1√λ1
I∑
i=1
p···j uA(i) = 0.
Temos tambem
Var g = g′(ΣB)−1
g =1
Q
Q∑
q=1
g′q(ΣBq
)−1gq =
1
QVar gq ,
onde Varq gq e a variancia de gq definida pela tabela A×B(q).
Logo com raciocınio analogo ao da secao anterior, vemos que esseproblema e equivalente ao problema de procurar funcoes f, g1, . . . , gQ
tais que maximizemQ∑
q=1corq(f, gq) e sujeitas as restricoes Ef = Eq gq =
0, q = 1, . . . , Q, Var f = 1 e1
Q
Q∑q=1
Varq gq = 1.
“RAIZ”2014/10/28page 94
✐
✐
✐
✐
✐
✐
✐
✐
94 Analise de Correspondencia Cap.3
3.8 Interpretacao dos resultados
3.8.1 Correlacao, contribuicao relativa e contribuicao ab-soluta
Uma maneira natural de se interpretar os eixos, e olhar as correlacoesentre cada linha e coluna com os novos eixos. Lembramos que na analisede correspondencia, fazemos duas componentes principais generalizadas.
Pela Proposicao 2.3, temos
cor(Bj , Fα) =
(CBuBα
)(j)√
λα sj·
Lembramos que
s2j =I∑
i=1
pi···
(pijpi···
− p···j
)2
=I∑
i=1
1
pi···
(pij − pi··· p···j
)2=
= p2···j
I∑
i=1
1
pi···
(pijp···j
− pi···
)2
= p2···j d2(Bj , B)
onde B representa o centro de gravidade das variaveis Bj .
Por outro lado, d2(Bj , B) =∑αG2
α(j) =∑α
[(uAα)′pAj
]2, isto e,
d2(Bj , B) e a soma dos quadrados das projecoes de Bj − B sobre oseixos.
Podemos entao considerar a razao
crα(j) =G2
α(j)
d2(Bj , B)=
[(uAα)′pAj
]2
d2(Bj , B)=
p2···j
[(uAα)′pAj
]2
s2j,
que nos da a parte do quadrado da distancia de Bj ao centro de gravidadeexplicada pelo eixo α. A crα(j), Lebart, Morineau & Tabard (1977)chamam de contribuicao relativa do fator α a variavel Bj .
Lembremos que o quadrado da correlacao entre duas variaveis aleato-rias pode ser “interpretado como a parte da variancia de uma delasexplicada pela outra”. Mostraremos que
crα(j) = cor2(Bj , Fα).
“RAIZ”2014/10/28page 95
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 95
Sabemos que uAα =1√λα
ΣA P uBα .
Logo
P ′uAα =1√λα
P ′ΣA P uBα =1√λα
(CB + pB··· (p
B··· )
′)uBα =1√λα
CB uBα .
Portanto,
(pAj)′uAα =
1
p···j
(P ′ uAα
)(j) =
1
p···j
1√λα
(CB uBα
)(j)
e daı segue o resultado,
Outra medida utilizada na interpretacao e tirada da relacao
λα = Var Gα =∑
j
p···j G2α(j).
Consideramos a razao
caα(j) =p···j G2
α(j)
λα= p···j
[uBα (j)
]2,
que nos da a parte da variancia do fator α explicada pela variavel Bj .A caα(j), Lebart, Morineau & Tabard (1977) chamam de contribuicaoabsoluta da variavel Bj ao fator α.
Entao, se caα(j) e grande, boa parte da variancia do fator α e devidaa variavel Bj , enquanto que se crα(j) e grande, boa parte da distanciada variavel Bj ao centro de gravidade e devido ao fator α.
Exprimimos essas medidas de maneira analoga para os Ai’s.
3.8.2 Alguns comentarios sobre o valor das distancias
Para a interpretacao dos resultados, e importante saber quao bem re-presentados nos subespacos fatoriais, estao as diversas linhas e colunasda tabela original. Isso, em parte, nos e fornecido pelas contribuicoesrelativas dos eixos fatoriais as linhas e as colunas. Mas, e importantetambem ter uma ideia das distancias das linhas e colunas ao centro e oque uma distancia grande ou pequena significa.
“RAIZ”2014/10/28page 96
✐
✐
✐
✐
✐
✐
✐
✐
96 Analise de Correspondencia Cap.3
Se A representa o centro de gravidade das linhas A1, . . . , AI , A erepresentado pelo vetor (p···1, . . . , p···J) e
d2(Ai, A) =J∑
j=1
1
p···j
(pijpi···
− p···j
)2
=1
pi···
J∑
j=1
p2ijp···j
− 1.
Portanto
1
pi···minj
{pijp···j
; pij > 0
}− 1 ≤ d2(Ai, A) ≤
1
pi···max
j
{pijp···j
}− 1.
Observemos que d2(Ai, A) = 0 se e somente se,pijp···j
= pi··· para todo
j.
Logo se d2(A,A) pequeno,pijp···j
≈ pi··· para todo j.
Portanto, se minj
{pijp···j
; pij > 0
}“grande”, isto e, muito maior que
pi··· , entao existe associacao grande positiva entre Ai e alguns Bj ’s. De-vera tambem existir uma associacao grande negativa entre Ai e alguns
Bj ’s no sentido de que pij = 0 pois sepijp···j
≥ pi··· para todo j e maior para
algum j, entao ∑
j
pij >∑
j
pi··· p···j ⇒ pi··· > pi···
o que nos da uma contradicao.
No caso extremo minj
{pijp···j
; pij > 0
}“pequeno”, isto e, igual ou so-
mente um pouco maior que pi··· , entao d2(Ai, A) pequeno e todos ospijp···j
sao aproximadamente iguais e a classe Ai esta proximo do centro A.
No caso da matriz de incidencia, lembramos que nij = 1 ou 0,
pi··· =Q
QI=
1
Ie p···j =
n···jQI
·
Portanto
minj
{nij
n···j;nij > 0
}= min
j
{1
♯Bj;nij = 1
}=
1
maxj
{♯Bj ;nij = 1}·
“RAIZ”2014/10/28page 97
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 97
No caso extremo em que max{♯Bj ;nij = 1} = 1, o indivıduo Ai
respondeu todas as perguntas de maneira diferente dos outros indivıduose nesse caso d2(ai, A) = I − 1.
Analogamente
maxj
{nij
n···j
}= max
j
{1
♯Bj;nij = 1
}=
1
minj
{♯Bj ;nij = 1}·
Logo maxj
{nij
n···j
}pequeno implica min
j
{♯Bj ;nij = 1
}grande, o que
significa que todos os itens respondidos pelo indivıduo i, foram respon-didos tambem por muitos outros indivıduos.
Analogamente, se B representa o centro dos Bj ’s, entao d2(Bj , B) =
1
p2···j
I∑i=1
p2ijpi···
− 1, e temos
1
p···jmini
{pijpi···
; pij > 0
}− 1 ≤ d2(Bj , B) ≤ 1
p···jmax
i
{pijpi···
}− 1.
No caso da matriz de incidencia, pi··· =1
Ie constante e portanto
mini
{pijpi···
; pij > 0
}= max
i
{pijpi···
}=
1/QI
1/I=
1
Q·
Logo
d2(Bj , B) =1
p···j Q− 1 =
I
n···j− 1.
Portanto, no caso em que, por exemplo, Bj foi respondido por so-mente 1 indivıduo, d2(Bj , B) = I − 1.
3.8.3 Uso de linhas e colunas suplementares
Como na analise de componentes principais, podemos utilizar linhas ecolunas suplementares com o fim de ajudar na interpretacao dos eixos, oucom o objetivo de estudar a relacao entre esses elementos suplementarese os originais.
“RAIZ”2014/10/28page 98
✐
✐
✐
✐
✐
✐
✐
✐
98 Analise de Correspondencia Cap.3
Podemos calcular as coordenadas desses elementos suplementares,muito facilmente. Por exemplo, se BJ+1 e uma coluna suplementar,
Gα(J + 1) =1√λα
I∑
i=1
niJ+1
n···J+1Fα(i),
e se AI+1 e uma linha suplementar,
Fα(I + 1) =1√λα
J∑
j=1
nI+1,j
n(I+1)···Gα(j).
3.8.4 Reconstituicao da tabela P
Lembrando o Teorema 3.1, temos SB = LL′, onde L =(ΣA)1/2
P(ΣB)1/2
=∑α
√λα d
Aα
(dB
′
α
).
Logo
P =(ΣA)−1/2
[∑
α
√λα d
Aα
(dBα)′](ΣB)−1/2
=
=(ΣA)−1
[∑
α
√λα u
Aα
(uBα)′](ΣB)−1
.
Usando-se o fato de que 1J e 1I sao respectivamente, autovetores deHB e HA associados ao autovetor 1, temos
pij = pi··· p···j
[1 +
∑
α
√λα u
Aα (i)u
Bα (j)
]
ou seja
pij = pi··· p···j
[1 +
∑
α
√λα Fα(i)Gα(j)
].
Desse modo, a expressao
pijpi··· p···j
− 1 =∑
α
1√λα
Fα(i)Gα(j)
mede a associacao entre a linha i e a coluna j.
“RAIZ”2014/10/28page 99
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 99
3.9 Relacao com o teste χ2
Seja uma tabela de contingencia (nij)1≤i≤I,1≤j≤J
,∑i,j
nij = n. Entao temos
χ2 =I∑
i=1
J∑
j=1
n(pij − pi··· p···j)2
pi··· p···j= n
I∑
i=1
J∑
j=1
p2ijpi··· p···j
− 1
·
Mas Tr ΣB CB =I∑
i=1
J∑j=1
p2ijpi··· p···j
− 1 e Tr ΣB SB =I∑
i=1
J∑j=1
p2ijpi··· p···j
.
Logo χ2 = n Tr ΣB CB = n(Tr SB − 1) ou a medida de associacaoχ2
n= Tr ΣB CB = Tr SB − 1.
Logo se ha independencia entre as categorias A e B, pij ≈ pi··· p···j eχ2 = nTr ΣB CB e pequeno.
Lembremos que
Tr ΣB CB =∑
i
pi···∥∥xBi
∥∥1ΣB =
∑
i≤i′
pi··· pi′···∥∥xBi − xBi′
∥∥2ΣB =
J∑
α=1
λα
e portanto se as p primeiras componentes sao tais que
p∑
α=1λα
J∑
α=1λα
grande,
essas p primeiras componentes “explicam” o valor χ2.
No caso de tabelas de contingencia A×B(1), . . . , A×B(Q) justapostas,temos formalmente
χ2 = nQTr ΣB CB = nQ∑
i≤i′
pi··· pi′···∥∥xBi − xBi′
∥∥2ΣB =
= nQ∑
i≤i′
pi··· pi′··· d2(Ai, Ai′).
Mas como visto antes pi···i = p(q)i··· para q = 1, . . . , Q e
d2(Ai, Ai′) =1
Q
Q∑
q=1
d(q)2(Ai, Ai′).
“RAIZ”2014/10/28page 100
✐
✐
✐
✐
✐
✐
✐
✐
100 Analise de Correspondencia Cap.3
Logo
χ2 = nQ∑
i≤i′
pi··· pi′···1
Q
Q∑
q=1
d(q)2(Ai, Ai′) =
= n
Q∑
q=1
∑
i≤i′
p(q)i··· p
(q)i′··· d
(q)2 (Ai, Ai′) = n
Q∑
q=1
Tr ΣBq CBq =
= n
Q∑
q=1
χ2(q)
n
ou seja
χ2 =
Q∑
q=1
χ2(q), onde χ2(q) e o valor χ2 da tabela A×B(q).
E claro χ2(1), . . . , χ2(Q) nao sao independentes.
Tambem temos
Tr ΣB CB =1
Q
Q∑
q=1
Tr ΣBq CBq .
Mas dimΣB CB = J1 + · · · + JQ , logo devemos esperar que a “ex-
plicacao”
p∑α=1
λα
J1+···+JQ∑j=1
λα
seja menor que no caso de cada tabela A×B(q),
porque devera haver um numero grande de autovalores pequenos, quede certa maneira, podem ser considerados como “ruıdo”.
No caso da tabela de incidencia B =[B1
... · · · ...BQ
], podemos mostrar
resultado analogo, isto e,
χ2 =
Q∑
q=1
χ2(q) e Tr ΣB CB =1
Q
d∑
q=1
Tr ΣBq CBq .
Nesse caso, podemos calcular exatamente Tr ΣB CB. Consideremoso caso Q = 1.
“RAIZ”2014/10/28page 101
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 101
Entao
Tr ΣBq CBq =I∑
i=1
J∑
j=1
p2ijpi··· p···j
− 1.
Mas
p2ij =n2ij
I2=
nij
I2pois nij = 1 ou 0; pi··· =
1
Ie p···j =
1
I
∑
i=1
nij .
Logo
Tr = ΣB CB =
J∑
j=1
I∑
i=1
nij
p···j− 1 = J − 1.
E no caso geral
Tr ΣB CB =1
Q
q∑
q=1
(Jq − 1) =J
Q− 1.
3.10 Comentarios e exemplo
Analise de Correspondencia e uma tecnica de exploracao de dados, espe-cialmente util para visualizar dados coletados atraves de questionariosutilizados rotineiramente em pesquisa na area de ciencias sociais.Os dados consistem em geral em respostas a perguntas cada uma com umnumero finito de respostas posıveis. Ou seja um conjunto de variaveiscategoricas (tambem chamadas de “qualitativas”) cada uma com umcerto numero de nıveis ou categorias.Na linguagem do pacote R que usaremos para o exemplo seriam fatores.A parte mais util para aplicacoes sao as saidas graficas. Estas saidasdeveriam ser as mais “amigaveis” possıvel. Elas deveriam sugerir rapi-damente ideias, interpretacoes, ou problemas com os dados que estaosendo analisados.
Exemplo.
Os dados deste Exemplo foram analisados utilizando o pacote FactoMi-neR do R.
“RAIZ”2014/10/28page 102
✐
✐
✐
✐
✐
✐
✐
✐
102 Analise de Correspondencia Cap.3
Exemplo 1. Mercado de cha.
Os dados para este exemplo sao provenientes de uma pesquisa feita comconsumidores de Cha. Foram realizadas 300 entrevistas e o tema estarelacionado com habitos de consumo de Cha.Os dados completos da pesquisa podem ser encontrados em
http://factominer.free.fr/book/tea.csv.
Para nosso exemplo so selecionamos algumas variaveis correspondentesas perguntas indicadas abaixo junto com as modalidades/categorias deresposta. (Deixamos a pergunta na lingua original: Ingles).
1. What kind of tea do you drink the most?
“black” “Earl Grey” “green”
2. How do you take your tea?
“alone” “lemon” “milk” “other”
3. How the tea you drink is packed?
“tea bag” “tea bag+unpackaged” “unpackaged”
4. Do you add sugar to your tea.
“No sugar” “sugar”
5. Where do you buy your tea?
“chain store” “chain store+tea shop” “tea shop”
6. Do you drink tea in the afternoon?
“always” “Not always”
“RAIZ”2014/10/28page 103
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 103
A Figura 1 contem as primeiras 15 linhas do arquivo de dados:
#Tea
How
how
sugar
where
always
1black
alone
teabag
sugar
chainstore
Not.always
2black
milk
teabag
No.sugar
chainstore
Not.always
3EarlGrey
alone
teabag
No.sugar
chainstore
Not.always
4EarlGrey
alone
teabag
sugar
chainstore
Not.always
5EarlGrey
alone
teabag
No.sugar
chainstore
always
6EarlGrey
alone
teabag
No.sugar
chainstore
Not.always
7EarlGrey
alone
teabag
No.sugar
chainstore
Not.always
8black
milk
teabag
No.sugar
chainstore
Not.always
9EarlGrey
milk
teabag+unpacNo.sugar
chainstore+teashop
Not.always
10black
alone
teabag+unpacNo.sugar
chainstore+teashop
Not.always
11EarlGrey
alone
teabag
No.sugar
chainstore
Not.always
12EarlGrey
alone
teabag
sugar
chainstore
Not.always
13EarlGrey
milk
teabag+unpacNo.sugar
chainstore+teashop
Not.always
14black
milk
teabag
sugar
chainstore
Not.always
15black
milk
teabag
No.sugar
chainstore+teashop
Not.always
.....
.....
300black
milk
teabag
sugar
chainstore
Not.always
“RAIZ”2014/10/28page 104
✐
✐
✐
✐
✐
✐
✐
✐
104 Analise de Correspondencia Cap.3
A Figura 2 contem os valores dos autovalores e as percentagens davariancia e seus valores acumulados. Podemos esperar valores meno-res em geral que no caso de Principal componentes dado que o numerototal de categorias costuma ser maior que o de variaveis.
Figura 2
eigenvalue
percentage of
variance
cumulative
percentage of
variance
dim 1 0,28 15,26 15,26
dim 2 0,26 14,06 29,32
dim 3 0,22 12,01 41,33
dim 4 0,19 10,25 51,58
dim 5 0,17 9,21 60,78
dim 6 0,16 8,93 69,71
dim 7 0,15 8,34 78,05
dim 8 0,14 7,55 85,6
dim 9 0,12 6,31 91,91
dim 10 0,09 4,7 96,61
dim 11 0,06 3,39 100
“RAIZ”2014/10/28page 105
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 105
A Figura 3 contem as coordenadas das categorias a serem representadasno Mapa.
Figura 3
Dim 1 Dim 2
black 0,450 0,140
Earl Grey 0,250 0,110
green 0,460 0,970
alone 0,020 0,250
lemon 0,680 0,460
milk 0,330 0,230
other 0,290 2,140
tea bag 0,620 0,330
tea bag+unpackaged 0,370 1,000
unpackaged 1,940 1,060
No.sugar 0,240 0,040
sugar 0,250 0,040
chain store 0,530 0,340
chain store+tea shop 0,480 1,330
tea shop 2,160 1,270
always 0,110 0,120
Not.always 0,060 0,060
“RAIZ”2014/10/28page 106
✐
✐
✐
✐
✐
✐
✐
✐
106 Analise de Correspondencia Cap.3
A Figura 4 contem o Mapa com a posicao de cada uma das categorias.Cores diferentes indicam variaveis distintas.
Figura 4
Como foi mencionado e possıvel agregar no Mapa de base, variaveis su-plementares, ou seja variaveis que nao entram diretamente no calculomas que podem ser projetadas no Mapa da solucao. Sao uteis eventual-mente para visualizar algumas possıveis relacoes entre variaveis.Na Figuta 5 incorporamos a variavel Idade (age) ao Mapa. Na repre-sentacao vemos por exemplo a maior afinidade do grupos de pessoasmais jovens (15-24) pelo consumo em Tea Bugs, com acucar e a varia-dade (blend) Earl Gray.
“RAIZ”2014/10/28page 107
✐
✐
✐
✐
✐
✐
✐
✐
Cap.3 - Analise de Correspondencia 107
Figura 5
Em algumas cirscunstancias, pode tambem ser de interesse olhar o po-sicionamento sobre as primeiras dimensoes dos Indivıduos (ou seja aslinhas do arquivo de dados).Pode por exemplo sugerir a presenca de segmentos, ou grupo de in-divıduos com respostas similares.
“RAIZ”2014/10/28page 108
✐
✐
✐
✐
✐
✐
✐
✐
108 Analise de Correspondencia Cap.3
A Figura 6 mostra o Mapa dos indivıduos neste exemplo. Pareceriasugerir a presenca de mais de um segmento de consumidores.
Figura 6
“RAIZ”2014/10/28page 109
✐
✐
✐
✐
✐
✐
✐
✐
Capıtulo 4
EscalonamentoMultivariado
4.1 Introducao
As tecnicas de escalonamento multivariado permitem representar umconjunto de objetos como pontos de um espaco de dimensao relativa-mente pequena conhecendo as distancias entre os objetos ou somente aordenacao dessas distancias.
As tecnicas de escalonamento multivariado foram desenvolvidas fun-damentalmente por Shepard (1962) e Kruskal (1964) utilizando algorit-mos de calculo sofisticados. Neste capıtulo apresentamos um enfoquealternativo, devido a Benzecri (1973) que da uma solucao aproximada aotima, utilizando somente tecnicas de Algebra Linear.
Nos referiremos a esta ultima tecnica como Escalamento Multidi-mensional classico ou metrico. Nos refireremos a versao posterior deShepard (1962) e Kruskal (1964) como Escalamento Multidimensionalnao metrico.
Empiricamente os resultados obtidos com este metodo, diferem ge-ralmente muito pouco das solucoes obtidas atraves do uso da tecnicamais sofisticada de Kruskal (ver Benzecri 1973).
109
“RAIZ”2014/10/28page 110
✐
✐
✐
✐
✐
✐
✐
✐
110 Escalamento Multivariado Cap.4
4.2
Consideremos um conjunto de I objetos Xi , 1 ≤ i ≤ I. Suponhamosque nao temos nenhuma representacao numerica desses objetos e que so-mente e conhecida a distancia ou “dissimilaridade” entre dois quaisquerdeles. A distancia entre Xi e Xi′ sera denotada por dii′ . Vamos suporque as seguintes relacoes sao satisfeitas
(i) dii′ = di′i para todo i, i′.
(ii) dii′ ≥ 0 para todo i, i′.
(iii) dii′ = 0 se e somente se i = i′.
Seja Dii′ = d2ii .
O problema do escalonamento multivariado consiste em represen-
tar cada objeto Xi por um ponto F(p)i ∈ Rp de maneira que dii′ seja
aproximadamente ||F (p)i − F
(p)i′ ||I .
Vamos supor, como no Capıtulo 2, que cada Xi tem um peso µi comI∑
i=1µi = 1. Entao, o problema do escalonamento otimo em Rp, consiste
em achar pontos F(p)i em Rp tais que
(4.1)I∑
i=1
I∑
i′=I
µi µi′
∣∣∣Dii′ − ||F (p)i − F
(p)i′ ||2I
∣∣∣
seja mınimo.
As tecnicas desenvolvidas neste capıtulo permitem achar solucoesaproximadamente otimas. O primeiro passo consistira em representarcada Xi por um ponto xi ∈ RI−1 de maneira que
(4.2) Dii′ = ||xi −Xi′ ||2Σ∗
onde Σ∗ sera uma matriz nao necessariamente definida nao negativa.
Nota. Dada uma matriz Σ, p × p, nao necessariamente definida naonegativa definimos 〈a, b〉Σ = a′Σ b e ||a||2Σ = a′Σ a, onde a e b sao
“RAIZ”2014/10/28page 111
✐
✐
✐
✐
✐
✐
✐
✐
Cap.4 - Analise de Componentes Principais 111
elementos de Rp. Os pontos xi que encontraremos em RI−1 satisfaraotambem a seguinte relacao linear
(4.3)I∑
i=1
µi xi = 0
ou seja terao media 0.
Provaremos primeiro o seguinte
Lema 4.1. Para que um conjunto de pontos xi , 1 ≤ i ≤ I, em Rp
que verifiquem (4.3) verifiquem tambem (4.2) e condicao necessaria e
suficiente que
(4.4) 〈xi, xi′〉Σ∗ =1
2
(−Dii′ +Di··· +Di′··· −D······
)
onde Di· =I∑
i′=1
µi′ Dii′ , D······ =I∑
i=1
I∑i′=1
µi µi′ Dii′ .
Demonstracao. (4.2) e equivalente a
Dii′ = ‖xi‖2Σ∗ + ‖xi′‖2Σ∗ − 2⟨xi, xi′
⟩Σ∗
e portanto equivalente a
(4.5)⟨xi, xi′
⟩Σ∗
=1
2
(−Dii′ + ‖xi‖2Σ∗ + ‖xi′‖2Σ∗
).
Multiplicando (4.5) por µi′ e somando temos
(4.6) ‖xi‖2Σ∗ = Di· −I∑
i=1
µi ‖xi‖2Σ∗ .
Multiplicando (4.6) por µi e somando temos
(4.7) D·· = 2
I∑
i=1
µi||xi||2Σ∗ .
Substituindo (4.6) e (4.7) em (4.5) temos (4.4). A suficiencia decorrefacilmente.
“RAIZ”2014/10/28page 112
✐
✐
✐
✐
✐
✐
✐
✐
112 Escalamento Multivariado Cap.4
O seguinte Lema indica como construir os pontos xi que satisfazem(4.2) e (4.3).
Lema 4.2. Seja xi =(xi,1, . . . , xi,I−1
)′, 1 ≤ i ≤ I − 1 defininido por
xi,j = δi,j . Ou seja x1, . . . , xI−1 e a base canonica de RI−1. Definimos
xI =(− µ1/µI , . . . ,−µi−1/µi
)′. Temos
(i)I∑
i=1µi xi = 0
(ii) Seja Σ = (σii′) a matriz I × I definida como
(4.8) σii′ =1
2
(−Dii′ +Di· +Di′· −D··
)
e Σ∗ a matriz (I − 1)× (I − 1) formada pelas primeiras (I − 1) linhas e
(I − 1) colunas da matriz Σ. Entao (4.2) e valida.
Demonstracao.
(i) Decorre imediatamente da definicao.
(ii) Pela Lema 4.1 e suficiente varificar (4.4). A verificacao e imediatapara i, i′ ≤ I − 1. Consideremos agora o caso i ≤ I, i′ = I. Por(4.3) temos
⟨xi, xI
⟩Σ∗
=
⟨xi′ −
I−1∑
i′=1
(µi′/µi)xi′
⟩
Σ∗
=
= −I−1∑
i′=1
(µi′/µI)〈xi, xi′〉Σ∗ =
= −I−1∑
i′=1
(µi′/µI)σii′ .
ComoI∑
i′=1
µi′ σii′ = 0 temos que
〈xi, xI〉 = σiI =1
2
(−DiI +Di· +Di′· −D··
)
“RAIZ”2014/10/28page 113
✐
✐
✐
✐
✐
✐
✐
✐
Cap.4 - Analise de Componentes Principais 113
e portanto (4.4) e valida para i′ = I. Da mesma forma (4.4) pode serverificado pra i = i′ = I o que termina a prova do Lema.
O Lema 4.2 implica que para minimizar (4.1) e suficiente encontrar
F(p)I em Rp tais que minimizem
(4.9)I∑
i=1
I∑
i′=1
∣∣∣||xi − xi′ ||2Σ∗ − ||F (p) − F(p)i′ ||2I
∣∣∣ .
Se a matriz Σ∗ fosse definida positiva uma solucao aproximada po-deria obter-se com componentes principais utilizando a Proposicao 2.2do Capıtulo 2. Vamos aplicar esta tecnica formalmente com a unica
condicao que a matriz ΣD, onde D =
(µ1 0
. . .0 µI
), tenha pelo menos
p autovalores positivos. Vamos provar que o resultado a ser obtido ebom sempre que os (I − p) autovalores menores da matriz ΣD sejampequenos em valor absoluto comparados com os p maiores. O seguinteLema calcula os vetores D(p) da Proposicao 2.2 no caso em que Σ∗ sejadefinida positiva.
Lema 4.3. Sejam xi , 1 ≤ i ≤ I, os vetores do Lema 4.2. A matriz
Σ∗ = (σii′) de (I−1)× (I−1) com σii′ dada por (4.8). Suponhamos que
Σ∗ e definida positiva. A Proposicao 2.2 produz os seguintes resultados
i) A matriz C esta dada por
(4.10) C = D∗ + φ∗
onde D∗ =
(µ1 0
. . .0 µI−1
)e φ∗ e a matriz (I−1)×(I−1) com elemento
(i, i′) dado por ϕii′ = (µi, µi′)/µI .
ii) Seja U∗ = (U∗1 , . . . , U
∗I−1) a matriz U da Proposicao 2.2. Temos
(4.11) U∗′C U = Λ
(4.12) U∗′Σ∗−1 U∗ = I
“RAIZ”2014/10/28page 114
✐
✐
✐
✐
✐
✐
✐
✐
114 Escalamento Multivariado Cap.4
onde Λ =
( λ∗
1 0
. . .0 λ∗
I−1
)λ∗1 ≥ λ∗
2 ≥ · · · ≥ λ∗I−1 e portanto U∗
α e
autovetor de Σ∗C correspondente ao autovalor λ∗α . Temos entao
(4.13) Fα(i) = U∗′α xi = U∗
α(i) 1 ≤ i ≤ I − 1
(4.14) Fα(I) = −I−1∑
i=1
(µi/µI)µ∗α(i)
Demonstracao.
(i) E imediado dado a definicao dos xi .
(ii) Tambem e imediato dado a definicao dos xi .
De acordo com o visto no Teorema 2.1, se Σ∗ fosse definida positivauma solucao aproximada ao problema de minimizar (4.9) esta dada por
(4.15) F(p)i =
(F1(i), . . . , Fp(i)
)′.
O seguinte Teorema indica como pode generalizar-se este resultadoao caso no qual Σ∗ nao seja definida positiva. Tambem indica a relacaoque existe entre os autovalores e autovetores de Σ∗C e os de ΣD,D =(
µ1 0
. . .0 µI
). Este Teorema e valido sem supor que Σ∗ seja definida
positiva.
Teorema 4.1.
(i) A matriz ΣD admite o autovetor UI = (1, · · · , 1)′ correspondenteao autovalor λI = 0.
(ii) Sejam λ1 ≥ λ2 ≥ · · · ≥ λI−1 os outros autovalores de ΣD e os au-
tovetores correspondentes Uα =(Uα(1), . . . , Uα(I)
)′1 ≤ α ≤ I−1.
Os Uα podem ser escolhidos de forma tal que sejam satisfeitas
(4.16)I∑
i=1
µi Uα(i) = 0, α = 1, . . . , I − 1
“RAIZ”2014/10/28page 115
✐
✐
✐
✐
✐
✐
✐
✐
Cap.4 - Analise de Componentes Principais 115
(4.17)I∑
i=1
µi Uα(i)Uα′(i) = δαα′ , α, α′ = 1, . . . , I − 1
(iii) λα = λ∗α onde os λ∗
α sao os autovalores de Σ∗C do Lema 4.3.
Por outro lado se os Uα satisfazem (4.16) e (4.17) e λα > 0 teremos
Uα =
(U∗α
/√λα ,−
I−1∑
i=1
µi/(µI
√λα
)U∗α(i)
)
onde U∗α e o autovetor de Σ∗C correspondente a λα que satisfaz U∗′
α Σ−1 Uα =1.
(iv) Sejam Fα(i) definidos por (4.13) e (4.14). Se λα > 0 temos:
Fα(i) =√λα(i)Uα(i) 1 ≤ i ≤ I 1 ≤ α ≤ I − 1.
Por (4.15) temos
(4.18) F(p)i =
√λα
(U1(i), . . . , Up(i)
)′
(v)
(4.19) Dii′ =I−1∑
α=1
(Uα(i)− Uα(i
′))2
λα
(4.20)I∑
i=1
I∑
i′=1
Dii′ = 2I−1∑
α=1
λα
(vi) Suponhamos que λα > 0 1 ≤ α ≤ p e definimos F(p)i por (4.18).
Temos
I∑
i=1
I∑
i′=1
µi µi′
∣∣∣Dii′ − ||F (p)i − F
(p)i′ ||2I
∣∣∣ ≤ 2I−1∑
α=p+1
|λα|
com igualdade se todos os λi sao positivos.
“RAIZ”2014/10/28page 116
✐
✐
✐
✐
✐
✐
✐
✐
116 Escalamento Multivariado Cap.4
Demonstracao. (i) Seja U1 = (1, . . . , 1)′. Por (4.8) temos
I∑
i′=1
(ΣD)ii′ UI(i′) =
1
2
I∑
i′=1
µi′(− dii + di· + di′· − d··
)=
=1
2
(− di· + di· + d·· − d··
)= 0.
(ii) Pelo Teorema 2 os autovalores de DΣ sao tambem λ1, . . . , λI−1 ,λI . Tambem pelo Teorema 2 existem autovetores de DΣ V1, . . . , VI
tais que
(4.21) V ′αD
−1 Vα = δαα′ .
Temos tambem que Uα = D−1 Vα , 1 ≤ α ≤ I sao os autovetores deΣD. Temos de (4.21) que
U ′αDUα = V ′
αD−1DDVα = δαα′
e portanto (4.17) e satisfeita. Tomando α′ = I temos (4.16).
(iii) Se α < I por (4.16) temos
(4.22) Uα(I) = −I−1∑
i=1
(µi/µI)Uα(i).
Portanto para provar (iii) e suficiente provar que
Uα =(Uα(1), . . . , Uα(I − 1)
)′
e autovetor de Σ∗C correspondente a λα e (4.23)
(4.23) Uα′ Σ∗−1 Uα =1
λα·
Como Uα e um autovetor de ΣD correspondente a λα temos
(4.24)I−1∑
i′=1
σii′ µi′ Uα(i) + σiI µI Uα(I) = λα Uα(i).
De (4.8) resulta
(4.25)
I∑
i′=1
µi′ σii′ = 0.
“RAIZ”2014/10/28page 117
✐
✐
✐
✐
✐
✐
✐
✐
Cap.4 - Analise de Componentes Principais 117
Extraindo σiI de (4.25) e substituindo em (4.24) temos
σiI µi Uα(i) =−I−1∑
i′′=1
I−1∑
i′=1
σii′ µi′ µi′′ Uα(i′′)/µi+
+I−1∑
i′′=1
I−1∑
i′=1
σii′ ϕii′ Uα(i′′).
Como por (4.10) C = D∗ + φ∗ decorre que Uα e autovetor de Σ∗Ccorrespondente a λα .
Proporemos agora (4.23). Como Uα e autovetor de Σ∗C temos
(4.26) UαΣ∗−1 Uα =
UαC Uα
λα=
U ′α(D
∗ + φ∗)Uα
λα·
Mas
U ′α φ
∗ Uα = −I−1∑
i=1
I−1∑
i′=1
(µi µ′i/µI)Uα(i)Uα(i
′) =
= µI
(I−1∑
i=1
(µi/µI)Uα(i)
).
Utilizando (4.16) temos
U ′α φ
∗ Uα = µI U2α(I)
e substituindo em (4.26) obtemos
U ′αΣ
∗−1 Uα =
(I∑
i=1
µi U2α(i)
)/λα .
Portanto por (4.17) obtemos (4.23).
(iv) E imediato a partir de (iii).
(v) Seja V =
(v1
... . . ....VI
)uma matriz I × I onde Vα 1 ≤ α ≤ I e
definido como em (ii). Temos
(4.27) V ′ΣV = Λ =
λ1 0
. . .
0 λi
“RAIZ”2014/10/28page 118
✐
✐
✐
✐
✐
✐
✐
✐
118 Escalamento Multivariado Cap.4
(4.28) V ′D−1 V = I.
De (4.27) decorre
(4.29) Σ = V ′−1 ΛV −1
e de (4,28)
V −1 = V ′D−1.
Substituindo em (4.29) temos
Σ = D−1 V ΛV ′D
e pelo que vimos em (ii) e como D−1 V = U = (U1, . . . , UI) temos
(4.30) Σ = U ΛU ′.
Portanto
σii′ =I∑
i=1
λα Uα(i)Uα(i′) =
I−1∑
α=1
λα Uα(i)Uα(i′).
Alem do mais por (4.2)
Dii′ =∥∥xi − xi′
∥∥2Σ∗
=⟨xi, xi
⟩Σ∗
+⟨xi′ , xi′
⟩Σ∗
− 2⟨xi, xi′
⟩Σ∗
=
= σii + σii′ − 2σii′ =I−1∑
α=1
λα U2α(i) +
I−1∑
α=1
λα U2α(i
′)−
− 2I−1∑
α=1
λα Uα(i)Uα(i′) =
I−1∑
α=1
λα
(Uα(i)− Uα(i
′))2
e portanto (4.19) fica provada.
Antes de provar (4.20) provaremos o seguinte: para todo conjuntode numeros γp+1, . . . , γI−1 temos
(4.31)I∑
i′=1
I∑
i=1
I−1∑
α=p+1
µi µi′ γα(Uα(i)− Uα(i
′))2
= 2I−1∑
α=p+1
γα .
“RAIZ”2014/10/28page 119
✐
✐
✐
✐
✐
✐
✐
✐
Cap.4 - Analise de Componentes Principais 119
Para provar (4.30) observamos que
I∑
i′=1
I∑
i=1
I−1∑
α=p+1
µi µi′ γα(Uα(i)− Uα(i
′))2
=
=I−1∑
α=p+1
γα
I∑
i′=1
I∑
i=1
µi µi′(Uα(i)− Uα(i
′))2
=
= 2I−1∑
α=p+1
γα
[I∑
i=1
µi U2α(1)−
I∑
i′=1
I∑
i=1
µi µi′ Uα(i)Uα(i′)
]=
= 2I−1∑
α=p+1
γα
I∑
i=1
µi U2α(i)−
(I∑
i=1
µi Uα(i)
)2
e usando (4.16) e (4.17) obtemos (4.31). Agora de (4.19) e aplicando(4.31) com p = 0 e γα = λα decorre (4.20).
(vi) De (4.18) e (4.19) decorre que
∣∣∣Dii′ −∥∥F (p)
i − F(p)i′
∥∥2I
∣∣∣ ≤I−1∑
α=p+1
|λα|(Uα(i)− Uα(i
′))2.
Aplicando agora (4.30) com γα = |λα| decorre (vi).
De acordo com (v) e (vi) do Teorema 4.1 um limite superior do erro
relativo ERp na representacao dos objetos xi pelos pontos F(p)i em Rp
esta dado por
E Rp =I∑
i′=1
I∑
i=1
µi µi′
∣∣∣Dii′ −∥∥F (p)
i − F(p)i′
∥∥2I
∣∣∣ ≤
(4.32)
≤
I−1∑i=p+1
|λi|
I−1∑i=1
|λi|= ER∗
p .
Como aconteceu no Capıtulo 2 ao estudar Componentes Principais
E Rp nao leva em consideracao que a representacao F(p)i 1 ≤ i ≤ I e
“RAIZ”2014/10/28page 120
✐
✐
✐
✐
✐
✐
✐
✐
120 Escalamento Multivariado Cap.4
equivalente a λF(p)i com λ um escalar arbitrario. Portanto um coefici-
ente mais preciso sera o dado por ERCp definido como
ERCp =
mınimoλ
I∑i′=1
I∑i=1
µiµi′∣∣Dii′ − λ
∥∥F (p)i − F
(p)i′
∥∥2I
∣∣
I∑i′=1
I∑i=1
µi µi′ Dii′
Pode-se provar que no caso no qual os objetos xi sejam elementos de
um espaco RJ e se dii′ =(x′i Σxi
)1/2onde Σ e definida positiva J × J ,
a solucao determinada neste capıtulo sera a mesma que resultaria daaplicacao de Componentes Principais aos xi da mesma forma como foiexplicado no Capıtulo 2.
Em alguns casos pode nao conhecer-se a matriz de dissimilaridadesdii′ , mas somente a ordem das mesmas quer dizer: e conhecido o par deobjetos que encontra-se a distancia mınima, o par que vem a continuacaoem ordem de distancias, etc., ate chegar ao par de objetos que encontrou-se a maior distancia. Suponhamos ter I objetos xi 1 ≤ i ≤ I e que Qii′
indica a ordem da distancia entre xi e xi′ . Ou seja Qii′ = 1 indicara queos objetos xi e xi′ sao os mais proximos e Qii′ = I(I − 1)
/2 (existem
I(I−1)/2 pares de objetos) indicara que xi e xi′ e o par de objetos maisdistantes entre si.
Benzecri (1973) propoe o seguinte procedimento heurıstico para de-finir a matriz Dii′ a partir de Qii′ .
Suponhamos que os xi possam ser representados em Rp e que te-nham uma distribuicao normal multivariada com matriz de covarianciaI. Entao Dii′/2 = ||xi − xi′ ||2I/2 teria uma distribuicao χ2 com p grausde liberdade. Portanto dii′/2 seria uma amostra (nao independente) detamanho N = I(I − 1)/2 desta distribuicao. Se Qii′ = k, Dii′/2 seria opercentil empırico k/N desta distribuicao e portanto poderia ser apro-ximado pelo correspondente percentil teorico da distribuicao χ2 com pgraus de liberdade. Quer dizer que poderia se reconstruir a matriz Dii′
porDii′
2= χ2
p−1(k/N) se Qii′ = k
“RAIZ”2014/10/28page 121
✐
✐
✐
✐
✐
✐
✐
✐
Cap.4 - Analise de Componentes Principais 121
onde χ2p e a funcao de distribuicao de uma χ2 com p graus de liberdade.
Uma vez construıdos os Dii′ utilizarıamos o procedimento descrito an-teriormente.
Como neste caso so interessa conservar a ordem das distancias e nao osvalores que sao desconhecidos, e conveniente definir uma nova media doerro relativo. Esta medida chamada “Stress” e devida a Kruskal (1964).O Stress correspondente a solucao em Rp estava dada por
Sp = mınimof∈M
I∑i=1
I∑i′=1
µi µi′(∥∥F (p)
i − F(p)i′
∥∥I− f(Qii′)
)2
I∑i=1
I∑i′=1
µi µi′∥∥F p
i − F pi′
∥∥2I
onde M e o conjunto de funcoes monotonicas dos naturais nos reais.Para o calculo da f que realiza o mınimo pode ver-se Kruskal (1964).
(Isto e usualmente mencionado como Escalamento Multidimensional naoMetrico).
4.2 Notas e comentarios sobre MDS
Uma matriz D com elementos dij satisfazendo as propriedades (i),(ii) e(iii) do paragrafo 2 e chamada de matriz de dissimilaridades.
Se adicionalmente para todos as triplas i, j, k temos dij + djk ≥ dik (oque chamaremos de propriedade “metrica” ou desigualdade metrica) amatriz d seria chamada de matriz de distancias ou simplesmete umadistancia entre os elementos do conjunto I.
Exemplos mais frequentes de metricas que sao utilizadas sobre subcon-juntos I de n pontos em Rp sao as metricas euclideanas (Pitagoras), dosquarteroes (city- block), Chebychev (ou do maximo) definidas por:
Euclideana : de =
{p∑
i=1
(xi − yi)2
}1/2
City − Block : dcb =
p∑
i=1
|xi − yi|
Chebychev : dc = max{|xi − yi|, i = 1, 2, . . . , p
}
“RAIZ”2014/10/28page 122
✐
✐
✐
✐
✐
✐
✐
✐
122 Escalamento Multivariado Cap.4
As duas primeiras sao casos particulares de:
Minkowsky : dM =
{p∑
i=1
(xi − yi)m
}1/m
(de ordem m)
Quando os valores que os vetores xi e yi tomam sao somente 0 ou 1,algumas alternativas especıficas e interpretaveis sao usadas.
Jaccard : dJ = −p∑
i=1
xiyi/(
p∑
i=1
xi +
p∑
i=1
yi −p∑
i=1
xiyi
).
Coincidencia(matching): #(i : xi = yi)/p, onde # indica o cardinal doconjunto.
Uma medida de similaridade que usaremos em exemplo posterior e de-finida da seguinte forma. Sejam {Pk, k = 1, 2, . . . , n} um conjunto departicoes finitas de um conjunto finito e fixo I. Definimos para cada parde elementos i e j do conjunto I
sij = #{k : i e j pertencem ao mesmo subconjunto da particao k}
Definimos a dissimilaridade como dij = n− sij .
Medidas de dissimilaridade podem ser transformadas em medidas desimilaridade usando diversas trasformacoes como por exemplo sij =1/(1 + dij) ou sij = c− dij para alguma constante c maior que todos osdij .
Nem toda dissimilaridade e uma distancia ainda que muitas o sao. (VerGower J.C. 1982).
Nao existe uma “melhor” medida de similaridade. Algumas podem sermais apropriadas que outras para certas situacoes ou conjunto de dadosou aplicacao.
Uma nocao importante e a de imersao em um espaco euclidiano.
Uma matriz D(n×n) de elementos dij e Euclidiana se existem n pontosp1, p2, . . . , pn em algum Rp de forma tal que a distancia euclidiana entrepi e pj e exatamente dij .
Neste caso claramente D e uma matriz de distancias (e naturalmente dedissimilaridades).
Nem todo espaco metrico finito com matriz de distancias D e inmersivelem algum espaco Euclideano para algum valor de p.
“RAIZ”2014/10/28page 123
✐
✐
✐
✐
✐
✐
✐
✐
Cap.4 - Analise de Componentes Principais 123
Seja D uma matriz de dissimilaridades, I a matriz identidade em Rn
e 1 um vetor de comprimento n com elementos todos iguais a 1 e B amatriz
B = (I−1s′)D(I−s1′) onde s indica a matriz transposta de s e s′1 = 1.
Teorema: (Condicao necessaria e suficiente para inmersibilidade).D e inmersivel em um Espaco Euclideano se e somente se B e semi-definida positiva para algum s tal que s′ = 1 e s′D 6= 0.
Outro resultado interessante para verificar se algumas expressoes defi-nem metricas esta dado pelo seguinte resultado (ver Deza, Elena (2006)).Seja f : R → R uma funcao duas vezes diferenciavel definida para x ≥ 0e tal que f(0) = 0, f ′ > 0 para todo x ≥ 0 e f ′′ ≤ 0 para todo x ≥ 0.Neste caso f e concava e em particular f(x+ y) ≤ f(x) + f(y).Dado u espaco metrico (X, d) a funcao df definida por df (x, y) = f(d(x, y))e uma metrica sobre X. As metricas sao de fato equivalentes (geram amesma topologia).
Exemplos: αd para α > 0, dα (0 < α < 1), ln(1 + d), arcsin d,arccosh d, e d/(1 + d).
4.3 Exemplos do Capitulo 4
Os exemplos deste capitulo foram rodados usando a funcao cmdscale()do R. Como ja foi mencionado, os resultados usando o escalamento naometrico sao muito semelhantes. Para o caso nao metrico o pacote smacofdo R e recomendado.
Exemplo 1
Este exemplo contem data de questionarios aplicado em estudantes deCiencias Polıticas sobre similaridades percebidas entre 12 paises: BEL,BRA, CHI, CUB, EGY, FRA, IND, ISR, USA, USS, YUG e ZAI.Cada entrevistado indicava em uma escala a dissimilaridade entre cadapar de paıses. Os resultados foram depois agregados sobre todos osparticipantes e uma dissimilaridade media foi calculada. Estes valoresentao indicados na Figura 1.
“RAIZ”2014/10/28page 124
✐
✐
✐
✐
✐
✐
✐
✐
124 Escalamento Multivariado Cap.4
Figura 1
BEL
BRA
CHI
CUB
EGY
FRA
IND
ISR
USA
USS
YUG
ZAI
BEL
05,58
77,08
4,83
2,17
6,42
3,42
2,5
6,08
5,25
4,75
BRA
5,58
06,5
75,08
5,75
55,5
4,92
6,67
6,83
3
CHI
76,5
03,83
8,17
6,67
5,58
6,42
6,25
4,25
4,5
6,08
CUB
7,08
73,83
05,83
6,92
66,42
7,33
2,67
3,75
6,67
EGY
4,83
5,08
8,17
5,83
04,92
4,67
54,5
65,75
5
FRA
2,17
5,75
6,67
6,92
4,92
06,42
3,92
2,25
6,17
5,42
5,58
IND
6,42
55,58
64,67
6,42
06,17
6,33
6,17
6,08
4,83
ISR
3,42
5,5
6,42
6,42
53,92
6,17
02,75
6,92
5,83
6,17
USA
2,5
4,92
6,25
7,33
4,5
2,25
6,33
2,75
06,17
6,67
5,67
USS
6,08
6,67
4,25
2,67
66,17
6,17
6,92
6,17
03,67
6,5
YUG
5,25
6,83
4,5
3,75
5,75
5,42
6,08
5,83
6,67
3,67
06,92
ZAI
4,75
36,08
6,67
55,58
4,83
6,17
5,67
6,5
6,92
0
“RAIZ”2014/10/28page 125
✐
✐
✐
✐
✐
✐
✐
✐
Cap.4 - Analise de Componentes Principais 125
Esta forma de coletar dissimilaridades e bastante comum em outras areas como
na analise de comportamento de consumidores. Imaginemos que temos um
conjunto de marcas em uma categoria (digamos 15 marcas de detergente para
roupas) e queremos ter uma ideia do grau de concorrencia entre as marcas
em termos de como sao vistas como substitutas/alternativas de compra entre
os consumidores. Seriam marcas que o consumidor poderia comprar uma em
lugar da outra. Esta informacao e em geral valiosa para os fabricantes porque
indica a concorrencia mais direta entre marcas.
No Exemplo 2 veremos uma situacao deste tipo porem com uma coleta diferente
para determinar as dissimilaridades.
A Figura 2 usa os mesmos valores da Figura 1 so que em uma versao grafica
atraves de um grafico de nıveis (levelplot):
Figura 2
“RAIZ”2014/10/28page 126
✐
✐
✐
✐
✐
✐
✐
✐
126 Escalamento Multivariado Cap.4
A Figura 3 indica os valores dos autovalores na decomposicao espectral.
9 Autovalores positivos e tres negativos que indica que a matriz de Dis-similaridades nao e Euclidiana.
Figura 3
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12
72,50 41,71 25,83 15,60 11,17 9,31 6,03 2,96 0,00 0,45 2,78 7,43
Adicionalmente os primeiros autovalores positivos são muito maiores que os negativos;
Adicionalmente os primeiros autovalores positivos sao muito maioresque os negativos; (ver Mardia e outros (1979)).Os valores absolutos acumulados dos autovalores estao indicados na Fi-gura 4:
Figura 4
Proporcao nas somas em valores absolutos acumuladas
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12
0,37 0,58 0,72 0,80 0,85 0,90 0,93 0,95 0,95 0,95 0,96 1,00
Os dois primeiros autovalores indicam uma adequacao de 58,3%.Como as duas primeiras dimensoes representam proximo de 60% da va-riacao ficaremos com estas duas dimensoes para a representacao grafica.
“RAIZ”2014/10/28page 127
✐
✐
✐
✐
✐
✐
✐
✐
Cap.4 - Analise de Componentes Principais 127
A Figura 5 contem as coordenadas dos pontos e a Figura 6 a sua repre-sentacao.
Figura 5
Pais Dimension 1 Dimension 2
BEL 5,915148 2,643098
BRA 3,712266 5,889597
CHI 7,573524 2,081641
CUB 8,292496 1,602484
EGY 2,286907 1,688705
FRA 5,610125 3,979386
IND 2,510442 5,640259
ISR 3,165117 4,59795
USA 7,061969 1,396854
USS 6,592312 2,807475
YUG 4,495912 4,729947
ZAI 1,713152 6,456992
“RAIZ”2014/10/28page 128
✐
✐
✐
✐
✐
✐
✐
✐
128 Escalamento Multivariado Cap.4
Figura 6
Note-se que os paises aparecem agrupados em 3 grandes grupos em ter-mos de suas similaridades com Egipto sendo algo diferenciado talvezmais proximo de Brasil e India.Exemplo 2. Como ja mencionamos anteriormente imaginemos quetemos um conjunto de n consumidores de uma categoria de produtos.Solicitamos a cada entrevistado que forme conjuntos de produtos deforma tal que dois produtos sejam colocados no mesmo grupo se saoconsiderados como eventuais substitutos um do outro.Sejam {Pk, k = 1, 2, . . . , n} a particao dos produtos feita por um con-sumidor determinado. Esta particao sera diferente para cada indivıduotanto nos subconjuntos que a definem como no seu numero. Definimospara cada par de elementos i e j do conjunto de produtos I sij = #vezes que i e j pertencem ao mesmo subconjunto/n (# indica numero).Definimos a dissimilaridade entre os produtos i e j como dij = 1− sij .A matriz a seguir indica a matriz de dissimilaridades obtida entre umconjunto de 370 consumidores entre 19 marcas de Margarina.
“RAIZ”2014/10/28page 129
✐
✐
✐
✐
✐
✐
✐
✐
Cap.4 - Analise de Componentes Principais 129
DaniH
o
Dan
iMa
Flor
Golf
Cord
oHo
Codo
MyB
Mant
erina
Marg
aHo
Marg
aMa
Milh
ojas
MKT
Ho
MKT
Re
Prem
Ho
Prem
Tran
Pre
mM
Prim
icia
Prim
Ho
Prim
Ma
Supe
r
DaniHo
0,000,40
0,680,68
0,58
0,76
0,68
0,51
0,73
0,54
0,42
0,69
0,44
0,50
0,63
0,43
0,46
0,67
0,58
DaniM
a0,400,00
0,550,44
0,82
0,64
0,39
0,79
0,56
0,78
0,67
0,45
0,68
0,71
0,39
0,76
0,67
0,47
0,64
Flor
0,680,55
0,000,39
0,58
0,57
0,55
0,78
0,62
0,52
0,74
0,62
0,61
0,66
0,51
0,71
0,81
0,62
0,51
Golf
0,680,44
0,390,00
0,84
0,55
0,49
0,84
0,68
0,64
0,67
0,47
0,66
0,63
0,42
0,77
0,76
0,51
0,46
CordoHo
0,580,82
0,580,84
0,00
0,26
0,78
0,48
0,60
0,37
0,60
0,81
0,62
0,49
0,77
0,42
0,39
0,64
0,76
CodoMyB
0,760,64
0,570,55
0,26
0,00
0,61
0,68
0,40
0,63
0,77
0,61
0,76
0,67
0,60
0,63
0,60
0,45
0,80
Manterina
0,680,39
0,550,49
0,78
0,61
0,00
0,78
0,55
0,64
0,67
0,42
0,73
0,79
0,49
0,84
0,76
0,54
0,62
MargaHo
0,510,79
0,780,84
0,48
0,68
0,78
0,00
0,47
0,48
0,51
0,82
0,41
0,36
0,70
0,39
0,37
0,70
0,72
MargaMa
0,730,56
0,620,68
0,60
0,40
0,55
0,47
0,00
0,78
0,76
0,60
0,71
0,79
0,45
0,67
0,67
0,32
0,74
Milhojas
0,540,78
0,520,64
0,37
0,63
0,64
0,48
0,78
0,00
0,40
0,64
0,40
0,34
0,73
0,48
0,49
0,72
0,44
MKTHo
0,420,67
0,740,67
0,60
0,77
0,67
0,51
0,76
0,40
0,00
0,42
0,37
0,46
0,66
0,49
0,56
0,86
0,53
MKTRe
0,690,45
0,620,47
0,81
0,61
0,42
0,82
0,60
0,64
0,42
0,00
0,69
0,79
0,42
0,81
0,83
0,63
0,61
PremHo
0,440,68
0,610,66
0,62
0,76
0,73
0,41
0,71
0,40
0,37
0,69
0,00
0,19
0,36
0,45
0,48
0,74
0,58
PremTran
0,500,71
0,660,63
0,49
0,67
0,79
0,36
0,79
0,34
0,46
0,79
0,19
0,00
0,54
0,39
0,40
0,73
0,58
PremMa
0,630,39
0,510,42
0,77
0,60
0,49
0,70
0,45
0,73
0,66
0,42
0,36
0,54
0,00
0,75
0,73
0,45
0,61
Primicia
0,430,76
0,710,77
0,42
0,63
0,84
0,39
0,67
0,48
0,49
0,81
0,45
0,39
0,75
0,00
0,34
0,65
0,66
PrimHo
0,460,67
0,810,76
0,39
0,60
0,76
0,37
0,67
0,49
0,56
0,83
0,48
0,40
0,73
0,34
0,00
0,42
0,67
PrimMa
0,670,47
0,620,51
0,64
0,45
0,54
0,70
0,32
0,72
0,86
0,63
0,74
0,73
0,45
0,65
0,42
0,00
0,66
Super
0,580,64
0,510,46
0,76
0,80
0,62
0,72
0,74
0,44
0,53
0,61
0,58
0,58
0,61
0,66
0,67
0,66
0,00
“RAIZ”2014/10/28page 130
✐
✐
✐
✐
✐
✐
✐
✐
130 Escalamento Multivariado Cap.4
A Figura 2 indica os valores dos autovalores na decomposicao espectral.
Autovalores
Figura 2
11 Autovalores positivos o que indica que a matriz de Dissimilaridadesnao e Euclidiana.
V1 V2 V3 V4 V5 V6 V7 V8 V9
1,32 0,78 0,46 0,35 0,31 0,21 0,19 0,14 0,07
V10 V11 V12 V13 V14 V15 V16 V17 V18 V19
0,04 0,01 0,00 0,02 0,02 0,04 0,08 0,11 0,12 0,13
Adicionalmente os primeiros autovalores positivos sao muito maiores queos negativos. (Ver Mardia e outros (1979)).
Figura 3
Proporcao nas somas em valores absolutos acumuladas
V1 V2 V3 V4 V5 V6 V7 V8 V9
0,300932 0,48 0,585 0,665 0,73 0,782 0,825 0,857 0,87
V10 V11 V12 V13 V14 V15 V16 V17 V18 V19
0,881917 0,88 0,884 0,887 0,89 0,902 0,921 0,945 0,97 1
Os dois primeiros autovalores indicam uma adequacao de quase 50%
Como as duas primeiras dimensoes representam proximo de 50% da va-riacao ficaremos com estas duas dimensoes para a representacao grafica.
“RAIZ”2014/10/28page 131
✐
✐
✐
✐
✐
✐
✐
✐
Cap.4 - Analise de Componentes Principais 131
A Figura 4 contem as coordenadas dos pontos e a Figura 5 a sua repre-sentacao.
Figura 4
Marcas Dimensao 1 Dimensao 2
DaniHo 0,158 0,139
DaniMa 0,323 0,053
Flor 0,204 0,041
Golf 0,326 0,144
CordoHo 0,281 0,277
CodoMyB 0,112 0,366
Manterina 0,353 0,031
MargaHo 0,345 0,119
MargaMa 0,187 0,342
Milhojas 0,230 0,132
MKTHo 0,188 0,296
MKTRe 0,333 0,162
PremHo 0,219 0,201
PremTran 0,304 0,119
PremMa 0,262 0,058
Primicia 0,349 0,075
PrimHo 0,299 0,164
PrimMa 0,218 0,311
Super 0,052 0,278
“RAIZ”2014/10/28page 132
✐
✐
✐
✐
✐
✐
✐
✐
132 Escalamento Multivariado Cap.4
Note-se que as marcas aparecem agrupadas em 4 grandes grupos emtermos de suas similaridades com a marca Super sendo algo diferenciada.
Exemplo 3.
Os dados deste exemplo encontra-se em Gower J. (1996) e no pacoteBiplotGUI em R.
Para fazer mobilia do tipo Old-Cape em South Africa tres variedadesde madeira foram utilizadas em diferentes momentos. As especies foram,Ocotea kenyensis.(Oken) 7 amostras, Ocotea bullata (Obul) 20 amostras,e Ocotea perosa (Opor) 10 amostras.
“RAIZ”2014/10/28page 133
✐
✐
✐
✐
✐
✐
✐
✐
Cap.4 - Analise de Componentes Principais 133
Sobre estas 37 amostras foram medidas 7 variaveis que poderiamcaracterizar cada uma das especies:
Species
Indicador da especie. Um fator com nıveis Obul, Oken e Opor.
VesD
Tangential vessel diameter in micrometres. A numeric vector.
VesL
Vessel element length in micrometres. A numeric vector.
FibL
Fibre length in micrometres. A numeric vector.
RayH
Ray height in micrometres. A numeric vector.
RayW
Ray width in micrometres. A numeric vector.
NumVes
The number of vessels per millimetre squared. A numeric vector.
A seguir: Figura 1. Dados de tres especies de madeira.
“RAIZ”2014/10/28page 134
✐
✐
✐
✐
✐
✐
✐
✐
134 Escalamento Multivariado Cap.4
Species VesD VesL FibL RayH RayW NumVes
1 Obul 79 383 941 333 30 17
2 Obul 78 346 961 223 24 31
3 Obul 82 361 1039 316 27 25
4 Obul 79 324 1048 369 29 26
5 Obul 85 418 1051 347 34 14
6 Obul 111 448 1096 379 40 13
7 Obul 76 320 1130 347 29 13
8 Obul 103 371 1165 326 26 10
9 Obul 129 406 1165 428 44 11
10 Obul 74 281 1175 324 26 11
11 Obul 102 567 1221 395 40 11
12 Obul 95 415 1225 416 38 10
13 Obul 91 372 1234 375 26 11
14 Obul 113 314 1253 466 23 10
15 Obul 93 541 1267 347 34 14
16 Obul 94 437 1271 336 36 10
17 Obul 119 359 1280 412 32 11
18 Obul 104 387 1290 381 22 12
19 Obul 114 569 1369 568 52 11
20 Obul 141 621 1527 419 34 15
21 Oken 147 402 1391 440 32 9
22 Oken 142 393 1468 443 35 6
23 Oken 125 322 1530 459 34 11
24 Oken 156 401 1588 512 42 11
25 Oken 162 502 1591 369 42 8
26 Oken 103 378 1655 441 34 11
27 Oken 126 414 1759 459 42 8
28 Opor 122 346 981 393 40 14
29 Opor 139 133 993 342 33 14
30 Opor 130 368 1005 356 39 16
31 Opor 127 331 1027 473 38 20
32 Opor 112 309 1044 358 47 8
33 Opor 115 352 1048 300 36 14
34 Opor 130 471 1072 409 39 15
35 Opor 153 419 1077 392 48 20
36 Opor 135 370 1104 531 38 15
37 Opor 130 325 1166 428 36 12
“RAIZ”2014/10/28page 135
✐
✐
✐
✐
✐
✐
✐
✐
Cap.4 - Analise de Componentes Principais 135
Usando as 7 variaveis, calculamos a distancia euclidiana usual entrecada par de linhas. Isto nos proporciona a matriz de distancias (oudissimilaridades) que sera usada para MDS.
A Figura 2 mostra graficamente a matriz de distancias entre cada parde elementos da amostra (37× 37 elementos). O grafico tambem sugerea presenca de tres grupos(ou segmentos) de amostras (que poderiam ounao coincidir com as especies de Ocotea analisadas).
Figura 2. Plot de nıveis (levelplot de matriz de distancias (dis-similaridades).
Note-se que todos sao nao negativos porque a matriz de dissimila-ridades e neste caso uma matriz de distancias euclideanas. Sao tem 6positivos porque temos 7 variaveis.
“RAIZ”2014/10/28page 136
✐
✐
✐
✐
✐
✐
✐
✐
136 Escalamento Multivariado Cap.4
Figura 3
V1 V2 V3 V4 V5 V6
102,3307 36,70507 33,60642 19,31997 15,69257 8,345266
As duas primeiras dimensoes representam 64 por cento da inerciatotal, o que e adequado para nossa representacao.
Figura 4. Proporcao nas somas em valores absolutos acumu-lados.
V1 V2 V3 V4 V5 V6
0,473753 0,643684 0,799269 0,888714 0,961365 1
Os dois primeiros autovalores indicam sua adequacao de 64%.
A Figura 5 contem o Scree Plot e grafico com os valores acumulados.
“RAIZ”2014/10/28page 137
✐
✐
✐
✐
✐
✐
✐
✐
Cap.4 - Analise de Componentes Principais 137
Figura 5
“RAIZ”2014/10/28page 138
✐
✐
✐
✐
✐
✐
✐
✐
138 Escalamento Multivariado Cap.4
A Figura 6 contem o mapa com 37 pontos(amostras ). Os pontos foramcoloridos de forma diferente levando em conta a sua especie.
Note-se que o mapa mostra a presenca de 3 grupos/segmentos e queestes de fato correspondem aproximadamente a cada uma das especies.
Figura 6
“RAIZ”2014/10/28page 139
✐
✐
✐
✐
✐
✐
✐
✐
Referencias 139
REFERENCIAS
Benzeeri, J.P. (1973). L’Analyse des Donnees, Tome 2: L’Analysedes Correspondences, Dunod, Paris (2a. ed. 1976).
Cattel, R.B. (1966). The Scree test for the number of factors.Multivariate Behavioural Research, 1, 245-276.
Elena Deza e outros (2006). Dictionary of Distances, Elsevier.
Fischer, R.A. (1940). The Precision of Discriminant Functions.Ann. Eugen. Lond. 10, 422-429.
Gower, J.C. (1982). Euclidean Distance Geometry. MathematicalScientist, 7, 1-14.
Gower, J.C. & Hand, D,J. (1996). Biplots. Chapman & Hall.
Gower, J.C., Lubbe, S,. Le Roux N. (2011). Understanding Bi-plots. Wiley & Sons.
Gabriel, K.R. (1971). The biplot graphic display of matrices withapplication to principal component analysis. Biometrika, 5m, 3,,p.453.
Hand, D.J., Daly, F., Lunn, A.D. (1994). A handbook of smalldata sets. London: Chapman & Hill. pag. 297.
Hill, M.O. (1974). Correspondence Analysis: a Neglected Multi-variate Method. App. Stat 23, 340-354.
Hirschfied, H.O. (1935). A Connection Between Correlation andContingency. Proc. Camb. Phil. Soc. 31, 520-524.
Hoffman, K., Kunze, R, (1961). Linear Algebra. Prentice-Hall,Inc. Englewood Cliffs, N.J.
Horst, P. (1965). Factor Analysis of Data Matrices. Holt, Rinchart& Winston, New York.
Kendall, M.G. & Stuart, A. (1961). The Advanced Theory ofStatistics. vol. 2. Griffin, London.
“RAIZ”2014/10/28page 140
✐
✐
✐
✐
✐
✐
✐
✐
140 Referencias
Kettering, J.R. (1971). Canonical Analysis of Several Sets of Va-riables. Biometrika 58, 433-450.
Kruskal, J.B. (1964). Multidimensional scating by optimizing go-odness of fit to a nonmetric hypothesis. Psychometrika, vol. 29,1-27.
Kruskal, J.B. (1964). Nonmetric multidimensional scaling: A nu-merical method. Psychometrika, vol. 29, 28-42.
Lima Elon L. (1998). Algebra Linear. Colecao Matematica Uni-versitaria. IMPA, Rio de Janeiro.
Lancaster, H.O. (1969). The χ-squared Distribution. Wiley, NewYork.
Lebart, L., Fenelon, J.P. (1971). Statistique et Informatique Ap-pliquees. Dunod, Paria (3a. ed. 1975).
Lebart, L., Morineau, A. & Tabard, N. (1977). Techniques de laDescription Statistique. Dunod. Paris.
Mardia, K.V., Kent, J.T. and Bibby, J.M. (1979). Chapter 14 ofMultivariate Analysis, London: Academic Press.
Morrison, D.F. (1967). Multivariate Statistical Methods. McGrawHill (2a. ed. 1976).
Pitombeira, J.C. (1972). Introducao a Algebra Linear. Ao LivroTecnico S.A. e Editora Universidade de Brasılia. Rio de Janeiro.
Sherpard, R.N. (1962). The analysis of proximities: Muldidimen-sional scaling with an unknown distance function. Phychometrikavol. 27, 125-139, 219-246.