45
Tópicos Especiais em Análise Multivariada Júlia Maria Pavan Soler IME/USP

Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Tópicos Especiais em Análise Multivariada

Júlia Maria Pavan Soler

IME/USP

Page 2: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Tópicos Especiais em Análise Multivariada

Foco na obtenção de vetores reducionistas da ”(co)variação”

Revisão de Metodologias: (n >> p)

- Componentes Principais - Análise Fatorial- Análise Discriminante - Correlação Canônica

Componentes Principais em Espaços Duais: O Problema n << p

Componentes Principais em Dados Agrupados: Formulação do Modelo Linear Misto Multivariado (Modelo de Componentes de Covariância)

AHP – Método de Análise Hierárquica (Analytic Hierarchy Process): Obtenção de vetores de prioridades no apoio multicritério à decisões

Page 3: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Tópicos Especiais em Análise Multivariada

Seja uma matriz pxp e f(,) uma função do p , definida como:

,,;

;1',,'

';

1

k

p

f

aaaaa

aaaf

k e 1 são o menor e maior autovalor de , respectivamente.

Neste Minicurso discutiremos várias pesquisas de redução de dimensionalidade de dados

multivariados que são casos particulares da função f(,) para diferentes escolhas de .

Page 4: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Parte I

Revisão de Metodologias: Foco na obtenção de vetores reducionistas de ”informação”

- Componentes Principais- Análise Fatorial- Análise Discriminante- Correlação Canônica

n >> pObservações IndependentesDecomposição Espectral de Matrizes

Page 5: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Estrutura de Dados Multivariados

Unidades Amostrais 1 2 … j … p

1 Y11 Y12 Y1j Y1p

2 Y21 Y22 Y2j Y2p

… … … … … …

i Yi1 Yi2 Yij Yip

… … … … … … …

n Yn1 Yn2 Ynj Ynp

Variáveis

:ijY resposta do i-ésimo “indivíduo” na j-ésima variável

Exemplos (Manly, 2005)

Objetivo de Análises Multivariadas: Caracterização das unidades amostrais relativamente ao conjunto das p variáveis Caracterização das variáveis (inter-relação)

Tamanho amostral: n > 5p e n > 100 (Hair et al., 2005)

Grau de correlação entre as variáveis |r| > 30%

pnY

Page 6: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Componentes Principais – Observações IndependentesSindrome Metabólica (SM): Doença multifarorial envolvendo

muitas variáveis inter-relacionadas.

Cálculo de Componentes Principais da Sindrome Metabólica: descrever a SM em termos de componentes não correlacionados e ordenados relativamente à informação que contêm).

Page 7: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Estrutura de Dados Multivariados

Linhas de Y: ipiipi YYYY ,...,, 21)1(

Colunas de Y:

1

2

1

)1(...

nnj

j

j

nj

Y

Y

Y

Y

Espaço dos Indivíduos: n pontos em um espaço p-dimensional

Espaço das Variáveis: p pontos em um espaço n-dimensional

Explorar as propriedades geométricas de um espaço vetorial

'

'1

iinn

ppjjp

dDist

YCovYE

npnn

p

p

pn

YYY

YYY

YYY

Y

...

............

...

...

21

22221

11211

Page 8: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Variáveis

Unidades Amostrais 1 2 … j … p

1 Y11 Y12 Y1j Y1p

… … … … … … …

n Yn1 Yn2 Ynj Ynp

Média

Covariâncias

Estatísticas Descritivas Multivariadas

pp

ppn

YCov

YEY

1;

1Y2Y jY

11s

pY

12s js1 ps1

11

...

1

1 Yn

Y

Y

Y

p

p

n

i

ii

jjpp YYYYn

sS1

'1

1)( 2/12/1

jjjj sspp SDDR

Variância total: tr ( S ) Variância Generalizada: | S |

Vetor de Médias Matriz de Covariâncias Matriz de Correlações Matriz de Distâncias

j jiijiinn YYdd 2

'' )(

ps2

pps

22s21s js2

2ps1pspjs

... ... ... ... ... ...

Page 9: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Box-plot Bivariado (Everitt, 2007)

20

025,5

41

140,0

43

340,0

2510

1094,3

-5 0 5 10-1

0-5

05

10

15

20

X

Y

0.9

0.95

0.99

2 4 6 8

02

46

8

X

Y

0.9

0.95 0.99

-6 -4 -2 0 2 4 6

-6-4

-20

24

6

X

Y

0.9

0.95

0.99

-6 -4 -2 0 2 4 6

-6-4

-20

24

6

X

Y 0.9

0.95

0.99

212

pMd

μyΣμy

Caracterização dos dados via seus eixos de “(co)variação”

Page 10: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Componentes Principais (Pearson, 1901)

Redução de dimensionalidade (n>p):

pmmp ;

i

j

i

jmnpn YaZZ Y ';

'...'...'

...

...

...

...

111

2

21

2

2

2221

112

2

11

pppmmm

pppp

p

p

Y PPPPPP

Decomposição Espectral:

0;

,maxarg

'

11

i

j

i

j

m

j

i

ja

j

ZZCov

ZVar;aj

;; IPPPPDPPj

jjjp PPI ;0

pm

a

PfPfPf

PP

PPPfaf

;...;...;

;'

';;maxarg

1

1

11

111

1

Variáveis

Unidades Amostrais 1 2 … j … p

1 Y11 Y12 Y1j Y1p

… … … … … … …

n Yn1 Yn2 Ynj Ynptr()

Page 11: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Análise Fatorial (Spearman, 1904)Variáveis observadas são modeladas em função de variáveis latentes Descrever a estrutura dedependência entre as variáveis por meio da construção de fatores comuns e específicos

imi

iiiiii

i

eCovICov

eCoveEEeY

,

0,,0;

f

fff

ipimpmipipp

i

p

iimmii

i

iimmii

i

eFFFY

eFFFY

eFFFY

...

...

...

...

2211

2222212122

1121211111

pppmmppp

comunalidade especificidade

(diagonal)

Y pn ;

:,...,

:

:

1

ij

mFFf

Vetor de fatores comuns

Matriz diagonal de fatores específicos

Matriz de cargas fatoriais

1

2/1

1

1

22/1

1

2/12/1

,

''

mimi

m

k jkj

iiii

p

ZD

DiagP

PZYYPZPPPP

j

f

Solução via Componentes Principais

Fatores comuns: CP padronizados

Page 12: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Análise Discriminante (Fisher, 1938)

Unidades Amostrais 1 2 … j … p

1 Y111 Y112 Y11j Y11p

2 Y121 Y122 Y12j Y12p

… … … … … …

n1 Y1n11 Y1n12 Y1n1j Y1n1p

1 Y211 Y212 Y21j Y21p

2 Y221 Y222 Y22j Y22p

… … … … … …

n2 Y2n21 Y2n22 Y2n2j Y2n2p

Variáveis

G1

G2

Obter funções (lineares) das p-variáveis para a máxima separação entre os grupos: Redução de dimensionalidade (n>p)

g

i

gg

i

pg iYCoviYE |;|)1(

Suposição wG ...21

ii YlZ

lliYlVar

liYlE

wg

i

gg

i

Z g

'|

|

G grupos:

1;min; Gpmmp

ll

ll

ll

ll

ll

ll

w

b

w

G

g

gg

w

g

G

g

1

..

2

.

1

wbpp

Componentes de (co)variância

ENTRE e DENTRO de grupos

Situação ideal para discriminação: variáveis com covariâncias ENTRE e DENTRO de sinais contrários!

Page 13: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

jwjjb

jwj

PP

Pl

;2/1

jjj

jj

PP

Pa

;

N

i

ii

T

aa

YYYYN

SN

af

1

1;

1

11

;ˆmaxarg

X1

X2

Análise

Discriminante (AD)

Análise de Componentes

Principais (ACP)

j

PPa Pf

aa

aa

jj

;maxarg'

'max

1;

jbwPPw

bl Pf

ll

ll

jj

;maxarg'

'max 1

1;

G

g

N

i

g

ig

g

igG

g

ggg

G

g

N

i

igiggg

YYYYYYYYNYYYY1 1

..

1

......

1 1

....

jbwPP

PSSfjj

;maxarg 1

1;

TS bS wS

Page 14: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Correlação Canônica (Hotteling, 1935, 1936)

Obter funções (lineares) das p-variáveis de Y1 e das q-variáveis de Y2 com máxima correlação Redução de dimensionalidade (n>(p+q))

Unidades Amostrais Y11 … Y1p Y21 … Y2q

1 Y111 Y1p1 Y211 Y2q1

… … … … … … …

n Y11n1 Y1pnp Y21n1 Y2qnq

Variáveis Y1 Variáveis Y2

qpmmqp ;min;

2

1

1)(μ

μμY

i

qpE

qqpq

qppp

qpqp

i

qpCov2221

1211

)()(1)(ΣΣ

ΣΣΣY

Matriz de covariância entre os

dois conjuntos de variáveis

pp11Σpp22Σ

qp12Σ

2YbV

1YaU

bbaa

ba

VVarUVar

VUCovVUCorr

2211

12,,

ΣΣ

Σ

a, b; máxima correlação

aa

aa

11

21

1

2212

'

Σ

bb

bb

22

12

1

1121

'

'

Σ

Page 15: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Correlação Canônica Interpretação Geométrica

1, ,max VUCorrba

1

2/1

111111 YΣY eaU

2

2/1

221211 YΣY fbV

11

2/1

111

2/1

111111 ' YYΣY PPeeaU

Componente Principal de Y1

Fator Principal de Y1 (CP padronizado)

A variável canônica U1 resulta de uma rotação orthogonal (via o autovetor P1 e determinada por 11) do CP padronizado seguida por outra rotação orthogonal (via o autovetor e1 e determinada por )2/1

1121

1

2212

2/1

11

ΣΣΣΣΣ

Page 16: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Vetores Reducionistas

Componentes Principais

Análise Fatorial : solução via Componentes Principais (padronizados)

Análise Discriminante

Análise de Correlação Canônica:

YPZPf jPP jj

';;ˆmaxarg1;

YPZSSNPSSf wbjbwPP jj

';1ˆ;;maxarg11

1;

1';;maxarg 21

1

2212

1

111;

YPUPf jPP jj

Σ

2';;maxarg 12

1

1121

1

221;

YPVPf jPP jj

Σ

i

i YP'2/1 f

)( 1pY

)( 1pY

)( 1pY

1

1

1)( 2

1

q

p

qp Y

YY

Suposições: n > p e Observações independentes

Page 17: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Parte II

Componentes Principais em Espaços Duais: O Problema n << p

Observações IndependentesRevisar: Escalonamento MultidimensionalDecomposição em Valores Singulares de Matrizes Retangulares

Page 18: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Espaços Duais

2/1

rnnrppn UVY pp

r

nnpn VUY

00

02/1

)('00

0'

'00

0'

2

'' iiiinn

r

nnnn

rppnrppp

r

pppp

dfbBUUYYB

VYZVVYY

Matriz de dados multivariados de posto r

Componentes Principais

Decomposição em valores singulares

Decomposição espectral

:pnY

Quando p >> n os Componentes Principais de Y podem ser calculados a partir da decomposição espectral da matriz B (nxn), de dimensão muito menor que (ganho em tempo computacional).

Escalonamento Multidimensional: as coordenadas principais são obtidas a partir da Matriz de Distâncias (Y: Dist. Euclidiana ou Y padronizado: Dist. de Penrose)

Equivalência entre as Coordenadas Principais e os Componentes Principais (Mardia, 1979)

Page 19: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Tamanhos amostrais das 11 populações HapMap mais a brasileiran = 1.124

p = 365.116 variáveis (SNPs) distribuídas nos 22 cromossomos

Espaços Duais – Problema n << pAplicação em Genômica

Obter os Componentes Principais de Ancestralidade para a Caracterização da História Genética de Populações Mundiais

Page 20: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Componentes Principais de Ancestralidade Caracterização da História de Miscigenação da População Brasileira

Espaços Duais – Problema n << pAplicação em Genômica

Page 21: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Tópicos Especiais em Análise MultivariadaOficina 1 - R

Funções do R:

eigen(S) : flexível na escolha da matriz da forma quadrática a ser analisada (ex., S com 1/(n-1) ou 1/n, Y’Y)

princomp(Y): recebe a matriz Y e realiza a decomposição espectral de S (com divisor n)

prcomp(Y) : recebe a matriz Y e realiza a decomposição espectral de S (com divisor n-1) suporta n<p

svd(Y): recebe a matriz Y e realiza a decomposição em valores singulares de Y’Y e de YY’ . Para comparar com eigen é preciso “padronizar” as correspondentes matrizes de autovalores

n>>p

n>>pn<<p

Page 22: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Tópicos Especiais em Análise Multivariada

Foco na obtenção de vetores reducionistas da ”(co)variação”

Revisão de Metodologias: (n >> p)

- Componentes Principais - Análise Fatorial- Análise Discriminante - Correlação Canônica

Componentes Principais em Espaços Duais: O Problema n << p

Componentes Principais em Dados Agrupados: Formulação do Modelo Linear Misto Multivariado (Modelo de Componentes de Covariância)

AHP – Método de Análise Hierárquica (Analytic Hierarchy Process): Obtenção de vetores de prioridades no apoio multicritério à decisões

Page 23: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Parte III

Componentes Principais em Dados Correlacionados (unidades amostrais): Formulação do Modelo Linear Misto Multivariado

Casos: n > p e n << p

Formulação de Modelos Lineares Mistos Multivariados- Matrizes de Covariância Uniforme- Matrizes de Covariância mais Gerais: Estrutura Familiar (parentesco)

Page 24: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Componentes Principais - Observações “Correlacionadas”

Grupo Unidade Amostral Y1 Y2 … Yp

1 1 Y111 Y112 Y11p

1 2 Y121 Y122 Y12p

… …

1 n1 Y1n11 Y1n12 Y1n1p

Médias do Grupo 1

G 1 YG11 YG12 YG1p

G 2 YG21 YG22 YG2p

… …

G nG YGn11 YGn11 YGn11

Médias do Grupo G

Vetor de Médias Geral

11Y 12Y pY1

11Y 12Y pY1

1.Y2.Y

pY.

Konishi and Rao (1992): Aplicação em dados de irmãos.Considera correlação uniforme e desbalanceamento:pnY

Dados com correlação entre as unidades amostrais (dentro do grupo)

Oualkacha et al. (2012): Aplicação em dados de famílias (grupos).Considera o grau de relacionamento

Page 25: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Componentes Principais - Observações “Correlacionadas”

Grupo Unidade Amostral Y1 Y2 … Yp

1 1 Y111 Y112 Y11p

1 2 Y121 Y122 Y12p

… …

1 n1 Y1n11 Y1n12 Y1n1p

Médias do Grupo 1

G 1 YG11 YG12 YG1p

G 2 YG21 YG22 YG2p

… …

G nG YGn11 YGn11 YGn11

Médias do Grupo G

Vetor de Médias Geral

11Y 12Y pY1

11Y 12Y pY1

1.Y2.Y

pY.

Modelo de Componentes de (Co)Variância Multivariado(Konishi and Rao, 1992):

igg

ig

p euY 1

ppgNgNppgggg

wgbNNggpNpNg IYCov

11

pp

pp

pp

pppppp

pppppp

pppppp

w

w

w

bbb

bbb

bbb

Σ00

...

0Σ0

00Σ

ΣΣΣ

...

ΣΣΣ

ΣΣΣ

...

.........

...

...

...

.........

...

...

pppp wNbggpNpN

IGgDiagYCov

,...,1;11

Konishi and Rao (1992): Aplicação a dados de irmãos para muitas famílias.

:pnY

Dados com correlação uniforme e Grupos desbalanceados

wbT

ig

p

ig

ppYCov

YE

,1

Page 26: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Componentes Principais - Observações “Correlacionadas”

F.V. g.l. Matriz SQPC

Grupo (Entre) G-1

Resíduo (Dentro) N-G

TOTAL N-1

G

g

gggb YYYYNSpp

1

......

G

g

N

i

igig

T

g

ppYYYYS

1 1

....

G

g

N

i

g

ig

g

ig

w

g

ppYYYYS

1 1

..

Modelo de Componentes de (Co)Variância Multivariado: (Konishi and Rao, 1992)

igg

ig

p euY 1

Tabela de MANOVA

pppp wNbggpNpN

IGgDiagYCov

,...,1;11

Componentes Principais de Y obtidos por meio da decomposição espectral de são os eixos da análise discriminante. “Além destes, outros Componentes Principais podem ser definidos”, como veremos a seguir.

GN

S

G

SN

GN

S wbb

ww

1ˆˆ 1

0

1

2

0

G

NNN

Ng

g

Estimadores Consistentes dos Componentes de Covariância de Y (são funções lineares de Sb e Sw):

bw SS 1

Page 27: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Componentes Principais - Observações “Correlacionadas”

Grupo Unidade Amostral Y1 Y2 … Yp

1 1 Y111 Y112 Y11p

1 2 Y121 Y122 Y12p

… …

1 n1 Y1n11 Y1n12 Y1n1p

Médias do Grupo 1

G 1 YG11 YG12 YG1p

G 2 YG21 YG22 YG2p

… …

G nG YGn11 YGn11 YGn11

Médias do Grupo G

Vetor de Médias Geral

11Y 12Y pY1

11Y 12Y pY1

1.Y2.Y

pY.

Modelo de Componentes de (Co)Variância Multivariado(Oualkacha et al., 2012):

ppgNgNppgNgNgg

wgbgpNpNg IYCov

2

:pnY

Dados com correlação dependente do grau de parentesco entre indivíduos (famílias)

1 2

3 4 5 6

7

Família g 1 2 3 4 5 6 7

1 1 0 ½ ½ ½ 0 ¼

2 0 1 ½ ½ ½ 0 ¼

3 ½ ½ 1 ½ ½ 0 ¼

4 ½ ½ ½ 1 ½ 0 ¼

5 ½ ½ ½ ½ 1 0 ½

6 0 0 0 0 0 1 ½

7 ¼ ¼ ¼ ¼ ½ ½ 1

g2

igg

ig

p euY 1

wbT

ig

p

ig

ppYCov

YE

,1

Page 28: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

)/()()1/()/(

)/()1/(ˆGNGN

GNSGS

cabc

wbb

g g

ggggg

N

j

N

kjkgbga

G

g

b

g

c

G

g

bb

G

g

aa

G

g

g TraceN

NN1 11111

2,2,1

,,,

2;112 gbacggg NN

Componentes Principais - Observações “Correlacionadas”

bca

wwGN

SGN

ˆ

)(

)(

)(

Estimadores dos componentes de Covariância de Y: são funções lineares de Sb e Sw (Oualkacha et al., 2012)

Soluções equivalentes: Konishi and Rao (1992) e Oualkacha et al. (2012)

Page 29: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Componentes Principais - Observações “Correlacionadas”

pppp wbpppnY

ˆˆˆ;

1','

ˆ'max

aa

aa

aaPC b

ab

1ˆ',

ˆ'

ˆ'max

ˆˆ'

ˆ'max

aa

aa

aa

aa

aaPC w

w

ba

wb

bar

1','

ˆ'max

aa

aa

aaPC w

aw

1',

'

ˆˆ'max

'

ˆ'max

aa

aa

aa

aa

aaPC wb

aaT

Direção com máxima variação Entre grupos

Direção com máxima variação Dentro de grupos

Direção com máxima variação Total

Direção com máxima variação Entre grupos e mínima variação Dentro

(Oualkacha et al., 2012)

2/12/11 ˆˆˆˆˆ wbwbw

Page 30: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Componentes Principais - Observações “Correlacionadas”

Elipses verticais: correspondm à variabilidade DENTRO dos grupos (dados de famílias)Elipse maior: corresponde à variação ENTRE famíliasPara situações em que n << p Wang et al. (2007) propôs uma solução penalizada com um parâmetro de regularização:

=0:: solução não penalizada=: solução para b.(maximização entre famílias)

Interpretação Geométrica (Wang et al., 2007)

aIa

aaPC

pw

bar

ˆ'

ˆ'max

Page 31: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Projeto Corações de Baependi (MG): 1109 indivíduos de 80 famílias e 8.764 SNPs

Componentes Principais em Dados de FamíliasAplicação em Genômica - Ancestralidade

CP sob Independência (R)

Proporção da variância explicada pelos CP

CP de Herdabilidade (Rg)

CP

RRg

Page 32: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Componentes Principais - Observações “Correlacionadas”Oficina 2 - R

Gerar dados com estrutura familiar de variáveis da Sindrome Metabólica (uma doença multifarorial)

ppppg wgbgpgpng INY

2;1~ 1

100 famílias de tamanho 8p=5 variáveis1 2

3 4 5 6

7

Família g

Cálculo de Componentes Principais:

aa

aaaaaa

w

bwb

'

',','

Page 33: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Parte IV

AHP – Análise Hierárquica de Processos: Obtenção de vetores de prioridades na tomada de decisões

Page 34: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

AHP-Método de Análise Hierárquica (Saaty, 1980)

Tomada de decisões: análise de diferentes alternativas (objetos sob escolha)

- Complexo sistema de componentes “inter-relacionados” (não no sentido da covariância mas de importância)

Critérios para a Tomada de Decisões:

- Autoritário: baseado na experiência e julgamento de um indivíduo- Consensual: baseado na experiência e julgamento globais de vários indivíduos

Uso de Critérios Analíticos: construção de uma escala que relaciona opiniões a números, ordenando os objetos sob escolha por sua prioridade

A metodologia deve evitar simplificações

Page 35: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

AHP-Método de Análise Hierárquica (Saaty, 1980)

Estruturar hierarquicamente o (complexo) sistema de componentes “correlacionados”

- Definir os objetos sob escolha/comparação: nível mais baixo do fluxo- Definir os critérios / subcritérios para comparação dos objetos: níveis superiores do fluxo

Coleta dos julgamentos, par a par, tanto entre os objetos sob cada subcritério, quanto entre os subcritérios em relação ao nível imediatamente superior

Construção das Matrizes de Decisão

Obtenção do vetor de Prioridades entre os Objetos: Decomposição da Matriz de Decisão

Page 36: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

AHP-Método de Análise Hierárquica (Saaty, 1980)

Coleta dos julgamentos, par a par, tanto entre os objetos sob cada subcritério, quanto entre os subcritérios em relação ao nível imediatamente superior

- Uso de Questionário

A B CSubcritério 1.1

A 1 ? ?B ? 1 ?C ? ? 1

1.1 1.2 1.3Critério 1

1.1 1 ? ?1.2 ? 1 ?1.3 ? ? 1

...

9 7 5 3 1 3 5 7 9

Os julgamentos são, a posteriori, convertidos em índices quantitativos.Escala fundamental de atribuição de importâncias: escala de 9 pontos tendo o 1, 3, 5, 7 e 9 como referência e o 2, 4, 6 e 8 como intermediários.

A B C

A 1 3 6B 1/3 1 2C 1/6 1/2 1

X X

6 2

X X

Page 37: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

AHP-Método de Análise Hierárquica (Saaty, 1980) Construção das Matrizes de Decisão (Importância)

Obtenção do vetor de Prioridades entre os Objetos: - Decomposição Espectral da Matriz de Decisão e Agregação dos Vetores de Prioridade

A B CSubcritério 1.1

A 1 3 6B 1/3 1 2C 1/6 1/2 1

Quadrada, Não simétrica e positiva (diferentemente das matrizes de covariância)

Matriz Recíproca:

Propriedade desejável: Matriz de Decisão Consistente

ijjiijij aaaaA /1,0);(

kjikijij aaaaA );( posto(A)=1

1//1

/1/1

1

131213

121312

1312

aaa

aaa

aaA

B

C

A B CEx.

Matriz Recíproca, quadrada e positiva (ordem p) pUUA 1;'

Matriz Recíproca, quadrada, positiva (ordem p) e Consistente ATrpUUA 1;' Autovalor único

Índice de Consistência da Matriz de Decisão: 1/1 ppIC quanto menor mais consistente

Page 38: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

AHP- Decisão sobre a Melhor Escola (Saaty, 1980)

Aprendizado Colegas Vida EscolarTreinamento Vocacional

Prep. p/ Universidade

Aula de música

A C V T P M

A B C

aA aC aV aT aPaM bA

bC bV bT bPbM cA

cC cV cT cP cM

Objetos de Decisão: Escola A, B ou C

Critérios para a Decisão: Aprendizado, Colegas, Vida Escolar, Treinamento, Preparação para a Universidade, Aula de Música

Brainstorm entre especialistas para obtenção das matrizes de decisão

Critérios para a escolha da Escola

Page 39: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

A B C

A 1 1/3 ½

B 3 1 3

C 2 1/3 1

A B C

A 1 1 1

B 1 1 1

C 1 1 1

A B C

A 1 5 1

B 1/5 1 1/5

C 1 5 1

ʎmax = 3,05 I.C.=0,025 ʎmax = 3,00 I.C. = 0

ʎmax = 3,00 I.C. = 0

A B C

A 1 9 7

B 1/9 1 1/5

C 1/7 5 1

A B C

A 1 1/2 1

B 2 1 2

C 1 1/2 1

A B C

A 1 6 4

B 1/6 1 1/3

C 1/4 3 1

ʎmax = 3,21 I.C. = 0,105

ʎmax = 3,00 I.C. = 0 ʎmax = 3,05 I.C. = 0,025

Aprendizado Colegas

Vida Escolar Trein. Vocacional

Prep p/ Universidade Aula de Música

Aprendizado

ColegasVida

Escolar

Treinamento

Vocacional

Prep p/ Universida

de

Aula de Música

Aprendizado 1 4 3 1 3 4

Colegas ¼ 1 7 3 1/5 1

Vida Escolar 1/3 1/7 1 1/5 1/5 1/6

TreinamentoVocacional

1 1/3 5 1 1 1/3

Prep p/ Universidade

1/3 5 5 1 1 3

Aula de Música

1/4 1 6 3 1/3 1

ʎmax = 7,49 I.C.= 0,30

Matrizes de Decisão: Entre os Objetos e Entre os critériosMétodo Numérico da Potência: Obtenção dos Autovetores

22,025,017,046,033,025,0

09,050,005,009,033,059,0

69,025,077,045,033,016,0

14,0

24,0

13,0

03,0

14,0

32,0

25,0

30,0

37,0 A

B

C

Autovetores Agregados:

A Escola A é melhor que B que é melhor que C

A C V T P MA

C

B

Critérios

Page 40: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Auto respeitosenso de

segurança Adaptar-se a outros

R S A

OutrosDiscipli

naÉtica

Afeição visível Outros

Disciplina

ÉticaAfeição visível

OutrosDiscipli

naÉtica

Afeição visível

Influência da Mãe Influência do Pai Influência de Ambos

V E D O V E D OV E D O

M F B

OW

Nível 1: Bem estar geral da criança/adolescente (OW)Nível 2: Auto Respeito, Senso de segurança, Habilidade de Adaptar-se a outros (R, S, A)Nível 3: Afeição Visível mostrada por alguém (V)

Ideia de rigor e Ética (E)Disciplina da criança (D)Ênfase ou ajustamento pessoal com Outros (O)

Nível 4: Influência da Mãe, do Pai ou de AmBos (M, F, B)

AHP- Oficina 3 Psicoterapia - Influência dos Pais no Bem Estar da Criança

(Saaty, 1980)

Page 41: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

R S A

R 1 6 4

S 1/6 1 3

A 1/4 1/3 1

ʎmax = 3,26I.C. = 0,07

V E D O

V 1 6 6 3

E 1/6 1 4 3

D 1/6 1/4 1 1/2

O 1/3 1/3 2 1

ʎmax = 4,35 I.C.= 0,12

OW

R

V E D O

V 1 6 6 3

E 1/6 1 4 3

D 1/6 1/4 1 1/2

O 1/3 1/3 2 1

ʎmax = 4,35 I.C. = 0,12

S

V E D O

V 1 1/5 1/3 1

E 5 1 4 1/5

D 3 1/4 1 ¼

O 1 5 4 1

ʎmax = 5,42 I.C.=0,47

A

M F B

M 1 9 4

F 1/9 1 8

B 1/4 1/8 1

ʎmax = 4,00 I.C.=0,33

V

M F B

M 1 1 1

F 1 1 1

B 1 1 1

ʎmax = 3,00 I.C. = 0

E

Nível 1: Bem estar geral da criança/adolescente (OW)Nível 2: Auto Respeito, Senso de segurança, Habilidade

de adaptar-se a outros (R, S, A)Nível 3: Afeição visível mostrada por alguém (V)

Ideia de rigor, ética (E)Disciplina real da criança (D)Ênfase ou ajustamento pessoal com outros (O)

Nível 4: Influência da mãe, do pai, de ambos (M, F, B)

M F B

M 1 9 6

F 1/9 1 1/4

B 1/6 4 1

ʎmax = 3,11 I.C.=0,06

D

M F B

M 1 5 5

F 1/5 1 1/3

B 1/5 3 1

ʎmax = 3,14 I.C. = 0,07

O

AHP- Oficina 3 Psicoterapia - Influência dos Pais no Bem Estar da Criança

(Saaty, 1980)

Quem mais influencia o sentimento de bem estar da criança?Objeto de decisão: M, F, B

Page 42: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

R S A

R 1 6 4

S 1/6 1 3

A 1/4 1/3 1

ʎmax = 3,26I.C. = 0,07

V E D O

V 1 6 6 3

E 1/6 1 4 3

D 1/6 1/4 1 1/2

O 1/3 1/3 2 1

ʎmax = 4,35 I.C.= 0,12

OW

R

V E D O

V 1 6 6 3

E 1/6 1 4 3

D 1/6 1/4 1 1/2

O 1/3 1/3 2 1

ʎmax = 4,35 I.C. = 0,12

S

V E D O

V 1 1/5 1/3 1

E 5 1 4 1/5

D 3 1/4 1 ¼

O 1 5 4 1

ʎmax = 5,42 I.C.=0,47

A

M F B

M 1 9 4

F 1/9 1 8

B 1/4 1/8 1

ʎmax = 4,00 I.C.=0,33

V

M F B

M 1 1 1

F 1 1 1

B 1 1 1

ʎmax = 3,00 I.C. = 0

E

M F B

M 1 9 6

F 1/9 1 1/4

B 1/6 4 1

ʎmax = 3,11 I.C.=0,06

D

M F B

M 1 5 5

F 1/5 1 1/3

B 1/5 3 1

ʎmax = 3,14 I.C. = 0,07

O

202,0176,0333,0069,0

097,0061,0333,0210,0

701,0731,0333,0721,0

V E D 0

MFB

463,0119,0119,0

120,0064,0064,0

281,0

127,0

213,0

604,0

213,0

604,0R S A

VEDO

106,0

193,0

701,0RSA

156,0

209,0

635,0MFB

A Mãe é mais importante que o Pai (0,635>0,209) no sentimento de bem estar do adolescente. O Pai deve ser aconselhado a participar mais!

Page 43: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Obtenção de Vetores Reducionistas - Perspectivas

Simulação de Dados: estudos mais gerais

AHP: Implementação no R, Estudar a Distribuição da Estatística IC (índice de consistência), Construção de Questionários para obtenção das Matrizes de Decisão

Observações Independentes Observações Correlacionadas

Formulação de modelos estruturais para Y (Modelo Linear Clássico Modelo Linear Misto)Estudar as propriedades dos Componentes Principais em Dados Correlacionados

?

2

UUYCov

IYCov

gg

wNNbNNg ppggppgg

Propriedades de Espaços Duais para a decomposição espectral do modelo linear misto

multivariado de components de (co)variância.

Page 44: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Bibliografia

Blangero J et al(2013) A kernel of truth: statistical advances in polygenic variance component models for complex human pedigrees.Adv. in Genetics vol.8.de Andrade et al. (2015). Global Individual Ancestry Using Principal Components for Family Data. Human Heredity 80: 1-11.Everitt, B. (2005). An R and S-Plus Companion to Multivariate Analysis. Springer.Fisher, R. A. (1938). The Statistical Utilization of Multiple Measurements. Annals of Eugenics 8: 368-378.Giolo et al. (2011). Brazilian urban population genetic structure reveals a high degree of admixture. European Journal of Human

Genetics 19: 111-116.Gower, JC. (1966). Some distance properties of latent root and vector methods used in multivariate analysis. Biometrika 53: 325–338.Hotelling, H. (1935). The most predictable criterion. J. Educ. Psych. 26: 139-142._________ . (1936). Relations between two sets of variates. Biometrika 28: 321-377.Konishi, S and Rao, CR. (1992). Principal component analysis for multivariate familial data. Biometrika 79: 631-641.Pearson, (1901).Mardia KV, Bibby JM, Kent JT. (1979). Multivariate analysis. London, Academic Press.Oualkacha, K, Labbe, A, Ciampi, A, Roy, MA and Maziade, M. (2012). Principal components of heritability for high dimension

quantitative traits and general pedigrees. Journal of Statistical Applications in Genetics and Molecular Biology 11, Issue 2, Article 4.R Development Core Team. (2014). R: A language and environment for statistical computing. http://www.R-project.org.Saaty, T. L. (1980). The analytic hierarchy process. New York: McGraw-Hill.______. (1991). Método de análise hierárquica. São Paulo: Markron Books.Spearman, C. (1904). General intelligence objectively determined and measured. American Journal of Psychology 15: 201-293.Wang Y, Fang Y, Jin M. (2007). A ridge penalized principal-components approach based on heritability for high-dimensional data. Hum

Heredity 64: 182-191.

Page 45: Tópicos Especiais em Análise Multivariada · Tópicos Especiais em Análise Multivariada Seja uma matriz pxp e f( , ) uma função do p , definida como:, , ' 1; ' '; 1 k p f a aa

Gene

Júlia Maria Pavan Soler

[email protected]