13
Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação LGN5830 - Biometria de Marcadores Genéticos Tópico 4: Mapas Genéticos II Análise de Ligação, Grupos de Ligação, Ordenação dos Locos Antonio Augusto Franco Garcia http://about.me/augusto.garcia [email protected] Departamento de Genética ESALQ/USP 2017 Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação Conteúdo 1 Análise de Ligação Verossimilhança e Estimação de r em um RC Teste de Dois Pontos Verossimilhança e Estimação de r em um F2 2 Algoritmo EM Implementação Estimando r em um F2 usando o EM 3 Grupos de Ligação Princípios Básicos Formação dos Grupos 4 Ordenação Estatísticas (Critérios) Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação Verossimilhança e Estimação de r em um RC Delineamentos genéticos Pab ab x PAB AB AB ab Pab ab x PAB AB Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação Verossimilhança e Estimação de r em um RC RC 4 classes ( AB AB , AB Ab , AB aB , AB ab ) 11, 10, 01, 00 AA, AH, HA, HH Contagem: n1, n2, n3, n4 P ( AB AB ) = 1-r 2 ; P ( AB Ab ) = r 2 ; P ( AB aB ) = r 2 ; P ( AB ab ) = 1-r 2 Qual a função de verossimilhança para r na população RC1? L(r) ( 1 - r 2 ) n1 . ( r 2 ) n2 . ( r 2 ) n3 . ( 1 - r 2 ) n4 l(r)=(n1 + n4) log ( 1 - r 2 ) +(n2 + n3) log ( r 2 )

LGN5830 - Biometria de Marcadores Genéticos - Tópico 4 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula4_imprimir.pdf · AnálisedeLigação AlgoritmoEM GruposdeLigação Ordenação

Embed Size (px)

Citation preview

Page 1: LGN5830 - Biometria de Marcadores Genéticos - Tópico 4 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula4_imprimir.pdf · AnálisedeLigação AlgoritmoEM GruposdeLigação Ordenação

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

LGN5830 - Biometria de Marcadores GenéticosTópico 4: Mapas Genéticos II

Análise de Ligação, Grupos de Ligação,Ordenação dos Locos

Antonio Augusto Franco Garciahttp://about.me/augusto.garcia

[email protected]

Departamento de GenéticaESALQ/USP

2017

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Conteúdo

1 Análise de LigaçãoVerossimilhança e Estimação de r em um RCTeste de Dois PontosVerossimilhança e Estimação de r em um F2

2 Algoritmo EMImplementaçãoEstimando r em um F2 usando o EM

3 Grupos de LigaçãoPrincípios BásicosFormação dos Grupos

4 OrdenaçãoEstatísticas (Critérios)

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Verossimilhança e Estimação de r em um RC

Delineamentos genéticosP2

abab

xP1

ABAB

AB ab

P2

abab

xP1

ABAB

F1 ABab

AB ab

P2

abab

xP1

ABAB

AB aBAb ab

F1 ABab

AB ab

P2

abab

xP1

ABAB

1-r 2

1-r 2

AB aBAb ab

F1 ABab

AB ab

P2

abab

xP1

ABAB

r2

r2

1-r 2

1-r 2

AB aBAb ab

F1 ABab

AB ab

P2

abab

xP1

ABAB

RC1

1-r 2

1-r 2

r2

r2

ABAB

ABAb

ABaB

ABab

xP1r2

r2

1-r 2

1-r 2

AB aBAb ab

F1 ABab

AB ab

P2

abab

xP1

ABAB

RC2

1-r 2

1-r 2

r2

r2

abAB

abAb

abaB

abab

x P2

RC1

1-r 2

1-r 2

r2

r2

ABAB

ABAb

ABaB

ABab

xP1r2

r2

1-r 2

1-r 2

AB aBAb ab

F1 ABab

AB ab

P2

abab

xP1

ABAB

F2

(1-r)² 4

ABAB

ABAb

r(1-r) 2

r²4

AbAb

ABaB

r(1-r) 2

ABab

+ AbaB

(1-r)²+r² 2

Abab

r(1-r) 2

aBaBr²4

aBab

r(1-r) 2

abab

(1-r)² 4

RC2

1-r 2

1-r 2

r2

r2

abAB

abAb

abaB

abab

x P2

RC1

1-r 2

1-r 2

r2

r2

ABAB

ABAb

ABaB

ABab

xP1r2

r2

1-r 2

1-r 2

AB aBAb ab

F1 ABab

AB ab

P2

abab

xP1

ABAB

x P2

DIII

xP1

DIII

F2

(1-r)² 4

ABAB

ABAb

r(1-r) 2

r²4

AbAb

ABaB

r(1-r) 2

ABab

+ AbaB

(1-r)²+r² 2

Abab

r(1-r) 2

aBaBr²4

aBab

r(1-r) 2

abab

(1-r)² 4

RC2

1-r 2

1-r 2

r2

r2

abAB

abAb

abaB

abab

x P2

RC1

1-r 2

1-r 2

r2

r2

ABAB

ABAb

ABaB

ABab

xP1r2

r2

1-r 2

1-r 2

AB aBAb ab

F1 ABab

AB ab

P2

abab

xP1

ABAB

...

11+2r

2r1+2r

ABAB

ABAb

AbAb

ABaB

Abab

aBaB

aBab

abab

ABab

AbaB

+Fn

2r1+2r

0 0 00 0 11+2r

x P2

DIII

x P2

DIII

xP1

DIII

F2

(1-r)² 4

ABAB

ABAb

r(1-r) 2

r²4

AbAb

ABaB

r(1-r) 2

ABab

+ AbaB

(1-r)²+r² 2

Abab

r(1-r) 2

aBaBr²4

aBab

r(1-r) 2

abab

(1-r)² 4

RC2

1-r 2

1-r 2

r2

r2

abAB

abAb

abaB

abab

x P2

RC1

1-r 2

1-r 2

r2

r2

ABAB

ABAb

ABaB

ABab

xP1r2

r2

1-r 2

1-r 2

AB aBAb ab

F1 ABab

AB ab

P2

abab

xP1

ABAB

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Verossimilhança e Estimação de r em um RC

RC

4 classes (ABAB , AB

Ab ,ABaB , AB

ab )11, 10, 01, 00AA,AH ,HA,HH

Contagem: n1, n2, n3, n4

P(ABAB

)= 1−r

2 ; P(ABAb

)= r

2 ; P(ABaB

)= r

2 ; P(ABab

)= 1−r

2

Qual a função de verossimilhança para r na populaçãoRC1?

L(r) ∝(1− r

2

)n1

.(r2

)n2

.(r2

)n3

.

(1− r

2

)n4

l(r) = (n1 + n4) log(1− r

2

)+ (n2 + n3) log

(r2

)

Page 2: LGN5830 - Biometria de Marcadores Genéticos - Tópico 4 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula4_imprimir.pdf · AnálisedeLigação AlgoritmoEM GruposdeLigação Ordenação

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Verossimilhança e Estimação de r em um RC

RC

Qual o estimador de máxima verossimilhança para r?

Usando o Maxima

r =n2 + n3

n1 + n2 + n3 + n4=

nR

nR + nNR

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Verossimilhança e Estimação de r em um RC

RC

MouseQual a estimativa de r entre os marcadores 1 e 2?

r = 77+96 = 0.0680

Fração de recombinação

r: Probabilidade de ocorrer um evento de recombinação entre os locos

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Teste de Dois Pontos

Teste da Razão de Verossimilhança

Na maioria das situações, não é suficiente apenas obter estimativasde ML

Geralmente, temos interesses em testar hipóteses relacionadas aosparâmetros

Uma estatística muito usada para tanto é a razão deverossimilhanças (LR ou LRT)

Princípio: comparar valores da verossimilhança considerandodiferentes valores dos parâmetros

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Teste de Dois Pontos

LRT

Sejam θ e θ os valores do parâmetro θ sobH0 e sobH1,respectivamenteA estatística razão de verossimilhanças é

LRT = −2 logL(θ)

L(θ)

Note que LRT = −2[l(θ)− l(θ)]

Importante: LRT ∼ χ2, com número de GL dado pelo número deparâmetros sendo testados (ou, sob restrição)Note que podemos escrever também

LRT = 2 logL(θ)

L(θ)

Page 3: LGN5830 - Biometria de Marcadores Genéticos - Tópico 4 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula4_imprimir.pdf · AnálisedeLigação AlgoritmoEM GruposdeLigação Ordenação

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Teste de Dois Pontos

LOD Score

A razãoL(θ)

L(θ)

é conhecida como odds ratio, ou razão de chances

Usando o logaritmo na base 10, podemos calcular o log of the odds(LOD Score, ou simplesmente LOD), como alternativa ao uso da LRT:

LOD = log10L(θ)

L(θ)

Supostamente, a interpretação é mais intuitiva (mas note que não háp-valor explicitamente apresentado!)

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Teste de Dois Pontos

LOD

Exemplo

Usar LOD = 3 significa que log10L(θ)L(θ)

= 3, ou seja, L(θ) = 103L(θ)

LOD vs LRT

LOD = 0.2172× LRT (verifique!)

log10(x)

Note que o LOD aumenta numa escala logarítmica, ou seja, cada aumentode 1 unidade no LOD implica em um aumento de 10 vezes na razão

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Teste de Dois Pontos

Teste de hipótese

Exercício1 Teste se os marcadores 1 e 2 (Mouse Data) estão ligados2 Interprete o resultado do ponto de vista genético

RespostaLRT = 91.63

p = 1.04× 10−21

LOD = 19.90

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Verossimilhança e Estimação de r em umF2

Delineamento

F2

(1-r)² 4

ABAB

ABAb

r(1-r) 2

r²4

AbAb

ABaB

r(1-r) 2

ABab

+ AbaB

(1-r)²+r² 2

Abab

r(1-r) 2

aBaBr²4

aBab

r(1-r) 2

abab

(1-r)² 4

RC2

1-r 2

1-r 2

r2

r2

abAB

abAb

abaB

abab

x P2

RC1

1-r 2

1-r 2

r2

r2

ABAB

ABAb

ABaB

ABab

xP1r2

r2

1-r 2

1-r 2

AB aBAb ab

F1 ABab

AB ab

P2

abab

xP1

ABAB

Page 4: LGN5830 - Biometria de Marcadores Genéticos - Tópico 4 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula4_imprimir.pdf · AnálisedeLigação AlgoritmoEM GruposdeLigação Ordenação

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Verossimilhança e Estimação de r em umF2

População F2

Genótipo Código freq. esp. (pi) freq. obs. (fi)

ABAB

22 (AA) (1−r)2

4n1

ABAb

21 (AH) r(1−r)2

n2

AbAb

20 (AB) r2

4n3

ABaB

12 (HA) r(1−r)2

n4

AbaB

11 (HH) r2

2n5

ABab

11 (HH) (1−r)2

2n5

Abab

10 (HB) r(1−r)2

n6

aBaB

02 (BA) r2

4n7

aBab

01 (BH) r(1−r)2

n8

abab

00 (BB) (1−r)2

4n9

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Verossimilhança e Estimação de r em umF2

F2

Função de verossimilhança para r:

L(r) ∝[(1− r)2

4

](n1+n9) [r(1− r)

2

](n2+n4+n6+n8) [r24

](n3+n7)

×[(1− r)2

2+

r2

2

]n5

l(r) = (n1 + n9) log[(1− r)2

4

]+ (n2 + n4 + n6 + n8) log

[r(1− r)

2

]+

(n3 + n7) log[r2

4

]+ (n5) log

[(1− r)2

2+

r2

2

]

Note que a classe HH (duplo heterozigoto) foi “agrupada”

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Verossimilhança e Estimação de r em umF2

MLE para r

Qual é o estimador de máxima verossimilhança para r?

Uso do MAXIMAMaxima encountered a Lisp error:Error in PROGN [or a callee]:The storage for CONS is exhausted.Currently, 48273 pages are allocated.Use ALLOCATE to expand the space.

Uso do wxMAXIMA« Expressão longa demais para ser exibida! »

Uso do MAXIMA

(27 páginas de resultados)

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Implementação

Métodos Numéricos

Em várias situações, não é possível obter formas explicítas para osMLE’s

Nesses casos, é comum a utilização de métodos numéricosUmmétodo muito usado é o algoritmo EM

E: Expectation;M: Maximization (Esperança e Maximização)

Page 5: LGN5830 - Biometria de Marcadores Genéticos - Tópico 4 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula4_imprimir.pdf · AnálisedeLigação AlgoritmoEM GruposdeLigação Ordenação

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Implementação

Artigo seminal

Dempster, A.P.; Laird, N.M.; Rubin, D.B.Maximum likelihood from incomplete data via the EM algorithm(with discussion)Journal of the Royal Statistical Society B 39: 1-38, 1977

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Implementação

Nature top 100 papers

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Implementação

Algoritmo EM

EM: método iterativo para obter estimativas de máximaverossimilhança

Muito usado em análises de mapeamento genético

Mostrou-se muito poderoso na prática, principalmente quando asobservações possuem dados incompletos quanto à informação

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Implementação

Exemplos

Dados incompletos1 Numa população F2, não é possível separar as classesAb/aB e

AB/ab (Dados: AaBb; 11; HH)2 Para marcadores dominantes, o fenótipo deAA é igual ao fenótipodeAa

3 Nos locos com dados perdidos, não é possível saber o genótipo4 No mapeamento de QTLs, não é possível separarQQ,Qq e qq, já queos genótipos dos QTLs não são observáveis

Page 6: LGN5830 - Biometria de Marcadores Genéticos - Tópico 4 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula4_imprimir.pdf · AnálisedeLigação AlgoritmoEM GruposdeLigação Ordenação

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Implementação

Algoritmo EM

O EM faz uma clara distinção entre os dados observados (Y ), que sãoincompletos, e os dados completos (X), não observáveis

Alguma função t(X) = Y associaX e Y

Idéia básica: tomarX tal que a obtenção de estimativas de máximaverossimilhança torne-se trivial para os dados completos

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Implementação

Fundamentos

Seja Y o vetor aleatório associado aos dados observados y(incompletos)

g(y; θ): f.d.p. correspondente (usamos antes a notação P (y; θ))logL(θ) = log g(y; θ)Analogamente, para os dados completos (não observáveis): X, x,gc(x; θ)logLc(θ) = log gc(x; θ)O algoritmo EM resolve o problema de se obter estimativas ML paralogL(θ) usando iterativamente logLc(θ)

Como logLc(θ) não é observável, ele é substituído por sua esperançacondicional (dado y), usando o valor atual de θ

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Implementação

Formulação

Seja θk um valor inicial para θ

Passo E: Calcule

Q(θ, θk) = Eθk{logLc(θ)|y}

Passo M: Determine o valor de θk+1 que maximizeQ(θ, θk), tal que

Q(θk+1, θk) ≥ Q(θ, θk)

Repita os passos até que a diferença L(θk+1)− L(θk) sejasuficientemente pequena (convergência)

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Implementação

Alguns pontos importantes

Os autores demonstraram que, após uma iteração do algoritmo,

L(θk+1) ≥ L(θk)

Isso significa que o log da verossimilhança dos dados observadosestá aumentando após cada iteração, até a convergência

Obviamente, os valores de θ serão aqueles correspondentes ao maiorvalor de L(θ): MLEs

Note que a formulação é bastante simples: parte-se apenas daesperança condicional de Lc(θ)

Em outras palavras, para iniciar basta especificar corretamente oproblema como se os dados fossem completos

Page 7: LGN5830 - Biometria de Marcadores Genéticos - Tópico 4 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula4_imprimir.pdf · AnálisedeLigação AlgoritmoEM GruposdeLigação Ordenação

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Implementação

Fácil?

Em bom português, sendo informal:

Identifique a variável latente (não observável), cuja observaçãofacilitaria tudo

Encontre ummodelo apropriado para sua distribuição

Calcule sua Esperança, usando para tanto algum “chute” para osparâmetros

Use tal valor na verossimilhança dos dados completos

Estime novamente os parâmetros pelo método da máximaverossimilhança

Repita o processo até a convergência

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Implementação

Um exemplo simples

Jogar duas moedas,A eB, em três séries de 10 lances

1 H H T T H H H H H H2 H T T T H H T T T H3 T T T H H H T H H T

Não é possível saber qual moeda foi usada para obter cada série

Deseja-se estimar θA e θB

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Implementação

Exemplo

A verossimilhança dos dados completos, ou seja, sabendo qualmoeda foi jogada em cada série i, ajuda a entender o processo:

L(θA, θB) ∝∏i

[IA× (θA)Hi(1− θA)

Ti +(1− IA)× (θB)Hi(1− θB)

Ti ]

IA =

{1 se a moeda forA

0 c.c.

Sabendo qual é a moeda da série correspondente, a obtenção de θA(ou θB) é trivial

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Implementação

Sem saber a moeda correspondente

Variável latente: IADistribuição: Bernoulli (parâmetro pA)

Esperança: pA, calculada a partir de “chute” para θA e θB :

pA =P (dados|θA)

P (dados|θA) + P (dados|θB)

Verossimilhança:

L(θA, θB) ∝∏i

[pA× (θA)Hi(1−θA)

Ti +(1−pA)× (θB)Hi(1−θB)

Ti ]

Estimar θA e θB , repetindo o processo até a convergência

Page 8: LGN5830 - Biometria de Marcadores Genéticos - Tópico 4 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula4_imprimir.pdf · AnálisedeLigação AlgoritmoEM GruposdeLigação Ordenação

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Estimando r em umF2 usando o EM

Estimando r

Conforme apresentado,

L(r) ∝[(1− r)2

4

](n1+n9) [r(1− r)

2

](n2+n4+n6+n8) [r24

](n3+n7)

×[(1− r)2

2+

r2

2

]n5

Dados “não observados”: classe n5

É possível definir:

Lc(r) ∝[(1− r)2

4

](n1+n9) [r(1− r)

2

](n2+n4+n6+n8) [r24

](n3+n7)

×[(1− r)2

2

]n5.1[r2

2

]n5.2

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Estimando r em umF2 usando o EM

r

Dados observados:

y = (n1, n2, n3, n4, n5, n6, n7, n8, n9)

Dados completos:

x = (n1, n2, n3, n4, n5.1, n5.2, n6, n7, n8, n9)

Maxima, dados completos

r =(n2 + n4 + n6 + n8) + 2(n5.2 + n3 + n7)

2n

Note que, em essência, estimar r significa contar o número deeventos de recombinação

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Estimando r em umF2 usando o EM

Estimando r

É óbvio que o problema seria bastante simples se n5.1 e n5.2 fossemobserváveis

Solução do EM:

logLc(r) = n1 log(1− r)2

4+ n2 log

r(1− r)

2+ n3 log

r2

4+

n4 logr(1− r)

2+ n5.1 log

(1− r)2

2+ n5.2 log

r2

2+

n6 logr(1− r)

2+ n7 log

r2

4+ n8 log

r(1− r)

2+

n9 log(1− r)2

4

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Estimando r em umF2 usando o EM

Esperança

E(n5.1,n5.2){logLc(r)|y} = n1 log(1− r)2

4+ n2 log

r(1− r)

2+

n3 logr2

4+ n4 log

r(1− r)

2+

log(1− r)2

2E(n5.1) + log

r2

2E(n5.2) +

n6 logr(1− r)

2+ n7 log

r2

4+

n8 logr(1− r)

2+ n9 log

(1− r)2

4

Page 9: LGN5830 - Biometria de Marcadores Genéticos - Tópico 4 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula4_imprimir.pdf · AnálisedeLigação AlgoritmoEM GruposdeLigação Ordenação

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Estimando r em umF2 usando o EM

A Esperança foi calculada em relação à n5.1 e n5.2 que, se fossemconhecidos, tornariam o problema bemmais simples (essa é a idéiado EM!)

n5.1 e n5.2: variáveis aleatórias não observáveis

n5.1 e n5.2: podem ser modelados usando a distribuição binomial(duas classes)

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Estimando r em umF2 usando o EM

Lembrete: X ∼ B(n, p), E(X) = np

P (n5.1) =n5.1

n5=

(1− r)2

2(1− r)2

2+

r2

2

= 1− q

P (n5.2) =n5.2

n5=

r2

2(1− r)2

2+

r2

2

= q

EsperançasE(n5.1) = n5 · (1− q)

E(n5.2) = n5 · q

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Estimando r em umF2 usando o EM

Estimando r em um F2

Esperança

E(n5.1,n5.2){logLc(r)|y} = n1 log(1− r)2

4+ n2 log

r(1− r)

2+

n3 logr2

4+ n4 log

r(1− r)

2+

n5(1− q) log(1− r)2

2+ n5q log

r2

2+

n6 logr(1− r)

2+ n7 log

r2

4+

n8 logr(1− r)

2+ n9 log

(1− r)2

4

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Estimando r em umF2 usando o EM

Estimando r em um F2

Maximização

Agora é possível derivar e encontrar o ponto de máximo

MAXIMA

r =(n2 + n4 + n6 + n8) + 2(n3 + n7 + qn5)

2n

OPS! Note que r depende de q, que por sua vez depende de r

Page 10: LGN5830 - Biometria de Marcadores Genéticos - Tópico 4 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula4_imprimir.pdf · AnálisedeLigação AlgoritmoEM GruposdeLigação Ordenação

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Estimando r em umF2 usando o EM

Implementação - Regra prática

Passo E

Dado um valor inicial (“chute”) para r, obtém-se

q =

r2

2(1− r)2

2+

r2

2

Passo MUsando esse valor de q, r é estimado:

r =(n2 + n4 + n6 + n8) + 2(n3 + n7 + qn5)

2n

O processo é repetido até a convergência

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Estimando r em umF2 usando o EM

Uso do EM

Exemplo - Maize Data1 2 1 0 0 0 0 0 1 1 1 0 02 1 1 1 1 1 2 2 2 2 0 0 13 1 2 2 2 2 1 1 1 1 2 2 24 1 0 0 0 0 0 0 0 0 1 2 25 0 0 1 1 1 1 1 1 1 1 1 1

...170 1 0 0 1 1 1 1 1 1 1 1 1171 2 2 1 1 0 1 1 1 1 0 0 0

Obtenha r entreM1 eM2 usando o algoritmo EM

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Estimando r em umF2 usando o EM

Uso do EM

Exemplo - Maize Data

●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 10 20 30 40 50

0.29

00.

295

0.30

00.

305

Iteração

r

r.est= 0.3074

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Princípios Básicos

Grupos de Ligação

Biologicamente: grupos de genes/locos no mesmo cromossomo

Estatisticamente: grupos de locos que segregam conjuntamente

(Correlação entre os dados)

ValoresPara um par de locos i e j, sejamrij : estimativa de dois pontos de rpij : p-valor relativo àH0 : rij = 1/2zij : LOD Score

Page 11: LGN5830 - Biometria de Marcadores Genéticos - Tópico 4 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula4_imprimir.pdf · AnálisedeLigação AlgoritmoEM GruposdeLigação Ordenação

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Formação dos Grupos

Grupos de Ligação

CritériosConsidere o par de locos i e j

Se [rij ≤ c e pij ≤ b], i e j pertencem ao mesmo grupo

OUSe [rij ≤ c e zij ≥ a], i e j pertencem ao mesmo grupo

c: máx. fração recomb. para declarar ligaçãob: máx. valor do p-valor para declarar ligaçãoa: mín. valor do LOD para declarar ligaçãoa, b e c: atribuídos pelo usuárioUsual: c = 0.5 e a = 3 (como saber se estão corretos?)Uso da propriedade transitiva (Cogito, ergo sum, Descartes)

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Formação dos Grupos

“Regra prática”

Ex: 100 marcadores

Número de testes:(

1002

)= 100!

98! 2! =100×99

2 = 4950

Bonferroni: α = 0.054950 = 1.01× 10−5

No R, use qchisq(1-(0.05/4950),1)19.49222LOD = 0.2172× 19.49222 = 4.23

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Formação dos Grupos

LODs e Marcadores

o

oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo

oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo

oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo

ooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo

oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo

oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo

ooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo

oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo

0 5000 10000 15000 20000

24

68

Número de marcadores

LOD

s

OPS! Claramente, não faz muito sentido aumentardemasiadamente o LOD para tentar obter o número degrupos esperado!

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Formação dos Grupos

Ligação

Exemplo - Maize Data

Há evidências de que os marcadoresM1 eM2 estejam no mesmogrupo de ligação?

Sim, pois:r = 0.3074LRT = 27.974p = 8.4× 10−7

LOD = 6.07

Page 12: LGN5830 - Biometria de Marcadores Genéticos - Tópico 4 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula4_imprimir.pdf · AnálisedeLigação AlgoritmoEM GruposdeLigação Ordenação

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Estatísticas (Critérios)

Introdução

Sturtevant (1913): ordenação é um processo de minimizar o númerode crossing-over

http://www.dec.ufcg.edu.br/biografias/AlfredHe.htmlhttp://www.answers.com/topic/alfred-sturtevant

Princípio: locos mais próximos possuemmenor probabilidade deocorrência de c.o.

As estatísticas usadas atualmente para avaliar ordens são extensõesdaquelas empregadas nos testes de três pontos

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Estatísticas (Critérios)

Teste de Três Pontos

Exemplo

rAB = 0.10

rAC = 0.22

rBC = 0.30

Qual a ordem dos locos?

Resp: B-A-C

Difícil de generalizar em programas computacionais. Não há garantiade obter a melhor ordem.

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Estatísticas (Critérios)

SARF, PARF, SALOD

SARF : Sum of Adjacent Recombination Fraction

SARF =m−1∑i=1

raiai+1

PARF : Product of Adjacent Recombination Fraction

PARF =m−1∏i=1

raiai+1

SALOD: Sum of Adjacent Lod Score

SALOD =

m−1∑i=1

zaiai+1

Objetivo: Menor SARF , menor PARF , maior SALOD

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Estatísticas (Critérios)

SARF, PARF, SALOD

Mouse Data: M1, M2 e M3M1, M2, M3

SARF = 0.0680 + 0.0097 = 0.0777PARF = 0.0680× 0.0097 = 0.0006596SALOD = 0.2172(91.63174 + 131.5286) = 48.47043

M1, M3, M2SARF = 0.0777 + 0.0097 = 0.0874PARF = 0.0777× 0.0097 = 0.00075369SALOD = 0.2172(86.54182 + 131.5286) = 47.36490

M3, M1, M2SARF = 0.0777 + 0.0680 = 0.1557PARF = 0.0777× 0.0680 = 0.0060606SALOD = 0.2172(86.54182 + 91.63174) = 38.6993

Conclusão: ordemM1-M2-M3

Page 13: LGN5830 - Biometria de Marcadores Genéticos - Tópico 4 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula4_imprimir.pdf · AnálisedeLigação AlgoritmoEM GruposdeLigação Ordenação

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Estatísticas (Critérios)

Verossimilhança

Princípio: comparar a verossimilhança das ordens

A ordem commaior verossimilhança é a ordemmais provável para oconjunto de dados

Para tanto, podemos usar r para obter o valor da verossimilhançapara cada intervalo

Assumindo ausência de interferência, podemos multiplicar osvalores de L(r) de todos os intervalos

Cuidado!Esta abordagem não é multiponto, que será vista na próxima aula

Em situações reais, a abordagemmultiponto deve ser preferida

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Estatísticas (Critérios)

Verossimilhança

Exemplo - Mouse Data

L(r) =

(1− r

2

)n1

.(r2

)n2

.(r2

)n3

.

(1− r

2

)n4

r =nR

nR + nNR

r12 = 0.0680

L(r12) = 7.68069 × 10−43

l(r12) = −96.97245

r13 = 0.0777

L(r13) = 6.02752 × 10−44

l(r13) = −99.51740

r23 = 0.0097

L(r23) = 3.539108 × 10−34

l(r23) = −77.02402

l(r123) = −96.97245 − 77.02402 =−173.9965

l(r132) = −99.51740 − 77.02402 =−176.5414

l(r312) = −99.51740 − 96.97245 =−196.4899

Conclusão: a ordemmais provável é 1-2-3

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Estatísticas (Critérios)

Verossimilhança

Dadas as propriedades estatísticas da verossimilhança, seu empregoresulta no melhor critério para comparar as ordens. Deve portantoser usada sempre que possível.Principais problemas:

Cálculos complexos e demoradosNão é claro como os valores da verossimilhança devem sercomparados (não há GLs, teste de hipóteses, etc)

Análise de Ligação Algoritmo EM Grupos de Ligação Ordenação

Estatísticas (Critérios)

Principais Referências

Liu, B. H.Statistical Genomics - Linkage, Mapping and QTL AnalysisNew York: CRC Press. 1st ed., p. 648, 1998

Mclachlan, G. J.; Krishnan, T.The EM Algorithm and ExtensionsWiley Publishing, Inc. 2nd ed., p. 400, 2008