65
Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa [email protected]. br

Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa [email protected]

Embed Size (px)

Citation preview

Page 1: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Introdução à Montagem de Genomas

Gustavo Gilson Lacerda [email protected]

Page 2: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Histórico

• 1995, Haemophilus influenzae • 1996, Methanococcus jannaschii • 1997, Saccharomyces cerevisiae • 1997, Escherichia coli• 1998, Caenorhabditis elegans• 2000, Drosophila melanogaster• 2000, Arabidopsis thaliana • 2001, Homo sapiens• 2002, Schizosaccharomyces pombe • 2002, Oryza sativa • 2002, Mus musculus• 2005, Pan troglodites

Page 3: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br
Page 4: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Onde sequenciar seu genoma

• Illumina (www.everygenome.com)– $9500 por indivíduo– $7500 para grupos de 5

• Serviço contratado sempre através do médico do paciente

• O médico recebe um notebook com um navegador genômico carregado com os dados do paciente

Page 5: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Onde sequenciar seu genoma

• DNAVision (www.dnavision.com)

Page 6: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Onde sequenciar seu genoma

• Complete Genomics (www.completegenomics.com)– Para grandes lotes, preço por genoma pode chegar a $5000– Serviço voltado para empresas e instituições acadêmicas

Page 7: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

MONTAGEM DE GENOMAS

Page 8: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

8

Whole Genome Shotgun (WGS)

• Quebrar o DNA original em fragmentos aleatórios e selecionar os fragmentos de determinado tamanho (Ex: 2Kbp)

Não sabemos a posição de cada fragmento no genoma

Page 9: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

9

Whole Genome Shotgun (WGS)

• Sequenciar as pontas de cada fragmento

Page 10: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

10

Whole Genome Shotgun - Montagem

singlet

gap

DNA original

Page 11: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Montagem de genomas (ab initio)

• Reconstruir a sequência do genoma, dados vários (potencialmente milhões) fragmentos curtos de sequência (os reads)

• Os reads têm tamanho entre 35-800 bp• Os reads podem conter erros de sequenciamento

(mismatches ou indels)• A orientação (5`3` ou 3`5`) de cada read é

desconhecida

Page 12: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

TAMANHO DOS GENOMAS

Page 13: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Tamanho do genomaTamanho do genoma

13

3,4 GbpHomo sapiens

680 GbpAmoeba dubia

15 GbpAllium cepa

Page 14: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

1pg ~ 1Gbp

Page 15: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Cobertura

• Total de pares de bases em reads dividido pelo tamanho do genoma

• Ex: Genoma de 1Mbp• 5 milhões de reads de 50bp• Cobertura = (5000000 * 50) / 1000000 = 25X

• Na prática, corresponde a quantas vezes, em média, cada base do genoma foi sequenciada

Page 16: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Cobertura

• É preciso ter várias coberturas para conseguir montar contigs grandes (oversampling)

• Sanger: 8X a 10X• 454 Titanium (pirosequenciamento): 15X• Solexa: > 50X

Page 17: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

17

Modelo de Lander-Waterman

L = tamanho do readT = overlap mínimoG = tamanho do genomaN = número de readsc = cobertura (NL / G)σ = 1 – T/L

E(#clusters) = Ne-cσ E(tamanho do cluster) = L((ecσ – 1) / c + 1 – σ)cluster = contig ou singlet

Page 18: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

18

Exemplo

c N #cluster #contigs bases não sequenciadas

1 1,667 655 614 367,806

3 5,000 304 250 49,787

5 8,334 78 57 6,735

8 13,334 7 5 335

Genome size: 1 Mbp L= 600 T= 40

Page 19: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Modelo de Lander waterman

Page 20: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Medidas para avaliar uma montagem

• Número de contigs• Tamanho médio dos contigs• Tamanho do maior contig• N50: maior N tal que 50% do total de pares de

base do genoma esteja contida em contigs >= N bp

Page 21: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Cálculo do N50

• Seja uma montagem de um genoma de 300 bp que produziu 8 contigs de tamanho (3, 3, 15, 24, 39, 45, 54 e 117)

• Ordenar os contigs em ordem decrescente de tamanho e ir somando um por um

• Quando a soma ultrapassar 150 (300/2), o tamanho do contig da vez é o N50

• Os dois maiores contigs (117+54=171) ultrapassam 150. Logo N50=54 (tamanho do segundo maior contig)

Page 22: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Glossário de montagem

• Read: fragmento sequenciado• Contig: Pedaço contíguo de sequência formado a

partir da sobreposição dos reads• Singlet: read sem sobreposição com nenhum

outro• Gap: região do genoma não capturada por

nenhum read• Cobertura: Total de bases sequenciadas dividido

pelo tamanho do genoma

Page 23: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Paradigmas de montagem

I. Guloso (Greedy)II. Overlap – Layout – Consensus (OLC)III. Grafo de De Bruijn (DBG)

Page 24: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

I - Guloso (Greedy)

• Phrap, TIGR assembler, CAP3

Guloso

• Criação de uma tabela de sobreposições

• Pegue a sobreposição de melhor score

• Junte os fragmentos• Repita até que não possa ser

feita mais nenhuma junção

Page 25: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

I - Guloso (Greedy)

• Phrap, TIGR assembler, CAP3– Mesmo paradigma, diferentes resultados– Cada programa usa uma série de heurísticas próprias,

pré e pós processamentos– Cap3: montagem de ESTs (transcritos)– Phrap e TIGR: genomas (pequenos e simples)– Nenhum deles funciona bem com reads curtos

(Illumina/Solid)

Page 26: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

II - Overlap – Layout – Consensus (OLC)

• Overlap: alinhamento par a par entre todos os reads sequenciados para detectar sobreposições

• Layout: ordenação/orientação dos reads de acordo com os overlaps

• Consensus: reconstrução da sequência do genoma através do alinhamento múltiplo dos reads (obedecendo ao layout)

Page 27: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

II - Overlap – Layout - Consensus

• Montadores OLC usam uma estrutura de dados chamada grafo de overlap– Celera Assembler– Arachne– Mira– Newbler

Page 28: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

O que é um grafo?O que é um grafo?

• Informalmente, um grafo é um conjunto de Informalmente, um grafo é um conjunto de vértices conectados por um conjunto de arestasvértices conectados por um conjunto de arestas

1 12 3

4 45 56 6

2 3

Grafo direcionado Grafo não direcionado

Page 29: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

II - Overlap-Layout-ConsensusGrafo de overlaps

Overlap graph for a bacterial genome.  The thick edges in the picture on the left (a Hamiltonian cycle) correspond to the correct layout of the reads along the genome (figure on the right).  The remaining edges represent false overlaps induced by repeats (exemplified by the red lines in the figure on the right)

Vértices: readsArestas: overlaps

Fonte: http://www.cbcb.umd.edu/research/assembly_primer.shtml

Page 30: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

III - Grafo de De Bruijn (DBG) - Definição

• É uma representação de uma sequência (ou conjunto de sequências) através de sua decomposição em subsequências de tamanho K (K-mer)

• Os vértices são sequências de k-1 caracteres• Arestas são inseridas entre pares de vértices (u,v) em que o

sufixo de tamanho k-2 de u é igual ao prefixo de tamanho k-2 de v

• k=7, k-1=6, k-2=5• O k-mer ou aresta é ACCTGAT

Page 31: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Construção de um grafo de De Bruijn

Reads= (GTGC,ATGT,GCCG,CGCA,TGCC) k=3

AT TG

GT

GC

CC CG

CA

Page 32: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Grafo de De Bruijn

Fonte: http://www.homolog.us/blogs/2011/07/28/de-bruijn-graphs-i/

K=8

Page 33: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Grafo de De Bruijn

GENOMA

E se o genoma fosse desconhecido?Vamos ver como ficaria o grafo de De Bruijn construído a partir dos reads

Cada read é decomposto em subsequências de tamanho K (K-mers) e inserimos todos os K-mers no grafo de uma vez

Page 34: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Grafo de De Bruijn

Page 35: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Grafo de De Bruijn

• Sem erros de sequenciamento e com cobertura alta– DBG do genoma ~ DBG dos reads

• A sequência do genoma pode ser recomposta através de um caminho euleriano no DBG

• Caminho euleriano: caminho que passa por todas as arestas do grafo exatamente uma vez

• Se o DBG não for euleriano, tenta-se simplificá-lo ao máximo e encontrar subgrafos eulerianos

Page 36: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Grafo de De Bruijn

• Erros de sequenciamento tipicamente geram topologias características no DBG

Page 37: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Grafo de De Bruijn

• Repeats também induzem topologias características

Page 38: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Grafo de De Bruijn

• Repeats também induzem topologias características

Page 39: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Reconstituição do genoma com o DBG

Reads= (GTGC,ATGT,GCCG,CGCA,TGCC) k=3

• Reconstruir a sequência do genoma é encontrar um caminho euleriano (caminho que passa por cada aresta uma unica vez)

AT TG

GT

GC

CC CG

CA

Page 40: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Reconstrução da sequência (De Bruijn)

Page 41: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Reconstrução da sequência (De Bruijn)

Page 42: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Reconstrução da sequência (De Bruijn)

Page 43: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Reconstrução da sequência (De Bruijn)

Page 44: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Reconstrução da sequência (De Bruijn)

Page 45: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Reconstrução da sequência (De Bruijn)

Page 46: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Montagem - De Bruijn (Velvet, Euler-USR, Abyss)

• Escolha um valor de K, menor que o tamanho do read– K grande: mais especificidade– K pequeno: mais sensibilidade

• Inicie um grafo G vazio• Para cada read sequenciado, divida-o em palavras de

tamanho k (k-mers), com passo de 1, e insira os k-mers no grafo G

• Simplifique o grafo G (remova tips e bubbles)• Busque caminhos eulerianos• Se não houver, busque subgrafos eulerianos

Page 47: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Montagem - De Bruijn (Velvet, Euler-USR, Abyss)

• Os montadores DBG conseguem gerenciar quantidades massivas de sequência

• Não precisa alinhar todo mundo contra todo mundo• Construção do grafo em tempo linear• Erros de sequenciamento -> grafo maior -> muita, muita

memória

Page 48: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

O problema dos repeats

• Trechos de sequência repetidos ao longo do genoma

• Em procariotos: pouco frequente• Em fungos: média quantidade• Em algumas plantas e em vertebrados compõem

a maior parte do genoma• Desafio para qualquer software, independente

do paradigma usado

Page 49: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br
Page 50: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

A DCB E F IHG J K L

123456789101112

Page 51: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

A B C D

1

2

3

4

Page 52: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br
Page 53: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

O problema dos repeats

• Vamos tentar reconstruir a seguinte frase (genoma) a partir de alguns fragmentos (reads)

• It was the best of times, it was the worst of times, it was the age of wisdom, it was the age of foolishness, …

Page 54: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Qual a próxima palavra? Worst ou Age?

Page 55: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

55

Erros de montagem causados por Repeats

a b c

a c

b

a b c d

I II III

I

II

III

a

b c

d

b c

a b d c e f

I II III IV

I III II IV

a d b e c f

a

collapsed tandem excision

rearrangement

Page 56: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

56

Resolvendo repeats com paired ends

Page 57: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

O problema dos repeats

• O maior repeat tem tamanho 5. Logo eu precisava de reads maiores que 6 para conseguir montar sem ambiguidades

Page 58: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

O problema dos repeats

• Ou então: vínculos par a par entre os reads com distância conhecida (paired ends)

Page 59: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

59

Construindo Scaffolds

• Os paired ends também são muito úteis para ordenar e orientar os contigs

• Mesmo que não tenhamos a sequência entre dois contigs, a informação de que eles são vizinhos é de grande valor

SCAFFOLD

Page 60: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

60

Resumo do processo de montagem

Montagem

Scaffolding

Page 61: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Scaffolding

• Alguns montadores são capazes de produzir scaffolds– Velvet– Celera assembler– SoapDeNovo– Newbler

• Programas standalone– Bambus– Supercontigs

• Construção de scaffolds também é um problema modelado em grafos (caminho de custo mínimo)

Page 62: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Tamanho do read, paired-ends e cobertura

– Reads grandes facilitam a montagem. Se eles forem pareados melhor ainda

• Reads longos podem atravessar repeats• Reads paired-ends ajudam a resolver ambiguidades e

atravessar repeats maiores– Cobertura alta também ajuda, mas só até um certo ponto

• Mais precisão para determinar as bases do consenso• Diminui as chances de haver regiões do genoma não

sequenciadas• Regiões do genoma de cobertura atipicamente alta

provavelmente representam repeats fundidos

April 11, 2023 · Computational

Genomics

Page 63: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Montagem comparativa

• Em algumas ocasiões, já existe um genoma de algum organismo parecido sequenciado (referência)

• Queremos saber as diferenças entre o nosso genoma de interesse e a referência

• Mais simples computacionalmente• Alinhamos os reads contra a referência, fazemos

o layout e o consenso• Alignment-Layout-Consensus

Page 64: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Ressequenciamento

Ressequenciamento: SNPS, variações estruturais, variações de número de cópias

DELSNP

reference genome

Page 65: Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

REFERÊNCIA= TODAY_IS_SUNDAY

Montagem ab initio Montagem comparativa