41
Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Embed Size (px)

Citation preview

Page 1: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Seqüenciamento e montagem do genoma humano

e análise de transcriptoma

Page 2: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Seqüenciamento do Genoma Humano

• Embate: Consórcio público x Celera genomics:

– Consórcio público: mapeamento físico, shotgun hieráriquico.

– Celera genomics: whole genome shotgun

• Em fevereiro de 2001 foi publicada de forma independendente versão draft ou preliminar ambos grupos.

Page 3: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Seqüenciamento do Genoma Humano

• 2003: Consórcio público apresenta versão final do seqüenciamento do genoma humano

– Comprimento total: 3 bilhões pb

– 99% deste total foi seqüenciado

– Erro de seqüenciamento estimado em 1/10.000 nt

– 99.9% não apresenta diferenças entre indivíduos.

– 25.000 genes

– Genes codificadores de proteínas correspondem a apenas 2% do genoma

– 50 % do genoma consiste de regiões repetitivas (D.melanogaster 3%, C.elegans 7%)

Page 4: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Celera Genomics – Iniciativa privada

Whole genome shotgun (WGS)

Genoma

Biblioteca genômicaPlasmídeo (inserto 10 kb)BAC (inserto 100 kb)

Seqüenciamento das extremidadesdo inserto

Leituras ou reads

Page 5: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Contig

Mate pairs

Celera Genomics – Iniciativa privada

Whole genome shotgun (WGS) – Montagem

AGCGTTA GTTACAAC

AGCGTTACAAC

Page 6: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Contig Contig

Mate pairs

Celera Genomics – Iniciativa privada

Whole genome shotgun (WGS) – Montagem

Page 7: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Contig Contig

Mate pairsBAC contendo inserto demaior comprimento

Celera Genomics – Iniciativa privada

Whole genome shotgun (WGS) – Montagem

Page 8: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Contig Contig

Mate pairs

Contig ContigScaffold

Mate pairs

Celera Genomics – Iniciativa privada

Whole genome shotgun (WGS) – Montagem

Page 9: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Consórcio públicoMapeamento físico, shotgun hierárquico

Cromossomo

Biblioteca genômicaem BAC (inserto 100Kb)

Fragmento cromossômico

Biblioteca genômicaem BAC

Page 10: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Consórcio públicoMapeamento físico, shotgun hierárquico

Cromossomo

Biblioteca genômicaem BAC (inserto 100Kb)

Fragmento cromossômico

Biblioteca genômicaem BAC

Page 11: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

BAC

BibliotecaPlasmídeo (inserto 10 kb)

Seqüenciamento das extremidadesdo inserto

Leituras ou reads

Consórcio públicoMapeamento físico, shotgun hierárquico - Montagem

Page 12: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Contig

Mate pairs

AGCGTTA GTTACAAC

AGCGTTACAAC

Consórcio públicoMapeamento físico, shotgun hierárquico - Montagem

Page 13: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Consórcio públicoMapeamento físico, shotgun hierárquico

Cromossomo

Biblioteca genômicaem BAC (inserto 100 kb)

Page 14: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Consórcio públicoMapeamento físico, shotgun hierárquico

Cromossomo

Biblioteca genômicaem BAC (inserto 100 kb)

Page 15: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Consórcio públicoMapeamento físico, shotgun hierárquico

Cromossomo

Biblioteca genômicaem BAC (inserto 100 kb)

Page 16: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Avaliação de estratégias de seqüenciamento

Vantagens WGS

• Estratégia mais simples com menos etapas.

Vantagens Shotgun Hierárquico

• Menos vulnerável que a estratégia WGS em relação a montagem de regiões repetitivas.

Page 17: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Avaliação de estratégias de seqüenciamentoRepetições no genoma

X X

Cenário I

X

MontagemGenoma

Processo de montagem é suscetível a erros quando empregado em genomas com alto índice de repeticões.

WGS: Montagem de 3 bilhões de bases (todo genoma).

Shotgun hierárquico: Montagem de 100 mil bases (inserto de cada BAC).

Page 18: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

In silico

Page 19: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Base-calling

• Geração de uma seqüência de nucleotídeos através da análise dos chromatogramas

PHRED

gaattcggcacgagagttctcccggagacgctccgtgcgaagattatggaggccgtcaatgtggtcggttcccgccactttgctcgcctgcgcatcgatgtaacagtccgtggtgacgaagtcataccgttaagtattacgtttttgttgtcgttgttgcagcaatagtagaggacgggcgcttttttttttgtcaagagaaagggggaggggcgtactaccgctttatcgaggttggtattatttcttatatataaagggaaagagcaacgtgaagcgggtaagggaagagtgaaagtcgag

Page 20: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Mascaramento

• Eliminar fragmentos de vetor cross_match

>5’gctccaccgcggtggcggccgctctagaactagtggatcccccgggctgcaggaattcggcacgagagttctcccggagacgctccgtgcgaagattatggaggccgtcaatgtggtcggttcccgccactttgctcgcctgcgcatcgatgtaacagtccgtggtgacgaagtcataccgttaagtattacgtttttgttgtcgttgttgca

>3’gcaatagtagaggacgggcgcttttttttttgtcaagagaaagggggaggggcgtactaccgctttatcgaggttggtattatttcttatatataaagggaaagagcaacgtgaagcgggtaagggaagagtgaaagtcgagggggggcccggtacccaattc

Page 21: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Montagem

• Produzir uma seqüência contígua através de seqüências menores que possuam regiões de sobreposiçãoPHRAP, Celera Assembler, Arachne

contig

leituras

Page 22: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Anotação

• Localizar na seqüencia genômica final:• Genes que codificam proteínas e RNAs não traduzidos (tRNA, rRNA, snRNA)

• Determinar, se possível, o produto provável de cada gene encontrado.

• Associar cada gene à uma categoria funcional ou via metabólica. Ex.: síntese de lipídeos, maquinaria de tradução, fosforilação oxidativa, etc.

Page 23: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Anotação

Streptococcus pneumoniae R6

Page 24: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Anotação Automática

Glimmer

contig

RBSfinder tRNAscanGeneMark

CDS

Page 25: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Anotação Automática

BLAST contra KEGG

InterproBLAST contra GenBank

PSORTBLAST contra COG

Anotação manual

Page 26: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

BLAST(Basic Local Alignment Search Tool)

BLASTKEGG

COG

GenBankNucleotídeos

> SEQ1atgggcacgagagttctcccggagacgctccgtgcgaagattatggaggccgtcaatgtggtcggttcccgccactttgctcgcctg

Bancos de seqüências

GenBankProteínas

Page 27: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

BLAST(Basic Local Alignment Search Tool)

Aldolase Trypanosoma cruzi

.........1.........2.........3.........4.........5.........6.........7.........8.........9.........10 acaagctggagctcccgcggtggtcggcgctctagaactagtggatcccccgggctgcaggaattcggcacgagaacaacttcaaccgcgtctggaaggcgccacgccgcccgtttgagaaggaacgccttgaccgcgagatgaaactctgcggccagtacggccttcngttgcaacgcgtgagatttggcgccgtgaacatgacgctctccaagatgcgtcgtaccgcccgtctgttgttgacgttgccggagaaccacccgcgccggcagctggagggttccgccatcatgcgccgctgccacgactacggcttcctcgagggggggcccggtacccaattcgccctatagtgagtcgtattacannattcactggccgntcgntnntttacaacgtcgntnngactgggnannaaaccctggnnncgttacccaacttaatcgcctt

BLAST it!

Page 28: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Anotação Automática

BLAST contra KEGG

InterproBLAST contra GenBank

PSORTBLAST contra COG

Anotação manual

Page 29: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Aldolase Trypanosoma cruzi

.........1.........2.........3.........4.........5.........6.........7.........8.........9.........10 acaagctggagctcccgcggtggtcggcgctctagaactagtggatcccccgggctgcaggaattcggcacgagaacaacttcaaccgcgtctggaaggcgccacgccgcccgtttgagaaggaacgccttgaccgcgagatgaaactctgcggccagtacggccttcngttgcaacgcgtgagatttggcgccgtgaacatgacgctctccaagatgcgtcgtaccgcccgtctgttgttgacgttgccggagaaccacccgcgccggcagctggagggttccgccatcatgcgccgctgccacgactacggcttcctcgagggggggcccggtacccaattcgccctatagtgagtcgtattacannattcactggccgntcgntnntttacaacgtcgntnngactgggnannaaaccctggnnncgttacccaacttaatcgcctt

Interpro

• Procura na seqüências por domínios, assinaturas ou motivos conhecidos.

• Se utiliza de outros bancos de domínios para produzir seu relatório final. PFAM, SMART, PROSITE, etc

Interpro

Page 30: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Anotação Automática

BLAST contra KEGG

InterproBLAST contra GenBank

PSORTBLAST contra COG

Anotação manual

Page 31: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Anotação

Streptococcus pneumoniae R6

Page 32: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

SabiáSystem for Automated Bacterial Integrated Annotation

• LNCC – Coordenação do Projeto Genoma Brasileiro

• Gerenciamento de todos softwares de Base-calling, Mascaramento, Montagem e Anotação automática.

• Disponibilização da Anotação automática dos resultados via Web possibilitando a realização da Anotação manual por pesquisadores distribuídos geograficamente.

Exemplo Sabiá Mapa Antes Mapa Depois

Page 33: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Análise do transcriptoma

Projetos que precedem seqüenciamento do genoma nuclear:

• Identificação de novos genes.

• Estimativa do perfil de expressão da linhagem celular, estágio de desenvolvimento ou tecido avaliado

Page 34: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Transcrição e Transcriptoma

EST

RNA total

cístron Poli A mRNACAP5’ 3’

Page 35: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Transcrição e Transcriptoma

ESTPoli A

Poli A

Poli A

Poli A

cDNA

Vetor + cDNA

Page 36: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Transcrição e Transcriptoma

EST

Sequenciamentoextremidades

5’ Poli A

3’ Poli A

3’

5’

~ 800 pb

Vetor Vetor

VetorVetorcDNA completo

Page 37: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Transcrição e Transcriptoma

ESTRemoçãoSequencia de vetor(cross_match, Lucy)

Remoção Poli A (Script Perl)

EST

5’ Poli A3’Vetor Vetor

Poli A

X X

X5’ 3’

5’ 3’

Page 38: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Análise do transcriptoma

EST – Anotação

BLASTXE

BLASTN

GenBankNucleotídeos>clone_23 5’

ggcacgagagttctcccggagacgctccgtgcgaagattatggaggccgtcaatgtggtcggttcccgccactttgctcgcctg

Bancos de seqüências

GenBankProteínas

5’ 3’

clone_23 5’ = amastina

Page 39: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Análise do transcriptoma

EST – Anotação

Agrupamento deseqüência similaresouagrupamento via anotação

= amastina>clone_23 5’ggcacgagagttctcccggagacgctccgtgcgaagattatggaggccgtcaatgtggtcggttcccgccactttgctcgcctg

Número de ESTs Anotação

4 amastina

6 TcMUC II

Page 40: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Transcrição e Transcriptoma

Transcriptoma de amastigotas

Page 41: Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Transcrição e Transcriptoma

Transcriptoma de amastigotas