45
Anotação de genomas João C. Setubal 2019

Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

Anotação de genomas

João C. Setubal2019

Page 2: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

Sumário

• Dado um genoma completo, sem buracos ou erros• Achar os genes codificadores de proteína

– Sequência codificadora (CDS) (às vezes aparece ORF)– promotores

• Achar genes de RNA– RNA ribossomal– tRNA– Outros RNAs

• Atribuir função aos genes codificadores de proteína• Esta aula: genomas de procariotos

Page 3: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

Achar genes codificadores de proteína

• Gene finding

Page 4: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

Genes

Page 5: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

EEB 600A Lecture 24nitro.biosci.arizona.edu

Estrutura de um gene de procarioto

ORF

Page 6: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

7/31/2019 J. C. Setubal 6

DNA tem quadros de leitura

+1: GTGGTGGCCTTCGAAGGGT+2: TGGTGGCCTTCGAAGGGT+3: GGTGGCCTTCGAAGGGT

Page 7: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

7/31/2019 J. C. Setubal 7

DNA tem duas fitas (+ e –)

GTGGTGGCCTTCGAAGGGT

CACCACCGGAAGCTTCCCA+

5′ 3′

3′ 5′

Page 8: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

7/31/2019 J. C. Setubal 8

6 quadros no total

GTGGTGGCCTTCGAAGGGTTGGTGGCCTTCGAAGGGTGGTGGCCTTCGAAGGGT

CACCACCGGAAGCTTCCCA

CACCACCGGAAGCTTCCC

CACCACCGGAAGCTTCC

Page 9: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

7/31/2019 J. C. Setubal 9

...AGCTCGCGCTCCGCATCCATCCAGTAGGGTTCGGTGTCGACGAGCGTGCCGTCCATATCCCAGAAGACGGCGGCCGGCATCGCGTGCGGAGTCAGTTCGGTCACGGCTGACAAGTCTATCCCGGCGGCCCCGGGCCTATTCTTGAGGGACGGCGTCCTGACCGGTCGCCGGATGAAAGGACCAGAACGCCCCGTGACTGACGCGAACAGCATCCTCGGAGGGCGCATCCTCGTGGTGGCCTTCGAAGGGTGGAACGACGCTGGCGAGGCCGCCAGCGGGGCCGTCAAGACGCTCAAGGACCAGCTGGATGTCGTCCCGGTCGCCGAGGTCGATCCCGAGCTGTACTTCGACTTCCAGTTCAACCGGCCGGTCGTCGCGGACGACGACGGCCGCCGGCGCCTCATCTGGCCGTCCGCGGAGATCCTGGGCCCAGCTCGCCCCGGCGACACCGGCGATGCGCGCCTGGACGCCACCGGCGCCAACGCGGGCAATATCTTCCTTCTCCTCGGCACCGAGCCGTCGCGCAGCTGGCGCAGCTTCACCGCGGAGATCATGGATGCGGCCCTGGCCTCCGACATCGGCGCCATCGTCTTCCTCGGTGCGATGCTGGCGGACGTACCGCACACCCGCCCCATCTCCATCTTCGCTTCGAGCGAGAACGCGGCCGTCCGTGCGGAGCTCGGCATCGAACGCTCTTCGTACGAGGGGCCGGTCGGTATCCTGAGCGCGCTCGCCGAAGGGGCGGAGGACGTGGGCATTCCGACCATCTCCATCTGGGCGTCGGTTCCGCACTATGTCCACAATGCGCCCAGCCCGAAGGCGGTGCTCGCACTGATCGACAAGCTCGAAGAGCTGGTGAATGTCACCATCCCGCGTGGCTCGCTGGTGGAGGAGGCCACGGCCTGGGAAGCCGGGATCGACGCGCTGGCTCTGGACGACGACGAGATGGCTACGTACATCCAGCAGCTGGAGCAGGCACGCGACACCGTGGACTCCCCTGAGGCCAGCGGCGAGGCGATCGCCCAGGAGTTCGAGCGCTACCTCCGCCGCCGCGACGGCCGCGCCGGCGATGACCCCCGCCGTGGCTGACGTCACCCCCTCTCTGCGTCCGCCGTCCTCTGTTCCCCCCGCTCGGCCTCCCCTGAGGCCG

AGGAGTCGCGCCCACATGCCGGAAACTCCTCCTTTCCTGACTTTCTGGAG ...

DNA de bactéria

Page 10: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

7/31/2019 J. C. Setubal 10

...AGCTCGCGCTCCGCATCCATCCAGTAGGGTTCGGTGTCGACGAGCGTGCCGTCCATATCCCAGAAGACGGCGGCCGGCATCGCGTGCGGAGTCAGTTCGGTCACGGCTGACAAGTCTATCCCGGCGGCCCCGGGCCTATTCTTGAGGGACGGCGTCCTGACCGGTCGCCGGATGAAAGGACCAGAACGCCCCGTGACTGACGCGAACAGCATCCTCGGAGGGCGCATCCTCGTGGTGGCCTTCGAAGGGTGGAACGACGCTGGCGAGGCCGCCAGCGGGGCCGTCAAGACGCTCAAGGACCAGCTGGATGTCGTCCCGGTCGCCGAGGTCGATCCCGAGCTGTACTTCGACTTCCAGTTCAACCGGCCGGTCGTCGCGGACGACGACGGCCGCCGGCGCCTCATCTGGCCGTCCGCGGAGATCCTGGGCCCAGCTCGCCCCGGCGACACCGGCGATGCGCGCCTGGACGCCACCGGCGCCAACGCGGGCAATATCTTCCTTCTCCTCGGCACCGAGCCGTCGCGCAGCTGGCGCAGCTTCACCGCGGAGATCATGGATGCGGCCCTGGCCTCCGACATCGGCGCCATCGTCTTCCTCGGTGCGATGCTGGCGGACGTACCGCACACCCGCCCCATCTCCATCTTCGCTTCGAGCGAGAACGCGGCCGTCCGTGCGGAGCTCGGCATCGAACGCTCTTCGTACGAGGGGCCGGTCGGTATCCTGAGCGCGCTCGCCGAAGGGGCGGAGGACGTGGGCATTCCGACCATCTCCATCTGGGCGTCGGTTCCGCACTATGTCCACAATGCGCCCAGCCCGAAGGCGGTGCTCGCACTGATCGACAAGCTCGAAGAGCTGGTGAATGTCACCATCCCGCGTGGCTCGCTGGTGGAGGAGGCCACGGCCTGGGAAGCCGGGATCGACGCGCTGGCTCTGGACGACGACGAGATGGCTACGTACATCCAGCAGCTGGAGCAGGCACGCGACACCGTGGACTCCCCTGAGGCCAGCGGCGAGGCGATCGCCCAGGAGTTCGAGCGCTACCTCCGCCGCCGCGACGGCCGCGCCGGCGATGACCCCCGCCGTGGCTGACGTCACCCCCTCTCTGCGTCCGCCGTCCTCTGTTCCCCCCGCTCGGCCTCCCCTGAGGCCG

AGGAGTCGCGCCCACATGCCGGAAACTCCTCCTTTCCTGACTTTCTGGAG ...

Um gene (CDS)

Page 11: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

7/31/2019 J. C. Setubal 11

Quadro aberto de leitura (ORF)

• Um trecho do genoma em que– O número de nucleotídeos é múltiplo de 3– O último codon é de parada– O primeiro codon é de início de tradução (ATG)– Não existe nenhum outro codon de parada

presente

Page 12: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

7/31/2019 J. C. Setubal 12

Método (rudimentar) para achar genes em procariotos

Ache todas as ORFs com pelo menos 900 bp

Bom quanto a falsos positivosORFs com pelo menos 900 bp que não são CDSs

Ruim quanto a falsos negativosORFs com menos de 900 bp que são CDSs

Page 13: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

taxa de falsos positivos

taxa de falsos negativos

100%

100%0%

900 bp

90 bp

variação no comprimento mínimo de ORF aceita

+

Page 14: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of
Page 15: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

7/31/2019 J. C. Setubal 15

Método (um pouco melhor) para achar genes em procariotos

1. Ache todas ORFs2. Traduza cada uma usando o código genético3. Compare cada uma com seqüências de

genes conhecidos– Se achar algum hit estatisticamente significativo,

guarde; senão jogue fora

4. Resolva sobreposições

Page 16: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

Na prática

• Métodos que usam técnicas bem maissofisticadas

• Buscam padrões estatisticamentesignificativos no DNA

• Teoria: a composição em nucleotídeos das CDSs dos genes codificadores de proteínasegue um padrão, que é diferente das demaisregiões

• Técnica: modelos de markov de maior ordem

Page 17: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

Programas mais usados

– Glimmer• http://ccb.jhu.edu/software/glimmer/index.shtml

– Prodigal• http://prodigal.ornl.gov/

– geneMark• http://exon.gatech.edu/

– Metagene (for metagenomics sequences)• http://weizhong-lab.ucsd.edu/metagenomic-

analysis/server/metagene/

Page 18: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

Limitações

• Genes pequenos (menores do que 150 bp) geralmente são perdidos– Se se aumenta a sensibilidade, vem muitos falsos

positivos

• Início de tradução nem sempre é correto

Page 19: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

Achar genes de RNA

• RNA ribossomal– Operon– 16S, 5S, 23S

• tRNA– tRNAscan-SE

• Outros RNAs

Page 20: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

Alberts et al. 2008

Page 21: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

tRNA

Em procariotos tipicamente existemcerca de 50 genes de tRNA

Page 22: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

Outros RNAs

• tmRNA– Resgata ribossomos emperrados

• Ribonuclease P RNA• 6S RNA

– Regulação gênica por ligação com RNA polimerase

• SRP RNA• etc

Page 23: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

Como achá-los?

• rRNA– BLASTN, RNAmmer– Fronteiras exatas?

• tRNA– tRNAscan-SE– Aragorn

• Outros RNAs– RFAM

Page 24: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

RFAM

Famílias de RNA são descritas por esse grupo na Wikipedia

Page 25: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of
Page 26: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

Anotação funcionalatributo exemplo

Nome da proteína Beta-galactosidase

Nome do gene lacZ

organismo Escherichia coli (strain K12)

comprimento 1024 AA

função Hydrolysis of terminal non-reducing beta-D-galactoseresidues in beta-D-galactosides

sequencia MTMITDSLAVVLQRRDWENPGVTQLNRLAA(…)

estrutura Próximo slide

Evidência de existência Referências da literatura

Número EC, sítios ativos, interações, massa, etc

Page 27: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

R.H. Jacobson, X.-J. Zhang, R.F. DuBose, B.W. MatthewsThree-dimensional structure of β-galactosidase from E. coliNature, 369 (1994), pp. 761–766

B.W. Matthews, C. R. Biologies 328 (2005)

Page 28: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

Como anotar?

• Manualmente– Seguir protocolos– Impraticável para a avalanche de genomas que

existe hoje

• Automaticamente– Pipelines de anotação

Page 29: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of
Page 30: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of
Page 31: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of
Page 32: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

O problema dos termos

• Diferentes pessoas usam diferentes palavras para descrever a mesma função– mixirica, tangerina, bergamota– sinônimos

• Diferentes pessoas usam as mesmas palavras para descrever funções diferentes– manga (a fruta, de camisa)– homógrafos

• É necessário uma padronização– Gene Ontology

Page 33: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

Gene Ontology

• Sistema que faz 2 coisas básicas– Padroniza os termos– Padroniza a relação entre eles

• 3 grandes áreas– Função molecular– Processo biológico– Componente celular

Page 34: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

Simplified directed acyclic graph (DAG) illustrating several terms describing different types of programmed cell death (PCD).

Trudy Torto-Alalibo et al. Microbiol. Mol. Biol. Rev. 2010;74:479-503

Page 35: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

Códigos de evidência

• Usados no processo de anotação para indicarcomo a anotação foi feita

Page 36: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of
Page 37: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

Gene Ontology não padronizanomes de proteínas

• lacZ• Ou mesmo…• A frase curta que supostamente descreve a

função dos genes• Então alguns problemas babélicos continuam

Page 38: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

Propagação de erros

• Tsunami de sequências• => propagação automática de anotações• Mas toda anotação precisa estar ancorada em

dados experimentais– Estes são escassos

• Resultam muitos erros por propagação

Page 39: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

Registros curados no SwissProt

Page 40: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

Análise de enriquecimento

• Padronização de termos permite análise de enriquecimento– Exemplo típico é em expressão gênica– genes diferencialmente expressos em condição A

em relação a um controle (para + ou para -)

• Há um enriquecimento de categorias GO (ouCOG, etc) dos genes d.e.?– Super-representação– Sub-representação

Page 41: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

Programa STRING https://string-db.org/

Page 42: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of
Page 43: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of
Page 44: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of

Resultado final

Page 45: Busca de motivos em sequências · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis of