C U R S O S E M B I O L O G I A , B I O Q U Í M I C A , B I O T E C N O L O G I A , C I Ê N C I A S B I O M É D I C A S E
E N G E N H A R I A B I O L Ó G I C A
Bioinformática
João Varela [email protected]
Aula T4
Esquema de anotação Annothaton
1. Determinar a localização das ORFs presentes na sequência desconhecida (quadro de leitura; coordenadas do codão START e codão STOP)
2. Determinar qual delas tem maior probabilidade de ser a traduzida e ter função biológica
Esquema de anotação Annothaton
1. ORFs? Coordenadas? Quadro de leitura? Cadeia + ou -? (SMS ORF Finder)
2. Existem proteínas homólogas? (BLASTp, BLASTx) 3. Existem domínios funcionais? Onde? (InterProScan) 4. Qual o tamanho / massa molecular da proteína codificada
pela ORF em aa / kDa? 5. A que organismo ou táxon pertencerá a sequência
metagenómica? (BLAST Taxonomy Report) 6. Relações filogenéticas (MSA; Prof. Rita Castilho) 7. Conclusões e Análise de Resultados (PONTO PRINCIPAL DA
AVALIAÇÃO)
ORFs com função biológica: Critérios
� Tamanho: As ORFs maiores tendem ser aquela que tem função biológica; a probabilidade de ORFs com tamanho > 150 aa de ser uma ORF sem função [falso positivo] é muito reduzida; ORFs com tamanho < 60 aa têm pouca probabilidade de terem função
� Homólogas a ORFs com função conhecida: Alinhamentos com sequências com função conhecida -> BLAST e InterProScan
Subrotinas do BLAST
Sub-Tipo" “Query” " Base de dados"BLASTn (deve ser usada para comparar sequências de DNA com bases de dados de DNA)"
DNA" DNA"
BLASTp (deve ser usada para comparar sequências polipeptídicas com bases de dados de proteína)"
Proteína" Proteína"
BLASTx"(deve ser usada quando a BLASTn ou BLASTp não consegue encontrar sequências homólogas na base de dados) "
DNA -> proteína" Proteína"
TBLASTn (deve ser usada quando a BLASTp não consegue encontrar sequências homólogas na base de dados) "
Proteína" DNA -> Proteína"
TBLASTx(deve ser usada quando a BLASTx não consegue encontrar sequências homólogas na base de dados) "
DNA -> proteína" DNA -> Proteína"
Subrotina a usar para determinar proteínas homólogas a ORFs
� Usar o BLASTp utilizando a sequência proteica obtida através da tradução virtual da ORF contra a base de dados SWISSPROT e NR
5’-AAG ATG GAA GGA TAA ACC-3’
ORF (sequência nucleotídica)
Tradução virtual in silico
M – E – G *
> Proteína x MEG*
ORF traduzida virtualmente (ORF Finder)
Ficheiro Bioinformático
(FASTA) BLASTp
Análise de resultados do BLASTp
� Listagem de sequências homólogas (scores elevados e valores E << 10-2) è há sequências homólogas e com função conhecida è ORF provavelmente codifica uma proteína com a mesma ou uma função biológica semelhante às codificadas pelas sequências homólogas
� Listagem de sequências homólogas (scores elevados e valores E << 10-2) è há sequências homólogas e com função desconhecida è ORF provavelmente codifica uma proteína com a mesma ou uma função biológica semelhante às das sequências homólogas, mas essa função não é ainda conhecida
� Listagem com scores baixos e valores E > 10-2 -> não há sequências homólogas credíveis è ORF não implica que não tenha função biológica; apenas que não se conhecem sequências homólogas neste momento; para ORFs > 200 aa è ORFan
Anotação “coding” vs. “noncoding”
1. Sequência tem ORFs? è Não è noncoding ê Sim 2. A maior ORF > 60 aa? è Não è noncoding ê Sim 3. A maior ORF tem função conhecida? è Sim è coding ê Não 4. A maior ORF > 200 aa ? è Simè coding ê Não 5. ORFan com outras ORFs mais pequenas? è Não è noncoding ê Sim
6. Repetir passos 1-5 com ORFs mais pequenas se houver sobreposição entre a ORFan e a ORF mais pequena
BLASTp vs. BLASTx
� Usar o BLASTp contra a base de dados ENV_NR se o BLASTp não encontrar proteínas homólogas à proteína codificada pela ORF em estudo
� Usar o BLASTx nos passos 3 e 4 se o BLASTp não encontrar proteínas homólogas à proteína codificada pela ORF em estudo
BLASTx
� Traduz uma sequência de DNA nos 6 quadros de leitura e compara cada um deles com base de dados de proteína
� Ideal quando há erros de sequenciação que mascaram ORFs
5’-ACT AGG AAC ATC CAT AAC ATG AAA TAA-3’! T R N I H N M K *! L G T S I T * N!
! * E H P * H E I!!5’-ACT ATG GAA CAT CCA TAA CAT GAA ATA A-3’! T M E H P * H E I!
Tem um erro (falta um T)
Anotação “coding” vs. “noncoding”
1. Sequência tem ORFs com BLASTx? è Não è noncoding ê Sim 2. A homologia > 60 aa? è Não è noncoding ê Sim 3. A homologia tem função conhecida? è Sim è coding, * ê Não noncoding * - Anotar que há uma possível ORF que está truncada devido a erros de sequenciação ou que se está na presença de um pseudogene
Pseudogene
� Sequências com homologia com genes que codificam proteínas (com função conhecida), mas que devido a mutações perderam a capacidade de codificar uma proteína
5’-ACT AGG AAC ATC CAT AAC ATG AAA TAA-3’! T R N I H N M K *! L G T S I T * N!
! * E H P * H E I!!5’-ACT ATG GAA CAT CCA TAA CAT GAA ATA A-3’! T M E H P * H E I!
Colocar a listagem dos resultados do BLAST em Raw Results na secção BLAST do Annothaton
Para obter os resultados do BLAST em formato de texto clicar em Format Options e escolher a opção Alignment as Plain Text
Esquema de anotação Annothaton
1. ORFs? Coordenadas? Quadro de leitura? Cadeia + ou -? (SMS ORF Finder)
2. Existem proteínas homólogas? (BLASTp, BLASTx) 3. Existem domínios funcionais? Onde? (InterProScan) 4. Qual o tamanho / massa molecular da proteína codificada
pela ORF em aa / kDa? 5. A que organismo ou táxon pertencerá a sequência
metagenómica? (BLAST Taxonomy Report) 6. Relações filogenéticas (MSA; Prof. Rita Castilho) 7. Conclusões e Análise de Resultados (PONTO PRINCIPAL DA
AVALIAÇÃO)
Proteínas são formadas por módulos funcionais
Urocinase (activador do plasminogéneo)
Plasminogéneo (hidrolisa fibrilhas de cóagulo)
ligação a proteínas
ligação a proteínas e fosfolípidos
actividade proteolítica
ligação a aniões (ex. RNA)
Assinaturas / Motivos / “Fingerprints”
Prot1 -ARTYRKAF-!Prot2 -ARTRQKAF-!Prot3 -ARTTFKAF-!Prot4 -ARYQLKAF-!!Motivo -ARTXXKAF-!!Prot5 -ASFQLAST-!
Família X Contém um motivo ARTXXKAF
Proteína que não pertence à Família X
São apenas consensos de sequências Não é necessário que tenham uma função biológica definida
Domínios podem conter 1 ou mais assinaturas
� Domínios – unidades biológicas com fronteiras bem definidas
• Domínios Estruturais • Domínios Funcionais • Conjuntos de subdomínios bem definidos
Plasminogéneo (hidrolisa fibrilhas de cóagulo)
ligação a proteínas
ligação a proteínas e fosfolípidos
actividade proteolítica
InterProScan
� Ferramenta que pesquisa domínios com função conhecida por comparação com várias bases de dados (ProDom, Pfam, PROSITE, HAMAP, PRINTS, PANTHER, PIRSF, SMART, TIGRFams, Gene3D, SUPERFAMILY)
http://www.ebi.ac.uk/interpro/tutorial.html
MALSSSKFGWYRDAQQALFT
GWYRK
Função X
SKLYT
Função Y
ALTTSAKXXXXT
Função Z
Base de dados de “assinaturas” ou
“motivos”
Bases de dados associadas à InterPro
� Pfam – BD de domínios (divergentes) � PROSITE – BD de locais (sites) funcionais � PRINTS – BD de “fingerprints” ou motivos
organizados hierarquicamente (superfamílias, famílias e subfamílias)
� HAMAP – perfis criados manualmente � TIGRFAMs – utilizam HMMs (hidden Markov
models) de proteínas com funções equivalentes
Definição de Família na BD InterPro
� Para uma proteína pertencer a uma dada família tem de conter todas as assinaturas típicas dessa família
� As assinaturas têm de cobrir > 80% da proteína � > 90% das proteínas da família não podem possuir
outros domínios que estejam ausentes nos restantes membros da família
Tipos de entradas na BD InterPro
� Famílias � Domínios � Regiões (quando não respeitam nem a definição de
família, nem a definição de domínio) � Repetições / sítios (sítios de ligação [de ligandos],
sítios activos [enzimas], modificações pós-traducionais [PTMs])
Organização hierárquica da InterPro
� Superfamílias / Famílias / Subfamílias � Relação PAI/ FILHO � Superfamílias são PAIS de Famílias � Subfamílias são FILHAS de Famílias � Um FILHO é um subconjunto do seu PAI definido
por um conjunto de motivos (excepto os motivos que definem o seu PAI)
� Tem que haver uma sobreposição de motivos conservados em >50% entre PAI e FILHO e o FILHO tem de conter > 75% dos motivos do seu PAI
Exemplos
� Família X – Domínio Y + Sítio de Ligação M � Família Y – Domínio Y + Repetição H � Família Z – Domínio Y + Sítio Activo G � Superfamília Y – Todas as proteínas que tenham o
domínio Y
Critérios de anotação de domínios proteicos
� Os domínios a anotar não podem estar sobrepostos � Caso haja vários domínios não sobrepostos, anotar o
domínio mais informativo (escolher o domínio que descreve uma enzima [ex. Succinato desidrogenase] em vez de uma família de enzimas [ex. Oxidoreductase])
� Anotar o domínio com o valor E mais significativo � Anotar apenas domínios que já estejam integrados
na base de dados INTERPRO (nº de acesso com o formato IPRnnnnnn). Só anotar domínios não integrados caso não haja domínios integrados.
Esquema de anotação Annothaton
1. ORFs? Coordenadas? Quadro de leitura? Cadeia + ou -? (SMS ORF Finder)
2. Existem proteínas homólogas? (BLASTp, BLASTx) 3. Existem domínios funcionais? Onde? (InterProScan) 4. Qual o tamanho / massa molecular da proteína codificada
pela ORF em aa / kDa? 5. A que organismo ou táxon pertencerá a sequência
metagenómica? (BLAST Taxonomy Report) 6. Relações filogenéticas (MSA; Prof. Rita Castilho) 7. Conclusões e Análise de Resultados (PONTO PRINCIPAL DA
AVALIAÇÃO)
Massa Molecular (Molecular Weight)
� 1 Da = 1 unidade de massa atómica = 1/12 massa de um átomo de C ≈ massa de um átomo de H
� 1 mole de H tem uma massa de 1 g � Logo: 1 Da => 1 g mol-1 � A massa molecular de uma macromolécula depende do
nº de unidades que a forma � Mw Proteína = somatório da Mw dos resíduos de aa � Mw DNA = somatório da Mw dos resíduos de nucleótidos � Annothaton: anotar Mw - apenas se a ORF estiver
completa!
A ORF está completa quando:
� Identificámos o seu codão STOP (a 3’) � Identificámos o seu codão START (a 5’) � O alinhamento múltiplo (MSA) com sequências
homólogas não revela a falta de qualquer sequência
Determinação do codão START por MSA
GOS_12345! !MSAHNTMALAGHAHHHAIKLYVVFA!BD_P0001 ! !MSAHYTMALVGHAHKHAIKLYVIFA!BP_P0002 ! !MSAHYTMALVGHAHHHAIKLYVVFA!
Exemplo 1 Conclusão
A ORF está completa na sua extremidade 5’
GOS_12345! ! MALAGHAHHHAIKLYVVFA!BD_P0001 ! !MSAHYTMALVGHAHKHAIKLYVIFA!BP_P0002 ! !MSAHYTMALVGHAHHHAIKLYVVFA!
Exemplo 2 Conclusão
A ORF está incompleta na sua extremidade 5’
GOS_12345! !MSAHNTMALAGHAHHHAIKLYVVFA!BD_P0001 ! ! MALVGHAHKHAIKLYVIFA!BP_P0002 ! ! MALVGHAHHHAIKLYVVFA!
Exemplo 3 Conclusão
A ORF começa no 2º codão START
Alinhamentos de sequências múltiplas (MSA) Para que servem?
� Pesquisa de sequências adicionais � Montagem de sequências genómicas � Montagem de ESTs � Pontos de partida para análises filogenéticas
Alinhamentos de sequências múltiplas (MSA) Pesquisa de sequências adicionais
5’-ACTGATTAGCAACTAAGGACATAAAACTGCTTAGCCAT-3’!5’-ACTGATTACCATACATTGACTTAACTGACTAATCTTAT-3’!5’-ACTGATTAGCATCCAAGGACATAAAACTGCTATGTTAT-3’! ACTGATTASCAWMYAWKGACWTAAMWSWSYWWWSYYAT!Consenso
primer, sonda (sequência comum usada para detectar
famílias de genes [homólogos] por hibridação)
Alinhamentos de sequências múltiplas (MSA) Montagem de sequências genómicas
5’-AGCTATTACAGGAACTTGCACATGGGCTTAGCTAGCAAATTTAGC-3’ seq123_67! seq123_24 5’-CTTGCACATGGGCTTAGCTAGCAAATTTAGCTAGCT-3’! seq123_89 5’-CAAATTTAGCTAGCTTGCCATTA-3’!
seq123_67 + seq123_24 + seq123_89 = contig
ESTs (Expressed Sequence Tags)
Expressed Sequence Tags (fragmentos de sequências de cDNA
de RNAs transcritos de um dado tecido ou células)
RNA1 RNA2 RNA3 RNA4... RNAn
cDNA1 cDNA2 cDNA3 cDNA4... cDNAn
Célula
Extracção de RNA,
Síntese de cDNA
Sequenciação
EST1-1
EST1-2 cDNA1 5’
5’
Alinhamentos de sequências múltiplas (MSA) Montagem de ESTs para a dedução de sequências completas de RNA transcrito numa célula / tecido
http://cseweb.ucsd.edu/groups/bioinformatics/ESTs/index.html
Detecção de splicing alternativo
Esquema de anotação Annothaton
1. ORFs? Coordenadas? Quadro de leitura? Cadeia + ou -? (SMS ORF Finder)
2. Existem proteínas homólogas? (BLASTp, BLASTx) 3. Existem domínios funcionais? Onde? (InterProScan) 4. Qual o tamanho / massa molecular da proteína codificada
pela ORF em aa / kDa? 5. A que organismo ou táxon pertencerá a sequência
metagenómica? (BLAST Taxonomy Report) 6. Relações filogenéticas (MSA; Prof. Rita Castilho) 7. Conclusões e Análise de Resultados (PONTO PRINCIPAL DA
AVALIAÇÃO)
Critérios de decisão de taxonomia da fonte biológica de sequências metagenómicas
� Escolher o táxon que tenha valores E e scores com diferenças significativas com os restantes taxa
� Caso haja apenas taxa com valores E e scores muito próximos (não significativos) essa sequência não é diagnosticante para esse táxon; por isso escolher um táxon mais abrangente
Esquema de anotação Annothaton
1. ORFs? Coordenadas? Quadro de leitura? Cadeia + ou -? (SMS ORF Finder)
2. Existem proteínas homólogas? (BLASTp, BLASTx) 3. Existem domínios funcionais? Onde? (InterProScan) 4. Qual o tamanho / massa molecular da proteína codificada
pela ORF em aa / kDa? 5. A que organismo ou táxon pertencerá a sequência
metagenómica? (BLAST Taxonomy Report) 6. Relações filogenéticas (MSA; Prof. Rita Castilho) 7. Conclusões e Análise de Resultados (PONTO PRINCIPAL DA
AVALIAÇÃO)