108
Comparação de sequências João Carlos Setubal IQ-USP 2013 1 9/26/2013 J. C. Setubal

Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Comparação de sequências

João Carlos Setubal

IQ-USP

2013

1 9/26/2013 J. C. Setubal

Page 2: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Referência

• J.C. Setubal Chapter A05 Similarity Search

http://www.ncbi.nlm.nih.gov/books/NBK6831

Page 3: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Motivação: Por que comparar sequências?

• Achar similaridades

– Dadas 2 sequências, quão parecidas elas são?

– DNA e proteína

• Buscas em banco de dados

– Achar quais sequências do banco são parecidas com minha sequência-consulta

– Consulta (query) é tipicamente uma sequência nova

– “google”

Page 4: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Motivação (cont.)

• Construir famílias de proteínas

– Saber quais organismos tem membros da família

– Determinar uma “assinatura” para a família

• Construir filogenias

– Entender a história evolutiva de genes e organismos

Page 5: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Alinhamento

GTGGTGGCCTACGAA-GGT

GTAGTG-CCTTCGAAGGGT

Page 6: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Como avaliar um alinhamento?

• Sistema de pontuação

• DNA

– Match: +1

– Mismatch: –1

– Espaço: –2

– (Buraco: sequência de espaços)

Page 7: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Pontuação do alinhamento

GTGGTGGCCTACGAA-GGT

GTAGTG-CCTTCGAAGGGT

+1+1-1+1+1+1-2+1+1+1-1+1+1+1+1-2+1+1+1 = 10

Page 8: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Pontuação de alinhamento de proteínas

% de identidade é uma medida simples mas

válida de similaridade de sequências de

proteínas

Page 9: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Aminoácidos se dividem em famílias

• Hidrofóbicos

– Ala, Val, Phe, Pro, Met, Ile, Leu

• Com carga

– Asp, Glu, Lys, Arg

• Polares

– Ser, Thr, Tyr, His, Cys, Asn, Gln

– Trp

• Gly

Page 10: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002
Page 11: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Mutações e proteínas

• Substituições que não alteram a estrutura da proteína tendem a ser preservadas durante a evolução

• A troca de um aminoácido de uma família por outro da mesma família em geral cai nessa categoria

• (Indels podem ter consequências mais drásticas)

• Então: como avaliar mismatches?

Page 12: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Matriz de substituição de amino ácidos BLOSUM62

Fonte: NCBI

Page 13: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Pontuação leva em conta a matriz

– Match: blosum62(i,j) sempre positivo

– Mismatch: blosum62(i,j) positivo, nulo, negativo

– Espaço: –2

Page 14: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Alinhamentos ótimos

• São alinhamentos de pontuação (score) máxima

• Similaridade = a nota de um alinhamento de pontuação máxima

• Como obtê-los?

• Programação dinâmica

Page 15: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

9/26/2013 J. C. Setubal 15

Programação Dinâmica

• Técnica para criar algoritmos • Válida para problemas que tem uma estrutura de subproblemas

• Num alinhamento com sequências A e B um subproblema é qualquer alinhamento entre A′ e B ′ tal que A′ = um prefixo de A e B ′ = um prefixo de B

Page 16: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Ideia básica da PD

• Achar soluções de subproblemas e armazená-las numa tabela (matriz)

• Para achar a solução ótima:

– Ir achando as soluções na direção dos subproblemas menores para os maiores

– Último elemento da tabela a ser preenchido contém a solução do problema “completo”

Page 17: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Preenchimento da tabela

• Inicialização: Alinhar A com cadeia vazia e alinhar B com cadeia vazia

– Pode ser -2 ou zero

• Depois:

– Alinhar caracter X com caracter Y

– 3 possibilidades

• X com Y

• X com espaço (espaço é um caracter especial)

• Y com espaço

Page 18: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Pontuação

• 3 possibilidades

– X com Y

• Aplicar pontuação respectiva, dependendo se for DNA ou proteína

– X com espaço

• Cobrar -2

– Y com espaço

• Cobrar -2

Page 19: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

9/26/2013 J. C. Setubal 19 www.embl-heidelberg.de/.../ predoc04.course.html

O alinhamento ótimo é um caminho nesta matriz

Para encontrá-lo é preciso fazer “traceback”

Score máximo

Page 20: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Exercícios

• Inventar duas sequências de DNA curtas e “rodar” (na mão) o algoritmo de PD

• Para se auto-corrigir: http://www.codeproject.com/Articles/304772/DNA-Sequence-Alignment-using-Dynamic-Programming-A

– Demo parece segura

– Exige registro

– Tem código fonte

Page 21: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Complexidade computacional de PD (quanto tempo?)

• A matriz tem tamanho n+1 por m+1

• Todos os elementos da matriz precisam ser preenchidos

• Supondo tempo constante para o preenchimento

– n+1 × m+1 = nm + n + m + 1

– O(nm)

– Se n ≈ m, O(n2) • Quadrático

• Memória: quadrático também

Page 22: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Penalização de espaços pode ser mais sofisticada

• No sistema de pontuação apresentado, k espaços consecutivos (um buraco ou gap) custam o mesmo que k espaços separados

GTGGTGGCCTACGAAGGT

GTGGTCGC---CGAAGGT

Seria melhor distinguir os dois casos

Page 23: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Penalização de espaços feita por uma função matemática

• k = número de espaços

• p(k) = a + bk

• p(k) é subtraído do score

• a = custo para abrir um buraco

• b = custo para continuar um buraco

• Por exemplo: p(k) = 2 + k

• 5 espaços consecutivos custam 7

• 5 espaços separados custam 15

• Compare com a função implícita do sistema simples: p(k) = 2k

Page 24: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Algoritmo de PD com penalização de buracos por função afim

• O algoritmo é mais complexo

– São necessárias 3 tabelas ao invés de 1

• Mas a complexidade permanece a mesma (quadrática)

• Algoritmo de Smith-Waterman

• Se a função for genérica [p(k) = a + b log k)], então a complexidade passa para O(n3)

– Algoritmo de Needleman-Wunsch

Page 25: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Alinhamentos biologicamente relevantes

• Alinhamentos de nota máxima não necessariamente correspondem a alinhamentos “biologicamente verdadeiros”

• Na falta de um oráculo, usamos estatística

• Os alinhamentos biologicamente relevantes serão aqueles estatisticamente significativos

– Improvável que tenham sido resultado do acaso

• Supõe buscas em bancos de sequências

Page 26: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Bancos e estatística

Page 27: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Bancos de sequências

• Resultado do sequenciamento em geral é publicado

• “bancos de dados” de sequências

• Na verdade catálogos

• Mais importante: GenBank

– Mantido pelo National Center for Biotechnological Information

– NCBI

–http://www.ncbi.nlm.nih.gov

Page 28: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002
Page 29: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

UniProt http://www.uniprot.org/

Page 30: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

http://www.expasy.org

Page 31: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002
Page 32: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

proteômica

Page 33: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Estatística de alinhamentos

• Teoria de Karlin e Altschul

• Calcula o e-value (expect value) de um alinhamento

• E = Kmne –λS

• m e n são os tamanhos das sequências

• S é a pontuação

• K e λ são parâmetros • Um banco de sequências pode ser tratado como uma longa sequência de

tamanho n

• A fórmula dá o número de alinhamentos que se esperaria obter com pontuação pelo menos S ao acaso

Page 34: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

e-value

• Não é uma probabilidade

• Pode resultar maior do que 1

• Mas em geral os alinhamentos biologicamente relevantes tem e-value < 10–5

• Para valores assim ou menores, o e-value se comporta como uma probabilidade

• p-values e e-values

P = 1 – e–E

Page 35: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

http://w

ww

.ncbi.n

lm.n

ih.g

ov/B

LA

ST

/tuto

rial/A

ltschul-

1.h

tml

Page 36: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Programação dinâmica é cara

• Especialmente quando

– Comparação contra muitas sequências

• Buscas em banco de dados

– Comparação de muitas sequências entre si

• Todas contra todas

• Alternativa: BLAST

• Basic Local Alignment Search Tool

Page 37: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Alinhamento global x local

global

Page 38: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

BLAST

• Altschul et al., 1990, 1997

• Programa mais usado em ciência

• Mais de 30 mil citações

• Heurística

• Acha alinhamentos locais

• Busca trechos parecidos (palavras ou words) entre as sequências = alinhamentos-semente

• Estende esses alinhamentos-semente

Page 39: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Características de BLAST

• Tamanho default das palavras

– DNA: 11 nt (alin.-semente tem que ser exato)

– Proteínas: 3 aa (alin.-semente tem que ter score positivo)

• Reporta bit score, raw score, e-value, identidades, positivos, buracos

Page 40: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002
Page 41: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002
Page 42: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Buscando no GenBank

Page 43: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Lista de hits

Page 44: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Sabores de BLAST

Subject

Query

nucleotídeos aminoácidos

nucleotídeos BLASTN

TBLASTX

BLASTX

aminoácidos TBLASTN BLASTP

JC Setubal 44

Page 45: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Parâmetros de BLASTn

Page 46: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Regiões de baixa complexidade

• Sequências com elementos repetitivos e que aparecem com frequência

• Exemplo em DNA

– AAAAAAA

• Exemplo em proteína

– AGNLLGRNVVVVGAG

• Uso do filtro é default

• Pode excluir alinhamentos relevantes

Page 47: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Parâmetros de BLASTp

Page 48: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Nem todos os alinhamentos estatisticamente significativos são biologicamente relevantes

• Duas proteínas podem compartilhar um domínio e não serem relacionadas

– falsos positivos de BLAST

• Acontece quando as proteínas tem múltiplos domínios

http://en.wikipedia.org/wiki/File:1pkn.png

Pyruvate kinase

Page 49: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Alinhamento múltiplo

Page 50: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Alinhamento múltiplo

Para construir filogenias é necessário criar AMs

50 JC Setubal

Page 51: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Multiple Sequence Alignment

51 9/26/2013 J. C. Setubal

Page 52: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Sequências de entrada

• Devem ser homólogas

– Descender do mesmo ancestral

52 9/26/2013 J. C. Setubal

Page 53: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Homologia

• Dois genes que tem um mesmo ancestral são homológos

• Freq. usado erroneamente com o sentido de similar

• Similaridade não implica necessariamente em homologia

– Asas: morcêgo, pássaros, insetos (convergência)

• Às vezes a similaridade é (ou parece) baixa mas mesmo assim existe homologia

– Barbatana de baleia e braços em humanos

• Dois tipos de homologia

– Ortologia e paralogia

Page 54: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Ortólogos

26 September 2013 54 JC Setubal

especiação

Page 55: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

parálogos

26 September 2013 55 JC Setubal Figure by C. Lasher

Page 56: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Família de proteínas

• Definição operacional – Duas proteínas estão na mesma família se seus

genes são homólogos

• ou (mais exigente) – Duas proteínas estão na mesma família se seus

genes são ortólogos

• Falar em proteínas homólogas é um certo abuso de linguagem

Page 57: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

26 September 2013 JC Setubal 57

In-parálogos

Figure by C. Lasher

Page 58: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Homologia e função

• Seria bom se proteína homólogas tivessem mesma função

• Geralmente é o caso; mas nem sempre

• Parálogos estão mais sujeitos a desenvolver novas funções – Neo-funcionalização

• Na prática – Membros de uma mesma família de proteínas são

homólogos e em geral tem mesma função

– Superfamílias e subfamílias

Page 59: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Phylogenetic tree of the WHAMM proteins Kollmar et al. BMC Research Notes 2012 5:88 doi:10.1186/1756-0500-5-88

Page 60: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Alinhamento múltiplo de sequências

• Generalização de alinhamento 2-a-2

– Alinhamentos ótimos e aproximações

– Todos os programas práticos para AM produzem aproximações

60 9/26/2013 J. C. Setubal

Page 61: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Generalização de PD para AM

x

y

2 sequências 3 sequências

O(n2)

O(n3) O(nk)

Page 62: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Alinhamento múltiplo de sequências

• Essencial: caracteres numa coluna tem que ser homólogos

• DNA ou aminoácidos?

– DNA: mais difícil garantir homologia nas colunas

– DNA é mais sensível, mas a 3a base de codons não é informativa

– Comparação com aminoácidos permite que proteínas mais distantes possam ser incluídas

– Há casos em que não dá para alinhar DNA (muita divergência)

62 9/26/2013 J. C. Setubal

Page 63: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Formatos de saída

• clustal, FASTA, MSF, NEXUS, PHYLIP • http://molecularevolution.org/resources/fileformats/converting

Page 64: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Programas para AM

• Muscle – Edgar, R.C. (2004) Nucleic Acids Res. 32(5):1792-1797

– www.drive5.com/muscle

• MAFFT – Katoh, Misawa, Kuma, Miyata 2002 (Nucleic Acids Res. 30:3059-3066)

– mafft.cbrc.jp/alignment/software/

• ClustalW/X

• Cobalt (NCBI)

• T-coffee

9/26/2013 J. C. Setubal 64

Page 65: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Sequências de entrada

• Devem ser homólogas

• Não muito longas (menos do que 10 kb)

• Não muitas (menos do que 500)

• (esses números variam dependendo do programa e do computador)

65 9/26/2013 J. C. Setubal

Page 66: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Edição de alinhamentos

66 9/26/2013 J. C. Setubal

Credit: R. Dixon

Page 67: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Edição de alinhamentos

• Algumas colunas podem não ser informativas

• No olho às vezes é possível ver alinhamentos locais melhores

• Edição manual

• Edição automática

67 9/26/2013 J. C. Setubal

Page 68: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Edição manual de AMs

• Jalview

– www.jalview.org – Waterhouse et al. Bioinformatics 2009 25 (9) 1189-1191

• Seaview

– http://pbil.univ-lyon1.fr/software/seaview.html • Gouy M., Guindon S. & Gascuel O. (2010) Molecular Biology and Evolution

27(2):221-224

Page 69: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

JALVIEW http://www.jalview.org/

69 9/26/2013 J. C. Setubal

Page 70: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002
Page 71: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Edição automática de AMs

• GBLOCKS

– http://molevol.cmima.csic.es/castresana/Gblocks_server.html

– Castresana, J. (2000) Molecular Biology and Evolution 17, 540-552

• GUIDANCE – http://guidance.tau.ac.il/index.html

– Penn, O., Privman, E., Ashkenazy, H., Landan, G., Graur, D. and Pupko, T. (2010). GUIDANCE: a web server for assessing alignment confidence scores. Nucleic Acids Research, 2010 Jul 1; 38 (Web Server issue):W23-W28; doi: 10.1093/nar/gkq443

Page 72: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Alinhamento entre sequências longas

• Cromossomos inteiros

• O cromossomo típico de uma bactéria tem 4 Mbp

• Cromossomo de humanos: 300 Mbp

• Cromossomos e plasmídeos: replicons

Page 73: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

26 September 2013 73 JC Setubal

Page 74: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

BLAST não serve

• Computadores mesmo com dezenas de GB de RAM não dão conta de rodar BLAST para essas entradas

• Problema não é tempo; é memória RAM

• Outras abordagens são necessárias

Page 75: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Comparações entre sequências longas

• MUMmer – Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast

algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002 Jun 1;30(11):2478-83.

– Kurtz S, Phillippy A, Delcher AL, Smoot M, Shumway M, Antonescu C, Salzberg SL. Versatile and open software for comparing large genomes. Genome Biol. 2004;5(2):R12

• http://mummer.sourceforge.net

26 September 2013 75 JC Setubal

Page 76: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Como MUMmer funciona

• It finds Maximal Unique Matches

• These are exact matches above a user-specified threshold that are unique

• Exact matches found are clustered and extended (using dynamic programming) – Result is approximate matches

• Data structure for exact match finding: suffix tree – Difficult to build but very fast

• Nucmer and promer – Both very fast

– O(n + #MUMs), n = genome lengths

26 September 2013 76 JC Setubal

Page 77: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

• Alinhamentos de replicons inteiros revelam rearranjos

Page 78: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Alinhamentos de pares de replicons completos

Se as sequências fossem idênticas veríamos:

B

A 26 September 2013 78 JC Setubal

Page 79: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

uma inversão

A B C D

A

C B

D

26 September 2013 79 JC Setubal

Page 80: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

A B C D

A

C

D

B

Such inversions seem to happen around

the origin or terminus of replication 26 September 2013 80 JC Setubal

Page 81: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

81

Page 82: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

26 September 2013 82 JC Setubal

Page 83: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002
Page 84: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Xanthomonas axonopodis pv citri

E. coli K12 Promer alignment

Both are proteobacteria! Red: direct; green: reverse

26 September 2013 84 JC Setubal

Page 85: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Eisen JA, Heidelberg JF, White O, Salzberg SL. Evidence for symmetric chromosomal inversions around the replication origin in bacteria. Genome Biol. 2000;1(6):RESEARCH0011

26 September 2013 85 JC Setubal

Page 86: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Alinhamento múltiplo de sequências longas

• The program MAUVE

• Darling AC, Mau B, Blattner FR, Perna NT. Mauve: multiple alignment of conserved genomic sequence with rearrangements. Genome Res. 2004 Jul;14(7):1394-403.

26 September 2013 86 JC Setubal

Page 87: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

How MAUVE works

• Seed-and-extend hashing

• Seeds/anchors: Maximal Multiple Unique Matches of minimum length k

• Result: Local collinear blocks (LCBs)

• O(G2n + Gn log Gn), G = # genomes, n = average genome length

26 September 2013 87 JC Setubal

Page 88: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Alignment algorithm

1. Find Multi-MUMs

2. Use the multi-MUMs to calculate a phylogenetic guide tree

3. Find LCBs (subset of multi-MUMs; filter out spurious matches; requires minimum weight)

4. Recursive anchoring to identify additional anchors (extension of LCBs)

5. Progressive alignment (CLUSTALW) using guide tree

26 September 2013 JC Setubal 88

Page 89: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

89

Main chromosome alignment MAUVE

26 September 2013 JC Setubal

Page 90: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

90

Chromosome 2 alignment MAUVE

26 September 2013 JC Setubal

Page 91: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

91

RSA 493

RSA 331

Dugway

Chromosome alignment MAUVE

26 September 2013 JC Setubal

Page 92: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

92

Genome Alignments MAUVE

26 September 2013 JC Setubal

Page 93: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Comparação de conjuntos de genes

• Given a set of genomes, represented by their ‘proteomes’ or sets of protein sequences

• Given homlogous relationships (as given for example by orthoMCL)

– Which genes are shared by genomes X and Y?

– Which genes are unique to genome Z?

– Venn or extended Venn diagrams

26 September 2013 93 JC Setubal

Page 94: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

3-way genome comparison

26 September 2013 JC Setubal 94

A B

C

Page 95: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002
Page 96: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Diagrama de Venn para n = 6

Número de comparações é quadrático em n

Número de regiões num diagrama de Venn = 2n

Page 97: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Li Li et al. Genome Res. 2003; 13: 2178-2189

orthoMCL pipeline

Page 98: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002
Page 99: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002
Page 100: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002
Page 101: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Copyright ©2004 by the National Academy of Sciences

Boussau, Bastien et al. (2004) Proc. Natl. Acad. Sci. USA 101, 9722-9727

Fig. 4. Net gene loss or gain throughout the evolution of the {alpha}-proteobacterial species

26 September 2013 101 JC Setubal

Page 102: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Conjuntos + contexto

• Como genes compartilhados aparecem em seus respectivos genomas?

• Filogenômica

• Busca de sintenia = preservação de ordem

• Basta fazer um alinhamento

– Os “caracteres” a serem alinhados são os genes

Page 103: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

103

Page 104: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Proteome alignment done with LCS (top: Xcc; bottom: Xac )

Blue: BBHs that are in the LCS; dark blue: BBHs not in the LCS; red: Xac specifics; yellow: Xcc specifics

26 September 2013 104 JC Setubal

Page 105: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Roda da ortologia

Page 106: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002
Page 107: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Sumário - 1

• Comparação de sequências “curtas” 2-a-2

– Alinhamento

– Sistemas de pontuação

– Matrizes de substituição

– Programação dinâmica

– Significância estatística de alinhamentos

– BLAST

Page 108: Comparação de sequências - IQ USP · –Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002

Sumário - 2

• Comparação de várias sequências ao mesmo tempo

– Alinhamento múltiplo

– Programas

• Comparação de sequências “longas”

– 2-a-2

– Alinhamento múltiplo

• Comparação entre conjuntos de genes