125
Alinhamentos de sequências e Busca de Similaridade Ariane Machado Lima [email protected] Escola de Artes, Ciências e Humanidades - USP

Alinhamentos e Busca de Similaridade

  • Upload
    lytu

  • View
    232

  • Download
    4

Embed Size (px)

Citation preview

Page 1: Alinhamentos e Busca de Similaridade

Alinhamentos de sequências e

Busca de Similaridade

Ariane Machado [email protected]

Escola de Artes, Ciências e Humanidades - USP

Page 2: Alinhamentos e Busca de Similaridade

“Eu não vim para explicar,

eu vim para confundir”Chacrinha

Page 3: Alinhamentos e Busca de Similaridade

Alinhamentos veremos em breve

Primeiro: busca de similaridade

Page 4: Alinhamentos e Busca de Similaridade

Contexto

http://www.ekac.org/gene.html

http://www.fuzzco.com/news/wp-content/uploads/2007/11/genome.jpg

Page 5: Alinhamentos e Busca de Similaridade

Contexto

Page 6: Alinhamentos e Busca de Similaridade

Buscas por sequências (o sentido biológico)

• Busca de identidade:– SABER o que é, onde está, etc.

• Busca de similaridade:– INFERIR o que é

Page 7: Alinhamentos e Busca de Similaridade

Busca de identidade

• Comparar 2 sequências para saber se:– são iguais– possuem uma subsequência em comum

Page 8: Alinhamentos e Busca de Similaridade

Exemplo 1

Localização de subsequência

sequência

genoma

Page 9: Alinhamentos e Busca de Similaridade

Exemplo 1

Localização de subsequência

sequência

genoma

Page 10: Alinhamentos e Busca de Similaridade

Exemplo 1

Localização de subsequência

sequência

genoma

BUSCA POR IDENTIDADE

Page 11: Alinhamentos e Busca de Similaridade

Exemplo 2 • Como faço para saber que proteína é essa?

MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKWQRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGMDEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRGDTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAILHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTTEILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTRPVPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASLRTRAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILPILKEIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCKGRVPEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEEPDMTGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLCDKPLSQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDPPLAAVTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQKEMERLRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLVCQSPGDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEGLVVRCIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ

Page 12: Alinhamentos e Busca de Similaridade

Exemplo 2 • Como faço para saber que proteína é essa?

MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKWQRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGMDEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRGDTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAILHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTTEILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTRPVPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASLRTRAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILPILKEIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCKGRVPEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEEPDMTGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLCDKPLSQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDPPLAAVTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQKEMERLRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLVCQSPGDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEGLVVRCIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ

Posso procurá-la em bancos de proteínas anotadas(procuro por ela, ou seja, por uma sequência idêntica)

Page 13: Alinhamentos e Busca de Similaridade

Exemplo 2 • Como faço para saber que proteína é essa?

MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKWQRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGMDEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRGDTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAILHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTTEILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTRPVPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASLRTRAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILPILKEIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCKGRVPEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEEPDMTGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLCDKPLSQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDPPLAAVTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQKEMERLRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLVCQSPGDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEGLVVRCIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ

Posso procurá-la em bancos de proteínas anotadas(procuro por ela, ou seja, por uma sequência idêntica)

BUSCA POR IDENTIDADE

Page 14: Alinhamentos e Busca de Similaridade

Exemplo 3 • Como faço para saber que proteína é essa?

MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKWQRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGMDEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRGDTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAILHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTTEILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTRPVPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASLRTRAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILPILKEIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCKGRVPEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEEPDMTGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLCDKPLSQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDPPLAAVTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQKEMERLRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLVCQSPGDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEGLVVRCIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ

Posso procurá-la em bancos de proteínas anotadas(procuro por ela, ou seja, por uma sequência idêntica)

E SE EU NÃO ENCONTRASSE UMA IDÊNTICA, MAS UMA SIMILAR?

Page 15: Alinhamentos e Busca de Similaridade

Inferência de função a partir de similaridade

Page 16: Alinhamentos e Busca de Similaridade

Inferência de função a partir de similaridade

Page 17: Alinhamentos e Busca de Similaridade

Inferência de função a partir de similaridade

Page 18: Alinhamentos e Busca de Similaridade

Nem sempre funciona...

Page 19: Alinhamentos e Busca de Similaridade

2 sequências

cacttttaactctctttccaaagtccttttcatctttccttcacagtacttgttcactat

cacttttaactctctttccaaagaacttttcatctttccctcacggtacttgtttgctat

Page 20: Alinhamentos e Busca de Similaridade
Page 21: Alinhamentos e Busca de Similaridade

Processo evolutivo

Page 22: Alinhamentos e Busca de Similaridade

Homologia, paralogia e ortologia

• Homologia: 2 sequências são homólogas se elas possuem uma sequência ancestral comum

• Ortologia

• Paralogia

Page 23: Alinhamentos e Busca de Similaridade

Ortologia: homologia por especiação

Page 24: Alinhamentos e Busca de Similaridade

Paralogia: homologia por duplicação

Page 25: Alinhamentos e Busca de Similaridade

Homologia, paralogia e ortologia

Paralogia

Ortologia

Page 26: Alinhamentos e Busca de Similaridade

Aplicações de busca de similaridade

• ?

Page 27: Alinhamentos e Busca de Similaridade

Aplicações de busca de similaridade

• Predição de genes

• Predição de estrutura– de proteínas– de RNA/DNA

• Inferência de árvores filogenéticas

• Busca de polimorfismos / marcadores

Page 28: Alinhamentos e Busca de Similaridade

• CUIDADO: Se duas (ou mais) sequências são parecidas:– elas podem ser homólogas– elas podem ter funções similares– elas podem ter a mesma estrutura

Identidade, similaridade e homologia

Page 29: Alinhamentos e Busca de Similaridade

Como encontrar identidade e similaridade?

Page 30: Alinhamentos e Busca de Similaridade

ALINHAMENTOS!

Como encontrar identidade e similaridade?

Page 31: Alinhamentos e Busca de Similaridade

Alinhamentos de 2 sequências

• “Deixar 2 sequências o mais parecidas possível”

ROSAVERMELHA

AMOROSOVERME

• Ajustando as posições de suas letras, se necessário usando espaços:

Page 32: Alinhamentos e Busca de Similaridade

Alinhamentos de 2 sequências

• “Deixar 2 sequências o mais parecidas possível”

ROSAVERMELHA

AMOROSOVERME

---ROSAVERMELHA

AMOROSOVERME---

• Ajustando as posições de suas letras, se necessário usando espaços:

Page 33: Alinhamentos e Busca de Similaridade

• Alinhamentos permitem comparaçõesentre as sequências– Identidade– Similaridade

ROSAVERMELHA

AMOROSOVERME

---ROSAVERMELHA

AMOROSOVERME---

Page 34: Alinhamentos e Busca de Similaridade

ROSAVERMELHA

|

AMOROSOVERME

Identidade: 8% (1/12)

---ROSAVERMELHA

||| |||||

AMOROSOVERME---

Identidade: 53% (8/15)

Page 35: Alinhamentos e Busca de Similaridade

Sistema de scores

• Pontos para match (ex: +2)

• Penalidades para mismatch (ex: -1)

• Penalidades para gap– abertura (ex: -3)– extensão (ex: -1)

Page 36: Alinhamentos e Busca de Similaridade

ROSAVERMELHA

|

AMOROSOVERME

Identidade: 8% (1/12)

SCORE: ???

---ROSAVERMELHA

||| |||||

AMOROSOVERME---

Identidade: 53% (8/15)

SCORE: ???

Page 37: Alinhamentos e Busca de Similaridade

ROSAVERMELHA

|

AMOROSOVERME

Identidade: 8% (1/12)

SCORE: -9

---ROSAVERMELHA

||| |||||

AMOROSOVERME---

Identidade: 53% (8/15)

SCORE: ???

Page 38: Alinhamentos e Busca de Similaridade

ROSAVERMELHA

|

AMOROSOVERME

Identidade: 8% (1/12)

SCORE: -9

---ROSAVERMELHA

||| |||||

AMOROSOVERME---

Identidade: 53% (8/15)

SCORE: +3

Page 39: Alinhamentos e Busca de Similaridade

ROSAVERMELHA

|

AMOROSOVERME

Identidade: 8% (1/12)

SCORE: -9

---ROSAVERMELHA

||| |||||

AMOROSOVERME---

Identidade: 53% (8/15)

SCORE: +3

Para um dado sistema de score, calculo o alinhamento de maior score(alinhamento ótimo)

PROBLEMA DE OTIMIZAÇÃO

Page 40: Alinhamentos e Busca de Similaridade

Similaridade entre os aminoácidos

Page 41: Alinhamentos e Busca de Similaridade

Identidade, similaridade e homologia

Identidade

Similaridade

Homologia

Tipo de Medida

Quantitativa

Quantitativa

QUALITATIVA

Sentido

quantos idênticos

quantos parecidos

TEM ou NÃO TEMum ancestral comum

Page 42: Alinhamentos e Busca de Similaridade

• Matrizes 20x20

• Algumas matrizes:

– PAMs

– BLOSUMs

Matrizes de score(matrizes de substitição de aa)

Page 43: Alinhamentos e Busca de Similaridade

Reference: Henikoff, S. and Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89: 10915-10919.

A R N D C Q E G H I L K M F P S T W Y V B Z X *

A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4

R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4

N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4

D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4

C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4

Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4

E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4

G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4

H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4

I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4

L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4

K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4

M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4

F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4

P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4

S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4

T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4

W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4

Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4

V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4

B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4

Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4

X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4

* -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1

Page 44: Alinhamentos e Busca de Similaridade

• Matrizes 20x20

• Algumas matrizes:

– PAMs

– BLOSUMs

Matrizes de score(matrizes de substitição de aa)

Também pode usar matrizes de nucleotídeos....

Page 45: Alinhamentos e Busca de Similaridade

• Matrizes 20x20

• Algumas matrizes:

– PAMs

– BLOSUMs

Matrizes de score(matrizes de substitição de aa)

Também pode usar matrizes de nucleotídeos....

Veremos sobre essas matrizes mais adiante....

Page 46: Alinhamentos e Busca de Similaridade

Alinhamentos

• Pairwise: 2 sequências

• Múltiplo: mais de 2 sequências

Page 47: Alinhamentos e Busca de Similaridade

Tipos de alinhamentos

• Global

• Semi-global

• Local

Page 48: Alinhamentos e Busca de Similaridade

Alinhamento global

QUERIDA---ROSAVERMELHA

|||| ||| |||||

QUEROUMAMOROSOVERME---

Page 49: Alinhamentos e Busca de Similaridade

Alinhamento global

• Aplicação:– comparar 2 proteínas (ex. para inferir

estrutura secundária)

Page 50: Alinhamentos e Busca de Similaridade

Estrutura 3D de proteínas

Page 51: Alinhamentos e Busca de Similaridade

Alinhamento global

• Aplicação:– comparar 2 proteínas (ex. para inferir

estrutura secundária)

Page 52: Alinhamentos e Busca de Similaridade

Alinhamento múltiplo

Page 53: Alinhamentos e Busca de Similaridade

Alinhamento global

• Outras aplicações

– Identificação de SNPs (single nucleotide polimorphism) e outros polimorfismos

– Identificação de domínios proteicos mais conservados

– Identificação de isoformas

– Construção de árvores filogenéticas

Page 54: Alinhamentos e Busca de Similaridade

Helicases humanas (SNPs)

Page 55: Alinhamentos e Busca de Similaridade

Várias helicases (domínios)

Page 56: Alinhamentos e Busca de Similaridade

Várias helicases (domínios)

Page 57: Alinhamentos e Busca de Similaridade

Identificação de isoformas

Page 58: Alinhamentos e Busca de Similaridade

Identificação de isoformas

Page 59: Alinhamentos e Busca de Similaridade

Alinhamento pairwise global

• Algoritmo Exato: Needleman-Wunsch (pairwise)

• Programas:– needle (EMBOSS)– stretcher (EMBOSS) (demora mais, mas

economiza memória)– FASTA

Page 60: Alinhamentos e Busca de Similaridade

Como calcular o alinhamento

• Matriz de programação dinâmica

Page 61: Alinhamentos e Busca de Similaridade

Needleman-Wunsch

Si,j = máximo(

Si-1, j-1 + s(ai,bj) (match/mismatch na diagonal), Si,j-1 + w (gap na sequência #1), Si-1,j + w (gap na sequência #2)

)

Page 62: Alinhamentos e Busca de Similaridade

Needleman-WunschMatch: +5 Mismatch: -3 Gap: -4

5 1 -3

Page 63: Alinhamentos e Busca de Similaridade

Needleman-WunschMatch: +5 Mismatch: -3 Gap: -4

Page 64: Alinhamentos e Busca de Similaridade

Needleman-WunschMatch: +5 Mismatch: -3 Gap: -4

Page 65: Alinhamentos e Busca de Similaridade

Traceback

Page 66: Alinhamentos e Busca de Similaridade

Traceback

Poderia ter valores negativos!!!

Page 67: Alinhamentos e Busca de Similaridade

G A A T T C A G T T A

| | | | | |

G G A – T C – G - — A

Page 68: Alinhamentos e Busca de Similaridade

Complexidade : ?

Page 69: Alinhamentos e Busca de Similaridade

Complexidade : O(L2)

Page 70: Alinhamentos e Busca de Similaridade

Alinhamento Múltiplo global exato

• Algoritmo: generalização do Needleman-Wunsch

Page 71: Alinhamentos e Busca de Similaridade

Alinhamento Múltiplo global exato

• Algoritmo: generalização do Needleman-Wunsch

• Para alinhar 3 sequências, preciso construir um cubo (3D)

Page 72: Alinhamentos e Busca de Similaridade

Alinhamento Múltiplo global exato

• Algoritmo: generalização do Needleman-Wunsch

• Para alinhar 3 sequências, preciso construir um cubo (3D)

• Para alinhar 4 sequências, preciso construir um cubo de 4 dimensões

Page 73: Alinhamentos e Busca de Similaridade

Alinhamento Múltiplo global exato

• Algoritmo: generalização do Needleman-Wunsch

• Para alinhar 3 sequências, preciso construir um cubo (3D)

• Para alinhar 4 sequências, preciso construir um cubo de 4 dimensões

• ...

• Para alinhar N sequências, preciso construir um cubo de ?dimensões

Page 74: Alinhamentos e Busca de Similaridade

Alinhamento Múltiplo global exato

• Algoritmo: generalização do Needleman-Wunsch

• Para alinhar 3 sequências, preciso construir um cubo (3D)

• Para alinhar 4 sequências, preciso construir um cubo de 4 dimensões

• ...

• Para alinhar N sequências, preciso construir um cubo de N dimensões

• Complexidade: ?

Page 75: Alinhamentos e Busca de Similaridade

Alinhamento Múltiplo global exato

• Algoritmo: generalização do Needleman-Wunsch

• Para alinhar 3 sequências, preciso construir um cubo (3D)

• Para alinhar 4 sequências, preciso construir um cubo de 4 dimensões

• ...

• Para alinhar N sequências, preciso construir um cubo de N dimensões

• Complexidade: O(LN)

Page 76: Alinhamentos e Busca de Similaridade

Alternativa 1: alinhamento progressivo

• Vários alinhamentos pairwise:– Entre 2 sequências– Entre 1 alinhamento e 1 sequência– Entre 2 alinhamentos

• Diferenças entre algoritmos:– Escolha do próximo (árvore guia?)– 1 único alinhamento crescente ou vários– Procedimento de alinhamento e score– Realinha sequências já alinhadas?

(iterativos)

Page 77: Alinhamentos e Busca de Similaridade

Alinhamento progressivo

• Algumas ferramentas:– ClustalW / ClustalX– T-Coffee– Muscle

Page 78: Alinhamentos e Busca de Similaridade

Sobre alinhamentos múltiplos

• NÃO SÃO EXATOS!

• Necessita alguma edição manual

• Parece não haver um consistentemente melhor que todos

Page 79: Alinhamentos e Busca de Similaridade
Page 80: Alinhamentos e Busca de Similaridade
Page 81: Alinhamentos e Busca de Similaridade

Outra alternativa:Profile HMM (Hidden Markov Models)

Page 82: Alinhamentos e Busca de Similaridade

Outra aplicação• Criação de modelos e identificação de

RNAs não codificantes (ou outros elementos) com estrutura secundária

• Ex: microRNAs

Page 83: Alinhamentos e Busca de Similaridade

Alinhamento estrutural

Page 84: Alinhamentos e Busca de Similaridade

Alinhamento semi-global

---ROSAVERMELHA

||| |||||

AMOROSOVERME---

Page 85: Alinhamentos e Busca de Similaridade

Alinhamento semi-global• Aplicação: montagem de genomas!

Page 86: Alinhamentos e Busca de Similaridade

Sequenciamento shot-gun

Page 87: Alinhamentos e Busca de Similaridade

Alinhamento semi-global• Aplicação: montagem de genomas!

Page 88: Alinhamentos e Busca de Similaridade

Alinhamento local

QUERIDA---ROSAVERMELHA

|||| ||| |||||

QUEROUMAMOROSOVERME---

QUER

||||

QUER

ROSAVERME

||| |||||

ROSOVERME

Page 89: Alinhamentos e Busca de Similaridade

Alinhamento local

• Aplicações:– Encontrar um gene em um genoma

sequência

genoma

Page 90: Alinhamentos e Busca de Similaridade

Alinhamento local

• Aplicações:– Identificar possíveis homólogos em um banco de dados

MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKWQRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGMDEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRGDTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAILHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTTEILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTRPVPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASLRTRAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILPILKEIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCKGRVPEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEEPDMTGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLCDKPLSQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDPPLAAVTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQKEMERLRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLVCQSPGDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEGLVVRCIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ

Page 91: Alinhamentos e Busca de Similaridade

Alinhamento Local

• Algoritmo Smith-Waterman

• Programas– BLAST (NCBI / WU)– BLAT (mais preciso – bom para localização)– water (EMBOSS)– matcher (demora mais, mas economiza memória)– cross_match (swat) – bom para mascaramento– FASTA

Page 92: Alinhamentos e Busca de Similaridade

BLAST

Basic Local Alignment Search Tool

• NCBI BLAST ou WU-BLAST

• Heurísticas

Page 93: Alinhamentos e Busca de Similaridade

“Palavras” do BLAST (W)

MLILII

MLIIKRDELVISWASHEREsequência

query

IIKIKRKRDRDEDELELVLVIVISISWSWAWASASHSHEHERERE

todas as palavras de tamanho 3 com sobreposição

Page 94: Alinhamentos e Busca de Similaridade
Page 95: Alinhamentos e Busca de Similaridade
Page 96: Alinhamentos e Busca de Similaridade

Formato FASTA

>Identificador da sequência

GCCCCCGGCCCCGCCCCGGCCCCGCCCCCGGCCCCGCCCCGCAAGGGTC

ACAGGTCACGGGGCGGGGCCGAGGCGGAAGCGCCCGCAGCCCGGTACCG

GCTCCTCCTGGGCTCCCTCTAGCGCCTTCCCCCCGGCCCGACTCCGCTG

GTCAGCGCCAAGTGACTTACGCCCCCGACCTCTGAGCCCGGACCGCTAG

Page 97: Alinhamentos e Busca de Similaridade
Page 98: Alinhamentos e Busca de Similaridade
Page 99: Alinhamentos e Busca de Similaridade

Significância de scores

• E-value (s): número de hits com score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases

• Quanto menor...

Page 100: Alinhamentos e Busca de Similaridade

Significância de scores

• E-value (s): número de hits com score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases

• Quanto menor... ... melhor!!!!

Page 101: Alinhamentos e Busca de Similaridade

Significância de scores

• P-value (s): probabilidade de obter um score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases

• E-value (s): número de hits com score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases

Page 102: Alinhamentos e Busca de Similaridade

Significância de scores

• E-value é um número real não negativo

• Quanto menor... ... melhor!!!!

• E-value depende de...

E(S) = Kmne- S

... por isso não existe número mágico

Page 103: Alinhamentos e Busca de Similaridade
Page 104: Alinhamentos e Busca de Similaridade

Programas standalone

• Programas como Blast, BLAT e muuuuitos outros:– via web server– standalone (linha de comando) – Perl

scripts!!!!

• netblast: linha de comando, mas executa remotamente

Page 105: Alinhamentos e Busca de Similaridade

BLAT –Blast Like Alignment Tool

• Mais rápido e mais preciso (para sequências altamente similares)

• Aplicação: mapeamento de sequências (ex: transcritos)

• Mantém um índice de todo o banco em memória (non-overlapping k-mers)

Page 106: Alinhamentos e Busca de Similaridade

Cuidado com anotações erradas!!!

• Cuidado com bancos não “curados”

Page 107: Alinhamentos e Busca de Similaridade

Voltando ao sistema de score...

• Match/mismatch pode ser substituído por

– uma matriz 4x4 (nucleotídeos)

– uma matriz 20x20 (aminoácidos)

Page 108: Alinhamentos e Busca de Similaridade

Similaridade entre os aminoácidos

Page 109: Alinhamentos e Busca de Similaridade

Matrizes de score(matrizes de substituição)

Page 110: Alinhamentos e Busca de Similaridade

Reference: Henikoff, S. and Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89: 10915-10919.

A R N D C Q E G H I L K M F P S T W Y V B Z X *

A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4

R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4

N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4

D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4

C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4

Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4

E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4

G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4

H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4

I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4

L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4

K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4

M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4

F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4

P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4

S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4

T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4

W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4

Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4

V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4

B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4

Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4

X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4

* -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1

Page 111: Alinhamentos e Busca de Similaridade

Matrizes de score(matrizes de substituição)

• qij: probabilidade do aminoácido i ser substituído pelo aminoácido j

• pi: probabilidade do aminoácido i

mij = log (qij / pi pj) = mij

Page 112: Alinhamentos e Busca de Similaridade

Matrizes de score(matrizes de substituição)

• qij: probabilidade do aminoácido i ser substituído pelo aminoácido j

• pi: probabilidade do aminoácido i

mij = log (qij / pi pj) = mij

Page 113: Alinhamentos e Busca de Similaridade

Matrizes de score(matrizes de substituição)

• qij: probabilidade do aminoácido i ser substituído pelo aminoácido j

• pi: probabilidade do aminoácido i

mij = 1/ log (qij / pi pj) = mij

Page 114: Alinhamentos e Busca de Similaridade

• Como achar qij, pi e pj?

• Algumas matrizes:

– PAMs

– BLOSUMs

Matrizes de score(matrizes de substitição)

Page 115: Alinhamentos e Busca de Similaridade

Matrizes PAM de aminoácidos – Point Accepted Mutation

• Dayhoff, 1978• Processo:

– Alinhamento de conjuntos de sequências relacionadas (85% id)

– Construção de árvores filogenéticas

– Cálculo da frequência de substituição de cada par de aminoácido

– Normalização das frequências: 1% de mudança ~ 50 milhões de anos (PAM1)

Page 116: Alinhamentos e Busca de Similaridade

Matrizes PAM de aminoácidos – Point Accepted Mutation

• Em um período de 2 PAMs, pode ter havido A ?, e então ? D

• Extrapolação: PAM2 = PAM1 x PAM1

PAMy = PAM1 x PAM1 x .... x PAM1

• PAM120: 40% de identidade

• PAM250: 20% de identidade

Page 117: Alinhamentos e Busca de Similaridade

PAM250Diagonal

Hidrofóbicos

Hidrofílicos

Page 118: Alinhamentos e Busca de Similaridade

Problemas das PAMs

• Inferida por um conjunto restrito de proteínas

• Extrapolação

• Muitas novas proteínas foram sequenciadas desde 78...

Page 119: Alinhamentos e Busca de Similaridade

Matrizes BLOSUM de aminoácidos

• Henikoff & Henikoff, 1992

• Alinhamentos de blocos de vários grupos de proteínas relacionadas (banco de dados BLOCKS)

• Cálculo de frequência de substituição de cada par de aminoácido

• BLOSUMx: blocos de sequências com no máximo x% de identidade

• Ex: BLOSUM62 e BLOSUM85

Page 120: Alinhamentos e Busca de Similaridade

BLOSUM62Reference: Henikoff, S. and Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89: 10915-10919.

A R N D C Q E G H I L K M F P S T W Y V B Z X *

A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4

R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4

N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4

D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4

C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4

Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4

E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4

G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4

H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4

I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4

L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4

K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4

M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4

F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4

P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4

S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4

T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4

W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4

Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4

V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4

B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4

Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4

X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4

* -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1

Page 121: Alinhamentos e Busca de Similaridade

PAMs e BLOSUMs• Para encontrar alinhamentos mais curtos e

com maior similaridade:

– PAMs

– BLOSUMs

• Para encontrar alinhamentos mais longos e com menor similaridade:

– PAMs

– BLOSUMs

Page 122: Alinhamentos e Busca de Similaridade

PAMs e BLOSUMs• Para encontrar alinhamentos mais curtos e

com maior similaridade:

– PAMs

– BLOSUMs

• Para encontrar alinhamentos mais longos e com menor similaridade:

– PAMs

– BLOSUMs

mais baixas

mais altas

Page 123: Alinhamentos e Busca de Similaridade

PAMs e BLOSUMs• Para encontrar alinhamentos mais curtos e

com maior similaridade:

– PAMs

– BLOSUMs

• Para encontrar alinhamentos mais longos e com menor similaridade:

– PAMs

– BLOSUMs

mais baixas

mais baixas

mais altas

mais altas

Page 124: Alinhamentos e Busca de Similaridade

Papel dos gaps

• Inserções / deleções

GLOBAL LOCALMUITO ALTAS

Inibir trechos de gap → alinhamentos ruins (muitos mismatches)

Inibir trechos de gap → poucos blocos alinhados

MUITO BAIXAS

Muitos gaps espalhados pelo alinhamento (alinhamento ruim)

Muitos gaps espalhados pelo alinhamento (alinhamento ruim e possivelmente maior do que deveria)

Page 125: Alinhamentos e Busca de Similaridade

Referências

Caprichado:

Mount - http://www.bioinformaticsonline.org/

Básico:

O'Reilly - http://www.oreilly.com/catalog/bioskills/

BLAST:

http://www.oreilly.com/catalog/blast/

Durbin R, Eddy S, Krogh A, Mitchison G. (1998). Biological sequence analysis: probabilistic models of proteins and nucleic acids, Cambridge University Press, 1998.