5
BRAZILIAN JOURNAL OF BIOINFORMATICS ARTIGO ORIGINAL Vol. 2 No. 3 (2014), pages xx-xx LABIO Press 2012 1 Bioinformática Comparativa Comparação de matrizes de substituição para alinhamento de pequenos fragmentos de proteínas Michele dos Santos da Silva 1,* 1 Faculdade Informática (FACIN), PUCRS, Av. Ipiranga, 6681, Prédio 32, Sala 602, 90619-900, Porto Alegre, RS, Brasil. Received on November 12, 2014; revised on November 14, 2014; accepted on November 17, 2014 Editor-Chefe: Osmar Norberto de Souza Editores Associados: Luís Fernando Saraiva Macedo Timmers, José Fernando Ruggiero Bachega & Thiago Lipinski-Paes ABSTRACT Motivation: Substitution matrices are used in biological sequence alignment to model amino-acids substitution frequencies during evolution. The choice of the most suitable matrix strongly depends on the sequence length. This study investigates how different substi- tution matrices impact on alignment of short fragments, often used in template-based protein structure prediction. Results: Since the statistics of local alignment with gaps is not fully known, not all substitution matrices work well for short fragments. The PAM (Percent Accepted Mutation) matrices show a better result when aligning short sequences. Moreover, using different costs for gaps has an important impact on the alignment. Supplementary information: NCBI-BLAST has an option to opti- mize the alignment for short sequences. It uses substitution matrices and gap penalties that fit most use cases. Having a better under- standing of these parameters, however, comes in handy when fine tuning for a given domain. RESUMO Motivação: Matrizes de substituição são usadas no alinhamento de sequências biológicas para modelar as frequências de substituição de aminoácidos durante a evolução. A escolha da matriz mais adequada está atrelada ao tamanho da sequência. Este estudo investiga o impacto de diferentes matrizes de substituição no alinhamento de fragmentos curtos. Resultados: Como a estatística de alinhamentos locais com espaços não é bem conhecida, nem todas as matrizes de substituição são adequadas a fragmentos pequenos. As matrizes PAM (Percent Accepted Mutation) apresentam melhor resultado para alinhamento de sequências curtas. Além disso, o custo de espaçamentos tem impacto importante na qualidade do alinhamento. Informação suplementar: O NCBI-BLAST tem uma opção para otimizar o alinhamento de sequências curtas. Ele seleciona matrizes de substituição e custo de espaçamentos que funcionam bem no caso geral. No entanto, o entendimento desses parâmetros * To whom correspondence should be addressed. individualmente permite ajustes finos, que podem ser mais adequados a um dado domínio. 1 INTRODUÇÃO O alinhamento de sequências biológicas permite identificar regiões similares que podem ser consequência de relações funcionais, estruturais ou evolucionárias (Mount, 2004). Um elemento importante na avaliação da qualidade de um alinhamento é a matriz de substituição, que atribui um score para o alinhamento entre pares de resíduos. As matrizes de substituição mais utilizadas são as PAM (Percent Accepted Mutation) e as BLOSUM (BLOck SUbstitution Matrix). Essas matrizes contêm valores proporcionais à probabilidade de um aminoácido i sofrer mutação para um aminoácido j, considerando todos os pares de aminoácidos. Elas são construídas através de uma amostra ampla e diversa de alinhamentos de sequências de proteínas. Se a amostra for suficientemente grande, as matrizes resultantes refletem as reais probabilidades de mutação que ocorrem em um período evolutivo (NCBI, 2014a). As diversas matrizes de similaridade existentes são adaptadas à detecção de similaridades entre sequências que divergiram em diferentes graus. Apesar disso, uma mesma matriz pode ser eficiente em um amplo espectro de mudanças evolutivas (Altschul, 1993). Experimentos mostraram que a matriz BLOSSUM-62 está entre as melhores para a detecção de similaridades mais fracas entre proteínas (Henikoff, 1992). No entanto, não existe uma teoria estatística para alinhamentos com espaçamentos. Os custos dos espaçamentos são determinados de forma empírica. Alinhamentos curtos precisam ser relativamente fortes, com alta taxa de resíduos similares, para que o ruído não impossibilite a análise (Altschul, 1991). Sequências curtas podem produzir somente alinhamentos curtos e, portanto, a busca dessas sequências em bancos de dados deve usar uma matriz apropriada. O alinhamento de sequências curtas tem diversas aplicações, em especial a predição da estrutura de proteínas: dada uma sequência de aminoácidos, qual é sua conformação espacial? Diversas técnicas para predição de estruturas utilizam fragmentos como, por exemplo, o CReF (Dorn; Norberto de Souza, 2008). O CReF divide uma sequência de aminoácidos em fragmentos de cinco

Comparação de matrizes de substituição para alinhamento de pequenos fragmentos de proteínas

Embed Size (px)

DESCRIPTION

Matrizes de substituição são usadas no alinhamento desequências biológicas para modelar as frequências de substituiçãode aminoácidos durante a evolução. A escolha da matriz maisadequada está atrelada ao tamanho da sequência. Este estudoinvestiga o impacto de diferentes matrizes de substituição noalinhamento de fragmentos curtos.

Citation preview

Page 1: Comparação de matrizes de substituição para alinhamento de pequenos fragmentos de proteínas

BRAZILIAN JOURNAL OF BIOINFORMATICS ARTIGO ORIGINAL Vol. 2 No. 3 (2014), pages xx-xx

LABIO Press 2012 1

Bioinformática Comparativa

Comparação de matrizes de substituição para alinhamento de

pequenos fragmentos de proteínas

Michele dos Santos da Silva 1,* 1Faculdade Informática (FACIN), PUCRS, Av. Ipiranga, 6681, Prédio 32, Sala 602, 90619-900, Porto Alegre, RS, Brasil.

Received on November 12, 2014; revised on November 14, 2014; accepted on November 17, 2014

Editor-Chefe: Osmar Norberto de Souza

Editores Associados: Luís Fernando Saraiva Macedo Timmers, José Fernando Ruggiero Bachega & Thiago Lipinski-Paes

ABSTRACT

Motivation: Substitution matrices are used in biological sequence

alignment to model amino-acids substitution frequencies during

evolution. The choice of the most suitable matrix strongly depends

on the sequence length. This study investigates how different substi-

tution matrices impact on alignment of short fragments, often used in

template-based protein structure prediction.

Results: Since the statistics of local alignment with gaps is not fully

known, not all substitution matrices work well for short fragments.

The PAM (Percent Accepted Mutation) matrices show a better result

when aligning short sequences. Moreover, using different costs for

gaps has an important impact on the alignment.

Supplementary information: NCBI-BLAST has an option to opti-

mize the alignment for short sequences. It uses substitution matrices

and gap penalties that fit most use cases. Having a better under-

standing of these parameters, however, comes in handy when fine

tuning for a given domain.

RESUMO

Motivação: Matrizes de substituição são usadas no alinhamento de

sequências biológicas para modelar as frequências de substituição

de aminoácidos durante a evolução. A escolha da matriz mais

adequada está atrelada ao tamanho da sequência. Este estudo

investiga o impacto de diferentes matrizes de substituição no

alinhamento de fragmentos curtos.

Resultados: Como a estatística de alinhamentos locais com

espaços não é bem conhecida, nem todas as matrizes de

substituição são adequadas a fragmentos pequenos. As matrizes

PAM (Percent Accepted Mutation) apresentam melhor resultado

para alinhamento de sequências curtas. Além disso, o custo de

espaçamentos tem impacto importante na qualidade do

alinhamento.

Informação suplementar: O NCBI-BLAST tem uma opção para

otimizar o alinhamento de sequências curtas. Ele seleciona matrizes

de substituição e custo de espaçamentos que funcionam bem no

caso geral. No entanto, o entendimento desses parâmetros

*To whom correspondence should be addressed.

individualmente permite ajustes finos, que podem ser mais

adequados a um dado domínio.

1 INTRODUÇÃO

O alinhamento de sequências biológicas permite identificar regiões

similares que podem ser consequência de relações funcionais,

estruturais ou evolucionárias (Mount, 2004). Um elemento

importante na avaliação da qualidade de um alinhamento é a matriz

de substituição, que atribui um score para o alinhamento entre

pares de resíduos.

As matrizes de substituição mais utilizadas são as PAM

(Percent Accepted Mutation) e as BLOSUM (BLOck SUbstitution

Matrix). Essas matrizes contêm valores proporcionais à

probabilidade de um aminoácido i sofrer mutação para um

aminoácido j, considerando todos os pares de aminoácidos. Elas

são construídas através de uma amostra ampla e diversa de

alinhamentos de sequências de proteínas. Se a amostra for

suficientemente grande, as matrizes resultantes refletem as reais

probabilidades de mutação que ocorrem em um período evolutivo

(NCBI, 2014a).

As diversas matrizes de similaridade existentes são adaptadas à

detecção de similaridades entre sequências que divergiram em

diferentes graus. Apesar disso, uma mesma matriz pode ser

eficiente em um amplo espectro de mudanças evolutivas (Altschul,

1993). Experimentos mostraram que a matriz BLOSSUM-62 está

entre as melhores para a detecção de similaridades mais fracas

entre proteínas (Henikoff, 1992). No entanto, não existe uma teoria

estatística para alinhamentos com espaçamentos. Os custos dos

espaçamentos são determinados de forma empírica. Alinhamentos

curtos precisam ser relativamente fortes, com alta taxa de resíduos

similares, para que o ruído não impossibilite a análise (Altschul,

1991). Sequências curtas podem produzir somente alinhamentos

curtos e, portanto, a busca dessas sequências em bancos de dados

deve usar uma matriz apropriada.

O alinhamento de sequências curtas tem diversas aplicações, em

especial a predição da estrutura de proteínas: dada uma sequência

de aminoácidos, qual é sua conformação espacial? Diversas

técnicas para predição de estruturas utilizam fragmentos como, por

exemplo, o CReF (Dorn; Norberto de Souza, 2008). O CReF

divide uma sequência de aminoácidos em fragmentos de cinco

Page 2: Comparação de matrizes de substituição para alinhamento de pequenos fragmentos de proteínas

Osmar Norberto de Souza et al.

2

resíduos e executa o alinhamento nesses fragmentos, com o

objetivo de obter ângulos de torção para o aminoácido central de

cada fragmento.

Este trabalho avalia o impacto da utilização de diferentes

matrizes de substituição no alinhamento local de sequências curtas

de aminoácidos, contendo de cinco a nove resíduos. Além disso,

são consideradas diferentes penalidades para espaçamentos, com o

objetivo de encontrar o conjunto ótimo de parâmetros para o

alinhamento de pequenos fragmentos.

2 FUNDAMENTAÇÃO TEÓRICA

2.1 Dogma central da biologia molecular

O dogma central da biologia molecular descreve o caminho através

do qual a informação contida no DNA é convertida em proteínas

com funções específicas. A Figura 1 mostra um diagrama desse

processo.

Figura 1. A partir de uma sequência de DNA o RNA mensageiro é

transcrito (1). Esse RNA dá origem a uma proteína através do processo de

tradução (2). Simplificadamente, o processo segue o caminho do DNA para

o RNA para a proteína. Fonte: (Korf et al., 2013).

As sequências biológicas têm importantes funções, necessárias

ao funcionamento de um organismo. O DNA pode sofrer mutações

aleatórias, capazes de mudar a função de uma sequência. Com o

tempo, tanto restrições funcionais quanto processos aleatórios

impactam o curso de evolução da sequência. As sequências

biológicas que apresentam alto grau de similaridade normalmente

têm ancestral comum e seguiram diferentes caminhos evolutivos.

O alinhamento auxilia no entendimento dessas relações.

2.2 BLAST

BLAST (Basic Local Alignment Search Tool) é um algoritmo para

comparação de sequências biológicas, tais como sequências de

aminoácidos e nucleotídeos. Uma busca BLAST permite a

comparação com um banco de dados de sequências e a

identificação de sequências similares ao termo de busca, acima de

um dado limiar (Altschul et al., 1990).

O algoritmo BLAST encontra similaridades estatisticamente

relevantes entre sequências. Existem dois tipos de alinhamento:

global e local. No alinhamento global, ambas as sequências são

alinhadas ao longo de todo o seu comprimento. No alinhamento

local, busca-se o melhor alinhamento entre subsequências. Para

comparar duas sequências de ponta a ponta, o alinhamento global é

a melhor escolha. Para obter sequências similares a uma dada

sequência em um banco de dados, o alinhamento local é o mais

utilizado.

Alinhamento Global - Needleman-Wunsch

Needleman-Wunsch é um dos principais algoritmos de

alinhamento global (Needleman; Wunsch, 1970). Para

exemplificar o alinhamento das sequências COELANCANTH e

PELICAN, podemos usar um esquema simples de score que atribui

+1 para identidade e -1 para letras diferentes ou espaçamentos

(Korf et al., 2003). Os dois melhores alinhamentos, de acordo com

esse sistema são:

COELACANTH COELACANTH

P-ELICAN-- -PELICAN--

Note que cada letra é alinhada a outra letra ou a um

espaçamento, diferente do que ocorre com alinhamentos locais.

O alinhamento é feito através de uma matriz bidimensional em

que a célula corresponde ao pareamento de uma letra de cada

sequência (Fig. 2).

Figura 2. Exemplo de matriz de alinhamento global. Uma célula

corresponde ao pareamento de uma letra de cada sequência. (Korf et al.,

2013).

Na matriz da Figura 2, o alinhamento começa no topo esquerdo

e segue um caminho quase diagonal para o canto inferior direito.

Quando duas letras estão alinhadas, o caminho é diagonal. Quando

Page 3: Comparação de matrizes de substituição para alinhamento de pequenos fragmentos de proteínas

Comparação de matrizes de substituição para alinhamento de pequenos fragmentos de proteínas

3

uma letra está alinhada a um espaçamento, a trajetória é horizontal

ou vertical.

Diferente do exemplo, a matriz de alinhamento utilizada pelo

algoritmo Needleman-Wunsch armazena scores. Esses scores são

provenientes de matrizes de substituição, que serão detalhadas na

próxima seção.

Alinhamento Local - Algoritmo Smith-Waterman

O algoritmo de alinhamento local Smith-Waterman (Smith;

Waterman, 1981) é uma modificação de Needleman-Wunsch, com

três principais diferenças:

(1) As bordas da matriz são inicializadas com 0 em vez de

penalidades crescentes para espaçamentos.

(2) O score máximo nunca é menor do que 0, nenhum ponteiro

é armazenado a menos que o score seja maior do que zero.

(3) O procedimento trace-back começa do score mais alto da

matriz e termina com o score 0.

Essas pequenas modificações têm grande impacto no algoritmo.

Usando as mesmas sequências e esquema de score usado no

alinhamento global, a matriz resultante apresenta muitos zeros.

Isso ocorre porque há diversos lugares em que não é possível obter

um score positivo.

2.3 Matrizes de substituição

Uma matriz de substituição é uma matriz bidimensional contendo

scores para todos os pares de aminoácidos. Matrizes de

substituição representam taxas relativas de substituições

evolucionárias. Observando-se uma matriz como a BLOSUM62,

ficam evidentes as similaridades químicas entre os diferentes

aminoácidos.

Dois tipos de matrizes de score são amplamente utilizados:

PAM (Percent Accepted Mutation) e BLOSUM (BLOcks

SUbstitution Matrix). As matrizes PAM foram criadas por

Margaret Dayhoff (1970), têm um forte componente teórico,

baseando-se em hipóteses evolucionárias. As matrizes BLOSUM

são mais empíricas, porém derivadas de um conjunto de dados

mais amplo. A maioria dos pesquisadores prefere as BLOSUM

porque experimentos in silico indicam que buscas usando matrizes

BLOSUM têm maior sensibilidade (Korf et al., 2013).

Existem diversas matrizes PAM, cada uma com um sufixo

numérico. A matriz PAM1 foi criada com um conjunto de

proteínas que tinham 85% ou mais de identidade. As outras

matrizes PAM foram construídas pela multiplicação da matriz

PAM por ela mesma: 100 vezes para a PAM100, 160 vezes para a

PAM160, e assim por diante. Havia poucas sequências quando as

PAM foram criadas e, portanto, esse era um jeito razoável de

extrapolar para maiores distâncias.

Os bancos de dados de proteínas continham muito mais

sequências nos anos 90 e, portanto, métodos mais empíricos se

tornaram possíveis. As matrizes BLOSUM foram criadas pela

extração de segmentos sem espaçamentos, ou blocos, de um

conjunto de famílias de proteínas multiplamente alinhado. Esses

blocos foram agrupados com base em seu percentual de

identidades. Os blocos usados para derivar a matrix BLOSUM62,

por exemplo, têm pelo menos 62% de identidade com os demais

blocos membro.

Algumas hipóteses para as matrizes BLOSUM normalmente

apresentarem maior sensibilidade são: (1) a extrapolação

empregada nas matrizes PAM acentua pequenos erros nas

probabilidades de mutação para períodos evolucionários curtos e

(2) as forças que governam a evolução de sequências a longo prazo

são diferentes das que atuam a curto prazo.

Os valores utilizados nas matrizes de substituição disponíveis no

NCBI-BLAST podem ser consultados em (NCBI, 2014c).

2.4 Estatística dos Scores de Similaridade

Para avaliar se um dado alinhamento é uma evidência para homologia, deve-se verificar qual a chance desse alinhamento ser casual (NCBI, 2014b). Um alinhamento casual pode ser proveniente de (1) sequências reais mas não homólogas; (2) sequências reais que foram permutadas de forma a conservar suas propriedades composicionais (Fitch, 1983); ou (3) sequências geradas aleatoriamente baseadas em um modelo de DNA ou proteína. Métodos analíticos utilizam a última definição, enquanto os empíricos podem utilizar todas elas.

Estatística de alinhamentos globais

Muito pouco se sabe sobre a distribuição de scores de alinhamento global (Deken, 1983). Experimentos de Monte Carlo podem fornecer alguma aproximação da distribuição para sistemas de score e sequências específicas. No entanto, não podem ser generalizados facilmente.

Uma das formas de se avaliar a significância estatística de um dado alinhamento global é gerar muitos pares de sequências aleatórias, de tamanho e composição adequada, e calcular o score do alinhamento ótimo para cada par.

Apesar de ser possível expressar o score em termos de desvios padrões de uma média, não se pode assumir que a distribuição é normal e converter esse Z-valor em um P-valor; a cauda das distribuições de alinhamento global é desconhecida. O máximo que se pode dizer é que se 100 alinhamentos aleatórios têm score inferior ao alinhamento de interesse, o P-valor em questão é provavelmente menos de 0,01 (NCBI, 2014b). Estatística de alinhamentos locais

Diferentemente da estatística de alinhamentos globais, a estatística de alinhamentos locais sem espaçamento é bem conhecida (Altschul et al., 1990).

Um alinhamento local sem espaçamentos é formado por um par de segmentos de igual comprimento, extraído de cada uma das sequências que estão sendo comparadas. Uma modificação do algoritmo Smith-Waterman encontra pares de segmentos cujo score não pode ser melhorado por extensão ou corte. Esses segmentos são chamados de HSPs (high-scoring segment pairs), pares de segmentos com alto score.

Para analisar a probabilidade de um score alto ser obtido ao acaso, um modelo de sequências aleatórias é necessário. Para proteínas, o modelo mais simples seleciona aminoácidos em uma sequência de forma independente, considerando as probabilidades dos vários resíduos. Além disso, o score esperado para o alinhamento de um par aleatório de aminoácidos deve ser negativo. Caso contrário, alinhamentos longos teriam score alto, independente de os segmentos alinhados serem relacionados.

Page 4: Comparação de matrizes de substituição para alinhamento de pequenos fragmentos de proteínas

Osmar Norberto de Souza et al.

4

Assim como a soma de um grande número de variáveis independentes igualmente distribuídas tende a uma distribuição normal, o máximo tende a uma distribuição de valor extremo ou de Gumbel (1958). Alinhamentos locais ótimos seguem a distribuição de Gumbel (Karlin; Altschul, 1990). Considerando-se sequências com tamanhos m e n suficientemente grandes, a estatística dos scores é caracterizada por dois parâmetos, K e lambda. O E-value para um score S é dado por:

𝐸 = 𝐾𝑚𝑛 𝑒−𝜆𝑆 (1)

Pela Equação 1, pode-se notar que dobrando o tamanho de qualquer uma das sequências dobra o número de HSPs que têm um dado score. Além disso, para um HSP obter um score 2x ele precisa obter o score x duas vezes em sequência e, portanto, o E decresce exponencialmente com o score. Os parâmetros K e lambda representam as escalas naturais para o tamanho do espaço de busca e do sistema de score, respectivamente.

Valores de score sozinhos têm pouco significado. O score pode

ser normalizado utilizando-se os parâmetros K e lambda (Eq. 2).

𝑆′ =𝜆𝑆−ln 𝐾

ln 2 (2)

O score normalizado é conhecido como bit score. Como o bit

score considera a distribuição do sistema de score, é possível calcular o E-value correspondente a um score utilizando somente o tamanho do espaço de busca (Eq. 3).

𝐸 = 𝑚𝑛2−𝑠′ (3)

A partir do E-value é possível calcular o valor-p. No entanto, o

uso do E-value para alinhamento é mais comum, pois seus valores são de mais fácil interpretação. Por exemplo, E-value de 5 e 10 ou valor-p de 0,993 e 0,99995.

Embora os desenvolvimentos mostrados nesta seção tenham sido feitos considerando-se alinhamentos locais sem espaçamentos, diversos experimentos computacionais e alguns resultados analíticos sugerem que a mesma teoria pode ser aplicada a alinhamentos com espaçamento (NCBI, 2014b).

A estatística descrita acima tende a ser conservadora para sequências curtas. A teoria que dá suporte a essa estatística é a assintótica, que assume que um alinhamento local ótimo pode começar com quaisquer pares de resíduos alinhados. No entanto, um alinhamento de alto score precisa ter um certo comprimento e, portanto, não pode começar próximo ao fim de nenhuma das sequências sendo comparadas. Esse efeito pode ser corrigido, calculando-se um comprimento efetivo para essas sequências (Altschul; Gish, 1996). O programa BLAST calcula esse ajuste.

Score de buscas em bancos de dados O cálculo do E-value (Eq. 1) se aplica à comparação de duas proteínas de tamanho m e n. Existem alternativas para avaliar a significância de um alinhamento de uma proteína de tamanho m a um banco de dados.

Uma abordagem é considerar que todas as proteínas no banco de dados são igualmente prováveis a priori. Isso significa que um E-value baixo para um alinhamento envolvendo uma sequência curta deve ter o mesmo peso que o para um alinhamento envolvendo uma sequência longa. Para calcular o E-value de uma busca em um banco de dados, multiplica-se o E-value pelo número de sequências no banco. Essa abordagem é adotada pelo programa de comparação de proteínas FASTA (Pearson, 1995).

Outra técnica considera que é mais provável que uma busca esteja relacionada a uma sequência longa, porque sequências longas são frequentemente compostas por múltiplos domínios. Se considerarmos que a chance de relacionamento a priori é proporcional ao tamanho da sequência, o E-value do alinhamento envolvendo uma sequência de tamanho n deve ser multiplicado por N/n. N é o tamanho do banco de dados em número de resíduos. Essa é a forma como o programa BLAST calcula o E-value (Altschul et al., 1990).

2.5 Custo de espaçamentos

Não existe uma teoria para o custo dos espaçamentos na produção de scores. As penalidades para espaçamento foram selecionadas ao longo dos anos por tentativa e erro (Pearson, 1995). A maioria dos programas de alinhamento selecionam, por padrão, penalidades para espaçamentos apropriadas à matriz de susbstituição. Se o usuário usa uma matriz de substituição diferente, não há garantia que os mesmos custos ainda serão apropriados. Na prática, uma penalidade grande para o início de um espaçamento e uma bem menor para extendê-lo é bastante efetiva (NCBI, 2014b).

3 MATERIAIS E MÉTODOS

Para investigar-se o impacto da matriz de similaridade e do custo de espaçamentos no alinhamento local, foi desenvolvido um algoritmo que implementa os seguintes passos:

(1) Recebe uma sequência como entrada e produz fragmentos

usando janelas deslizantes de 5, 7 e 9 aminoácidos.

(2) Para cada fragmento obtido aplica BLAST usando as

combinações de matrizes de substituição PAM e BLOSUM

e custos de penalidade apresentados na Tabela 1.

(3) Separa os resultados de alinhamento usando limiar de E-

value 10e-5.

(4) Superimpõe a estrutura da sequência original à das obtidas

usando BLAST e calcula o RMSD.

O passo 4 do algoritmo é uma forma automatizada de avaliar o relacionamento a partir da similaridade estrutural entre as sequências. Além disso, foi realizada inspeção manual das estruturas tridimensionais a fim de identificar nuances não facilmente capturadas por cálculos usando as estruturas superimpostas.

Tabela 1. Custo dos espaçamentos avaliados.

Existência Extensão

5-7 2

8-10 1

13 3

14 1 e 2

15 3

A hipótese é que algum dos limiares de E-value consiga

identificar sequências relacionadas. Em bioinformática, a definição desse limiar é muito importante, pois é comum termos interesse somente em sequências homólogas ou somente em sequências não homólogas. Conforme detalhado nas seções anteriores, essa tarefa é especialmente difícil para sequências curtas.

As matrizes utilizadas neste experimento e suas respectivas entropias são apresentadas na Tabela 2.

Page 5: Comparação de matrizes de substituição para alinhamento de pequenos fragmentos de proteínas

Comparação de matrizes de substituição para alinhamento de pequenos fragmentos de proteínas

5

Tabela 2. Matrizes de substituição e suas entropias (Chao; Zang,

2009).

Matriz de substituição Entropia

PAM30 2,57

PAM70 1,60

PAM250 0,354

BLOSUM45 0,3795

BLOSUM50 0,4808

BLOSUM62 0,6979

BLOSUM80 0,9868

BLOSUM90 1,1806

. Foram executados experimentos com proteínas cujo código PDB

é 1ZDD e 1L2Y (Fig. 3). Foram aplicadas todas as combinações de tamanhos de fragmentos, matrizes de substituição e custos de espaçamentos. Os resultados são descritos na próxima seção.

Figura 3. Estrutura tridimensional das proteínas de código PDB 1ZDD

(esquerda), de 35 resíduos, e 1L2Y, de 20 resíduos, utilizadas no

experimento.

4 RESULTADOS

Para os três tamanhos de fragmentos testados, 5, 7 e 9 resíduos, a matriz PAM30 foi a que apresentou resultados mais específicos. A performance das diversas matrizes de substituição foi diretamente proporcional à entropia relativa dessas matrizes. Maiores entropias permitiram mais facilmente distinguir alinhamentos curtos de alinhamentos gerados ao acaso.

Apesar de a matriz PAM30 apresentar maior especificidade para alinhamentos de sequências curtas, acredita-se que isso não ocorre pela diferença na forma como foram modeladas as matrizes PAM e BLOSUM. Por exemplo, as matrizes PAM250 e BLOSUM45 apresentam scores com especificidade bastante similar.

Para a penalização de espaçamentos, independente da matriz testada, os melhores resultados se deram com custo de existência entre 8 e 10 e custo de extensão de 1. Foram observadas pequenas diferenças utilizando-se custos de existência entre 8 a 10. Há uma tendência de diminuição da penalização à medida que a entropia aumenta.

REFERÊNCIAS

Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. (1990) Basic local

alignment search tool. J. Mol. Biol. 215:403-410.

Altschul, S.F. (1991) Amino acid substitution matrices from an information theoretic

perspective. J. Mol. Biol. 219:555-565.

Altschul, S.F. (1993) A protein alignment scoring system sensitive at all evolutionary

distances. J. Mol. Evol. 36:290-300.

Altschul, S.F. & Gish, W. (1996) Local alignment statistics. Meth. Enzymol. 266:460-

480.

Chao, K.M. and Zhang, L. (2008). Sequence Comparison: Theory and Methods.

Springer. 230 p.

Deken, J. (1983) Probabilistic behavior of longest-common-subsequence length." In

"Time Warps, String Edits and Macromolecules: The Theory and Practice of Se-

quence Comparison. D. Sankoff & J.B. Kruskal (eds.), pp. 55-91

Dorn, M.; Norberto de Souza, O. (2008) CReF: a central-residue-fragment-based

method for predicting approximate 3-D polypeptides structures. In Proceedings of

the 2008 ACM symposium on Applied computing.

Fitch, W.M. (1983) Random sequences. J. Mol. Biol. 163:171-176.

Gumbel, E. J. (1958) Statistics of extremes. Columbia University Press, New York,

NY.

Henikoff, J.G. (1992) Amino acid substitution matrices from protein blocks. Proc.

Natl. Acad. Sci. USA 89:10915-10919

Karlin, S. & Altschul, S.F. (1990) Methods for assessing the statistical significance of

molecular sequence features by using general scoring schemes. Proc. Natl. Acad.

Sci. USA 87:2264-2268.

Korf, I. and Yandell, M. and Bedell, J (2003). BLAST. O'Reilly Media, Incorporated.

339 p.

Mount DM. (2004) Bioinformatics: Sequence and Genome Analysis (2nd ed.). Cold

Spring Harbor Laboratory Press: Cold Spring Harbor, NY.

NCBI (2014a) BLAST® Help [Internet]. Bethesda (MD): National Center for Bio-

technology Information (US); 2008-. Available from:

http://www.ncbi.nlm.nih.gov/books/NBK1762/

NCBI (2014b) The Statistics of Sequence Similarity Scores Available from:

http://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.html

NCBI (2014c) Substitution Matrices [Internet]. National Center for Biotechnology

Information (US). Available from: ftp://ftp.ncbi.nih.gov/blast/matrices/

Needleman, Saul B.; and Wunsch, Christian D. (1970). A general method applicable

to the search for similarities in the amino acid sequence of two proteins. Journal of

Molecular Biology 48 (3): 443–53.

Pearson, W.R. (1995) Comparison of methods for searching protein sequence data-

bases. Prot. Sci. 4:1145-1160.

Smith, Temple F.; and Waterman, Michael S. (1981). Identification of Common

Molecular Subsequences. Journal of Molecular Biology 147: 195–197.