40
Bancos de Dados

Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Embed Size (px)

Citation preview

Page 1: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Bancos de Dados

Page 2: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

BD de Seqüências

• Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos• Mais de 348 BD

– BD de seqüências de nucleotídeos• EMBL (http://www.ebi.ac.uk/embl)• GenBank (http://www.ncbi.nlm.nih.gov/GenBank)• DDBJ (http://www.ddbj.nig.ac.jp)• UniGene (http://www.ncbi.nlm.nih.gov/UniGene)

– BD de seqüências de proteínas• SWISS-PROT, TrEMBL (http://www.expansy.ch/sprot)• PIR (http://pir.georgetown.edu)

– BD de motivos• Pfam (http://www.sanger.ac.uk/Software/Pfam)• PROSITE (http://www.expansy.ch/prosite)

– BD de estruturas macromoleculares 3D• PDB (http://www.rcsb.org/pdb)

Page 3: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Usos de BD de Seqüências

• O que se pode descobrir sobre um gene por meio de uma busca a um BD?

– Informação evolutiva: genes homólogos, freqüências dos alelos, ...– Informação genômica: localização no cromossomo, intros, UTRs,

regiões reguladoras, ...– Informação estrutural: estruturas da proteína correspondente, tipos

de folds, domínios estruturais, ...– Informação de expressão: expressão específica a um dado tecido,

fenótipos, doenças, ...– Informação funcional: função molecular/enzimática, papel em

diferentes rotas, papel em doenças, ...

Page 4: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Busca de Informação

• Busca de informação sobre genes e produtos gênicos

– Gene e produtos gênicos são geralmente organizados por seqüência

• Seqüências genômicas codificam todas características de um organismo

• Produtos gênicos são descritos unicamente por sua seqüência• Seqüências similares entre biomoléculas indica tanto uma

função similar quanto um relacionamento evolutivo

– Seqüências de macromoléculas proporciona chaves biologicamente significativas para busca em BD

Page 5: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Busca em BD de Seqüências

• Comece com uma seqüência, encontre informação sobre ela

• Muitos tipos de seqüências de entrada– Pode ser uma seqüência de aminoácido ou de nucleotídeo– Genômica, cDNA/mRNA, proteína– Completa ou fragmentada

• Matches exatos são raros – Em geral, o objetivo é recuperar um conjunto de

seqüências similares

Page 6: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Busca em BD de Seqüências

• O que queremos saber sobre a seqüência?

– Ela é similar ao algum gene conhecido? Quão próximo é o melhor match? Significância?

– O que sabemos sobre este gene?• Genômica (localização no cromossomo, regiões reguladoras, ...)• Estrutural (estrutura conhecida? ...)• Funcional (molecular, celular e doença)

– Informação evolutiva• Este gene é encontrado em outros organismos?• Qual é sua árvore taxonômica?

Page 7: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

NCBI e Entrez

• A mais usada interface para a recuperação de informação de BD biológicos é o sistema Entrez do NCBI (http://www.ncbi.nlm.nih.gov/Entrez)– NCBI (National Center for Biotechnology Information)– O sistema Entrez tira vantagem do fato que há relacionamentos lógicos pré-

existentes entre as entradas indíviduas encontradas em diversos BD públicos• Por um exemplo, um artigo no PuBMed pode descrever o sequenciamento

de um gene cuja seqüência aparece no GenBank• A seqüência de nucleotídeos, por sua vez, pode codificar o produto de uma

proteína cuja seqüência está armazenada em um BD de proteínas• A estrutura 3D desta proteína pode ser conhecida - as coordenadas da

estrutura podem aparecer em um BD de estruturas• Finalmente, o gene pode ter sido mapeado para uma região específica do

cromossomo - BD de mapeamento– A existência dessas conexões naturais, levou ao desenvolvimento de um método

por meio do qual toda a informação poderia ser encontrada sem ter que visitar sequencialmente BD distintos

Page 8: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

O Sistema Entrez (1/2)

• Para ser claro, Entrez não é um BD

– É a interface por meio da qual todos os seus BDs componentes podem ser acessados

– O espaço de informação do Entrez inclui • Registros do PubMed• Dados sobre seqüências de nucleotídeos e proteínas• Informação sobre estruturas 3D• Informação de mapeamento

– A vantagem do Entrez está no fato que toda esta informação pode ser acessada por meio de apenas uma query (consulta)

Page 9: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

O Sistema Entrez (2/2)

Page 10: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

BLAST: Busca com uma Seqüência

• O objetivo é encontrar outras seqüências que são mais similares a query (consulta) do que seria esperado por ter acontecido ao acaso

– Homologia

• Pode começar com seqüências de nucleotídeos ou aminoácidos – Pode fazer a busca por nucleotídeos/aminoácidos

Page 11: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

BLAST

Page 12: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Mais que NCBI

• Links para anotações funcionais fora do NCBI

– Gene Ontology - nomes padrões para:

• Funções moleculares

• Localização celular

• Processos

– Links para BD de enzimas

• Funções da enzimas

– Links para o BD KEGG (vias)

Page 13: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

KEGG

Page 14: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Referências

• A. D. Baxevanis e B. F. Francis Ouellete (eds.). Bioinformatics: a practical guide to the analysis of genes e proteins. John Wiley & Sons. 2001.

• The Molecular Biology Database Collection: 2003 update -- Nucleic Acids Research 31(1):1-12

Page 15: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Alinhamento de Seqüências

• Possibilitar ao pesquisador determinar se duas seqüências apresentam suficiente similaridade tal que um inferência sobre homologia pode ser justificada– Homologia: significa dizer que duas (ou mais) seqüências tem um

ancestral comum• História evolutiva

– Similaridade: é uma medida da qualidade do alinhamento entre duas seqüências, baseada em algum critério

• Não se refere a nenhum processo histórico• Apenas uma comparação das seqüências com algum método• É uma afirmação logicamente mais fraca

– Em bioinformática, esses dois termos são muitas vezes confundidos– A razão é provavelmente porque uma similaridade significativa é um

forte argumento para homologia e, a partir disso, para a dedução de que as seqüências codificam um gene com uma função biológica similar

Page 16: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Bases Evolucionárias

• Mutações– Os eventos mais simples que ocorrem durante o curso da evolução

molecular são substituições de um nucleotídeo por outro e a deleção ou inserção de uma par de base

• Quando uma alinhamento de seqüências refletem genuinamente a história evolutiva de dois genes ou proteínas– Resíduos que foram alinhados mas não são idênticos representaria uma

substituição

– Regiões onde os resíduos de uma seqüência não correspondem a nada na outra seria interpretado como ou uma inserção uma seqüência ou uma deleção na outra A L I G N M E N T

| | | | | | |- L I G A M E N T

Page 17: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Relação entre Sequências

Page 18: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Similaridade

• Similaridade pode ser definida contando posições que são idênticas entre duas seqüências

• Gaps (inserções/deleções) podem ser importantes

G A A T T C A G T T A| | | | | | |G G A T T C – G - — A

Page 19: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Substituições

• Nem todo mismatch (substituições) são iguais

• Alguns aminoácidos são mais substituível entre si

– Serina e treonina são mais parecidos do que triptofan e alanina

– Podemos adicionar um custo diferente para cada tipo de mismatch (substituição)

• Em geral, não usamos custos diferentes para os mismatches no alinhamento de nucleotídeos

• Nenhuma substituição, por si, é melhor do que outra

Page 20: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Gaps

• Sem gaps, há N*M possíveis alinhamentos entre seqüências de comprimentos N e M

• Uma vez gaps são permitidos, isto se torna um número muito grande– O número de possíveis alinhamentos torna-se exponencial no

tamanho das seqüências

– Logo, não podemos experimentar todos

Page 21: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Alinhamento Aleatórios

• A introdução de gaps também pode levar a alinhamentos sem sentido

S O M E T I M E S Q U I P S E N T I C E| | | | | | | |S - - E - – - - — Q U - - - E N - - C E

• É necessário distinguir entre alinhamentos que ocorreram devidoa homologia daqueles que são esperados a acontecer ao acaso

• Defina um esquema (função) de score (pontuação) que leve em consideração ambos mismatches e penalidades para gaps

Page 22: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Match Scores

• Match scores são em geral calculadoscom base na freqüência de mutações particulares em seqüências muito similares

Page 23: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Alinhamento Global e Local (1/2)

• Global– Seqüências são comparadas como um todo

• Útil quando temos seqüências que diferem pouco entre si• Inclui gaps

• Local– O alinhamento localiza fragmentos de seqüências que são mais similares

• Algumas vezes não inclui gaps• Muitas proteínas não apresentam um padrão global de similaridade

– Mosaico de domínios modulares• Alinhamento de seqüências de nucleotídeos de um mRNA

processado (spliced) com sua seqüencia genômica (Exon/Intron)

Page 24: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Alinhamento Global e Local (2/2)

Page 25: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Score do Alinhamento

• Um score (pontuação) do alinhamento é a soma de todos os match scores, com a penalidade subtraída para cada gap

A B C D E F G| | | |A C C - — F G match gap score score8 2 8 8 8 => 34 - (10+2) = 22

Page 26: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Métodos de Alinhamento de Seqüências

• Dado um par de seqüências e função de score (pontuação), identifique o alinhamento que obteve o melhor score

– Alinhamento ótimo• Lembre, há um número exponencial de alinhamentos possíveis• A maioria deles com scores muito ruins

• Alinhamento de pares de seqüências

– Matriz de pontos (dot matrix)– Programação dinâmica– Dicionário de palavras ou k-tuplas (BLAST)

Page 27: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Matriz de Pontos

• Permite a inspeção visual de um possível alinhamento entre duas seqüências

• Permite que repeats e inversões sejam detectadas

• Permite a identificação de regiões auto-complementares (e.g., RNA com estrutura secundária)

• O alinhamento não é produzido

Page 28: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Exemplo

Seqüências:a) ATGCGTCGTTb) ATCCGCGAT

A T G C G T C G T T

ATCCGCGAT

Passos1. Organize as seqüências em

uma matriz2. Coloque um ponto em cada

lugar que houver um match entre duas bases

3. Trechos diagonais (indicados por linhas) são áreas de alinhamento

4. Mais de um alinhamento pode surgir

Page 29: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Assuntos Abordados

• BLAST original

• Gapped BLAST

• PSI-BLAST

• PHI-BLAST

Page 30: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Original BLAST (Proteínas)

• Determinando as sementes:– Sementes de tamanho fixo (w)– Pontuação mínima para a semente (T)

• Procurando ocorrências:– Tabela com todas as palavras de tamanho w– Autômato finito baseado em transições (Mealy)

• Estendendo um alinhamento:– Alinhamento sem gaps– Limite para expansão de alinhamento (X)

Page 31: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Original BLAST (DNA)

• Determinando as sementes:– Todas as seqüências de tamanho fixo (w):

n-w+1 sementes

• Banco de dados comprimido:– 4 nucleotídeos armazenados em um byte

– Buscas por casamentos são acelerados por um fator 4

• Filtros:– Regiões pouco significativas (SEG)

– Repetições

Page 32: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Estatísticas paracomparação local (1)

• Número esperado de seqüências (E-value) com score maior ou igual a S é dado por:

• Calculando o score normalizado (bit score):

SKmneE

2ln

ln'

KSS

Page 33: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

PSI-BLAST

• Variante do BLAST que permite comparar proteínas fracamente relacionadas, mas com regiões bem conservadas.

• “Position-Specific Score”: para cada posição da seqüência usada como query, um valor é associado para cada resíduo. Quanto mais conservado o resíduo, maior o score.

• Para uma seqüência de tamanho L, a matriz de pontuação terá tamanho L x 20.

Page 34: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

PSI-BLAST:Os 5 Passos

1. Compara a query com um banco de proteínas usando Gapped BLAST.

2. É construído um alinhamento múltiplo, e a partir deste um perfil (seqüência + matriz de pontuação).

3. O perfil é comparado com o banco de proteínas em busca de alinhamentos locais.

4. PSI-BLAST estima a significância estatística dos alinhamentos encontrados.

5. Finalmente, PSI-BLAST retorna ao passo 2 por um número arbitrário de vezes, até convergir.

Page 35: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

Performance do PSI-BLAST

Smith- Watterman

Original BLAST

Gapped BLAST

PSI-BLAST

Total de Hits(E 0.01) 1739 1656 1731 2649

TempoNormalizado 36.0s 1.0s 0.34s 0.87s

Teste com 11 famílias de proteínas:

Page 36: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

PHI-BLAST

• Recebe como entrada uma seqüência de aminoácidos e um padrão (estilo PROSITE) existente nesta seqüência.

• Apenas as seqüências do banco que baterem com este padrão serão consideradas.

• O padrão é usado como semente para o alinhamento local gerado pelo BLAST.

Page 37: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

O Algoritmo do PHI-BLAST

• A busca por seqüências do banco de dados que batem com o padrão é realizada com uma adaptação dos métodos propostos por Baeza-Yates & Gonnet e Wu & Manber.

• O alinhamento das seqüências é realizado com a heurística do Gapped BLAST.

• O algoritmo só permite o uso de padrões relativamente raros no banco de dados.

Page 38: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

PHI-BLAST:Análise Estatística

• Score de um alinhamento: S=Sleft+S0+Sright

• Score relevante: S’=Sleft+Sright

• Probabilidade de se obter um score S’:

• Número de alinhamentos com score S’:')1'( SeSCNE

')1'( SeSCP

Page 39: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

PHI-BLAST:Exemplo (E-Value)

Exemplo Padrão PHI-BLAST BLAST

A [GA]xxxxGK[ST] 0.038 4.7

B hxhxDxGxG 0.017 1.8

C DhDhhh 0.061 8.6

D QxxGRx[GA]R 0.54 -

Page 40: Bancos de Dados. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de seqüências de nucleotídeos

PHI-BLAST:Exemplo (Tempo)

Exemplo Tamanho Hits PHI-BLAST BLAST

A 549 14582 26s 77s

B 615 2986 12s 103s

C 449 1890 10s 71s

D 424 672 9s 64s