30
Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004

Análise Computacional de Seqüências Nucleotídicas e Protéicas

Embed Size (px)

DESCRIPTION

Análise Computacional de Seqüências Nucleotídicas e Protéicas. BLAST Antonio Basílio de Miranda 24/11/2004. BLAST – Basic Local Alignment and Search Tool. Provavelmente a ferramenta computacional mais utilizada em biologia molecular e bioinformática - PowerPoint PPT Presentation

Citation preview

Page 1: Análise Computacional de Seqüências Nucleotídicas e Protéicas

Análise Computacional de Seqüências Nucleotídicas e Protéicas

BLASTAntonio Basílio de Miranda

24/11/2004

Page 2: Análise Computacional de Seqüências Nucleotídicas e Protéicas

BLAST – Basic Local Alignment and Search Tool Provavelmente a ferramenta computacional mais

utilizada em biologia molecular e bioinformática Busca seqüências armazenadas nos bancos de

dados pela similaridade entre a estrutura primária da seqüência query e as armazenadas

Anotações (características) descritas para seqüências armazenadas podem ser transferidas para a seqüência query desde que suas estruturas primárias sejam semelhantes

O maior problema é definir um “cut-off”, limite onde as similaridades encontradas entre a query e os hits não sejam mais significativos

Page 3: Análise Computacional de Seqüências Nucleotídicas e Protéicas

BLAST – Basic Local Alignment and Search Tool

É um método heurístico para alinhamentos locais

Projetado especificamente para buscas em bancos de dados

Idéia básica: bons alinhamentos irão conter pequenos trechos de combinações iguais

Page 4: Análise Computacional de Seqüências Nucleotídicas e Protéicas

BLAST

Existem vários “sabores” e tipos de BLAST: Nucleotídeo Proteína Traduzido Genomas

Page 5: Análise Computacional de Seqüências Nucleotídicas e Protéicas

BLAST

Nucleotídeo: Nucleotídeo-nucleotídeo (blastn) Megablast Megablast descontínuo Busca por hits curtos e quase

perfeitos Busca em cromatogramas

Page 6: Análise Computacional de Seqüências Nucleotídicas e Protéicas

BLAST Proteína:

Proteína-proteína (blastp) PHI-BLAST e PSI-BLAST (através da

obtenção de perfis) Busca por hits curtos e quase perfeitos Busca no banco de dados de domínios

conservados (rps-blast) (Smart, PFam e COG)

Busca pela arquitetura de domínios (cdart)

Page 7: Análise Computacional de Seqüências Nucleotídicas e Protéicas

PHI-BLAST e PSI-BLAST

PHI-BLAST: Quais outras seqüências protéicas contém tanto a ocorrência do padrão P e são homólogas a query P na vizinhança das ocorrências dos padrões?

PSI-BLAST: Construção de uma matriz de valores posição-específica (position specific scoring matrix, PSSM)

Page 8: Análise Computacional de Seqüências Nucleotídicas e Protéicas

BLAST

Traduzido: query traduzida x banco de dados de

proteínas (blastx) query de proteína x banco de dados

traduzido (tblastn) query traduzida x banco de dados

traduzido (tblastx)

Page 9: Análise Computacional de Seqüências Nucleotídicas e Protéicas

BLAST Genomas:

Galinha, vaca, porco, cachorro, ovelha, gato Amostras ambientais Homem, camundongo, rato Fugu rubripes, zebrafish Insetos, nematódeos, plantas, fungos,

malária Genomas microbianos, outros genomas

eucarióticos

Page 10: Análise Computacional de Seqüências Nucleotídicas e Protéicas

BLAST - algoritmo 1. Filtrar as regiões de baixa

complexidade 2. Criar as query words (de

comprimento 3 para sequências protéicas e 11 para DNA) através do uso de uma janela deslizante

MEF EFP FPG PGL GLG

MEFPGLGSLGTSEPLPQFVDPALVSS

Page 11: Análise Computacional de Seqüências Nucleotídicas e Protéicas

BLAST - algoritmo

3. Utilizando uma matriz de substituição (PAM, BLOSUM), contar todas as possíveis palavras de tamanho 3 ou 11 contra a query

4. Selecionar um limite (neighborhood word score threshold - T) para manter as sequências mais significativas (normalmente umas 50 por query)

Page 12: Análise Computacional de Seqüências Nucleotídicas e Protéicas

(Parênteses – matrizes de substituição) O que é uma matriz de substituição? É uma matriz representando todas as

possíveis trocas entre aminoácidos, onde um valor é atribuído a cada uma destas trocas

Esses valores são obtidos através da contagem dessas trocas tomando-se como base umdeterminado modelo evolutivo

Page 13: Análise Computacional de Seqüências Nucleotídicas e Protéicas

Parênteses – matrizes de substituição)

Page 14: Análise Computacional de Seqüências Nucleotídicas e Protéicas

BLAST - algoritmo

5. Repetir os passos 3 e 4 para cada query word no passo 2

6. Organizar as palavras de alta pontuação em uma árvore de busca

M

E

F

E

GP

Page 15: Análise Computacional de Seqüências Nucleotídicas e Protéicas

BLAST - algoritmo 7. Procurar em cada sequência no banco

de dados uma combinação com uma query word de alta pontuação. Cada combinação será uma “semente” para um alinhamento sem gaps.

8. Extensão das combinações 8.1. BLAST original: extensão das

combinações à esquerda e à direita da “semente” usando alinhamentos sem gaps. Esta extensão irá continuar enquanto o score aumentar ou pelo menos continuar o mesmo. Esta extensão é o chamado HSP (High Scoring Pair).

Page 16: Análise Computacional de Seqüências Nucleotídicas e Protéicas

BLAST - algoritmo

8.2. Atualmente: combinações ao longo da mesma diagonal (Dot plot) com uma distância A entre as duas são reunidas e a extensão se dá com a sequência maior.

9. Utilizando uma contagem limite S, manter somente as combinações estendidas com score mínimo igual a S.

Page 17: Análise Computacional de Seqüências Nucleotídicas e Protéicas

BLAST - algoritmo

10. Determinar a significância estatística de cada combinação remanescente

11. Tentar estender os HSPs de cada combinação remanescente

12. Mostrar os alinhamentos locais (dea cordo com Smith-Waterman).

Page 18: Análise Computacional de Seqüências Nucleotídicas e Protéicas

(Parênteses – matrizes de homologia)

Page 19: Análise Computacional de Seqüências Nucleotídicas e Protéicas

Resultado (BLASTN)

Page 20: Análise Computacional de Seqüências Nucleotídicas e Protéicas

Resultado (formatação)

Page 21: Análise Computacional de Seqüências Nucleotídicas e Protéicas

Resultado (BLASTN) O output é dividido em cinco partes: 1. Um header contendo a versão do BLAST, data

da compilação, referência, RID, etc. 2. Uma visão gráfica dos alinhamentos 3. Um sumário com uma descrição em uma linha

de cada hit 4. Os alinhamentos 5. Rodapé com a descrição detalhada dos

parâmetros de busca empregados, o banco de dados, etc.

Existem várias opções de formatação dos resultados.

Page 22: Análise Computacional de Seqüências Nucleotídicas e Protéicas

Resultado (header)

Page 23: Análise Computacional de Seqüências Nucleotídicas e Protéicas

Resultado (graphical overview)

Page 24: Análise Computacional de Seqüências Nucleotídicas e Protéicas

Resultado (one-line descriptions)

Page 25: Análise Computacional de Seqüências Nucleotídicas e Protéicas

Resultado (links)

G: Gene U: UniGene E: GEO Profile (dados de expressão

gênica e hibridização genômica obtidos por tecnologia high-throughput)

Page 26: Análise Computacional de Seqüências Nucleotídicas e Protéicas

Resultado (alignments)

Page 27: Análise Computacional de Seqüências Nucleotídicas e Protéicas

HSP – High Scoring Pairs Segmentos onde o alinhamento

possui alta qualidade

Page 28: Análise Computacional de Seqüências Nucleotídicas e Protéicas

>gi|50363246|gb|AY661748.1| Polyodon spathula Hoxa-11 (Hoxa-11) gene, partial cds Length = 1452 Score = 278 bits (140), Expect = 1e-71 Identities = 203/224 (90%) Strand = Plus / Plus Query: 19 tactacgtttcgggtcccgatttctccagcctcccttcttttttgccccagaccccgtct 78 |||||||| |||||||| |||||||||||||||||||| ||||| |||||||| |||||| Sbjct: 2 tactacgtctcgggtcctgatttctccagcctcccttcctttttaccccagacaccgtct 61 Query: 79 tctcgccccatgacatactcctattcgtctaatctaccccaagttcaacctgtgagagaa 138 |||||||||||||| ||||| ||| ||||||| || ||||| |||||||||||||||||| Sbjct: 62 tctcgccccatgacgtactcttatccgtctaacctgccccaggttcaacctgtgagagaa 121 Query: 139 gttaccttcagggactatgccattgatacatccaataaatggcatcccagaagcaattta 198 || |||||||||||||||||||||||| |||||| ||||||||||| |||||||||| || Sbjct: 122 gtaaccttcagggactatgccattgatgcatccagtaaatggcatcacagaagcaatcta 181 Query: 199 ccccattgctactcaacagaggagattctgcacagggactgcct 242 |||||||||| ||| ||||||||||| ||||||| |||||||| Sbjct: 182 tcccattgctattcagcagaggagattatgcacagagactgcct 225

Score = 48.1 bits (24), Expect = 0.024 Identities = 33/36 (91%) Strand = Plus / Plus Query: 529 agcccagagtcttcttccggcaacaatgaggagaaa 564 ||||| ||||| ||||||||||||||||| |||||| Sbjct: 509 agccctgagtcctcttccggcaacaatgaagagaaa 544

Score = 46.1 bits (23), Expect = 0.095 Identities = 32/35 (91%) Strand = Plus / Plus Query: 367 caagcctttgaccagtttttcgagacggcttatgg 401 ||||||||||| |||||||| |||||||| ||||| Sbjct: 347 caagcctttgatcagttttttgagacggcgtatgg 381

HSPs

Page 29: Análise Computacional de Seqüências Nucleotídicas e Protéicas

Resultado (footer)

Page 30: Análise Computacional de Seqüências Nucleotídicas e Protéicas

CDART