Transcript
Page 1: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

BIOLOGIA/MEDICINA

A Revolução daGenômica/Bioinformática

Page 2: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

A Verdadeira Revolução

Início do séc. 20: Mendel e as leis da hereditariedade.

1944: DNA como elemento carreador da informação genética (Avery)

1953: Watson/Crick e aestrutura do DNA.

Anos 70 e 80: Biologia Molecular/Biotecnologia

Anos 90 e séc. 21: Genômica/Bioinformática

Page 3: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

História da Biologia Molecular

1951 Fred Sanger, Amino Acid Sequence of Insulin 1953 Watson/Crick, Estrutura do DNA 1957 Francis Crick, Central Dogma, DNA RNA Protein 1960’s Nirenberg, Matthaei, The Genetic Code 1967 Shapiro and Beckwith, First gene cloned, LacZ 1972 Paul Berg, First recombinant DNA molecule 1973 Cohen/Boyer, First recombinant organism 1977 Maxam/Gilbert and Fred Sanger, DNA sequencing 1977 Fred Sanger, Complete sequence of phage X174 1978 David Botstein, Restriction Fragment Length

Polymorphisms (RFLP) 1980 Kerry Mullis, PCR 1983 Lee Hood, First Automated DNA Sequencer

Page 4: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Sequenciamentodo DNASanger, Gilbert (Nobel 1980)

Page 5: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Sequenciamento Automático

Leroy Hood

30kb por corrida

Page 6: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

A era genômica

Page 7: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

376 Genomas Concluídos! 251 como rascunho! 342 em andamento

1995, Haemophilus influenzae 1996, Methanococcus jannaschii 1997, Saccharomyces cerevisiae 1997, Escherichia coli 1998, Caenorhabditis elegans 2000, Drosophila melanogaster 2000, Arabidopsis thaliana 2001, Homo sapiens 2002, Schizosaccharomyces

pombe 2002, Oryza sativa 2002, Mus musculus 2005, Pan troglodites

327 Bacterial, 27 Archeal, 22 Eukaryotic

http://www.ncbi.nlm.nih.gov09/07/2006

Page 8: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Um modelo genético

Page 9: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Genoma Humano2001

International Consortium Grupos acadêmicos

Celera Genomics Companhia Privada

Page 10: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

A nova revolução da Genômica

454 Solexa - Illumina SOLiD - ABI

~120 MB de DNApor corrida

~01 GB de DNApor corrida

~03 GB de DNApor corrida

12KB/US$ 100KB/US$ 300KB/US$

Tecnologia de Capilar = 0.5KB/US$

Page 11: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Nova tecnologia

Dispensa clonagem dos fragmentos em sistemas bacterianos

Dispensa a preparação de DNA molde para sequenciamento

Reações feitas em paralelo em volume extremamente pequeno - nanotecnologia

Page 12: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Aplicações

Sequenciamento de Genomas sequenciamento de novo re-sequenciamento - variabilidade SNPs e

mutações

Sequenciamento de Transcriptomas variabilidade - splicing, poliadenilação quantificação de expressão gênica

Page 13: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Sequenciamento de novo

Page 14: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Re-sequenciamento

Page 15: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Transcriptoma

Page 16: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Projeto 454

Participantes: LICR-SP, LICR-NY, Venter Institute

Objetivo: Sequenciamento extensivo dos genes expressos na linhagem celular HCC1954 (tumor de mama) buscando conhecer, com um único set de dados, alterações genéticas e epi-genéticas neste tipo de câncer.

Sequenciador: 454

Page 17: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Fapesp/LICRGenoma Humano do Câncer Projeto 454 Venter/LICR

# sequências 1.2 milhões 520 mil

# sequenciadores 05 MegaBaces 01 454

# corridas ~15,000 01

Custo (US$)* 12 milhões 10 mil

* Excluindo o preço dos aparelhos

Page 18: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Um objetivo a curto prazo

Page 19: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Os sequenciadores de nova geraçãopromovem uma mudança no

paradigma

Com os bilhões de datapoints gerados em

horas, o processamento e análise dos dados tornou-se o maior

gargalo das pesquisas biomédicas.

Geração de dados deixa de ser o fator limitante

Page 20: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Bioinformática

Computação Matemática Biologia

Page 21: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

O que é Bioinformática?

Page 22: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática
Page 23: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática
Page 24: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Bioinformática - História

1970, Needleman/Wunch, Alinhamento Global. 1972, Margaret Dayhoff, Matrizes de

Comparação. 1979, Walter Goad, GenBank. 1981, Smith/Waterman, Alinhamento Local. 1989, NHGRI, Projeto Genoma Humano. 1990, Altschul/Gish/Miller/Myers/Lipman, BLAST. 1994, Eddy/Krogh/Durbin, Hidden Markov

Models (HMMs).

Page 25: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Bioinformática - Importância

Poucas pessoas adequadamente treinadas em Biologia e Computação.

Biologia em larga-escala. Produção de dados em massa gera uma demanda para análises computacionais.

Economiza tempo e dinheiro.

Page 26: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Bioinformática

Desenvolvimento de ferramentas. Forma de explorar novos dados. Processamento de dados gerados por

projetos em larga-escala. Uma nova forma de se fazer ciência

dirigida por hipóteses.

Page 27: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Bioinformática

O Bioinformata O Usuário- Manipula a informação.- Desenvolve ferramentas- Bancos de dados locais.- Local. - Mta programação.- Habilidades de TI.

- Recursos da Web.- Local ou remoto.- nada de programação.- pouca habilidade de TI.

Page 28: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Cinco websites que todos devem conhecer

NCBI (The National Center for Biotechnology Information; http://www.ncbi.nlm.nih.gov/

EBI (The European Bioinformatics Institute) http://www.ebi.ac.uk/

The UCSC Genome Browser http://genome.ucsc.edu/

SwissProt/ExPASy (Swiss Bioinformatics Resource) http://expasy.cbr.nrc.ca/sprot/

PDB (The Protein Databank) http://www.rcsb.org/PDB/

Page 29: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

NCBI (http://www.ncbi.nlm.nih.gov/)

Acesso aos bancos de dados via EntrezMedline/OMIMGenbank/Genpept/Structures

Servidor de BLASTTodos os tipos de Blast

Portal do Genoma Humano Muito, muito mais……..

Page 30: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática
Page 31: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática
Page 32: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

EBI (http://www.ebi.ac.uk/)

Acesso a bancos de dados via SRSEMBL, SwissProt, ……

Muitas outras ferramentasClustalW, DALI, …

Page 33: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática
Page 34: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

UCSC Genome Browser (http://genome.ucsc.edu/) Banco de dados e Browser para genomas

de diferentes espéciesHumano, camundongo, rato, zebrafish, etc….

Muitas outras ferramentasSNPs, domínios prtéicos, genômica

comparativa, etc….

Page 35: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática
Page 36: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

SwissProt (http://www.expasy.ch/sprot/) Checagem manual.

O número de entradas errôneas é bastante reduzido.

Cross-link extensivo com outros bancos SwissProt é o ‘gold-standard’ em termos

de bancos de dados e é o melhor lugar para se começar uma análise se vc procura info para uma ou poucas

Page 37: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática
Page 38: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Protein Data Bank – PDB (http://www.rcsb.org/pdb/)

Armazena a estrutura tri-dimensional para milhares de proteínas

Acesso a vários serviços relacionados a biologia estrutural

Page 39: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática
Page 40: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Bancos de Sequência Primários

GenBank (USA) http://www.ncbi.nlm.nih.gov/Genbank

EMBL (Europa) http://www.ebi.ac.uk/embl/

DDBJ (Japão)http://www.ddbj.nig.ac.jp/

Page 41: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Homologia

- Ortologia

- Paralogia

Page 42: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Dois conceitos importantes

Paralogia: O evento que originou às duas sequências é um evento de duplicação gênica!

Orthologia: O evento que deu origem às duas sequências é um evento de especiação!

FUNÇÕES SIMILARES!

FUNÇÕES IDÊNTICAS!

Page 43: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Como definir função?

Alinhamento de sequências Motivos (padrões consensuais) Blocos, perfis, etc.... Hidden Markov Models - HMM

Page 44: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Similarity Searches on Sequence Databases, EMBnet Course, October 2003

Page 45: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Alinhamento

Identidade - MATCH

Semelhança / divergência - MISMATCH

Lacunas - GAPS

Inserção/Deleção - INDELS

0 1 2 3 4 5 6 7 8 9 10G A A - G G A T T A GG A T C G G A - - A G

Page 46: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Alinhamento

Qual é o melhor alinhamento ?

Alinhamento 1:A – C – G G – A C T

| | | - | | A T C G G A T – C T 

Alinhamento 2: A T C G G A T C T | | | | - | |

A – C G G – A C T

Page 47: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Pontuação

Esquema de pontuação

match: +2 mismatch: +1

indel: –2

Alinhamento 1: (5 *2) + (1*1) + (4*-2) = 10 + 1 – 8 = 3

Alinhamento 2: (6 *2) + (1*1) + (2*-2) = 12 + 1 – 4 = 9

Escore final = soma dos escores para cada posiçãoFavorece os matches, penaliza os gaps

Page 48: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Matriz de Substituição

Tabela de comparação

Reflete a probabilidade ou frequência de determinada substituição em sequências biologicamente relacionadas

p(A B) = p(B A)

Construídas pelo estudo do alinhamento de diversas sequências relacionadas

AA ou nucleotídeos

Page 49: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Percent Accepted Mutation (PAM - Dayhoff)

Margaret Dayhoff (1978)

Probabilidade de substituição de aa em alinhamentos globais de sequências homólogas

Cada matriz reflete as mutações entre sequências que divergiram por determinado período de tempo

Mutações aceitas => não afetam negativamente a viabilidade da proteína

Primeira matriz 71 grupos de proteínas, 85% de similaridade 1572 substitutições de aminoácidos

Expansão do número de proteínas => 1991 database

Page 50: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Premissa => cada mutação é independente das mutações anteriores

Consequência => as substituições observadas em curtos períodos podem ser extrapoladas para longos períodos

PAM 1 => sequências com 1% ou menos de divergência =>1 mutação aceita a cada 100 aminoácidos

PAM N mutações = (PAM 1)N

PAM 250 => 250 mutações por 100 aa => 250% mutações em 2500 milhões anos

PAM 250: 20% similar - PAM 120: 40% - PAM 80: 50% - PAM 60: 60%

Matrizes PAM

Page 51: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

http://www.blc.arizona.edu/courses/bioinformatics/dayhoff.html

Page 52: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Blocks Substitution Matrix (BLOSUM)

Kenikoff & Henikoff (1992)

Frequência de substituição de aa em um conjunto de ~2000 padrões (blocos)

Maior número de sequências consideradas => mais de 500 famílias

Alinhamentos locais de sequências relacionadas e não geradas a partir de extrapolações

BLOSUM 62 é o padrão para BLAST 2.0 => sequências moderadamente distantes ou mais próximas

Sequências Consenso 60% idênticas: BLOSUM 60 80% idênticas : BLOSUM 80

Page 53: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

http://www.blc.arizona.edu/courses/bioinformatics/blosum.html

G A V C T K IG V V C Y R E

6+0+4+9+(-2)+2+(-3)= 16

Page 54: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Scoring2.html

Relação ente BLOSUM e PAM

PAM => origens evolutivas de proteínas

BLOSUM => domínios conservados

Page 55: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Global vs. Local

Global Alinhamento de toda a sequência utilizado o maior

número de caracteres possíveis Sequências similares e de tamanho aproximado

Local Segmentos com o maior número de identidades Regiões alinhadas e não alinhadas (≠ mismatch) Sequências similares em algumas regiões, que diferem

em tamanho ou que compartilham domínios conservados

Page 56: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Aplicações

Global Deduzir histórias evolutivas entre membros da mesma família Estabelecer a existência de um ancestral comum (homologia)

Local Inferir funções biológicas Identificar regiões conservadas e de alta similaridade (sítio

ativo, domínios) entre outras pouco conservadas Reconstruir sequências de DNA a partir de seus fragmentos Comparar sequências de mRNA (sem íntrons) à sequência

genômica

Page 57: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Métodos de Análise

Diagramas - DOT PLOT

Algoritmo de Programação Dinâmica

Algoritmos Heurísticos - Word-Based ou K-tuples

Page 58: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Dot Plot

Page 59: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Inserções & Deleções

Page 60: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Repetições & Inversões

Page 61: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Programas Disponíveis

Dotter (http://www.cgr.ki.se/cgr/groups/sonnhammer/Dotter.html)

COMPARE & DOTPLOT (Genetics Computer Group)

PLALIGN (http://fasta.bioch.virginia.edu/fasta/fasta_list.html)

Web browser (http://www.isrec.isb-sib.ch/java/dotlet/Dotlet.html)

Page 62: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Programação Dinâmica

Needleman & Wunsch (1970)

Compara cada par de caracteres nas duas sequências

Posiciona os gaps de forma a obter o maior número de alinhamentos idênticos ou similares

Gera uma matriz de números que representa todos os possíveis alinhamentos de acordo com um sistema de escore

Alinhamento ótimo => maior escore

Page 63: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Limitações

Computacionalmente lento

Número de alinhamentos cresce exponencialmente com a média dos comprimentos das sequências (n)

Número de cálculos => proporcional a n2 ou n3

Memória => capacidade da ordem de n2

Page 64: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Needleman-WunschAs sequências abcdefghajklm abbdhijkSão alinhadas e scores são dados a b c d e f g h a j k l m | | | | | | a b b d . . . h i j k match 4 4 4 4 4 4 mismatch -3 -3 gap_open -2 gap_extend -1-1-1Score total de 24-6-2-3 = 13.

Page 65: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Needleman-Wunsch

O alinhamento de maior score entre as duassequências é considerado o mais provável.

Page 66: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Global: HBA_HUMAN vs HBB_HUMANScore: 290.50

HBA_HUMAN 1 VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFP 44 |:| :|: | | |||| : | | ||| |: : :| |: :|HBB_HUMAN 1 VHLTPEEKSAVTALWGKV..NVDEVGGEALGRLLVVYPWTQRFFE 43

HBA_HUMAN 45 HF.DLS.....HGSAQVKGHGKKVADALTNAVAHVDDMPNALSAL 83 | ||| |: :|| ||||| | :: :||:|:: : |HBB_HUMAN 44 SFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATL 88

HBA_HUMAN 84 SDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKF 128 |:|| || ||| ||:|| : |: || | |||| | |: |HBB_HUMAN 89 SELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKV 133

HBA_HUMAN 129 LASVSTVLTSKYR 141 :| |: | ||HBB_HUMAN 134 VAGVANALAHKYH 146

%id = 45.32 %similarity = 63.31Overall %id = 43.15 Overall %similarity = 60.27

Needleman-WunschSaída típica:

Page 67: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Razões para se usar um banco de sequências

Eu acabei de obter uma sequência. O que é sabido à respeito desta sequência? Ela é única?

Eu tenho uma sequência única. Ela tem similaridade com alguma outra sequência de função conhecida?

Eu encontrei uma nova proteína em um determinado organismo. Existe um ortólogo conhecido?

Eu decidi trabalhar com um gene novo. Eu não tenho como obter um clone contendo a sequência deste gene. Eu preciso da sequência do cDNA para fazer uma PCR.

Page 68: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

O que envolve uma busca ?

Algoritmos de busca (BLAST, FASTA)

Matrizes de comparação (PAM vs. BLOSUM)

Banco de dados (nr, dbEST)

Parâmetros de busca (filtros on/off, threshold, etc…)

Page 69: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Basic Local Alignment Search Tool

Método heurístico => método empírico, que utiliza a fórmula ´tentativa e erro´ para encontrar as soluções

Significado estatístico => determina se um alinhamento ocorre aleatoriamente ou não

Vantagem => pelo menos 50 vezes mais rápido que os algoritmos de programação dinâmica e mais apropriados para busca em bancos de dados

Desvantagem => não garante uma solução com um alinhamento ótimo como os algoritmos de programação dinâmica

Page 70: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Aplicações

Identificar sequências ortólogas e parálogas

Descobrir novos genes ou proteínas

Descobrir variantes de genes e proteínas

Investigar Expressed Sequence Tags - ESTs

Explorar a estrutura e função de proteínas

Page 71: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

BLAST WEB Pages

BLAST (NCBI – National Center for Biotechnology Information): http://www.ncbi.nlm.nih.gov/BLAST/

BLAST2 (Swiss EMBnet server - European Molecular Biology network??): http://www.ebi.ac.uk/blastall/

WU-BLAST (Washington University): http://blast.wustl.edu/

Page 72: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática
Page 73: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Blast é Heurístico

1) Tabela de busca com todas as ´palavras´ (words) de comprimento W (3 aa ou11 nucleot.) mais as palavras vizinhas semelhantes, que aparecem pelo menos T vezes na sequência query.

2) Busca de sementes (hits, hot spots) na sequência do banco de dados que alinhem com as palavras previamente estabelecidas.

3) Extensão das sementes em ambas as direções, produzindo alinhamentos locais máximos (HSP - high scoring pair) com ou sem lacunas, de acordo com os parâmetros estabelecidos.

4) Registro da informação em um arquivo SeqAlign (ASN.1).

5) A informação é utilizada para buscar sequências similares. Os resultados podem ser reformatados sem a necessidade de refazer a busca.

Page 74: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Sensibilidade vs. Seletividade

Sensibilidade

Habilidade de encontrar a maior parte dos membros relacionados à família da sequência query

Seletividade

Habilidade de não identificar sequências de outras famílias como falso-positivos

“Grau de cobertura dos membros da família dado um nível de falso-positivos”

Page 75: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Escores e Estatística

Bit Score

Indica quão bom é o alinhamento. Quanto maior o escore, melhor o alinhamento

Considera o número de resíduos idênticos ou similares e a quantidade de gaps

Influenciado pela Matriz de Substituição (padrão: BLOSUM 62 )

Exceção: blastn and MegaBLAST

Normalização: bit scores de diferentes alinhamentos podem ser comparados

Page 76: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Escores e Estatística

E-value

Significado estatístico do alinhamento

Quanto menor o escore, mais significativo é o alinhamento

E-value = 0.05. Significa que existem 5 chances em 100 (1 em 20) da similaridade entre as sequências ocorrer aleatoriamente

Influenciado pelo tamanho do banco de dados e o sistema de escore utilizado

Page 77: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Etapas de Busca

1) Selecionar a sequência (query)

2) Selecionar o banco de dados

3) Selecionar o programa

4) Definir os parâmetros

Page 78: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Passo 1: Escolha da sequência

Natureza

Tamanho

Formatos : Identificadores (ID), FASTA (>seq name), sequências puras (txt?)

Page 79: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática
Page 80: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática
Page 81: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Passo 2: Seleção do Banco de Dados

ProteínasGenBank, PDB, SWISSPROT, PIR, REPBASE68 e BDGP

NucleotídeosGenBank, EMBL, DDBJ, PDB, REPBASE, BDGP, EST69, STS70, vetores,

sequências de mitocôndrias, GSS71, sequências HTGS72

Conteúdo não-redundância, periodicidade de atualização organismos ou espécies sequências patenteadas interesse imunológico elementos repetitivos, etc.

Page 82: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

http://www.ncbi.nlm.nih.gov/blast/BLAST_guide.pdf

Page 83: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática
Page 84: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Passo 3: Seleção do Programa

Natureza da sequência

Finalidade da busca

Banco de dados

Page 85: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

5’ CAT CAA 5’ ATC AAC 5’ TCA ACT

5’ GTG GGT 5’ TGG GTA 5’ GGG TAG

5’ CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3’3’ GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5’

DNA codifica 6 proteínas potenciais

Page 86: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

programa entrada banco de dados

1blastn DNA DNA

1blastp protein protein

6blastx DNA protein

6tblastn protein DNA

36tblastx DNA DNA

Tipos de Programas

Page 87: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Passo 4: Seleção dos parâmetros

Tamanho da palavra (w-er) Filtros E value Matriz de substituição & penalidades para gap

Sensibilidade e velocidade => W, T e XSeletividade => cutoff score

Page 88: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Entrez

Filter

Scoring matrix

Word size

Expectorganism

Page 89: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Filtro

Page 90: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Report Header

Tipo de programa (BLASTP), versão (2.2.1) e data da versão Artigo que descreve o BLAST, request ID (issued by QBLAST), a definição

da sequência e resumo do banco de dados Taxonomy reports: mostra o resultado deste BLAST na base de informação

do banco de dados Taxonomy

Page 91: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Taxonomy Report

Page 92: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Graphical Overview

Quanto mais próximas da query, mais semelhantes Barras em rosa: lower-scoring matches que alinham em 2 regiões (resíduos

3-60 e 220-500) Segmento rachurado: as duas regiões de similaridade estão na mesma

proteína mas esta região não alinha Outras barras: lower-scoring matches

query

database hits

Page 93: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

One-line Descriptions

(a) gi number, designação do banco de dados, número de acesso e o nome do locus para as sequências encontradas, separados por barras verticais

(b) Definição da sequência(c) Escore de alinhamento ( bits) (d) E-value

Page 94: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Pairwise Sequence Alignment

Page 95: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática
Page 96: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Famílias de Elementos Repetitivos

Alu L1 L2 Tais sequências podem gerar

alinhamentos espúrios.

Page 97: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Alu

Constitutes about 5% of the human genome.

Short interspersed repeats. Found in primate genomes. ALU elements often found in 3’ regions or

introns.

Page 98: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Blast usando uma sequência de Alu

Page 99: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática
Page 100: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Como identificar e remover elementos repetitivos

Filter para elementos repetitivos no servidor de Blast do NCBI

Repeat Masker: http://ftp.genome.washington.edu/cgi-bin/RepeatMasker

Page 101: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Nair & Rost, 2002

Page 102: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Way out!

- psi-Blast

- pattern (phi-Blast)

- Hidden Markov Models (HMMs)

Page 103: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Position Specific Interactive (PSI)-BLAST

Detecta proteínas fracamente relacionadas ou novos membros de uma família protéica (mais sensível)

Utilizado quando o BLAST padrão falha em encontrar hits significativos ou retorna hits com decrições do tipo "hypothetical protein" ou "similar to... "

Busca iterativa => comparam-se as sequências de alto escore com a sequência de busca para determinar quais delas são altamente conservadas

Sequências resultantes => construção de um modelo de escore específico por posição (consenso) => Position-Specific Scoring Matrix (PSSM ou profile)

Page 104: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

PSI-BLAST - Algoritmo

Busca com BLASTp normal

Construção de um consenso a partir das regiões alinhadas com E values menores que o limite estabelecido (padrão = 0.005)

Utilizando este consenso, procede a uma nova pesquisa sobre a base de dados

Quaisquer novos hits abaixo do limite são incluídos em um novo PSSM

Fim do processo (convergência) : nenhuma nova sequência é

adicionada ao consenso em iterações subsequentes

Page 105: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Pattern-Hit Initiated (PHI)-BLAST

Busca proteínas que contém padrão especificado pelo usuário E é similar à sequência query em relação in the vicinity ao padrão

Reduz o número de hits que contém o padrão no banco de dados mas pode também apresentar nenhuma homologia ao query

Exemplo de sequência query e um padrão no formato ProSite:

>gi|4758958|ref|NP_004148.1| Human cAMP-dependent protein kinaseMSHIQIPPGLTELLQGYTVEVLRQQPPDLVEFAVEYFTRLREARAPASVLPAATPRQSLGHPPPEPGPDRVADAKGDSESEEDEDLEVPVPSRFNRRVSVCAETYNPDEEEEDTDPRVIHPKTDEQRCRLQEACKDILLFKNLDQEQLSQVLDAMFERIVKADEHVIDQGDDGDNFYVIERGTYDILVTKDNQTRSVGQYDNRGSFGELALMYNTPRAATIVATSEGSLWGLDRVTFRRIIVKNNAKKRKMFESFIESVPLLKSLEVSERMKIVDVIGEKIYKDGERIITQGEKADSFYIIESGEVSILIRSRTKSNKDGGNQEVEIARCHKGQYFGELALVTNKPRAASAYAVGDVKCLVMDVQAFERLLGPCMDIMKRNISHYEEQLVKMFGSSVDLGNLGQ

Padrão encontrado: [LIVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ]-A-x-[LIVMA]-x-[STACV]

Page 106: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Hidden Markov Models

An approach based on statistical sampling theory

Previously used with success for natural language processing

Model sequence as a Markov model that is not known (hidden)

Observed sequence is a noisy representation of the hidden “true” model

Page 107: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

A HMM for a DNA sequence

CA CT

T (prob 0.8) or A (prob 0.2)

A (prob 0.7) or T (prob 0.3)

G (prob 0.1) or C (prob 0.9)

G (prob 0.1) or C (prob 0.9)

Page 108: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Idea of HMM

Since multiple alignment of k sequences take O(Nk) time, instead estimate a statistical model of the sequences

Align the multiple sequences to this model This is equivalent to aligning the

sequences to one another

Page 109: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Protein Family Classification

Pfam large collection of multiple sequence

alignments and hidden Markov models covers many common protein domains

and familiesOver 73% of all known protein sequences

have at least one match5,193 different protein families

Page 110: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Pfam

Initial multiple alignment of seeds using a program such as Clustal

Alignment hand scrutinized and adjusted

Page 111: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Pfam

Links to the Pfam software:   http://pfam.wustl.edu/ http://www.sanger.ac.uk/Software/Pfam/index.shtml

  View some examples:

http://pfam.wustl.edu/

Page 112: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Locating ORFs

Simplest method of predicting coding regions is to search for open reading frames (ORFs)

open reading frames begin with a start (AUG) codon, and ends with one of three stop codons

Six total reading frames

Page 113: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Locating ORFs

Prokaryotes: DNA sequences coding for proteins generally transcribed into mRNA which is translated into protein with very little modification

Locating an open reading frame from a start codon to a stop codon can give a strong suggestion into protein coding regions

Longer ORFs are more likely to predict protein-coding regions than shorter ORFs.

Page 114: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Locating ORFs

Eukaryotes: mRNA undergoes processing to remove introns before the protein is translated

ORF corresponding to a gene may contain regions with stop codons found within intronic regions

Posttranscriptional modification makes gene prediction more difficult

Page 115: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Filogenia

Problema de determinação de árvores filogenéticasEncontrar a árvore que melhor descreve a

relação entre um conjunto de objetos (espécies ou táxons)

Cenoura Baleia Chimpanzé Humano

Page 116: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Filogenia

Táxons e Complexidade3 árvores possíveis para 4 táxons Para 5 táxons?

Page 117: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Filogenia

Táxons e Explosão Combinatorial

Page 118: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Métodos para reconstrução filogenética

03 métodos principais: :ParsimôniaMétodos baseados em distânciaVerossimilhança máxima

Page 119: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Parsimônia

Dá preferência à topologia que requer o menor número de mudanças .

Page 120: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Filogenia

Métodos de DistânciaA distância evolutiva é calculada para todos

os pares de táxonsMatriz de DistânciasA árvore filogenética é construída

considerando a relação entre esses valores de distâncias

Page 121: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

O método de evolução mínima

Para todas as topologias possíveis : Calcula o comprimento de todos os ramos, S

Mantém a árvore com menos S.

Problema: computacionalmente intenso. Não é usado com mais de 25 sequências.

Page 122: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Filogenia Métodos com Critério de Ótimo

Máxima Verossimilhança Determina-se a probabilidade de um modelo evolutivo

gerar um certo dado Considera todos os sítios e todas as possibilidades

de mutações em todos os nós internos da árvore proposta

Multiplica-se a probabilidade de cada sítio Probabilidade da árvore

Pode ser utilizado para análises de características e de valores

Mais consistente e com estimativas com menor variância Não é simples e intuitivo Computacionalmente intenso

Page 123: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Bootstrap procedure

O suporte para cada ramo interno é expresso em

termos the % de réplicas.

1 N acgtacatagtatagcgtctagtggtaccgtatg aggtacatagtatgg-gtatactggtaccgtatg acgtaaat-gtatagagtctaatggtac-gtatg acgtacatggtatagcgactactggtaccgtatg

real alignment

random sampling, with replacement, of N sites

1 N gatcagtcatgtataggtctagtggtacgtatat tgagagtcatgtatggtgtatactggtacgtaat tgac-gtaatgtataggtctaatggtactgtaat tgacggtcatgtataggactactggtacgtatat

“artificial” alignments

} 1000 times

tree-building method

same tree-building method

tree = series of internal branches

“artificial” trees

for each internal branch, compute

fraction of “artificial” trees containing this

internal branch

Page 124: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

"bootstrapped” tree

Xenopus

Homo

Bos

Mus

Rattus

Gallus0.02

97

91

46

Page 125: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Bootstrap

Ramos internos suportados por ≥ 90% das réplicas são considerados estatisticamente significativos.

O procedimento de bootstrap não define se um programa é bom. Uma árvore errada pode ter 100% de suporte de bootstrap em seus ramos internos.

Page 126: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

distance < parsimony ~ PHYML << Bayesian < classical MLdistance < parsimony ~ PHYML << Bayesian < classical ML NJ DNAPARS PHYML MrBayes fastDNAml,PAUPNJ DNAPARS PHYML MrBayes fastDNAml,PAUP

Tempo de processamento para vários programasTempo de processamento para vários programas

Page 127: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Compilações Uma lista de web sites

http://www.ucmp.berkeley.edu/subway/phylogen.html

Uma lista grande de programashttp://evolution.genetics.washington.edu/

phylip/software.html

Recursos de Web para filogenia

Page 128: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Editor de alinhamento SEAVIEW : para windows e unix

http://pbil.univ-lyon1.fr/software/seaview.html

Programas para filogenia molecular PHYLIP :

http://evolution.genetics.washington.edu/phylip.html PAUP :

http://paup.csit.fsu.edu/index.html PHYLO_WIN :

http://pbil.univ-lyon1.fr/software/phylowin.html MrBayes : http://morphbank.ebc.uu.se/mrbayes/ PHYML : http://www.lirmm.fr/~guindon/phyml.htm

Recursos de Web para filogenia

Page 129: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Recursos de Web para filogenia

Desenho de árvoresNJPLOT (para todas as plataformas)http://pbil.univ-lyon1.fr/software/njplot.html

Aulas de filogeniahttp://www.bioinf.org/molsys/lectures.html

Page 131: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Ontologia

Fornecer um vocabulário estruturadoe controlado para representar

o conhecimento biológico nos bancos de dados.for the

Page 132: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Gene Onthology (GO)

Biological Process

Objetivo dentro da célula, tecido…

Molecular Function

Função básica ou tarefa

Cellular Component

Compartimento ou complexo

Page 133: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática
Page 134: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

Busca com a palavra “collagenase”

Page 135: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

•molecular function 7422 termos•biological process 8972 termos•cellular component 1472 termos

•all 17,866 terms

Conteúdo do GO

Page 136: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática