Upload
internet
View
106
Download
0
Embed Size (px)
Citation preview
BIOLOGIA/MEDICINA
A Revolução daGenômica/Bioinformática
A Verdadeira Revolução
Início do séc. 20: Mendel e as leis da hereditariedade.
1944: DNA como elemento carreador da informação genética (Avery)
1953: Watson/Crick e aestrutura do DNA.
Anos 70 e 80: Biologia Molecular/Biotecnologia
Anos 90 e séc. 21: Genômica/Bioinformática
História da Biologia Molecular
1951 Fred Sanger, Amino Acid Sequence of Insulin 1953 Watson/Crick, Estrutura do DNA 1957 Francis Crick, Central Dogma, DNA RNA Protein 1960’s Nirenberg, Matthaei, The Genetic Code 1967 Shapiro and Beckwith, First gene cloned, LacZ 1972 Paul Berg, First recombinant DNA molecule 1973 Cohen/Boyer, First recombinant organism 1977 Maxam/Gilbert and Fred Sanger, DNA sequencing 1977 Fred Sanger, Complete sequence of phage X174 1978 David Botstein, Restriction Fragment Length
Polymorphisms (RFLP) 1980 Kerry Mullis, PCR 1983 Lee Hood, First Automated DNA Sequencer
Sequenciamentodo DNASanger, Gilbert (Nobel 1980)
Sequenciamento Automático
Leroy Hood
30kb por corrida
A era genômica
376 Genomas Concluídos! 251 como rascunho! 342 em andamento
1995, Haemophilus influenzae 1996, Methanococcus jannaschii 1997, Saccharomyces cerevisiae 1997, Escherichia coli 1998, Caenorhabditis elegans 2000, Drosophila melanogaster 2000, Arabidopsis thaliana 2001, Homo sapiens 2002, Schizosaccharomyces
pombe 2002, Oryza sativa 2002, Mus musculus 2005, Pan troglodites
327 Bacterial, 27 Archeal, 22 Eukaryotic
http://www.ncbi.nlm.nih.gov09/07/2006
Um modelo genético
Genoma Humano2001
International Consortium Grupos acadêmicos
Celera Genomics Companhia Privada
A nova revolução da Genômica
454 Solexa - Illumina SOLiD - ABI
~120 MB de DNApor corrida
~01 GB de DNApor corrida
~03 GB de DNApor corrida
12KB/US$ 100KB/US$ 300KB/US$
Tecnologia de Capilar = 0.5KB/US$
Nova tecnologia
Dispensa clonagem dos fragmentos em sistemas bacterianos
Dispensa a preparação de DNA molde para sequenciamento
Reações feitas em paralelo em volume extremamente pequeno - nanotecnologia
Aplicações
Sequenciamento de Genomas sequenciamento de novo re-sequenciamento - variabilidade SNPs e
mutações
Sequenciamento de Transcriptomas variabilidade - splicing, poliadenilação quantificação de expressão gênica
Sequenciamento de novo
Re-sequenciamento
Transcriptoma
Projeto 454
Participantes: LICR-SP, LICR-NY, Venter Institute
Objetivo: Sequenciamento extensivo dos genes expressos na linhagem celular HCC1954 (tumor de mama) buscando conhecer, com um único set de dados, alterações genéticas e epi-genéticas neste tipo de câncer.
Sequenciador: 454
Fapesp/LICRGenoma Humano do Câncer Projeto 454 Venter/LICR
# sequências 1.2 milhões 520 mil
# sequenciadores 05 MegaBaces 01 454
# corridas ~15,000 01
Custo (US$)* 12 milhões 10 mil
* Excluindo o preço dos aparelhos
Um objetivo a curto prazo
Os sequenciadores de nova geraçãopromovem uma mudança no
paradigma
Com os bilhões de datapoints gerados em
horas, o processamento e análise dos dados tornou-se o maior
gargalo das pesquisas biomédicas.
Geração de dados deixa de ser o fator limitante
Bioinformática
Computação Matemática Biologia
O que é Bioinformática?
Bioinformática - História
1970, Needleman/Wunch, Alinhamento Global. 1972, Margaret Dayhoff, Matrizes de
Comparação. 1979, Walter Goad, GenBank. 1981, Smith/Waterman, Alinhamento Local. 1989, NHGRI, Projeto Genoma Humano. 1990, Altschul/Gish/Miller/Myers/Lipman, BLAST. 1994, Eddy/Krogh/Durbin, Hidden Markov
Models (HMMs).
Bioinformática - Importância
Poucas pessoas adequadamente treinadas em Biologia e Computação.
Biologia em larga-escala. Produção de dados em massa gera uma demanda para análises computacionais.
Economiza tempo e dinheiro.
Bioinformática
Desenvolvimento de ferramentas. Forma de explorar novos dados. Processamento de dados gerados por
projetos em larga-escala. Uma nova forma de se fazer ciência
dirigida por hipóteses.
Bioinformática
O Bioinformata O Usuário- Manipula a informação.- Desenvolve ferramentas- Bancos de dados locais.- Local. - Mta programação.- Habilidades de TI.
- Recursos da Web.- Local ou remoto.- nada de programação.- pouca habilidade de TI.
Cinco websites que todos devem conhecer
NCBI (The National Center for Biotechnology Information; http://www.ncbi.nlm.nih.gov/
EBI (The European Bioinformatics Institute) http://www.ebi.ac.uk/
The UCSC Genome Browser http://genome.ucsc.edu/
SwissProt/ExPASy (Swiss Bioinformatics Resource) http://expasy.cbr.nrc.ca/sprot/
PDB (The Protein Databank) http://www.rcsb.org/PDB/
NCBI (http://www.ncbi.nlm.nih.gov/)
Acesso aos bancos de dados via EntrezMedline/OMIMGenbank/Genpept/Structures
Servidor de BLASTTodos os tipos de Blast
Portal do Genoma Humano Muito, muito mais……..
EBI (http://www.ebi.ac.uk/)
Acesso a bancos de dados via SRSEMBL, SwissProt, ……
Muitas outras ferramentasClustalW, DALI, …
UCSC Genome Browser (http://genome.ucsc.edu/) Banco de dados e Browser para genomas
de diferentes espéciesHumano, camundongo, rato, zebrafish, etc….
Muitas outras ferramentasSNPs, domínios prtéicos, genômica
comparativa, etc….
SwissProt (http://www.expasy.ch/sprot/) Checagem manual.
O número de entradas errôneas é bastante reduzido.
Cross-link extensivo com outros bancos SwissProt é o ‘gold-standard’ em termos
de bancos de dados e é o melhor lugar para se começar uma análise se vc procura info para uma ou poucas
Protein Data Bank – PDB (http://www.rcsb.org/pdb/)
Armazena a estrutura tri-dimensional para milhares de proteínas
Acesso a vários serviços relacionados a biologia estrutural
Bancos de Sequência Primários
GenBank (USA) http://www.ncbi.nlm.nih.gov/Genbank
EMBL (Europa) http://www.ebi.ac.uk/embl/
DDBJ (Japão)http://www.ddbj.nig.ac.jp/
Homologia
- Ortologia
- Paralogia
Dois conceitos importantes
Paralogia: O evento que originou às duas sequências é um evento de duplicação gênica!
Orthologia: O evento que deu origem às duas sequências é um evento de especiação!
FUNÇÕES SIMILARES!
FUNÇÕES IDÊNTICAS!
Como definir função?
Alinhamento de sequências Motivos (padrões consensuais) Blocos, perfis, etc.... Hidden Markov Models - HMM
Similarity Searches on Sequence Databases, EMBnet Course, October 2003
Alinhamento
Identidade - MATCH
Semelhança / divergência - MISMATCH
Lacunas - GAPS
Inserção/Deleção - INDELS
0 1 2 3 4 5 6 7 8 9 10G A A - G G A T T A GG A T C G G A - - A G
Alinhamento
Qual é o melhor alinhamento ?
Alinhamento 1:A – C – G G – A C T
| | | - | | A T C G G A T – C T
Alinhamento 2: A T C G G A T C T | | | | - | |
A – C G G – A C T
Pontuação
Esquema de pontuação
match: +2 mismatch: +1
indel: –2
Alinhamento 1: (5 *2) + (1*1) + (4*-2) = 10 + 1 – 8 = 3
Alinhamento 2: (6 *2) + (1*1) + (2*-2) = 12 + 1 – 4 = 9
Escore final = soma dos escores para cada posiçãoFavorece os matches, penaliza os gaps
Matriz de Substituição
Tabela de comparação
Reflete a probabilidade ou frequência de determinada substituição em sequências biologicamente relacionadas
p(A B) = p(B A)
Construídas pelo estudo do alinhamento de diversas sequências relacionadas
AA ou nucleotídeos
Percent Accepted Mutation (PAM - Dayhoff)
Margaret Dayhoff (1978)
Probabilidade de substituição de aa em alinhamentos globais de sequências homólogas
Cada matriz reflete as mutações entre sequências que divergiram por determinado período de tempo
Mutações aceitas => não afetam negativamente a viabilidade da proteína
Primeira matriz 71 grupos de proteínas, 85% de similaridade 1572 substitutições de aminoácidos
Expansão do número de proteínas => 1991 database
Premissa => cada mutação é independente das mutações anteriores
Consequência => as substituições observadas em curtos períodos podem ser extrapoladas para longos períodos
PAM 1 => sequências com 1% ou menos de divergência =>1 mutação aceita a cada 100 aminoácidos
PAM N mutações = (PAM 1)N
PAM 250 => 250 mutações por 100 aa => 250% mutações em 2500 milhões anos
PAM 250: 20% similar - PAM 120: 40% - PAM 80: 50% - PAM 60: 60%
Matrizes PAM
http://www.blc.arizona.edu/courses/bioinformatics/dayhoff.html
Blocks Substitution Matrix (BLOSUM)
Kenikoff & Henikoff (1992)
Frequência de substituição de aa em um conjunto de ~2000 padrões (blocos)
Maior número de sequências consideradas => mais de 500 famílias
Alinhamentos locais de sequências relacionadas e não geradas a partir de extrapolações
BLOSUM 62 é o padrão para BLAST 2.0 => sequências moderadamente distantes ou mais próximas
Sequências Consenso 60% idênticas: BLOSUM 60 80% idênticas : BLOSUM 80
http://www.blc.arizona.edu/courses/bioinformatics/blosum.html
G A V C T K IG V V C Y R E
6+0+4+9+(-2)+2+(-3)= 16
http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Scoring2.html
Relação ente BLOSUM e PAM
PAM => origens evolutivas de proteínas
BLOSUM => domínios conservados
Global vs. Local
Global Alinhamento de toda a sequência utilizado o maior
número de caracteres possíveis Sequências similares e de tamanho aproximado
Local Segmentos com o maior número de identidades Regiões alinhadas e não alinhadas (≠ mismatch) Sequências similares em algumas regiões, que diferem
em tamanho ou que compartilham domínios conservados
Aplicações
Global Deduzir histórias evolutivas entre membros da mesma família Estabelecer a existência de um ancestral comum (homologia)
Local Inferir funções biológicas Identificar regiões conservadas e de alta similaridade (sítio
ativo, domínios) entre outras pouco conservadas Reconstruir sequências de DNA a partir de seus fragmentos Comparar sequências de mRNA (sem íntrons) à sequência
genômica
Métodos de Análise
Diagramas - DOT PLOT
Algoritmo de Programação Dinâmica
Algoritmos Heurísticos - Word-Based ou K-tuples
Dot Plot
Inserções & Deleções
Repetições & Inversões
Programas Disponíveis
Dotter (http://www.cgr.ki.se/cgr/groups/sonnhammer/Dotter.html)
COMPARE & DOTPLOT (Genetics Computer Group)
PLALIGN (http://fasta.bioch.virginia.edu/fasta/fasta_list.html)
Web browser (http://www.isrec.isb-sib.ch/java/dotlet/Dotlet.html)
Programação Dinâmica
Needleman & Wunsch (1970)
Compara cada par de caracteres nas duas sequências
Posiciona os gaps de forma a obter o maior número de alinhamentos idênticos ou similares
Gera uma matriz de números que representa todos os possíveis alinhamentos de acordo com um sistema de escore
Alinhamento ótimo => maior escore
Limitações
Computacionalmente lento
Número de alinhamentos cresce exponencialmente com a média dos comprimentos das sequências (n)
Número de cálculos => proporcional a n2 ou n3
Memória => capacidade da ordem de n2
Needleman-WunschAs sequências abcdefghajklm abbdhijkSão alinhadas e scores são dados a b c d e f g h a j k l m | | | | | | a b b d . . . h i j k match 4 4 4 4 4 4 mismatch -3 -3 gap_open -2 gap_extend -1-1-1Score total de 24-6-2-3 = 13.
Needleman-Wunsch
O alinhamento de maior score entre as duassequências é considerado o mais provável.
Global: HBA_HUMAN vs HBB_HUMANScore: 290.50
HBA_HUMAN 1 VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFP 44 |:| :|: | | |||| : | | ||| |: : :| |: :|HBB_HUMAN 1 VHLTPEEKSAVTALWGKV..NVDEVGGEALGRLLVVYPWTQRFFE 43
HBA_HUMAN 45 HF.DLS.....HGSAQVKGHGKKVADALTNAVAHVDDMPNALSAL 83 | ||| |: :|| ||||| | :: :||:|:: : |HBB_HUMAN 44 SFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATL 88
HBA_HUMAN 84 SDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKF 128 |:|| || ||| ||:|| : |: || | |||| | |: |HBB_HUMAN 89 SELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKV 133
HBA_HUMAN 129 LASVSTVLTSKYR 141 :| |: | ||HBB_HUMAN 134 VAGVANALAHKYH 146
%id = 45.32 %similarity = 63.31Overall %id = 43.15 Overall %similarity = 60.27
Needleman-WunschSaída típica:
Razões para se usar um banco de sequências
Eu acabei de obter uma sequência. O que é sabido à respeito desta sequência? Ela é única?
Eu tenho uma sequência única. Ela tem similaridade com alguma outra sequência de função conhecida?
Eu encontrei uma nova proteína em um determinado organismo. Existe um ortólogo conhecido?
Eu decidi trabalhar com um gene novo. Eu não tenho como obter um clone contendo a sequência deste gene. Eu preciso da sequência do cDNA para fazer uma PCR.
O que envolve uma busca ?
Algoritmos de busca (BLAST, FASTA)
Matrizes de comparação (PAM vs. BLOSUM)
Banco de dados (nr, dbEST)
Parâmetros de busca (filtros on/off, threshold, etc…)
Basic Local Alignment Search Tool
Método heurístico => método empírico, que utiliza a fórmula ´tentativa e erro´ para encontrar as soluções
Significado estatístico => determina se um alinhamento ocorre aleatoriamente ou não
Vantagem => pelo menos 50 vezes mais rápido que os algoritmos de programação dinâmica e mais apropriados para busca em bancos de dados
Desvantagem => não garante uma solução com um alinhamento ótimo como os algoritmos de programação dinâmica
Aplicações
Identificar sequências ortólogas e parálogas
Descobrir novos genes ou proteínas
Descobrir variantes de genes e proteínas
Investigar Expressed Sequence Tags - ESTs
Explorar a estrutura e função de proteínas
BLAST WEB Pages
BLAST (NCBI – National Center for Biotechnology Information): http://www.ncbi.nlm.nih.gov/BLAST/
BLAST2 (Swiss EMBnet server - European Molecular Biology network??): http://www.ebi.ac.uk/blastall/
WU-BLAST (Washington University): http://blast.wustl.edu/
Blast é Heurístico
1) Tabela de busca com todas as ´palavras´ (words) de comprimento W (3 aa ou11 nucleot.) mais as palavras vizinhas semelhantes, que aparecem pelo menos T vezes na sequência query.
2) Busca de sementes (hits, hot spots) na sequência do banco de dados que alinhem com as palavras previamente estabelecidas.
3) Extensão das sementes em ambas as direções, produzindo alinhamentos locais máximos (HSP - high scoring pair) com ou sem lacunas, de acordo com os parâmetros estabelecidos.
4) Registro da informação em um arquivo SeqAlign (ASN.1).
5) A informação é utilizada para buscar sequências similares. Os resultados podem ser reformatados sem a necessidade de refazer a busca.
Sensibilidade vs. Seletividade
Sensibilidade
Habilidade de encontrar a maior parte dos membros relacionados à família da sequência query
Seletividade
Habilidade de não identificar sequências de outras famílias como falso-positivos
“Grau de cobertura dos membros da família dado um nível de falso-positivos”
Escores e Estatística
Bit Score
Indica quão bom é o alinhamento. Quanto maior o escore, melhor o alinhamento
Considera o número de resíduos idênticos ou similares e a quantidade de gaps
Influenciado pela Matriz de Substituição (padrão: BLOSUM 62 )
Exceção: blastn and MegaBLAST
Normalização: bit scores de diferentes alinhamentos podem ser comparados
Escores e Estatística
E-value
Significado estatístico do alinhamento
Quanto menor o escore, mais significativo é o alinhamento
E-value = 0.05. Significa que existem 5 chances em 100 (1 em 20) da similaridade entre as sequências ocorrer aleatoriamente
Influenciado pelo tamanho do banco de dados e o sistema de escore utilizado
Etapas de Busca
1) Selecionar a sequência (query)
2) Selecionar o banco de dados
3) Selecionar o programa
4) Definir os parâmetros
Passo 1: Escolha da sequência
Natureza
Tamanho
Formatos : Identificadores (ID), FASTA (>seq name), sequências puras (txt?)
Passo 2: Seleção do Banco de Dados
ProteínasGenBank, PDB, SWISSPROT, PIR, REPBASE68 e BDGP
NucleotídeosGenBank, EMBL, DDBJ, PDB, REPBASE, BDGP, EST69, STS70, vetores,
sequências de mitocôndrias, GSS71, sequências HTGS72
Conteúdo não-redundância, periodicidade de atualização organismos ou espécies sequências patenteadas interesse imunológico elementos repetitivos, etc.
http://www.ncbi.nlm.nih.gov/blast/BLAST_guide.pdf
Passo 3: Seleção do Programa
Natureza da sequência
Finalidade da busca
Banco de dados
5’ CAT CAA 5’ ATC AAC 5’ TCA ACT
5’ GTG GGT 5’ TGG GTA 5’ GGG TAG
5’ CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3’3’ GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5’
DNA codifica 6 proteínas potenciais
programa entrada banco de dados
1blastn DNA DNA
1blastp protein protein
6blastx DNA protein
6tblastn protein DNA
36tblastx DNA DNA
Tipos de Programas
Passo 4: Seleção dos parâmetros
Tamanho da palavra (w-er) Filtros E value Matriz de substituição & penalidades para gap
Sensibilidade e velocidade => W, T e XSeletividade => cutoff score
Entrez
Filter
Scoring matrix
Word size
Expectorganism
Filtro
Report Header
Tipo de programa (BLASTP), versão (2.2.1) e data da versão Artigo que descreve o BLAST, request ID (issued by QBLAST), a definição
da sequência e resumo do banco de dados Taxonomy reports: mostra o resultado deste BLAST na base de informação
do banco de dados Taxonomy
Taxonomy Report
Graphical Overview
Quanto mais próximas da query, mais semelhantes Barras em rosa: lower-scoring matches que alinham em 2 regiões (resíduos
3-60 e 220-500) Segmento rachurado: as duas regiões de similaridade estão na mesma
proteína mas esta região não alinha Outras barras: lower-scoring matches
query
database hits
One-line Descriptions
(a) gi number, designação do banco de dados, número de acesso e o nome do locus para as sequências encontradas, separados por barras verticais
(b) Definição da sequência(c) Escore de alinhamento ( bits) (d) E-value
Pairwise Sequence Alignment
Famílias de Elementos Repetitivos
Alu L1 L2 Tais sequências podem gerar
alinhamentos espúrios.
Alu
Constitutes about 5% of the human genome.
Short interspersed repeats. Found in primate genomes. ALU elements often found in 3’ regions or
introns.
Blast usando uma sequência de Alu
Como identificar e remover elementos repetitivos
Filter para elementos repetitivos no servidor de Blast do NCBI
Repeat Masker: http://ftp.genome.washington.edu/cgi-bin/RepeatMasker
Nair & Rost, 2002
Way out!
- psi-Blast
- pattern (phi-Blast)
- Hidden Markov Models (HMMs)
Position Specific Interactive (PSI)-BLAST
Detecta proteínas fracamente relacionadas ou novos membros de uma família protéica (mais sensível)
Utilizado quando o BLAST padrão falha em encontrar hits significativos ou retorna hits com decrições do tipo "hypothetical protein" ou "similar to... "
Busca iterativa => comparam-se as sequências de alto escore com a sequência de busca para determinar quais delas são altamente conservadas
Sequências resultantes => construção de um modelo de escore específico por posição (consenso) => Position-Specific Scoring Matrix (PSSM ou profile)
PSI-BLAST - Algoritmo
Busca com BLASTp normal
Construção de um consenso a partir das regiões alinhadas com E values menores que o limite estabelecido (padrão = 0.005)
Utilizando este consenso, procede a uma nova pesquisa sobre a base de dados
Quaisquer novos hits abaixo do limite são incluídos em um novo PSSM
Fim do processo (convergência) : nenhuma nova sequência é
adicionada ao consenso em iterações subsequentes
Pattern-Hit Initiated (PHI)-BLAST
Busca proteínas que contém padrão especificado pelo usuário E é similar à sequência query em relação in the vicinity ao padrão
Reduz o número de hits que contém o padrão no banco de dados mas pode também apresentar nenhuma homologia ao query
Exemplo de sequência query e um padrão no formato ProSite:
>gi|4758958|ref|NP_004148.1| Human cAMP-dependent protein kinaseMSHIQIPPGLTELLQGYTVEVLRQQPPDLVEFAVEYFTRLREARAPASVLPAATPRQSLGHPPPEPGPDRVADAKGDSESEEDEDLEVPVPSRFNRRVSVCAETYNPDEEEEDTDPRVIHPKTDEQRCRLQEACKDILLFKNLDQEQLSQVLDAMFERIVKADEHVIDQGDDGDNFYVIERGTYDILVTKDNQTRSVGQYDNRGSFGELALMYNTPRAATIVATSEGSLWGLDRVTFRRIIVKNNAKKRKMFESFIESVPLLKSLEVSERMKIVDVIGEKIYKDGERIITQGEKADSFYIIESGEVSILIRSRTKSNKDGGNQEVEIARCHKGQYFGELALVTNKPRAASAYAVGDVKCLVMDVQAFERLLGPCMDIMKRNISHYEEQLVKMFGSSVDLGNLGQ
Padrão encontrado: [LIVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ]-A-x-[LIVMA]-x-[STACV]
Hidden Markov Models
An approach based on statistical sampling theory
Previously used with success for natural language processing
Model sequence as a Markov model that is not known (hidden)
Observed sequence is a noisy representation of the hidden “true” model
A HMM for a DNA sequence
CA CT
T (prob 0.8) or A (prob 0.2)
A (prob 0.7) or T (prob 0.3)
G (prob 0.1) or C (prob 0.9)
G (prob 0.1) or C (prob 0.9)
Idea of HMM
Since multiple alignment of k sequences take O(Nk) time, instead estimate a statistical model of the sequences
Align the multiple sequences to this model This is equivalent to aligning the
sequences to one another
Protein Family Classification
Pfam large collection of multiple sequence
alignments and hidden Markov models covers many common protein domains
and familiesOver 73% of all known protein sequences
have at least one match5,193 different protein families
Pfam
Initial multiple alignment of seeds using a program such as Clustal
Alignment hand scrutinized and adjusted
Pfam
Links to the Pfam software: http://pfam.wustl.edu/ http://www.sanger.ac.uk/Software/Pfam/index.shtml
View some examples:
http://pfam.wustl.edu/
Locating ORFs
Simplest method of predicting coding regions is to search for open reading frames (ORFs)
open reading frames begin with a start (AUG) codon, and ends with one of three stop codons
Six total reading frames
Locating ORFs
Prokaryotes: DNA sequences coding for proteins generally transcribed into mRNA which is translated into protein with very little modification
Locating an open reading frame from a start codon to a stop codon can give a strong suggestion into protein coding regions
Longer ORFs are more likely to predict protein-coding regions than shorter ORFs.
Locating ORFs
Eukaryotes: mRNA undergoes processing to remove introns before the protein is translated
ORF corresponding to a gene may contain regions with stop codons found within intronic regions
Posttranscriptional modification makes gene prediction more difficult
Filogenia
Problema de determinação de árvores filogenéticasEncontrar a árvore que melhor descreve a
relação entre um conjunto de objetos (espécies ou táxons)
Cenoura Baleia Chimpanzé Humano
Filogenia
Táxons e Complexidade3 árvores possíveis para 4 táxons Para 5 táxons?
Filogenia
Táxons e Explosão Combinatorial
Métodos para reconstrução filogenética
03 métodos principais: :ParsimôniaMétodos baseados em distânciaVerossimilhança máxima
Parsimônia
Dá preferência à topologia que requer o menor número de mudanças .
Filogenia
Métodos de DistânciaA distância evolutiva é calculada para todos
os pares de táxonsMatriz de DistânciasA árvore filogenética é construída
considerando a relação entre esses valores de distâncias
O método de evolução mínima
Para todas as topologias possíveis : Calcula o comprimento de todos os ramos, S
Mantém a árvore com menos S.
Problema: computacionalmente intenso. Não é usado com mais de 25 sequências.
Filogenia Métodos com Critério de Ótimo
Máxima Verossimilhança Determina-se a probabilidade de um modelo evolutivo
gerar um certo dado Considera todos os sítios e todas as possibilidades
de mutações em todos os nós internos da árvore proposta
Multiplica-se a probabilidade de cada sítio Probabilidade da árvore
Pode ser utilizado para análises de características e de valores
Mais consistente e com estimativas com menor variância Não é simples e intuitivo Computacionalmente intenso
Bootstrap procedure
O suporte para cada ramo interno é expresso em
termos the % de réplicas.
1 N acgtacatagtatagcgtctagtggtaccgtatg aggtacatagtatgg-gtatactggtaccgtatg acgtaaat-gtatagagtctaatggtac-gtatg acgtacatggtatagcgactactggtaccgtatg
real alignment
random sampling, with replacement, of N sites
1 N gatcagtcatgtataggtctagtggtacgtatat tgagagtcatgtatggtgtatactggtacgtaat tgac-gtaatgtataggtctaatggtactgtaat tgacggtcatgtataggactactggtacgtatat
“artificial” alignments
} 1000 times
tree-building method
same tree-building method
tree = series of internal branches
“artificial” trees
for each internal branch, compute
fraction of “artificial” trees containing this
internal branch
"bootstrapped” tree
Xenopus
Homo
Bos
Mus
Rattus
Gallus0.02
97
91
46
Bootstrap
Ramos internos suportados por ≥ 90% das réplicas são considerados estatisticamente significativos.
O procedimento de bootstrap não define se um programa é bom. Uma árvore errada pode ter 100% de suporte de bootstrap em seus ramos internos.
distance < parsimony ~ PHYML << Bayesian < classical MLdistance < parsimony ~ PHYML << Bayesian < classical ML NJ DNAPARS PHYML MrBayes fastDNAml,PAUPNJ DNAPARS PHYML MrBayes fastDNAml,PAUP
Tempo de processamento para vários programasTempo de processamento para vários programas
Compilações Uma lista de web sites
http://www.ucmp.berkeley.edu/subway/phylogen.html
Uma lista grande de programashttp://evolution.genetics.washington.edu/
phylip/software.html
Recursos de Web para filogenia
Editor de alinhamento SEAVIEW : para windows e unix
http://pbil.univ-lyon1.fr/software/seaview.html
Programas para filogenia molecular PHYLIP :
http://evolution.genetics.washington.edu/phylip.html PAUP :
http://paup.csit.fsu.edu/index.html PHYLO_WIN :
http://pbil.univ-lyon1.fr/software/phylowin.html MrBayes : http://morphbank.ebc.uu.se/mrbayes/ PHYML : http://www.lirmm.fr/~guindon/phyml.htm
Recursos de Web para filogenia
Recursos de Web para filogenia
Desenho de árvoresNJPLOT (para todas as plataformas)http://pbil.univ-lyon1.fr/software/njplot.html
Aulas de filogeniahttp://www.bioinf.org/molsys/lectures.html
Ontologia
Fornecer um vocabulário estruturadoe controlado para representar
o conhecimento biológico nos bancos de dados.for the
Gene Onthology (GO)
Biological Process
Objetivo dentro da célula, tecido…
Molecular Function
Função básica ou tarefa
Cellular Component
Compartimento ou complexo
Busca com a palavra “collagenase”
•molecular function 7422 termos•biological process 8972 termos•cellular component 1472 termos
•all 17,866 terms
Conteúdo do GO