BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

BIOLOGIA/MEDICINA

A Revolução daGenômica/Bioinformática

A Verdadeira Revolução

Início do séc. 20: Mendel e as leis da hereditariedade.

1944: DNA como elemento carreador da informação genética (Avery)

1953: Watson/Crick e aestrutura do DNA.

Anos 70 e 80: Biologia Molecular/Biotecnologia

Anos 90 e séc. 21: Genômica/Bioinformática

História da Biologia Molecular

1951 Fred Sanger, Amino Acid Sequence of Insulin 1953 Watson/Crick, Estrutura do DNA 1957 Francis Crick, Central Dogma, DNA RNA Protein 1960’s Nirenberg, Matthaei, The Genetic Code 1967 Shapiro and Beckwith, First gene cloned, LacZ 1972 Paul Berg, First recombinant DNA molecule 1973 Cohen/Boyer, First recombinant organism 1977 Maxam/Gilbert and Fred Sanger, DNA sequencing 1977 Fred Sanger, Complete sequence of phage X174 1978 David Botstein, Restriction Fragment Length

Polymorphisms (RFLP) 1980 Kerry Mullis, PCR 1983 Lee Hood, First Automated DNA Sequencer

Sequenciamentodo DNASanger, Gilbert (Nobel 1980)

Sequenciamento Automático

Leroy Hood

30kb por corrida

A era genômica

376 Genomas Concluídos! 251 como rascunho! 342 em andamento

1995, Haemophilus influenzae 1996, Methanococcus jannaschii 1997, Saccharomyces cerevisiae 1997, Escherichia coli 1998, Caenorhabditis elegans 2000, Drosophila melanogaster 2000, Arabidopsis thaliana 2001, Homo sapiens 2002, Schizosaccharomyces

pombe 2002, Oryza sativa 2002, Mus musculus 2005, Pan troglodites

327 Bacterial, 27 Archeal, 22 Eukaryotic

http://www.ncbi.nlm.nih.gov09/07/2006

Um modelo genético

Genoma Humano2001

International Consortium Grupos acadêmicos

Celera Genomics Companhia Privada

A nova revolução da Genômica

454 Solexa - Illumina SOLiD - ABI

~120 MB de DNApor corrida

~01 GB de DNApor corrida

~03 GB de DNApor corrida

12KB/US$ 100KB/US$ 300KB/US$

Tecnologia de Capilar = 0.5KB/US$

Nova tecnologia

Dispensa clonagem dos fragmentos em sistemas bacterianos

Dispensa a preparação de DNA molde para sequenciamento

Reações feitas em paralelo em volume extremamente pequeno - nanotecnologia

Aplicações

Sequenciamento de Genomas sequenciamento de novo re-sequenciamento - variabilidade SNPs e

mutações

Sequenciamento de Transcriptomas variabilidade - splicing, poliadenilação quantificação de expressão gênica

Sequenciamento de novo

Re-sequenciamento

Transcriptoma

Projeto 454

Participantes: LICR-SP, LICR-NY, Venter Institute

Objetivo: Sequenciamento extensivo dos genes expressos na linhagem celular HCC1954 (tumor de mama) buscando conhecer, com um único set de dados, alterações genéticas e epi-genéticas neste tipo de câncer.

Sequenciador: 454

Fapesp/LICRGenoma Humano do Câncer Projeto 454 Venter/LICR

# sequências 1.2 milhões 520 mil

# sequenciadores 05 MegaBaces 01 454

# corridas ~15,000 01

Custo (US$)* 12 milhões 10 mil

* Excluindo o preço dos aparelhos

Um objetivo a curto prazo

Os sequenciadores de nova geraçãopromovem uma mudança no

paradigma

Com os bilhões de datapoints gerados em

horas, o processamento e análise dos dados tornou-se o maior

gargalo das pesquisas biomédicas.

Geração de dados deixa de ser o fator limitante

Bioinformática

Computação Matemática Biologia

O que é Bioinformática?

Bioinformática - História

1970, Needleman/Wunch, Alinhamento Global. 1972, Margaret Dayhoff, Matrizes de

Comparação. 1979, Walter Goad, GenBank. 1981, Smith/Waterman, Alinhamento Local. 1989, NHGRI, Projeto Genoma Humano. 1990, Altschul/Gish/Miller/Myers/Lipman, BLAST. 1994, Eddy/Krogh/Durbin, Hidden Markov

Models (HMMs).

Bioinformática - Importância

Poucas pessoas adequadamente treinadas em Biologia e Computação.

Biologia em larga-escala. Produção de dados em massa gera uma demanda para análises computacionais.

Economiza tempo e dinheiro.

Bioinformática

Desenvolvimento de ferramentas. Forma de explorar novos dados. Processamento de dados gerados por

projetos em larga-escala. Uma nova forma de se fazer ciência

dirigida por hipóteses.

Bioinformática

O Bioinformata O Usuário- Manipula a informação.- Desenvolve ferramentas- Bancos de dados locais.- Local. - Mta programação.- Habilidades de TI.

- Recursos da Web.- Local ou remoto.- nada de programação.- pouca habilidade de TI.

Cinco websites que todos devem conhecer

NCBI (The National Center for Biotechnology Information; http://www.ncbi.nlm.nih.gov/

EBI (The European Bioinformatics Institute) http://www.ebi.ac.uk/

The UCSC Genome Browser http://genome.ucsc.edu/

SwissProt/ExPASy (Swiss Bioinformatics Resource) http://expasy.cbr.nrc.ca/sprot/

PDB (The Protein Databank) http://www.rcsb.org/PDB/

NCBI (http://www.ncbi.nlm.nih.gov/)

Acesso aos bancos de dados via EntrezMedline/OMIMGenbank/Genpept/Structures

Servidor de BLASTTodos os tipos de Blast

Portal do Genoma Humano Muito, muito mais……..

EBI (http://www.ebi.ac.uk/)

Acesso a bancos de dados via SRSEMBL, SwissProt, ……

Muitas outras ferramentasClustalW, DALI, …

UCSC Genome Browser (http://genome.ucsc.edu/) Banco de dados e Browser para genomas

de diferentes espéciesHumano, camundongo, rato, zebrafish, etc….

Muitas outras ferramentasSNPs, domínios prtéicos, genômica

comparativa, etc….

SwissProt (http://www.expasy.ch/sprot/) Checagem manual.

O número de entradas errôneas é bastante reduzido.

Cross-link extensivo com outros bancos SwissProt é o ‘gold-standard’ em termos

de bancos de dados e é o melhor lugar para se começar uma análise se vc procura info para uma ou poucas

Protein Data Bank – PDB (http://www.rcsb.org/pdb/)

Armazena a estrutura tri-dimensional para milhares de proteínas

Acesso a vários serviços relacionados a biologia estrutural

Bancos de Sequência Primários

GenBank (USA) http://www.ncbi.nlm.nih.gov/Genbank

EMBL (Europa) http://www.ebi.ac.uk/embl/

DDBJ (Japão)http://www.ddbj.nig.ac.jp/

Homologia

- Ortologia

- Paralogia

Dois conceitos importantes

Paralogia: O evento que originou às duas sequências é um evento de duplicação gênica!

Orthologia: O evento que deu origem às duas sequências é um evento de especiação!

FUNÇÕES SIMILARES!

FUNÇÕES IDÊNTICAS!

Como definir função?

Alinhamento de sequências Motivos (padrões consensuais) Blocos, perfis, etc.... Hidden Markov Models - HMM

Similarity Searches on Sequence Databases, EMBnet Course, October 2003

Alinhamento

Identidade - MATCH

Semelhança / divergência - MISMATCH

Lacunas - GAPS

Inserção/Deleção - INDELS

0 1 2 3 4 5 6 7 8 9 10G A A - G G A T T A GG A T C G G A - - A G

Alinhamento

Qual é o melhor alinhamento ?

Alinhamento 1:A – C – G G – A C T

| | | - | | A T C G G A T – C T

Alinhamento 2: A T C G G A T C T | | | | - | |

A – C G G – A C T

Pontuação

Esquema de pontuação

match: +2 mismatch: +1

indel: –2

Alinhamento 1: (5 *2) + (1*1) + (4*-2) = 10 + 1 – 8 = 3

Alinhamento 2: (6 *2) + (1*1) + (2*-2) = 12 + 1 – 4 = 9

Escore final = soma dos escores para cada posiçãoFavorece os matches, penaliza os gaps

Matriz de Substituição

Tabela de comparação

Reflete a probabilidade ou frequência de determinada substituição em sequências biologicamente relacionadas

p(A B) = p(B A)

Construídas pelo estudo do alinhamento de diversas sequências relacionadas

AA ou nucleotídeos

Percent Accepted Mutation (PAM - Dayhoff)

Margaret Dayhoff (1978)

Probabilidade de substituição de aa em alinhamentos globais de sequências homólogas

Cada matriz reflete as mutações entre sequências que divergiram por determinado período de tempo

Mutações aceitas => não afetam negativamente a viabilidade da proteína

Primeira matriz 71 grupos de proteínas, 85% de similaridade 1572 substitutições de aminoácidos

Expansão do número de proteínas => 1991 database

Premissa => cada mutação é independente das mutações anteriores

Consequência => as substituições observadas em curtos períodos podem ser extrapoladas para longos períodos

PAM 1 => sequências com 1% ou menos de divergência =>1 mutação aceita a cada 100 aminoácidos

PAM N mutações = (PAM 1)N

PAM 250 => 250 mutações por 100 aa => 250% mutações em 2500 milhões anos

PAM 250: 20% similar - PAM 120: 40% - PAM 80: 50% - PAM 60: 60%

Matrizes PAM

http://www.blc.arizona.edu/courses/bioinformatics/dayhoff.html

Blocks Substitution Matrix (BLOSUM)

Kenikoff & Henikoff (1992)

Frequência de substituição de aa em um conjunto de ~2000 padrões (blocos)

Maior número de sequências consideradas => mais de 500 famílias

Alinhamentos locais de sequências relacionadas e não geradas a partir de extrapolações

BLOSUM 62 é o padrão para BLAST 2.0 => sequências moderadamente distantes ou mais próximas

Sequências Consenso 60% idênticas: BLOSUM 60 80% idênticas : BLOSUM 80

http://www.blc.arizona.edu/courses/bioinformatics/blosum.html

G A V C T K IG V V C Y R E

6+0+4+9+(-2)+2+(-3)= 16

http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Scoring2.html

Relação ente BLOSUM e PAM

PAM => origens evolutivas de proteínas

BLOSUM => domínios conservados

Global vs. Local

Global Alinhamento de toda a sequência utilizado o maior

número de caracteres possíveis Sequências similares e de tamanho aproximado

Local Segmentos com o maior número de identidades Regiões alinhadas e não alinhadas (≠ mismatch) Sequências similares em algumas regiões, que diferem

em tamanho ou que compartilham domínios conservados

Aplicações

Global Deduzir histórias evolutivas entre membros da mesma família Estabelecer a existência de um ancestral comum (homologia)

Local Inferir funções biológicas Identificar regiões conservadas e de alta similaridade (sítio

ativo, domínios) entre outras pouco conservadas Reconstruir sequências de DNA a partir de seus fragmentos Comparar sequências de mRNA (sem íntrons) à sequência

genômica

Métodos de Análise

Diagramas - DOT PLOT

Algoritmo de Programação Dinâmica

Algoritmos Heurísticos - Word-Based ou K-tuples

Dot Plot

Inserções & Deleções

Repetições & Inversões

Programas Disponíveis

Dotter (http://www.cgr.ki.se/cgr/groups/sonnhammer/Dotter.html)

COMPARE & DOTPLOT (Genetics Computer Group)

PLALIGN (http://fasta.bioch.virginia.edu/fasta/fasta_list.html)

Web browser (http://www.isrec.isb-sib.ch/java/dotlet/Dotlet.html)

Programação Dinâmica

Needleman & Wunsch (1970)

Compara cada par de caracteres nas duas sequências

Posiciona os gaps de forma a obter o maior número de alinhamentos idênticos ou similares

Gera uma matriz de números que representa todos os possíveis alinhamentos de acordo com um sistema de escore

Alinhamento ótimo => maior escore

Limitações

Computacionalmente lento

Número de alinhamentos cresce exponencialmente com a média dos comprimentos das sequências (n)

Número de cálculos => proporcional a n2 ou n3

Memória => capacidade da ordem de n2

Needleman-WunschAs sequências abcdefghajklm abbdhijkSão alinhadas e scores são dados a b c d e f g h a j k l m | | | | | | a b b d . . . h i j k match 4 4 4 4 4 4 mismatch -3 -3 gap_open -2 gap_extend -1-1-1Score total de 24-6-2-3 = 13.

Needleman-Wunsch

O alinhamento de maior score entre as duassequências é considerado o mais provável.

Global: HBA_HUMAN vs HBB_HUMANScore: 290.50

HBA_HUMAN 1 VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFP 44 |:| :|: | | |||| : | | ||| |: : :| |: :|HBB_HUMAN 1 VHLTPEEKSAVTALWGKV..NVDEVGGEALGRLLVVYPWTQRFFE 43

HBA_HUMAN 45 HF.DLS.....HGSAQVKGHGKKVADALTNAVAHVDDMPNALSAL 83 | ||| |: :|| ||||| | :: :||:|:: : |HBB_HUMAN 44 SFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATL 88

HBA_HUMAN 84 SDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKF 128 |:|| || ||| ||:|| : |: || | |||| | |: |HBB_HUMAN 89 SELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKV 133

HBA_HUMAN 129 LASVSTVLTSKYR 141 :| |: | ||HBB_HUMAN 134 VAGVANALAHKYH 146

%id = 45.32 %similarity = 63.31Overall %id = 43.15 Overall %similarity = 60.27

Needleman-WunschSaída típica:

Razões para se usar um banco de sequências

Eu acabei de obter uma sequência. O que é sabido à respeito desta sequência? Ela é única?

Eu tenho uma sequência única. Ela tem similaridade com alguma outra sequência de função conhecida?

Eu encontrei uma nova proteína em um determinado organismo. Existe um ortólogo conhecido?

Eu decidi trabalhar com um gene novo. Eu não tenho como obter um clone contendo a sequência deste gene. Eu preciso da sequência do cDNA para fazer uma PCR.

O que envolve uma busca ?

Algoritmos de busca (BLAST, FASTA)

Matrizes de comparação (PAM vs. BLOSUM)

Banco de dados (nr, dbEST)

Parâmetros de busca (filtros on/off, threshold, etc…)

Basic Local Alignment Search Tool

Método heurístico => método empírico, que utiliza a fórmula ´tentativa e erro´ para encontrar as soluções

Significado estatístico => determina se um alinhamento ocorre aleatoriamente ou não

Vantagem => pelo menos 50 vezes mais rápido que os algoritmos de programação dinâmica e mais apropriados para busca em bancos de dados

Desvantagem => não garante uma solução com um alinhamento ótimo como os algoritmos de programação dinâmica

Aplicações

Identificar sequências ortólogas e parálogas

Descobrir novos genes ou proteínas

Descobrir variantes de genes e proteínas

Investigar Expressed Sequence Tags - ESTs

Explorar a estrutura e função de proteínas

BLAST WEB Pages

BLAST (NCBI – National Center for Biotechnology Information): http://www.ncbi.nlm.nih.gov/BLAST/

BLAST2 (Swiss EMBnet server - European Molecular Biology network??): http://www.ebi.ac.uk/blastall/

WU-BLAST (Washington University): http://blast.wustl.edu/

Blast é Heurístico

1) Tabela de busca com todas as ´palavras´ (words) de comprimento W (3 aa ou11 nucleot.) mais as palavras vizinhas semelhantes, que aparecem pelo menos T vezes na sequência query.

2) Busca de sementes (hits, hot spots) na sequência do banco de dados que alinhem com as palavras previamente estabelecidas.

3) Extensão das sementes em ambas as direções, produzindo alinhamentos locais máximos (HSP - high scoring pair) com ou sem lacunas, de acordo com os parâmetros estabelecidos.

4) Registro da informação em um arquivo SeqAlign (ASN.1).

5) A informação é utilizada para buscar sequências similares. Os resultados podem ser reformatados sem a necessidade de refazer a busca.

Sensibilidade vs. Seletividade

Sensibilidade

Habilidade de encontrar a maior parte dos membros relacionados à família da sequência query

Seletividade

Habilidade de não identificar sequências de outras famílias como falso-positivos

“Grau de cobertura dos membros da família dado um nível de falso-positivos”

Escores e Estatística

Bit Score

Indica quão bom é o alinhamento. Quanto maior o escore, melhor o alinhamento

Considera o número de resíduos idênticos ou similares e a quantidade de gaps

Influenciado pela Matriz de Substituição (padrão: BLOSUM 62 )

Exceção: blastn and MegaBLAST

Normalização: bit scores de diferentes alinhamentos podem ser comparados

Escores e Estatística

E-value

Significado estatístico do alinhamento

Quanto menor o escore, mais significativo é o alinhamento

E-value = 0.05. Significa que existem 5 chances em 100 (1 em 20) da similaridade entre as sequências ocorrer aleatoriamente

Influenciado pelo tamanho do banco de dados e o sistema de escore utilizado

Etapas de Busca

1) Selecionar a sequência (query)

2) Selecionar o banco de dados

3) Selecionar o programa

4) Definir os parâmetros

Passo 1: Escolha da sequência

Natureza

Tamanho

Formatos : Identificadores (ID), FASTA (>seq name), sequências puras (txt?)

Passo 2: Seleção do Banco de Dados

ProteínasGenBank, PDB, SWISSPROT, PIR, REPBASE68 e BDGP

NucleotídeosGenBank, EMBL, DDBJ, PDB, REPBASE, BDGP, EST69, STS70, vetores,

sequências de mitocôndrias, GSS71, sequências HTGS72

Conteúdo não-redundância, periodicidade de atualização organismos ou espécies sequências patenteadas interesse imunológico elementos repetitivos, etc.

http://www.ncbi.nlm.nih.gov/blast/BLAST_guide.pdf

Passo 3: Seleção do Programa

Natureza da sequência

Finalidade da busca

Banco de dados

5’ CAT CAA 5’ ATC AAC 5’ TCA ACT

5’ GTG GGT 5’ TGG GTA 5’ GGG TAG

5’ CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3’3’ GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5’

DNA codifica 6 proteínas potenciais

programa entrada banco de dados

1blastn DNA DNA

1blastp protein protein

6blastx DNA protein

6tblastn protein DNA

36tblastx DNA DNA

Tipos de Programas

Passo 4: Seleção dos parâmetros

Tamanho da palavra (w-er) Filtros E value Matriz de substituição & penalidades para gap

Sensibilidade e velocidade => W, T e XSeletividade => cutoff score

Entrez

Filter

Scoring matrix

Word size

Expectorganism

Filtro

Report Header

Tipo de programa (BLASTP), versão (2.2.1) e data da versão Artigo que descreve o BLAST, request ID (issued by QBLAST), a definição

da sequência e resumo do banco de dados Taxonomy reports: mostra o resultado deste BLAST na base de informação

do banco de dados Taxonomy

Taxonomy Report

Graphical Overview

Quanto mais próximas da query, mais semelhantes Barras em rosa: lower-scoring matches que alinham em 2 regiões (resíduos

3-60 e 220-500) Segmento rachurado: as duas regiões de similaridade estão na mesma

proteína mas esta região não alinha Outras barras: lower-scoring matches

query

database hits

One-line Descriptions

(a) gi number, designação do banco de dados, número de acesso e o nome do locus para as sequências encontradas, separados por barras verticais

(b) Definição da sequência(c) Escore de alinhamento ( bits) (d) E-value

Pairwise Sequence Alignment

Famílias de Elementos Repetitivos

Alu L1 L2 Tais sequências podem gerar

alinhamentos espúrios.

Alu

Constitutes about 5% of the human genome.

Short interspersed repeats. Found in primate genomes. ALU elements often found in 3’ regions or

introns.

Blast usando uma sequência de Alu

Como identificar e remover elementos repetitivos

Filter para elementos repetitivos no servidor de Blast do NCBI

Repeat Masker: http://ftp.genome.washington.edu/cgi-bin/RepeatMasker

Nair & Rost, 2002

Way out!

- psi-Blast

- pattern (phi-Blast)

- Hidden Markov Models (HMMs)

Position Specific Interactive (PSI)-BLAST

Detecta proteínas fracamente relacionadas ou novos membros de uma família protéica (mais sensível)

Utilizado quando o BLAST padrão falha em encontrar hits significativos ou retorna hits com decrições do tipo "hypothetical protein" ou "similar to... "

Busca iterativa => comparam-se as sequências de alto escore com a sequência de busca para determinar quais delas são altamente conservadas

Sequências resultantes => construção de um modelo de escore específico por posição (consenso) => Position-Specific Scoring Matrix (PSSM ou profile)

PSI-BLAST - Algoritmo

Busca com BLASTp normal

Construção de um consenso a partir das regiões alinhadas com E values menores que o limite estabelecido (padrão = 0.005)

Utilizando este consenso, procede a uma nova pesquisa sobre a base de dados

Quaisquer novos hits abaixo do limite são incluídos em um novo PSSM

Fim do processo (convergência) : nenhuma nova sequência é

adicionada ao consenso em iterações subsequentes

Pattern-Hit Initiated (PHI)-BLAST

Busca proteínas que contém padrão especificado pelo usuário E é similar à sequência query em relação in the vicinity ao padrão

Reduz o número de hits que contém o padrão no banco de dados mas pode também apresentar nenhuma homologia ao query

Exemplo de sequência query e um padrão no formato ProSite:

>gi|4758958|ref|NP_004148.1| Human cAMP-dependent protein kinaseMSHIQIPPGLTELLQGYTVEVLRQQPPDLVEFAVEYFTRLREARAPASVLPAATPRQSLGHPPPEPGPDRVADAKGDSESEEDEDLEVPVPSRFNRRVSVCAETYNPDEEEEDTDPRVIHPKTDEQRCRLQEACKDILLFKNLDQEQLSQVLDAMFERIVKADEHVIDQGDDGDNFYVIERGTYDILVTKDNQTRSVGQYDNRGSFGELALMYNTPRAATIVATSEGSLWGLDRVTFRRIIVKNNAKKRKMFESFIESVPLLKSLEVSERMKIVDVIGEKIYKDGERIITQGEKADSFYIIESGEVSILIRSRTKSNKDGGNQEVEIARCHKGQYFGELALVTNKPRAASAYAVGDVKCLVMDVQAFERLLGPCMDIMKRNISHYEEQLVKMFGSSVDLGNLGQ

Padrão encontrado: [LIVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ]-A-x-[LIVMA]-x-[STACV]

Hidden Markov Models

An approach based on statistical sampling theory

Previously used with success for natural language processing

Model sequence as a Markov model that is not known (hidden)

Observed sequence is a noisy representation of the hidden “true” model

A HMM for a DNA sequence

CA CT

T (prob 0.8) or A (prob 0.2)

A (prob 0.7) or T (prob 0.3)

G (prob 0.1) or C (prob 0.9)

G (prob 0.1) or C (prob 0.9)

Idea of HMM

Since multiple alignment of k sequences take O(Nk) time, instead estimate a statistical model of the sequences

Align the multiple sequences to this model This is equivalent to aligning the

sequences to one another

Protein Family Classification

Pfam large collection of multiple sequence

alignments and hidden Markov models covers many common protein domains

and familiesOver 73% of all known protein sequences

have at least one match5,193 different protein families

Pfam

Initial multiple alignment of seeds using a program such as Clustal

Alignment hand scrutinized and adjusted

Pfam

Links to the Pfam software: http://pfam.wustl.edu/ http://www.sanger.ac.uk/Software/Pfam/index.shtml

View some examples:

http://pfam.wustl.edu/

Locating ORFs

Simplest method of predicting coding regions is to search for open reading frames (ORFs)

open reading frames begin with a start (AUG) codon, and ends with one of three stop codons

Six total reading frames

Locating ORFs

Prokaryotes: DNA sequences coding for proteins generally transcribed into mRNA which is translated into protein with very little modification

Locating an open reading frame from a start codon to a stop codon can give a strong suggestion into protein coding regions

Longer ORFs are more likely to predict protein-coding regions than shorter ORFs.

Locating ORFs

Eukaryotes: mRNA undergoes processing to remove introns before the protein is translated

ORF corresponding to a gene may contain regions with stop codons found within intronic regions

Posttranscriptional modification makes gene prediction more difficult

Filogenia

Problema de determinação de árvores filogenéticasEncontrar a árvore que melhor descreve a

relação entre um conjunto de objetos (espécies ou táxons)

Cenoura Baleia Chimpanzé Humano

Filogenia

Táxons e Complexidade3 árvores possíveis para 4 táxons Para 5 táxons?

Filogenia

Táxons e Explosão Combinatorial

Métodos para reconstrução filogenética

03 métodos principais: :ParsimôniaMétodos baseados em distânciaVerossimilhança máxima

Parsimônia

Dá preferência à topologia que requer o menor número de mudanças .

Filogenia

Métodos de DistânciaA distância evolutiva é calculada para todos

os pares de táxonsMatriz de DistânciasA árvore filogenética é construída

considerando a relação entre esses valores de distâncias

O método de evolução mínima

Para todas as topologias possíveis : Calcula o comprimento de todos os ramos, S

Mantém a árvore com menos S.

Problema: computacionalmente intenso. Não é usado com mais de 25 sequências.

Filogenia Métodos com Critério de Ótimo

Máxima Verossimilhança Determina-se a probabilidade de um modelo evolutivo

gerar um certo dado Considera todos os sítios e todas as possibilidades

de mutações em todos os nós internos da árvore proposta

Multiplica-se a probabilidade de cada sítio Probabilidade da árvore

Pode ser utilizado para análises de características e de valores

Mais consistente e com estimativas com menor variância Não é simples e intuitivo Computacionalmente intenso

Bootstrap procedure

O suporte para cada ramo interno é expresso em

termos the % de réplicas.

1 N acgtacatagtatagcgtctagtggtaccgtatg aggtacatagtatgg-gtatactggtaccgtatg acgtaaat-gtatagagtctaatggtac-gtatg acgtacatggtatagcgactactggtaccgtatg

real alignment

random sampling, with replacement, of N sites

1 N gatcagtcatgtataggtctagtggtacgtatat tgagagtcatgtatggtgtatactggtacgtaat tgac-gtaatgtataggtctaatggtactgtaat tgacggtcatgtataggactactggtacgtatat

“artificial” alignments

} 1000 times

tree-building method

same tree-building method

tree = series of internal branches

“artificial” trees

for each internal branch, compute

fraction of “artificial” trees containing this

internal branch

"bootstrapped” tree

Xenopus

Homo

Bos

Mus

Rattus

Gallus0.02

97

91

46

Bootstrap

Ramos internos suportados por ≥ 90% das réplicas são considerados estatisticamente significativos.

O procedimento de bootstrap não define se um programa é bom. Uma árvore errada pode ter 100% de suporte de bootstrap em seus ramos internos.

distance < parsimony ~ PHYML << Bayesian < classical MLdistance < parsimony ~ PHYML << Bayesian < classical ML NJ DNAPARS PHYML MrBayes fastDNAml,PAUPNJ DNAPARS PHYML MrBayes fastDNAml,PAUP

Tempo de processamento para vários programasTempo de processamento para vários programas

Compilações Uma lista de web sites

http://www.ucmp.berkeley.edu/subway/phylogen.html

Uma lista grande de programashttp://evolution.genetics.washington.edu/

phylip/software.html

Recursos de Web para filogenia

Editor de alinhamento SEAVIEW : para windows e unix

http://pbil.univ-lyon1.fr/software/seaview.html

Programas para filogenia molecular PHYLIP :

http://evolution.genetics.washington.edu/phylip.html PAUP :

http://paup.csit.fsu.edu/index.html PHYLO_WIN :

http://pbil.univ-lyon1.fr/software/phylowin.html MrBayes : http://morphbank.ebc.uu.se/mrbayes/ PHYML : http://www.lirmm.fr/~guindon/phyml.htm



Desenho de árvoresNJPLOT (para todas as plataformas)http://pbil.univ-lyon1.fr/software/njplot.html

Aulas de filogeniahttp://www.bioinf.org/molsys/lectures.html

[email protected]

Ontologia

Fornecer um vocabulário estruturadoe controlado para representar

o conhecimento biológico nos bancos de dados.for the

Gene Onthology (GO)

Biological Process

Objetivo dentro da célula, tecido…

Molecular Function

Função básica ou tarefa

Cellular Component

Compartimento ou complexo

Busca com a palavra “collagenase”

•molecular function 7422 termos•biological process 8972 termos•cellular component 1472 termos

•all 17,866 terms

Conteúdo do GO

Documents

BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática