Predição de regiões codificantes

Predição de regiões codificantes

Curso de Introdução àBioinformática

Programa de Qualificação Docente da CAPES

Convênio: UFPE - UFCG - Fiocruz

Marcos CatanhoLaboratório de Genômica Funcional e Bioinformática

DBBM-IOC / Fiocruz

Agenda

• Métodos de predição

• Frames (GCG)

• ORF Finder (NCBI)

• Testcode (GCG)

• Third position GC bias (GCG)• Glimmer (TIGR)• Outras opções

Métodos de predição:

Identificação de sinais- ribosome binding sites- start/stop codons- RNA splice sites- Polyadenylation signals

Desvios composicionais- periodic base composition bias- terceira posição do códon

Codon bias (codon preference)

Utilização de Markov Chains

Frames (GCG) - detecta open reading frames através da identificação de start/stop códons.

ORF Finder (NCBI) - detecta open reading frames através da identificação de start/stop códons.

Parêntesis – código genético

http://www.ncbi.nlm.nih.gov/Taxonomy/

ORF Finder (NCBI) - detecta open reading frames através da identificação de start/stop códons.

Considerações a respeito do método:

- difícil discriminação entre regiões codificantes e regiões não-codificantes.

- é necessária a identificação de sinais (RBS, início de transcrição/tradução, terminação, limites éxon/íntron), para assinalar a sequência como sendo codificante.

- existência de start códons alternativos.

- em sequências eucarióticas o método pode perder muito em eficiência (éxons/íntrons).

Testcode (GCG) - periodic base composition bias


- um dos primeiros a possuir bases estatísticas.

- procura por “assimetrias” ao longo da molécula de DNA: 1o grupo: bases 1, 4, 7, ... 2o grupo: bases 2, 5, 8, ... 3o grupo: bases 3, 6, 9, ...

- não define a fase de leitura nem a fita.

- não determina de forma precisa a região codificante.

Third position GC bias (GCG)


- funciona melhor em organismos com maior desvio composicional em seu genoma (alto/baixo) conteúdo GC.

- difícil discriminação de falsos positivos e/ou falsos negativos.

- proporciona melhores resultados quando usado em conjunto com outros métodos.

Codon preference (GCG) - comparação com uma tabela de utilização de códons

Parêntesis – tabela de utilização de códons

Parêntesis – desvios na utilização de códons

-É fato que em todos os organismos estudados até o momento a utilização de códons sinônimos não é aleatória.

-O desvio na utilização de códons pode resultar de diversos fatores, tais como:

Parêntesis – desvios na utilização de códons

- Conteúdo GC;

-Eficiência de tradução (seleção traducional) (genes altamente expressos);

- Desvios mutacionais (genes de baixa expressão);

- Precisão na tradução (aminácidos funcionalmente importantes);

- Outros.

Parêntesis – banco de dados de utilização de códons

http://www.kazusa.or.jp/codon/


- detecta melhor genes com forte preferência por determinados códons (em geral, genes altamente expressos - seleção traducional).

- útil para a detecção de erros de seqüenciamento causando frameshifts.

Glimmer (TIGR) - Gene Locator and Interpolated Markov ModelER

- utiliza um método estatístico baseado em cadeias de Markov para distinguir regiões codificantes de não-codificantes.

- traduzindo: para uma seqüência de DNA, uma cadeia de Markov modela a probabilidade de ocorrência de um determinado nucleotídeo, dado um determinado contexto (que é a sequência de bases imediatamente anterior a este nucleotídeo).

- ou ainda: qual a probabilidade da ocorrência de um G depois de um A? Ou depois de um AG?

Glimmer (TIGR) - Gene Locator and Interpolated Markov ModelER

Considerações sobre o método:

- somente para uso local.

- é o método de escolha para a análise de grandes segmentos de DNA.

- processamento automático de grande eficiência - minimiza a interferência humana.

- alta taxa de acertos: prediz corretamente ~ 99% dos genes, com relativamente poucos falsos positivos.

- pode ser utilizado (com modificações) para a predição de seqüências codificantes em genomas eucarióticos.

Outras opções:

GeneMark (http://opal.biology.gatech.edu/GeneMark/)

- muito semelhante ao Glimmer (mesmas caraterísticas).

- pode ser usado localmente ou via web.

GENSCAN (http://genes.mit.edu/GENSCAN.html)

- pode ser aplicado apenas para alguns eucariotos (vertebrados, Arabidopsis e milho).

Documents

Predição de regiões codificantes