22
Predição de regiões codificantes Curso de Introdução à Bioinformática Programa de Qualificação Docente da CAPES Convênio: UFPE - UFCG - Fiocruz Marcos Catanho Laboratório de Genômica Funcional e Bioinformática DBBM-IOC / Fiocruz

Predição de regiões codificantes

  • Upload
    trevor

  • View
    31

  • Download
    0

Embed Size (px)

DESCRIPTION

Curso de Introdução à Bioinformática. Programa de Qualificação Docente da CAPES Convênio: UFPE - UFCG - Fiocruz. Predição de regiões codificantes. Marcos Catanho. Laboratório de Genômica Funcional e Bioinformática DBBM-IOC / Fiocruz. Agenda. Métodos de predição Frames (GCG) - PowerPoint PPT Presentation

Citation preview

Page 1: Predição de regiões codificantes

Predição de regiões codificantes

Curso de Introdução àBioinformática

Programa de Qualificação Docente da CAPES

Convênio: UFPE - UFCG - Fiocruz

Marcos CatanhoLaboratório de Genômica Funcional e Bioinformática

DBBM-IOC / Fiocruz

Page 2: Predição de regiões codificantes

Agenda

• Métodos de predição

• Frames (GCG)

• ORF Finder (NCBI)

• Testcode (GCG)

• Third position GC bias (GCG)• Glimmer (TIGR)• Outras opções

Page 3: Predição de regiões codificantes

Métodos de predição:

Identificação de sinais- ribosome binding sites- start/stop codons- RNA splice sites- Polyadenylation signals

Desvios composicionais- periodic base composition bias- terceira posição do códon

Codon bias (codon preference)

Utilização de Markov Chains

Page 4: Predição de regiões codificantes

Frames (GCG) - detecta open reading frames através da identificação de start/stop códons.

Page 5: Predição de regiões codificantes

ORF Finder (NCBI) - detecta open reading frames através da identificação de start/stop códons.

Page 6: Predição de regiões codificantes

Parêntesis – código genético

http://www.ncbi.nlm.nih.gov/Taxonomy/

Page 7: Predição de regiões codificantes

ORF Finder (NCBI) - detecta open reading frames através da identificação de start/stop códons.

Page 8: Predição de regiões codificantes

Considerações a respeito do método:

- difícil discriminação entre regiões codificantes e regiões não-codificantes.

- é necessária a identificação de sinais (RBS, início de transcrição/tradução, terminação, limites éxon/íntron), para assinalar a sequência como sendo codificante.

- existência de start códons alternativos.

- em sequências eucarióticas o método pode perder muito em eficiência (éxons/íntrons).

Page 9: Predição de regiões codificantes

Testcode (GCG) - periodic base composition bias

Page 10: Predição de regiões codificantes

Considerações a respeito do método:

- um dos primeiros a possuir bases estatísticas.

- procura por “assimetrias” ao longo da molécula de DNA: 1o grupo: bases 1, 4, 7, ... 2o grupo: bases 2, 5, 8, ... 3o grupo: bases 3, 6, 9, ...

- não define a fase de leitura nem a fita.

- não determina de forma precisa a região codificante.

Page 11: Predição de regiões codificantes

Third position GC bias (GCG)

Page 12: Predição de regiões codificantes

Considerações a respeito do método:

- funciona melhor em organismos com maior desvio composicional em seu genoma (alto/baixo) conteúdo GC.

- difícil discriminação de falsos positivos e/ou falsos negativos.

- proporciona melhores resultados quando usado em conjunto com outros métodos.

Page 13: Predição de regiões codificantes

Codon preference (GCG) - comparação com uma tabela de utilização de códons

Page 14: Predição de regiões codificantes

Parêntesis – tabela de utilização de códons

Page 15: Predição de regiões codificantes

Parêntesis – desvios na utilização de códons

-É fato que em todos os organismos estudados até o momento a utilização de códons sinônimos não é aleatória.

-O desvio na utilização de códons pode resultar de diversos fatores, tais como:

Page 16: Predição de regiões codificantes

Parêntesis – desvios na utilização de códons

- Conteúdo GC;

-Eficiência de tradução (seleção traducional) (genes altamente expressos);

- Desvios mutacionais (genes de baixa expressão);

- Precisão na tradução (aminácidos funcionalmente importantes);

- Outros.

Page 17: Predição de regiões codificantes

Parêntesis – banco de dados de utilização de códons

http://www.kazusa.or.jp/codon/

Page 18: Predição de regiões codificantes

Considerações a respeito do método:

- detecta melhor genes com forte preferência por determinados códons (em geral, genes altamente expressos - seleção traducional).

- útil para a detecção de erros de seqüenciamento causando frameshifts.

Page 19: Predição de regiões codificantes

Glimmer (TIGR) - Gene Locator and Interpolated Markov ModelER

- utiliza um método estatístico baseado em cadeias de Markov para distinguir regiões codificantes de não-codificantes.

- traduzindo: para uma seqüência de DNA, uma cadeia de Markov modela a probabilidade de ocorrência de um determinado nucleotídeo, dado um determinado contexto (que é a sequência de bases imediatamente anterior a este nucleotídeo).

- ou ainda: qual a probabilidade da ocorrência de um G depois de um A? Ou depois de um AG?

Page 20: Predição de regiões codificantes

Glimmer (TIGR) - Gene Locator and Interpolated Markov ModelER

Page 21: Predição de regiões codificantes

Considerações sobre o método:

- somente para uso local.

- é o método de escolha para a análise de grandes segmentos de DNA.

- processamento automático de grande eficiência - minimiza a interferência humana.

- alta taxa de acertos: prediz corretamente ~ 99% dos genes, com relativamente poucos falsos positivos.

- pode ser utilizado (com modificações) para a predição de seqüências codificantes em genomas eucarióticos.

Page 22: Predição de regiões codificantes

Outras opções:

GeneMark (http://opal.biology.gatech.edu/GeneMark/)

- muito semelhante ao Glimmer (mesmas caraterísticas).

- pode ser usado localmente ou via web.

GENSCAN (http://genes.mit.edu/GENSCAN.html)

- pode ser aplicado apenas para alguns eucariotos (vertebrados, Arabidopsis e milho).