61
Desenvolvimento da plataforma EGene para anotação funcional e integração com banco de dados: aplicação e validação em transcritos de Eimeria spp. de galinha doméstica Instituto de Ciências Biomédicas Universidade de São Paulo

Desenvolvimento da plataforma EGene para anotação funcional … · • Ordem Eucoccidiida • Adeleina - Hepatozoon • Lankesterillidae - Lankesterella • Classe Gregarinia •

  • Upload
    ngonhu

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Desenvolvimento da plataforma EGene para anotação funcional e integração com banco de dados: aplicação e validação em transcritos de

Eimeria spp. de galinha doméstica

Instituto de Ciências Biomédicas

Universidade de São Paulo

Coccilab – ICB/USP

Anotação de sequências

•Anotação de sequências: processo pelo qual sequências de DNA ou aminoácidos são analisadas para atribuir-se características funcionais, contextualizando-as do ponto de vista biológico (Stein, 2001)

•A atual velocidade com que novas sequências são geradas inviabiliza processos manuais de anotação

Coccilab – ICB/USP

EGene

• EGene: pré-processamento de seqüências, filtragem de qualidade, aparamento de pontas, etc.

• Disponível em: http://www.coccidia.icb.usp.br/egene

Coccilab – ICB/USP

EGene 2

• Uma vasta gama de componente de anotação foram incorporados ao EGene2:

• Busca e tradução de ORFs

• Busca de repetições seriadas: TRF, String, mREPS

• Busca de tRNAs: tRNAscan-SE

• Predição de genes: Genscan, GlimmerM, GlimmerHMM, Twinscan, Phat, ESTscan, SNAP

• Busca de motivos conservados: HMMer x Pfam, RPS-BLAST, InterproScan

• Busca por similaridade: BLAST

• Mapeamento de ESTs: Sim4, Exonerate

Coccilab – ICB/USP

EGene 2

• Uma vasta gama de componente de anotação foram incorporados ao EGene2:

• Busca por domínios transmembranares: TMHMM, Phobius

• Identificação de peptídeo sinal: SignalP, Phobius

• Identificação de âncora GPI: DGPI

• Mapeamento e quantificação de termos GO

• Geração de arquivos de anotação: feature table, GFF3

• Geração de página web: HTML/PHP

Coccilab – ICB/USP

EGene 2

• CoEd – configurador gráfico

Coccilab – ICB/USP

Relações de ortologia e anotação de proteínas

• Ortologia é uma relação de homologia entre sequências de ancestralidade comum, cuja divergência ocorreu por um evento de especiação

• A paralogia é um caso de homologia no qual a divergência ocorreu por um evento de duplicação

• Proteínas com relações de ortologia, ou de paralogia recente (inparálogos), tendem a conservar suas respectivas funções

• Esta propriedade nos permite atribuir funções a proteínas não caracterizadas, através de sua classificação em grupos de ortologia e posterior anotação transitiva

Coccilab – ICB/USP

COG

• Cluster of Orthologous Groups*

• Banco de dados de proteínas de bactérias e arqueias, agrupadas por ortologia e classificadas funcionalmente

• 66 genomas completos

• 192.987 proteínas agrupadas

• 4.872 grupos ortólogos

• 25 classificações funcionais

*Tatusov et al. (1997). A genomic perspective on protein families. Science 278(5338): 631-7.

Coccilab – ICB/USP

COG

KOG

Coccilab – ICB/USP

• Eukaryotic Orthologous Groups*

• Banco de dados de proteínas eucarióticas agrupadas por ortologia e classificadas funcionalmente. Utiliza a mesma metodologia do COG

• 7 genomas completos• Arabidopsis thaliana• Homo sapiens• Drosophila melanogaster• Caenorhabditis elegans• Saccharomyces cerevisiae• Schizosaccharomyces pombe• Encephalitozoon cuniculi

• 60.759 proteínas agrupadas• 4.852 grupos ortólogos• 25 classificações funcionais

*Tatusov et al. (2003). The COG database: an updated version includes eukaryotes. BMC Bioinformatics 4, 41.

KOG

Coccilab – ICB/USP

eggNOG

Coccilab – ICB/USP

• evolutionary genealogy of genes: Non-supervised Orthologous Groups*

• Banco de dados com as mesmas características do COG/KOG, incrementado com 48 eucariotos, 35 arqueias e 477 bactérias, e novos grupos ortólogos para proteínas não classificadas nos grupos pré-existentes

• 630 organismos• 55 eucariotos• 529 bactérias• 46 arqueias

• 2.242.035 proteínas agrupadas• 1.966.709 proteínas anotadas

• 224.847 grupos ortólogos• 25 classificações funcionais

*Muller et al. (2010). eggNOG v2.0: extending the evolutionary genealogy of genes with enhanced non-supervised orthologous groups, species and functional annotations. Nucleic Acids Res 38, D190-195.

eggNOG

Coccilab – ICB/USP

Coccilab – ICB/USP

KEGG – conjunto de bases de dados de proteínas, hierarquias, ontologias, ortologias e vias metabólicas

Aoki-Kinoshita & Kanehisa (2007.) Gene annotation and pathway mapping in KEGG. Methods Mol Biol 396, 71-91.

Filo Apicomplexa

• Classe Coccidia• Ordem Eimeriida• Cryptosporidiidae - Cryptosporidium• Eimeriidae - Eimeria, Isospora, Caryospora, Cyclospora• Sarcocystidae - Toxoplasma, Hammondia, Neospora, Sarcocystis, Besnoitia, Frenkelia

• Ordem Eucoccidiida• Adeleina - Hepatozoon• Lankesterillidae - Lankesterella

• Classe Gregarinia• Classe Haemosporida

● Haemoproteus● Hepatocystis● Plasmodium

• Classe Piroplasmida• Babesiidae - Babesia • Theileriidae - Theileria

Coccilab – ICB/USP

Coccilab – ICB/USP

Eimeria sp.

•Gênero causador da coccidiose aviária

•Sua ocorrência em galinhas doméstica leva a prejuízos que variam de 800 milhões a 3 bilhões de dólares por ano

•Sete espécies infectam a galinha doméstica: E. acervulina, E. maxima, E. tenella, E. necatrix, E. brunetti, E. praecox e E. mitis

•E. tenella é considerada é o modelo de estudo do gênero

● E. acervulina e E. maxima também são altamente relevantes na produção de frangos de corte

Coccilab – ICB/USP

Genoma de Eimeria tenella

• Complexidade: ~50-55 milhões de pares de bases

• Conteúdo GC: ~ 53%

• Cariótipo: 14 cromossomos, variando de 1 a 6 milhões de pb

• Número estimado de genes: ~ 8.000

•Genoma segmentado: regiões ricas e pobres em repetições seriadas e genes

Ling et al. (2007). Sequencing and analysis of chromosome 1 of Eimeria tenella reveals a unique segmental organization. Genome Res 17, 311-319.

Coccilab – ICB/USP

Dados de sequenciamento de Eimeria

• Universidade de Washington em St. Louis / Merck – US / IAH-UK / Universidade Nacional da Malásia - ~ 28.500 ESTs (esporozoítos e merozoítos de 2a geração) de E. tenella

•Universidade Nacional da Malásia – sequenciamento completo dos cromossomos 1 e 2; shotgun aleatório do genoma de E. maxima

•IAH/Instituto Sanger, UK – shotgun aleatório do genoma de E. tenella

•Universidade de São Paulo, Brasil – 15.000 ORESTES de cada uma das seguintes espécies: E. tenella, E. acervulina e E. maxima

--

Análise integrada de transcritos de E. tenella

Coccilab – ICB/USP

Origem, tipo de biblioteca e quantidade de reads utilizados na reconstrução final dos cDNAs de E. tenella

FonteTipo de

bibliotecaSequências

brutasSequências

pré-processadasRepositório

Instituto Sanger EST 9.778 5.939 Sanger e NCBI

Universidade da Malásia EST 1.051 1.028 NCBI

Universidade de Washington

EST 27.500 26.249 WUSTL

USDA EST 1.666 1.022 USDA

USP ORESTES 17.568 14.123 USP

Total - 57.563 48.361 -

Coccilab – ICB/USP

Banco de dados de transcritos de Eimeria

• Protocolo:

● Todas as leituras de cDNAs foram montadas com CAP3

● E. tenella – leituras de ORESTES foram montadas em conjunto com ESTs convencionais (WashU, Sanger, USDA e Malásia)

Espécies E. tenella E. maxima E. acervulina

Leituras 48.361 15.449 16.151

Sequências montadas 8.700 3.426 3.413

Contigs 3.724 1.233 1.280

Coccilab – ICB/USP

Resultados

• Classificação em KOGs de proteínas de Eimeria tenella:

Distribuição de classes funcionais

Coccilab – ICB/USP

Resultados

• Classificação de proteínas de Eimeria tenella utilizando o eggNOG:

Distribuição de classes funcionais

Coccilab – ICB/USP

Resultados

• Classificação de proteínas de Eimeria tenella utilizando o eggNOG:

Distribuição de classes funcionais

Coccilab – ICB/USP

Resultados

• Proteínas mapeadas em vias metabólicas:

Resultado E. acervulina E. maxima E. tenella

# de transcritos 3.413 3.426 8.700

# de proteínas (>50 aa) 3.233 3.096 7.990

BLAST x nr positivo(e-value < 10-6)

826 (25,5%) 761 (24,6%) 1,838 (21,1%)

KO 433 414 1.089

KEGG Pathways 332 332 678

• Total de proteínas de Eimeria spp. classificadas em KOs: 1.936• proteínas mapeadas em vias metabólicas : 1.342 (69,31%)

Coccilab – ICB/USP

Resultados

• Quantificação das vias metabólicas mapeadas para E. tenella

Distribuição de classes funcionais

Coccilab – ICB/USP

Resultados

• Mapeamento de proteínas de Eimeria tenella em vias metabólicas:

• Tabela com proteínas:

Coccilab – ICB/USP

Resultados

• Mapeamento de proteínas de Eimeria tenella em vias metabólicas:

• Tabela com proteínas:

Coccilab – ICB/USP

Resultados

• Mapeamento de proteínas de Eimeria tenella em vias metabólicas:

• Tabela com proteínas:

Coccilab – ICB/USP

Resultados

• Mapeamento de proteínas de Eimeria tenella em vias metabólicas:

• Tabela com proteínas:

Coccilab – ICB/USP

Resultados

• Mapeamento de proteínas de Eimeria tenella em vias metabólicas:

• Tabela com proteínas:

Coccilab – ICB/USP

Resultados

• Mapeamento de proteínas de Eimeria tenella em vias metabólicas:

• Tabela com proteínas:

Coccilab – ICB/USP

Resultados

• Mapeamento de proteínas de Eimeria tenella em vias metabólicas:

• Tabela com proteínas:

Coccilab – ICB/USP

Resultados

• Integração do EGene com o Gbrowse (report_gbrowse.pl)

• Otimizado para visualização de transcritos

• Representa os seguintes elementos:

• CDS

• mRNA

• 3’ e 5’ UTR

• regiões repetitivas

• conteúdo GC

Coccilab – ICB/USP

Resultados

• Integração do EGene com o Gbrowse (report_gbrowse.pl)

Coccilab – ICB/USP

Resultados

• Anotação transitiva por associação com o KOG

• Transmitir a uma proteína a classificação funcional de seus ortólogos, caso ela não possua uma

B – KOG0001

A – sem classificação

grupo ortólogo X

B – KOG0001

A – KOG0001

grupo ortólogo X

Coccilab – ICB/USP

Resultados

• Anotação transitiva por associação com o KOG (exemplo)

• O grupo ortólogo “1.736” possui três proteínas, uma de cada eimeria• Eace_0350 – KOG1154• Eten_2431 – KOG1154• Emax_0723 – sem classificação

• KOG1154 – serine/threonine/tyrosine protein kinase

Coccilab – ICB/USP

Resultados

• Anotação transitiva por associação com a base KOG (exemplo)

Coccilab – ICB/USP

Resultados

• Anotação transitiva por associação com a base KOG (exemplo)

Eace_0350

Eten_2431

Coccilab – ICB/USP

The Eimeria Transcript Databasehttp://www.coccidia.icb.usp.br/eimeriatdb

Coccilab – ICB/USP

The Eimeria Transcript Database

• BLAST

Coccilab – ICB/USP

The Eimeria Transcript Database

• BLAST

Coccilab – ICB/USP

The Eimeria Transcript Database

• Anotações – Lista de produtos anotados

Coccilab – ICB/USP

The Eimeria Transcript Database

• Anotações – Lista de produtos anotados

Coccilab – ICB/USP

The Eimeria Transcript Database

• Anotações – Páginas de anotação

Coccilab – ICB/USP

The Eimeria Transcript Database

• Anotações – Páginas de anotação

Coccilab – ICB/USP

The Eimeria Transcript Database

• Anotações – Páginas de anotação

Coccilab – ICB/USP

The Eimeria Transcript Database

• Anotações – Páginas de anotação

Coccilab – ICB/USP

The Eimeria Transcript Database

• Anotações – Mapeamento de termos de GO

Coccilab – ICB/USP

The Eimeria Transcript Database

• Anotações – Mapeamento de termos de GO (árvore expansível)

Coccilab – ICB/USP

The Eimeria Transcript Database

• Anotações – Mapeamento de termos de GO (tabela de ontologias)

Coccilab – ICB/USP

The Eimeria Transcript Database

• Anotações – Classificação em grupos ortólogos do KOG

Coccilab – ICB/USP

The Eimeria Transcript Database

• Anotações – Classificação em grupos ortólogos do eggNOG

Coccilab – ICB/USP

The Eimeria Transcript Database

• Anotações – Mapeamento em vias metabólicas do KEGG

Coccilab – ICB/USP

The Eimeria Transcript Database

• Anotações – Base de dados relacional

Coccilab – ICB/USP

The Eimeria Transcript Database

• Anotações – Base de dados relacional

Coccilab – ICB/USP

The Eimeria Transcript Database

• Anotações – Base de dados relacional

Coccilab – ICB/USP

The Eimeria Transcript Database

• Downloads

Coccilab – ICB/USP

Artigo

Equipe de pesquisa

Ø Sequenciamento de ORESTES de Eimeria § Prof. Alda M.B.N. Madeira – ICB-USP§ Jeniffer Novaes§ Alessandra Popov

Ø Desenvolvimento de programas § Prof. Alan M. Durham – IME-USP § Luiz Thibério L. D. Rangel § Milene Ferro § Ricardo Yamamoto Abe § Leonardo Varuzza § André Yoshiaki Kashiwabara § Fernando Tadashi § Paulo Henrique Ahagon

Apoio financeiro

Coccilab – ICB/USPBioinformatics and the Eimeria transcriptome

Obrigado pela atenção

AG-ICB-USP

[email protected]