BIOINFORMÁTICA UFMG
A T
GC
BIOINFORMÁTICA UFMG
A T
GCPerformance de anotação automática
com grupos de ortólogos KOG
Se vc conhece os grupos de ortólogos de MO
E vc pode conhecer a anotação correta de ESTs de um MO
Um experimento pode ser feito!
Mas… vc tem que conhecer o cutoff para o alinhamento de uma EST com a sua proteína cognata– (parece simples mas não é)
BIOINFORMÁTICA UFMG
A T
GC Como é uma entrada KOG?
BIOINFORMÁTICA UFMG
A T
GC As seqüências analisadas
ORGANISM ESTs PROTEINS KOGs
Arabidopsis thaliana 178.538 24.154 13.744
Caenorhabditis elegans 215.200 17.101 10.581
Drosophila melanogaster 261.404 10.517 8.445
Homo sapiens 1.941.556 26.324 19.039
pUC18 846 1
BIOINFORMÁTICA UFMG
A T
GCSeqüências de pUC reunidas por 82% de
similaridade equivalem a 96% de identidade
82%
.93
BIOINFORMÁTICA UFMG
A T
GC Os cutoffs se aproximam de 80% de similaridadepara alinhamentos EST-proteina correta
BIOINFORMÁTICA UFMG
A T
GCO teste de anotação
cel
dmehsa
ath
KOG
dmeESTs
Assigned ESTsto desired KOGs
BLAST
Cutoff 78%
BIOINFORMÁTICA UFMG
A T
GCElimine o KOG para um organismo por vez
(transforme-o em um transcriptoma novo)
cel
dmehsa
ath
KOG
dmeESTs
• correct: same KOG• changed: distinct KOG• speculated: not assigned
BLAST
BIOINFORMÁTICA UFMG
A T
GCA especulação minimiza com o cutoff
apropriado de “designação”
correct
especulated
changed
BIOINFORMÁTICA UFMG
A T
GC A anotação correta é maior que 90%
correct changed especulated
89,3%
5,2%
5,5%
96,7%
1,6%
1,8%
91,9%
3,0%
5,1%
96,3%
2,4%
1,2%
BIOINFORMÁTICA UFMG
A T
GC Quantas ESTs eu preciso para descobrir oKOG todo?(com ou sem o organismo cognato na base)
Picturing Discovering
BIOINFORMÁTICA UFMG
A T
GC Por categoria funcional
C. elegans
D. melanogasterpicturing sampling
BIOINFORMÁTICA UFMG
A T
GC Schistosoma mansoniK
OG
cat
egor
y
BIOINFORMÁTICA UFMG
A T
GC Sumarizando
80% (EST-aa) equivale a cutoff de 96% (EST-nt) usado no UniGene
Anotação com KOG é acima de 90% correta
Clusters KOG de S. mansoni não foram completamente descobertos– Alguns podem estar faltando…
BIOINFORMÁTICA UFMG
A T
GC
BIOINFORMÁTICA UFMG
A T
GCNíveis de expressão e amostragem
em bibliotecas de EST
A chance de descobrir um gene dependerá– Da ocorrência– Da conservação
Ambos podem ser estimados em Organismos Modelo
BIOINFORMÁTICA UFMG
A T
GCComputando amostragem e conservação
de ESTs usando organismos modelo
ath cel dme hsa
KOG clusters
athESTs {N} Conservation
N Sampling
BIOINFORMÁTICA UFMG
A T
GCI MISS YOU
aplicado a S. mansoni
BIOINFORMÁTICA UFMG
A T
GCI MISS YOU
aplicado a S. mansoni
BIOINFORMÁTICA UFMG
A T
GC Glicólise: exemplo de amostragem
BIOINFORMÁTICA UFMG
A T
GCGenes muito expressos são mais
compartilhados que os pouco expressos
BIOINFORMÁTICA UFMG
A T
GC Resumindo
K-EST sugere a chance de descobrir um gene com quantidades crescentes de ESTs
Mostra o nível de variação da expressão entre as várias bibliotecas usando estatística de Steckel “R”
Amostragem conjugada a conservação, em organismos modelo, pode indicar ausência de genes