Uso da bioinformática na análise genômica
Início
Fim
Receber Processar Anotar Depositar
Bioinformática
20
30
10
• A nomeação é praticamente aleatória no início e no final, onde a chance de erro é alta (baixo valor de Phred)
• O programa Phred lê o cromatograma e nomeia as bases
cromatograma
acgatctcgctagctgctactgtagccgcgattattcgcgatctacgtatatcgcgatcgatc
• Cada base tem uma chance de erro de sua nomeação (10% = 0,1)• A escala de Phred é semelhante à de pH multiplicado por 10: - chance de erro de 0,001 = 10-3 = Phred 30
Processamento de seqüências
DNA:FASTASeq.qual
Seqüências
0
2.000.000
4.000.000
6.000.000
8.000.000
10.000.000
12.000.000
14.000.000
16.000.000
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
Ano
606
15 milhões
Crescimento do GenBank
Europeu Japonês
24h
Seqüencias do DNA(genoma)
Seqüências do mRNA(genes expressos)
Repetição calculada•draft = 5x•finished = 10x
Amostragemtecidos
momentos
Genoma pequeno(seqüenciador grande)
Eucariotos
mRNA
cDNA
TR
Seqüenciamento parcial de transcritos
Seqüênciamento de genes expressos:
Documentar a existência de transcritos gênicos num transcriptoma [otorrin... e ...damonh...]
• EST (Etiqueta de Seqüência Expressa) – seqüenciamento único de cada cDNA
– extremidades 5’ ou 3’
• ORESTES (ESTs ricas em ORFs)– seqüenciamento único do amplicon derivado de
cDNA por PCR inespecífico
– prevalece o centro do cDNA (cds)
Um mRNA & suas ESTs
(A)200(T)18cDNA (fita -)
AUG(A)18
cDNA (fita +)
(A)200(T)18cDNA (fita -)
AUG(A)18
cDNA (fita +)
ATGATCATGACTTACGGGCGCGCGAT
GGCGCGCGATATCCAAATTTATTATCC
3’EST
3’EST5’EST
5’EST
AAATTTATTATCCATCTACG
Quantas ESTs de Schistosoma mansoni há no NCBI?Quantas proteínas não mitocondriais?
PCR inespecífico & seu ORESTES
(A)200
cDNA (fita -)
AUG amplicon (fita +)
Iniciador(60ºC 37ºC)
amplicon (fita -)
amplicon (fita +)
PCR(60ºC)
ORESTES
AGATCGATCATGACTTACGGGCGCGCGATATCG
GGGCGCGCGATATCGAAAAATTTATAAGGCTAGCCCCGGCGGCTCGGCCGGGGAGATCGATCATGAC
+ORESTES (outros iniciadores)
Quantos ORESTES estão hoje no NCBI?Eles são ESTs?Só há ORESTES humanos?
100
150
200
250
2. Estudando coleções de sequências
• Alinhamento de um grupo pequeno de sequências com MultiAlign
• Descarregando um grande número de sequências através do BatchEntrez
• Formação de aglomerados de sequências com Icatools, com Cap3 ou Megablast
• Estimando distância evolutiva com Phylip
• Uma das atividades em bioinformática é formar aglomerados de todas as sequências geradas no projeto (as figurinhas de um álbum)
• Podemos saber quantas vezes um gene foi seqüenciado, e detectar os freqüentes!
• E quantos dos genes foram detectados– Usa-se também para validar bibliotecas
– Pode usar dados originais ou descarregados do NCBI
Aglomerados ou Clusters
• Alinhamento global: usar para publicar• Quando se quer comparar globalmente as
sequências, busca-se o melhor alinhamento global
• Um bom algoritmo computacional é o usado no Fast Alignment, apelidado de FASTA
• Inicialmente busque suas seqüências
• Descarregue uma lista dos indicadores delas (GI)
• Use o BatchEntrez para baixar o FASTA das seqüências
• Estude-as localmente com seu programa predileto
Descarregando muitas seqüências com BatchEntrez
• Comparação exaustiva
• Visando
• Use o BatchEntrez para baixar o FASTA das seqüências
• Estude-as localmente com seu programa predileto
Alinhamento Global
• Genes ortólogos são os homólogos mais próximos entre dois organismos (BestHit)
• A evolução os faz diferentes
• Phylip DNAdist mede
• Phylip Protdist para proteínas
• Plylip Neighbor faz uma matriz
• E um desenhador de árvore:
Phylip
Programas para aglomerar
• Icatools
• Phrap
• Cap3, Cap4
• Swat
• BLAST
• MegaBLAST
Um aglomerado = Um gene
• Organização das sequências do GenBank em um conjunto de aglomerados
• Cada aglomerado do UniGene contém as sequências que representam um gene único
• E também informações relacionadas, como em que tecidos o gene é expresso, etc.
• E também onde está mapeado
UniGene
MegaBLAST gera o UniGene
Todas ESTs contra todas
Detecção de homologia
> 96% de identidade
> 70% do potencial
Aglomerar
Qualidade das bibliotecas(100 primeiras ESTs)
Freqüência em que uma EST foi amostrada
Boa biblioteca?
Nú
mer
o d
e se
qü
ênci
as
1
2
3
4
5
7
9
11
catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctaactagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatggtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctatctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgattgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg