Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar...

Preview:

Citation preview

Uso da bioinformática na análise genômica

Início

Fim

Receber Processar Anotar Depositar

Bioinformática

20

30

10

• A nomeação é praticamente aleatória no início e no final, onde a chance de erro é alta (baixo valor de Phred)

• O programa Phred lê o cromatograma e nomeia as bases

cromatograma

acgatctcgctagctgctactgtagccgcgattattcgcgatctacgtatatcgcgatcgatc

• Cada base tem uma chance de erro de sua nomeação (10% = 0,1)• A escala de Phred é semelhante à de pH multiplicado por 10: - chance de erro de 0,001 = 10-3 = Phred 30

Processamento de seqüências

DNA:FASTASeq.qual

Seqüências

0

2.000.000

4.000.000

6.000.000

8.000.000

10.000.000

12.000.000

14.000.000

16.000.000

1982

1983

1984

1985

1986

1987

1988

1989

1990

1991

1992

1993

1994

1995

1996

1997

1998

1999

2000

2001

Ano

606

15 milhões

Crescimento do GenBank

Europeu Japonês

24h

Seqüencias do DNA(genoma)

Seqüências do mRNA(genes expressos)

Repetição calculada•draft = 5x•finished = 10x

Amostragemtecidos

momentos

Genoma pequeno(seqüenciador grande)

Eucariotos

mRNA

cDNA

TR

Seqüenciamento parcial de transcritos

Seqüênciamento de genes expressos:

Documentar a existência de transcritos gênicos num transcriptoma [otorrin... e ...damonh...]

• EST (Etiqueta de Seqüência Expressa) – seqüenciamento único de cada cDNA

– extremidades 5’ ou 3’

• ORESTES (ESTs ricas em ORFs)– seqüenciamento único do amplicon derivado de

cDNA por PCR inespecífico

– prevalece o centro do cDNA (cds)

Um mRNA & suas ESTs

(A)200(T)18cDNA (fita -)

AUG(A)18

cDNA (fita +)

(A)200(T)18cDNA (fita -)

AUG(A)18

cDNA (fita +)

ATGATCATGACTTACGGGCGCGCGAT

GGCGCGCGATATCCAAATTTATTATCC

3’EST

3’EST5’EST

5’EST

AAATTTATTATCCATCTACG

Quantas ESTs de Schistosoma mansoni há no NCBI?Quantas proteínas não mitocondriais?

PCR inespecífico & seu ORESTES

(A)200

cDNA (fita -)

AUG amplicon (fita +)

Iniciador(60ºC 37ºC)

amplicon (fita -)

amplicon (fita +)

PCR(60ºC)

ORESTES

AGATCGATCATGACTTACGGGCGCGCGATATCG

GGGCGCGCGATATCGAAAAATTTATAAGGCTAGCCCCGGCGGCTCGGCCGGGGAGATCGATCATGAC

+ORESTES (outros iniciadores)

Quantos ORESTES estão hoje no NCBI?Eles são ESTs?Só há ORESTES humanos?

100

150

200

250

2. Estudando coleções de sequências

• Alinhamento de um grupo pequeno de sequências com MultiAlign

• Descarregando um grande número de sequências através do BatchEntrez

• Formação de aglomerados de sequências com Icatools, com Cap3 ou Megablast

• Estimando distância evolutiva com Phylip

• Uma das atividades em bioinformática é formar aglomerados de todas as sequências geradas no projeto (as figurinhas de um álbum)

• Podemos saber quantas vezes um gene foi seqüenciado, e detectar os freqüentes!

• E quantos dos genes foram detectados– Usa-se também para validar bibliotecas

– Pode usar dados originais ou descarregados do NCBI

Aglomerados ou Clusters

• Alinhamento global: usar para publicar• Quando se quer comparar globalmente as

sequências, busca-se o melhor alinhamento global

• Um bom algoritmo computacional é o usado no Fast Alignment, apelidado de FASTA

• Inicialmente busque suas seqüências

• Descarregue uma lista dos indicadores delas (GI)

• Use o BatchEntrez para baixar o FASTA das seqüências

• Estude-as localmente com seu programa predileto

Descarregando muitas seqüências com BatchEntrez

• Comparação exaustiva

• Visando

• Use o BatchEntrez para baixar o FASTA das seqüências

• Estude-as localmente com seu programa predileto

Alinhamento Global

• Genes ortólogos são os homólogos mais próximos entre dois organismos (BestHit)

• A evolução os faz diferentes

• Phylip DNAdist mede

• Phylip Protdist para proteínas

• Plylip Neighbor faz uma matriz

• E um desenhador de árvore:

Phylip

Programas para aglomerar

• Icatools

• Phrap

• Cap3, Cap4

• Swat

• BLAST

• MegaBLAST

Um aglomerado = Um gene

• Organização das sequências do GenBank em um conjunto de aglomerados

• Cada aglomerado do UniGene contém as sequências que representam um gene único

• E também informações relacionadas, como em que tecidos o gene é expresso, etc.

• E também onde está mapeado

UniGene

MegaBLAST gera o UniGene

Todas ESTs contra todas

Detecção de homologia

> 96% de identidade

> 70% do potencial

Aglomerar

Qualidade das bibliotecas(100 primeiras ESTs)

Freqüência em que uma EST foi amostrada

Boa biblioteca?

mer

o d

e se

ênci

as

1

2

3

4

5

7

9

11

catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctaactagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatggtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctatctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgattgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg

Recommended