21
Uso da bioinformática na análise genômica

Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar Bioinformática

Embed Size (px)

Citation preview

Page 1: Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar Bioinformática

Uso da bioinformática na análise genômica

Page 2: Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar Bioinformática

Início

Fim

Receber Processar Anotar Depositar

Bioinformática

Page 3: Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar Bioinformática

20

30

10

• A nomeação é praticamente aleatória no início e no final, onde a chance de erro é alta (baixo valor de Phred)

• O programa Phred lê o cromatograma e nomeia as bases

cromatograma

acgatctcgctagctgctactgtagccgcgattattcgcgatctacgtatatcgcgatcgatc

• Cada base tem uma chance de erro de sua nomeação (10% = 0,1)• A escala de Phred é semelhante à de pH multiplicado por 10: - chance de erro de 0,001 = 10-3 = Phred 30

Processamento de seqüências

DNA:FASTASeq.qual

Page 4: Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar Bioinformática

Seqüências

0

2.000.000

4.000.000

6.000.000

8.000.000

10.000.000

12.000.000

14.000.000

16.000.000

1982

1983

1984

1985

1986

1987

1988

1989

1990

1991

1992

1993

1994

1995

1996

1997

1998

1999

2000

2001

Ano

606

15 milhões

Crescimento do GenBank

Europeu Japonês

24h

Page 5: Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar Bioinformática

Seqüencias do DNA(genoma)

Seqüências do mRNA(genes expressos)

Repetição calculada•draft = 5x•finished = 10x

Amostragemtecidos

momentos

Genoma pequeno(seqüenciador grande)

Eucariotos

mRNA

cDNA

TR

Page 6: Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar Bioinformática

Seqüenciamento parcial de transcritos

Page 7: Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar Bioinformática

Seqüênciamento de genes expressos:

Documentar a existência de transcritos gênicos num transcriptoma [otorrin... e ...damonh...]

• EST (Etiqueta de Seqüência Expressa) – seqüenciamento único de cada cDNA

– extremidades 5’ ou 3’

• ORESTES (ESTs ricas em ORFs)– seqüenciamento único do amplicon derivado de

cDNA por PCR inespecífico

– prevalece o centro do cDNA (cds)

Page 8: Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar Bioinformática

Um mRNA & suas ESTs

(A)200(T)18cDNA (fita -)

AUG(A)18

cDNA (fita +)

(A)200(T)18cDNA (fita -)

AUG(A)18

cDNA (fita +)

ATGATCATGACTTACGGGCGCGCGAT

GGCGCGCGATATCCAAATTTATTATCC

3’EST

3’EST5’EST

5’EST

AAATTTATTATCCATCTACG

Quantas ESTs de Schistosoma mansoni há no NCBI?Quantas proteínas não mitocondriais?

Page 9: Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar Bioinformática

PCR inespecífico & seu ORESTES

(A)200

cDNA (fita -)

AUG amplicon (fita +)

Iniciador(60ºC 37ºC)

amplicon (fita -)

amplicon (fita +)

PCR(60ºC)

ORESTES

AGATCGATCATGACTTACGGGCGCGCGATATCG

GGGCGCGCGATATCGAAAAATTTATAAGGCTAGCCCCGGCGGCTCGGCCGGGGAGATCGATCATGAC

+ORESTES (outros iniciadores)

Quantos ORESTES estão hoje no NCBI?Eles são ESTs?Só há ORESTES humanos?

Page 10: Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar Bioinformática

100

150

200

250

Page 11: Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar Bioinformática

2. Estudando coleções de sequências

• Alinhamento de um grupo pequeno de sequências com MultiAlign

• Descarregando um grande número de sequências através do BatchEntrez

• Formação de aglomerados de sequências com Icatools, com Cap3 ou Megablast

• Estimando distância evolutiva com Phylip

Page 12: Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar Bioinformática

• Uma das atividades em bioinformática é formar aglomerados de todas as sequências geradas no projeto (as figurinhas de um álbum)

• Podemos saber quantas vezes um gene foi seqüenciado, e detectar os freqüentes!

• E quantos dos genes foram detectados– Usa-se também para validar bibliotecas

– Pode usar dados originais ou descarregados do NCBI

Aglomerados ou Clusters

Page 13: Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar Bioinformática

• Alinhamento global: usar para publicar• Quando se quer comparar globalmente as

sequências, busca-se o melhor alinhamento global

• Um bom algoritmo computacional é o usado no Fast Alignment, apelidado de FASTA

Page 14: Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar Bioinformática

• Inicialmente busque suas seqüências

• Descarregue uma lista dos indicadores delas (GI)

• Use o BatchEntrez para baixar o FASTA das seqüências

• Estude-as localmente com seu programa predileto

Descarregando muitas seqüências com BatchEntrez

Page 15: Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar Bioinformática

• Comparação exaustiva

• Visando

• Use o BatchEntrez para baixar o FASTA das seqüências

• Estude-as localmente com seu programa predileto

Alinhamento Global

Page 16: Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar Bioinformática

• Genes ortólogos são os homólogos mais próximos entre dois organismos (BestHit)

• A evolução os faz diferentes

• Phylip DNAdist mede

• Phylip Protdist para proteínas

• Plylip Neighbor faz uma matriz

• E um desenhador de árvore:

Phylip

Page 17: Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar Bioinformática

Programas para aglomerar

• Icatools

• Phrap

• Cap3, Cap4

• Swat

• BLAST

• MegaBLAST

Um aglomerado = Um gene

Page 18: Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar Bioinformática

• Organização das sequências do GenBank em um conjunto de aglomerados

• Cada aglomerado do UniGene contém as sequências que representam um gene único

• E também informações relacionadas, como em que tecidos o gene é expresso, etc.

• E também onde está mapeado

UniGene

Page 19: Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar Bioinformática

MegaBLAST gera o UniGene

Todas ESTs contra todas

Detecção de homologia

> 96% de identidade

> 70% do potencial

Aglomerar

Page 20: Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar Bioinformática

Qualidade das bibliotecas(100 primeiras ESTs)

Freqüência em que uma EST foi amostrada

Boa biblioteca?

mer

o d

e se

ênci

as

1

2

3

4

5

7

9

11

Page 21: Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar Bioinformática

catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctaactagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatggtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctatctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgattgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg