24
Clusterização de sequências biológicas : PHRAP e CAP3 [email protected] Marcelo Falsarella Carazzolle

Clusterização de sequências biológicas : PHRAP e CAP3 [email protected] Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Embed Size (px)

Citation preview

Page 1: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Clusterização de sequências biológicas : PHRAP e CAP3

[email protected]

Marcelo Falsarella Carazzolle

Laboratório de Genômica e Proteômica

Unicamp

Page 2: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Resumo- Introdução

- Processamento de reads (revisão)

- DNA

- ESTs

- Pipeline de montagem

- Computando os overlaps

- Formando os contigs e singlets

- Gerando sequência consensu

- Analisando a montagem

- PHRAP x CAP3

Page 3: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Introdução- Ordenação dos trechos de DNA sequenciados para a obtenção da sequência original

- Melhoria da qualidade de sequências de interesse

- Expressão gênica em biblioteca de cDNA

Page 4: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Processamento de reads (revisão)- O pipeline de um projeto genoma

- Após base calling temos :

>Unknown sequences #1

5 6 5 7 10 9 10 12 15 16 17 20 20 23 25 30 30 30 40 40 45 50 50 50 ...

Page 5: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Identificar regiões de baixa qualidade

Identificar regiões de vetores

Eliminar sequências formadas apenas por vetores

Cortar regiões de baixa qualidade e vetor

Page 6: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Bioinformatics 17 (2001), n. 122001, 1093-1104

- Possíveis combinações de regiões com qualidade ruim e vetores

Page 7: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

- Para cDNA :

GMB 24 (2001), 17-23

Ribossomais podem atrapalhar a montagem

Corte de poly-A

Mascarando o vetor

Corte em qualidade

Remoção de sequências curtas

Page 8: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Pipeline de montagem

Clustering AssemblySeededClustering

Input

AssembledClusters

ConsensusSequences

- Algoritmo

Page 9: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

1. Encontra sobreposições dos reads

3. Encontra a sequência consensu ..ACGATTACAATAGGTT..

2. Alinha os pares de reads formando os contigs

Page 10: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

• Sort all k-mers in reads (k ~ 10)

TAGATTACACAGATTAC

TAGATTACACAGATTAC|||||||||||||||||

• Find pairs of reads sharing a k-mer

• Extend to full alignment

T GA

TAGA| ||

TACA

TAGT||

Encontrando os overlaps

-Para uma montagem um alinhamento é considerado válido se tiver :

- Overlap >= 40 pb

- 90% de identidade Bioinformatics 20 (2004), 2973

Page 11: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

TAGATTACACAGATTACTGATAGATTACACAGATTACTGATAG TTACACAGATTATTGATAGATTACACAGATTACTGATAGATTACACAGATTACTGATAGATTACACAGATTACTGATAG TTACACAGATTATTGATAGATTACACAGATTACTGA

Formando os contigs e singlets- Cria um alinhamento múltiplo local para alinhar todos os reads

contig

Page 12: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

TAGATTACACAGATTACTGA TTGATGGCGTAA CTATAGATTACACAGATTACTGACTTGATGGCGTAAACTATAG TTACACAGATTATTGACTTCATGGCGTAA CTATAGATTACACAGATTACTGACTTGATGGCGTAA CTATAGATTACACAGATTACTGACTTGATGGGGTAA CTA

TAGATTACACAGATTACTGACTTGATGGCGTAA CTA

Encontra a sequência consensu

-No caso de discrepâncias a escolha da base pode depender :

- Da nota phred das sequências discrepantes

- Da quantidade de relativa de bases discrepantes

Page 13: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Visualizando a montagem

Page 14: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp
Page 15: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Erros de montagem devido as regiões repetitivas

Page 16: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

reads

Sequência consensu(DNA original)

Marca de um possível erro de sequenciamento causado por regiões repetitivas

Page 17: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Repeat Repeat

Repeat

1. Assembly WITHforward-reverse constraints

2.Assembly WITHOUTforward-reverse constraints

Misassembled fragment… …leaves asingleton

Montagem com vínculos de forward e reverse

Page 18: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

PHRAP x CAP3

Genome Research 9 (1999), 868

- Pipeline CAP3

Page 19: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

- PHRAP produz contigs maiores

- CAP3 produz menos erros internos (regiões com sobreposição)

- CAP3 produz mais erros externos (nas pontas do consensu)

- Performance do CAP3 e PHRAP na montagem de DNA genômico (BACs)

Page 20: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

- Performance do CAP3 e PHRAP na montagem de ESTs

- Para ESTs o CAP3 é melhor que o PHRAPNucleic Acid Research 28 (2000), 3657

Page 21: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

END

Page 22: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Outline of phrap assembly:

0) Read in sequence & quality data, trim off any near-homopolymer runs at ends of reads, construct read complements.

1) Find pairs of reads with matching words. Eliminate exact duplicate reads. Do swat comparisons of pairs of reads which have matching words, compute (complexity-adjusted) swat score.

2) Find probable vector matches and mark so they aren't used in assembly.

3) Find near duplicate reads.

Page 23: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

4) Find reads with self-matches.

5) Find matching read pairs that are "node-rejected" i.e. do not have "solid" matching segments.

6) Use pairwise matches to identify confirmed parts of reads; use these to compute revised quality values.

7) Compute LLR scores for each match (based on qualities of discrepant and matching bases). (Iterate above two steps).

8) Find best alignment for each matching pair of reads that have more than one significant alignment in a given region (highest LLR-scores among several overlapping).

Page 24: Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

9) Identify probable chimeric and deletion reads (the latter are withheld from assembly).

10) Construct contig layouts, using consistent pairwise matches in decreasing score order (greedy algorithm). Consistency of layout is checked at pairwise comparison level.

11) Construct contig sequence as a mosaic of the highest quality parts of the reads.

12) Align reads to contig; tabulate inconsistencies (read / contig discrepancies) & possible sites of misassembly. Adjust LLR-scores of contig sequence.