36
Bioinformática Introdução Renato Puga Hospital Israelita Albert Einstein - Pesquisa Clínica [email protected]

Bioinformática Introdução (Basic NGS)

Embed Size (px)

Citation preview

BioinformáticaIntrodução

Renato Puga

Hospital Israelita Albert Einstein - Pesquisa Clí[email protected]

O que é Bioinformática?Definição

2

"Bioinformática é um campo interdisciplinar que corresponde a aplicação das técnicas da informática, no sentido de análise da informação na área de estudo da biologia."

Wikipedia:

https://pt.wikipedia.org/wiki/Bioinform%C3%A1tica

1994 / 1996

Poder 1999

1990-2001

em 2015 (10 dias)

Agora 2016

Começo oficial do Projeto Genoma Humano

Rotina NGS em Clinicas de Diagnóstico

maior parte dos genoma esta mapeado / "Bermuda

Principles”.

Sequenciamento de DNA em larga-escala

$1 bilhão

$ 10 mil

1990

FUTURE 2026

Projeto Genoma Humanoanos dourados da bioinformática

http://www.yourgenome.org/facts/timeline-the-human-genome-project

4

SequenciamentoNext Generation Sequencing

Tamanho do SequenciamentoWGS / WES / Panel

5

Whole Genome Sequence

(WGS)

Whole Exome Sequence

(WES)Panel

1% do WGS

www.yourwebsitename.com

Tamanho em Giga Bases (Gb)Giga Bases (G bases)

6

Painel, depende do número de genes

ou regiões

Whole Exome Sequence

Whole Genome Sequence

?

32Mb

20Gb

Escala em Giga Bases

Tipos de DadosNext Generation Sequences (NGS)

7

FASTQ BAM VCF BED

FASTA + Qualityarquivo texto com

sequências de nucleotídeos e

qualidade por base.

Binary Alignment Maparquivo binário de

sequências alinhadas em uma referência.

Variant Allele Frequency

arquivo texto com as variantes encontradas

em relação a referência.

Browser Extensible Data

arquivo texto com regiões genéticas alvos

de interesse

Tipos de Dados: FASTQNext Generation Sequences (NGS)

8

Tipos de Dados: Phred ScoreNext Generation Sequences (NGS)

9

http://www.illumina.com/documents/products/technotes/technote_Q-Scores.pdf

Tipos de Dados: Phred Score Next Generation Sequences (NGS)

10

PhredScore

Pares de bases (pb)

Tipos de Dados: Binary Alignment Map (BAM)Next Generation Sequences (NGS)

11 https://software.broadinstitute.org/gatk/events/slides/1503/GATKwh6-BP-0A-Intro_to_HTS.pdf

Tipos de Dados: FASTQ (in) BAM (out)Next Generation Sequences (NGS)

12 https://software.broadinstitute.org/gatk/events/slides/1503/GATKwh6-BP-0A-Intro_to_HTS.pdf

FASTQ (dados brutos)

BAM (alinhados)

Referência (genoma)

Tipos de Dados: Variant Call Format (VCF)Next Generation Sequences (NGS)

13

Tipos de Dados: Browser Extensible Data (BED)Next Generation Sequences (NGS)

14

chr11 5246919 5246920 Hb_North_York 2619 Hemoglobin variant chr11 5255660 5255661 HBD c.1 G>A 2659 delta0 thalassemia chr11 5247945 5247946 Hb Sheffield 2672 Hemoglobin variant chr11 5255415 5255416 Hb A2-Lyon 2676 Hemoglobin variant chr11 5248234 5248235 Hb Aix-les-Bains 2677 Hemoglobin variant

https://genome.ucsc.edu/FAQ/FAQformat.html#format1.7

Chr Start End

Tempo de SequenciamentoNextSeq 500

15

FASTQ BAM VCF

2-3d 2-3h 1h3-4d 3-5h 2h7-10d 8-12h 5h

Painel (150X)

WES (50X)

WGS (30x)

Ferramentas de Bioinformáticawebtools & apps

Genome Analysis Toolkit GATKVariant Discovery in High-Throughput Sequencing Data

17

https://software.broadinstitute.org/gatk/

Genome Analysis Toolkit GATKVariant Discovery in High-Throughput Sequencing Data

18

https://software.broadinstitute.org/gatk/

Chamada de VariantesMutação em ponto β-globin

19

Illustration showing the point mutation in the β-globin gene responsible for the genetic blood disorder β-thalassaemia. Image credit: Genome Research Limited.

Chamada de Variantes (exome)Target sequence (exome)

20

https://software.broadinstitute.org/gatk/events/slides/1503/GATKwh6-BP-0A-Intro_to_HTS.pdf

CoberturaRegiões cobertas por reads

21

http://www.rapidnovor.com/wp-content/uploads/2016/03/coverage-torn.png

www.yourwebsitename.com

Variant Allele Frequency (VCF)

22

http://compbio.cs.brown.edu/projects/btp/simple.jpg

Ultra-deep sequencingOptimizing Cancer Genome Sequencing and Analysis

23

(B) Model of clonal architecture and tumor evolution, inferred from the original 30x sequencing data.

(C) Ultra-deep sequencing and validation, revealing additional subclonal complexity.

http://www.cell.com/cell-systems/abstract/S2405-4712(15)00113-1

Banco de Dados PúblicosDados de Referência

25

ExAC65k ClinVar

Banco de Dados PúblicosDados de Referência

26

• 1000 Genomes Project (2015 Agosto) • Allele frequency data in 1000 Genomes Project (AFR (African), AMR (Admixed American), EAS

(East Asian), EUR (European), SAS (South Asian))• http://www.1000genomes.org/

• dbSNP• Minor Allele Frequency (MAF)• http://www.ncbi.nlm.nih.gov/SNP/

• O ESP é um projecto financiado pelo NHLBI exome

• 6500 amostras• http://evs.gs.washington.edu/EVS/

Banco de Dados Públicos (ClinVar)Dados de Referência

27

• CLINVAR: variantes com associação clínica: • unknown• untested• non-pathogenic• probable-non-pathogenic• probable-pathogenic• pathogenic• drug-response• histocompatibility• other e com nome das doenças

Banco de Dados Públicos (COSMIC)Dados de Referência

28

• COSMIC: Catalogue of Somatic Mutations in Cancer• http://cancer.sanger.ac.uk/cosmic

Banco de Dados Públicos (ExAC)Dados de Referência

29

• ExAC 65000 Exome Allele Frequency • AFR (African)• AMR (Admixed American)• EAS (East Asian)• FIN (Finnish)• NFE (Non-finnish European)• OTH (other)• SAS (South Asian)

http://exac.broadinstitute.org/

Caso de usonomenclatura de variantes

www.yourwebsitename.com31

Apps & New Services>2016

Obrigado