Upload
renato-puga
View
442
Download
11
Embed Size (px)
Citation preview
BioinformáticaIntrodução
Renato Puga
Hospital Israelita Albert Einstein - Pesquisa Clí[email protected]
O que é Bioinformática?Definição
2
"Bioinformática é um campo interdisciplinar que corresponde a aplicação das técnicas da informática, no sentido de análise da informação na área de estudo da biologia."
Wikipedia:
https://pt.wikipedia.org/wiki/Bioinform%C3%A1tica
1994 / 1996
Poder 1999
1990-2001
em 2015 (10 dias)
Agora 2016
Começo oficial do Projeto Genoma Humano
Rotina NGS em Clinicas de Diagnóstico
maior parte dos genoma esta mapeado / "Bermuda
Principles”.
Sequenciamento de DNA em larga-escala
$1 bilhão
$ 10 mil
1990
FUTURE 2026
Projeto Genoma Humanoanos dourados da bioinformática
http://www.yourgenome.org/facts/timeline-the-human-genome-project
Tamanho do SequenciamentoWGS / WES / Panel
5
Whole Genome Sequence
(WGS)
Whole Exome Sequence
(WES)Panel
1% do WGS
www.yourwebsitename.com
Tamanho em Giga Bases (Gb)Giga Bases (G bases)
6
Painel, depende do número de genes
ou regiões
Whole Exome Sequence
Whole Genome Sequence
?
32Mb
20Gb
Escala em Giga Bases
Tipos de DadosNext Generation Sequences (NGS)
7
FASTQ BAM VCF BED
FASTA + Qualityarquivo texto com
sequências de nucleotídeos e
qualidade por base.
Binary Alignment Maparquivo binário de
sequências alinhadas em uma referência.
Variant Allele Frequency
arquivo texto com as variantes encontradas
em relação a referência.
Browser Extensible Data
arquivo texto com regiões genéticas alvos
de interesse
Tipos de Dados: Phred ScoreNext Generation Sequences (NGS)
9
http://www.illumina.com/documents/products/technotes/technote_Q-Scores.pdf
Tipos de Dados: Binary Alignment Map (BAM)Next Generation Sequences (NGS)
11 https://software.broadinstitute.org/gatk/events/slides/1503/GATKwh6-BP-0A-Intro_to_HTS.pdf
Tipos de Dados: FASTQ (in) BAM (out)Next Generation Sequences (NGS)
12 https://software.broadinstitute.org/gatk/events/slides/1503/GATKwh6-BP-0A-Intro_to_HTS.pdf
FASTQ (dados brutos)
BAM (alinhados)
Referência (genoma)
Tipos de Dados: Browser Extensible Data (BED)Next Generation Sequences (NGS)
14
chr11 5246919 5246920 Hb_North_York 2619 Hemoglobin variant chr11 5255660 5255661 HBD c.1 G>A 2659 delta0 thalassemia chr11 5247945 5247946 Hb Sheffield 2672 Hemoglobin variant chr11 5255415 5255416 Hb A2-Lyon 2676 Hemoglobin variant chr11 5248234 5248235 Hb Aix-les-Bains 2677 Hemoglobin variant
https://genome.ucsc.edu/FAQ/FAQformat.html#format1.7
Chr Start End
Tempo de SequenciamentoNextSeq 500
15
FASTQ BAM VCF
2-3d 2-3h 1h3-4d 3-5h 2h7-10d 8-12h 5h
Painel (150X)
WES (50X)
WGS (30x)
Genome Analysis Toolkit GATKVariant Discovery in High-Throughput Sequencing Data
17
https://software.broadinstitute.org/gatk/
Genome Analysis Toolkit GATKVariant Discovery in High-Throughput Sequencing Data
18
https://software.broadinstitute.org/gatk/
Chamada de VariantesMutação em ponto β-globin
19
Illustration showing the point mutation in the β-globin gene responsible for the genetic blood disorder β-thalassaemia. Image credit: Genome Research Limited.
Chamada de Variantes (exome)Target sequence (exome)
20
https://software.broadinstitute.org/gatk/events/slides/1503/GATKwh6-BP-0A-Intro_to_HTS.pdf
CoberturaRegiões cobertas por reads
21
http://www.rapidnovor.com/wp-content/uploads/2016/03/coverage-torn.png
www.yourwebsitename.com
Variant Allele Frequency (VCF)
22
http://compbio.cs.brown.edu/projects/btp/simple.jpg
Ultra-deep sequencingOptimizing Cancer Genome Sequencing and Analysis
23
(B) Model of clonal architecture and tumor evolution, inferred from the original 30x sequencing data.
(C) Ultra-deep sequencing and validation, revealing additional subclonal complexity.
http://www.cell.com/cell-systems/abstract/S2405-4712(15)00113-1
Banco de Dados PúblicosDados de Referência
26
• 1000 Genomes Project (2015 Agosto) • Allele frequency data in 1000 Genomes Project (AFR (African), AMR (Admixed American), EAS
(East Asian), EUR (European), SAS (South Asian))• http://www.1000genomes.org/
• dbSNP• Minor Allele Frequency (MAF)• http://www.ncbi.nlm.nih.gov/SNP/
• O ESP é um projecto financiado pelo NHLBI exome
• 6500 amostras• http://evs.gs.washington.edu/EVS/
Banco de Dados Públicos (ClinVar)Dados de Referência
27
• CLINVAR: variantes com associação clínica: • unknown• untested• non-pathogenic• probable-non-pathogenic• probable-pathogenic• pathogenic• drug-response• histocompatibility• other e com nome das doenças
Banco de Dados Públicos (COSMIC)Dados de Referência
28
• COSMIC: Catalogue of Somatic Mutations in Cancer• http://cancer.sanger.ac.uk/cosmic
Banco de Dados Públicos (ExAC)Dados de Referência
29
• ExAC 65000 Exome Allele Frequency • AFR (African)• AMR (Admixed American)• EAS (East Asian)• FIN (Finnish)• NFE (Non-finnish European)• OTH (other)• SAS (South Asian)
http://exac.broadinstitute.org/