Como interpretar seu próprio genoma com Python

Preview:

Citation preview

Marcel Caraciolo, CTO

marcel@genomika.com.br

Como interpretar seu próprio Genoma usando Python e outras tecnologias!

Quem somos ?Um dos laboratórios mais avançados em clínica genética do Brasil e o primeiro localizado na região Norte e Nordeste. !!!!

Portfólio de testes genéticos para diagnóstico e tratamento personalizado de doenças hereditárias, raras, tumores e bem-estar e saúde.

Tecnologia e especialistasFusão de especialistas em biologia

molecular e tecnologia de informação

João  Bosco  Oliveira,  CEO  e  Co-­‐Fundador  M.D,    PhD  e  ex-­‐chefe  de  pesquisa  do  serviço    de  imunologia  e  genética  do  Dpto.  de  Medicina  Laboratorial,  Centro  Clínico,  National  Institutes  of  Health  ,  USA.

Genética ClínicaMercado mundial em crescimento e

recente no Brasil

Usamos seu DNA!

Aproximadamente 300 - 600 mutações por geração.

http://genetics.thetech.org/ask/ask435

Com os dados de genoma humano…

Nós poderíamos correlacionar variantes entre genomas com doenças. !

Poderíamos identificar parentesco e herança genética !Identificar traços de ancestralidade !

Identificar “erros" ou problemas conhecidos

Para quem não entendeu lembra do Angelina Joulie effect ?

Para quem não entendeu lembra do Angelina Joulie effect ?

NextGen Sequencing

NextGen Sequencing

Tamanho

Tamanho

Se quisessemos carregar o Genoma na memória ?

Como representaríamos em linguagem de programação ?

char [] humanDNA = char[ 3 200 000 000];

Se quisessemos carregar o Genoma na memória ?

Como representaríamos em linguagem de programação ?

char [] humanDNA = char[ 3 200 000 000];

Se quisessemos carregar o Genoma na memória ?

Como representaríamos em linguagem de programação ?

char [] humanDNA = char[ 3 200 000 000];

Maquinário Humano

Genoma em um arquivo

NextGen Sequencing

Tamanho

Genoma em um arquivo

Volume

Volume

Volume

Volume

Volume

Volume

Significado

Significado

Meaning

Meaning

O que é bioinformática ?

Significado

Significado

Significado

Significado

Significado

Como estruturamos isto ?

Análise de Variantes

Análise de Variantes

Análise de Variantes

E como funciona tudo isso na prática ?

Vamos montar nosso Mini-Pipeline simples educacional para entendermos como podemos

analisar algumas variantes SNVs em nosso genoma.

Sequence Map Call variants Interpret

Nosso caso de estudo

Sequências de DNA de uma mulher brasileira, com idade de 30 anos com histórico familiar de câncer de mama.

!

Cerca de 10-15% dos cânceres de mama e ovário

são devidos a mutações genéticas hereditárias

Sequenciamento do DNA

Sequence Map Call variants Interpret

Sequenciamento do DNA

https://www.youtube.com/watch?v=womKfikWlxM

NextGen Sequencing

Como representamos as sequências?

Sequências FASTA

Múltiplas sequências, Multi-FASTA

Formato FastQ

Formato FastQ

Analisando algumas sequências

Vamos analisar de 2 maneiras: !

Vocês: https://usegalaxy.org/ !

Eu: UseGalaxy + Terminal ! https://usegalaxy.org/u/genomika/h/pipeline-workshop

Galaxy Platform

Open-source, escrito boa parte em Python

Analisando sequências

fastqc, command line

Mapeando as sequências no Genoma

Sequence Map Call variants Interpret

Fase de Alinhamento

FASTQ =>

FASTQ => => BAM

Alinhamentoss

FASTQ =>

Formato SAM/BAM

FASTQ =>

Formato SAM/BAM

FASTQ =>

CIGAR String

FASTQ =>

Alinhando na prática

bwa, samtools

Visualizando os alinhamentos

http://www.broadinstitute.org/igv/

Visualizando os alinhamentos

Detectando as variantes !

Sequence Map Call variants Interpret

Variant Calling

FASTQ => BAM => => VCF

Chamando variantes

FASTQ =>

Recapitulando, sempre bom!

FASTQ =>

Formato VCF

FASTQ =>

Formato VCF

FASTQ =>

Formato VCF

FASTQ =>

Formato VCF

FASTQ =>

Chamando variantes na prática

freebayes

Interpretando as variantes!

Sequence Map Call variants Interpret

Chamando variantes na prática

Anotação de Variantes

FASTQ =>

Variantes anotadas com VEP

Anotando variantes

IGV, NCBI, Snpedia, vcflib, bcftools, SnpEff.

chr17:41222948 (hg19)

Anotações

Anotações

chr17:41222948 (hg19) Anotações

http://www.ncbi.nlm.nih.gov/clinvar/variation/37616/#clinical-assertions

Curiosidades

Como podemos associar variantes e doenças?

“Genome Wide Association Study (GWAS)”

Genome Wide Association Study (GWAS)

Curiosidades

“Genome Wide Association Study (GWAS)”

Deve-se considerar o relacionamento entre a escolha das amostras !Grande quantidade de amostras é necessário !Bom domínio de estatística e lidar com o problema de “múltiplos testes de confiança”. !Bancos de dados variados e heterôgeneos. !Correlação não significa que é a causa! !Efeitos em grandes proporções são raras - geralmente são várias pequenas alterações combinadas.

Lembra deste slide ?

E se eu quiser sequenciar meu próprio genoma ?

Se você não possuir uma requisição clínica, hoje no Brasil é complicado. !Há possibilidades de realizar o Genoma Completo , mas o valor ainda não acessível - =~ R$ 23k !Fora do Brasil, há empresas como o 23andMe, screen de vários SNP’s por $ 99

Como armazenamos isto ?

Ciclo de vida de um exame

Como posso aprender mais?

Tales of Genome (Udacity)Curso On-line gratuito sobre Genética (bem completo!)

RosalindDesafios de Python na área de bioinformática

rosalind.info/

Broad workshopsVariant analysis; sequencing pipelines, etc.

https://www.broadinstitute.org/partnerships/education/broade/broad-workshops/

CourseraSpecialization on Genomics Data Science

https://www.coursera.org/specialization/genomics/41

II Curso de Análise de Dados de NGS

https://github.com/genomika/summercourse

Edições anuais em meados de dezembro e

janeiro!

Trabalhe conosco!github.com/genomika/jobs

Marcel Caraciolo, CTO

marcel@genomika.com.br

Como interpretar seu próprio Genoma usando Python e outras tecnologias!

“Biology easily has 500 years of exciting problems to work on.”

Donald Knuth, 1993

Recommended