Bem vindos ao Setulab! - iq.usp.br · “Predição de eclipses” e “naves espaciais” na...

Preview:

Citation preview

Bioinformática

João Carlos Setubal Departamento de Bioquímica

Instituto de Química – USP 2015

O que é bioinformática

• O que é biologia?

– Estudo dos seres vivos

– Individualmente, macroscopicamente

• Zoologia, botânica

– Seus componentes

• Moléculas → células → tecidos → órgãos → indivíduos → populações → biosfera

– Suas relações: ecologia

– Seu funcionamento

• Bioquímica, Biologia molecular e celular

O que é bioinformática

biologia informática

(física)

Matemática

Computação

Estatística

etc

Bioquímica

Medicina

Agronomia

etc

“ciências da vida” “ciências exatas”

O paradigma científico dado pela física

Movimento retrógrado de Marte

• Sabemos desse fenômeno graças a medições

– Olho ou auxiliar

– Tempo

• Conhecido desde os antigos gregos (séc V a.C.)

• Como se pode explicar esse fenômeno?

• Qual é sua causa?

Precisamos de uma teoria

• Marte é um planeta que gira em torno da terra

• Epiciclos

Esta teoria não explica bem os dados de observação

• Teoria heliocêntrica

– Copérnico (1510)

• Órbitas não são círculos, mas elipses

– Kepler (1610)

Causa

• Gravidade

– Newton (1681)

• O que é a gravidade?

– Einstein (1905)

Como foi possível todo esse progresso?

• Fenômenos celestes se prestam a ser medidos

– Os intrumentos de medição eram simples

• Tecnologia de cálculo

– Números arábicos

– Ábacos

– Logaritmos (1610)

Duas grandes consequências

• Poder preditivo

• Geração de tecnologia

– Capacidade de “engenheirar”

Poder Preditivo

• Consigo saber exatamente onde Marte vai estar (ou já esteve) no céu em qualquer dia do futuro e do passado, com precisão de minutos

• Predição de eclipses

Predição de eclipses

http://eclipse.gsfc.nasa.gov/5MCSEmap/2901-3000/2903-01-19.gif

Duração

Quando

Tecnologia

• Naves em Marte Plutão: 14/7!

A biologia não era assim

• Basicamente descritiva

de Aristóteles (350 a.C.) até Mendel (1865 d.C.)

A biologia não era quantitativa

• Inveja da física

• Sem poder preditivo

– Como prever o resultado do cruzamento de variedades de ervilha?

• Até 1865 ninguém sabia a resposta

Mas isto começou a mudar

• Lentamente no começo

– 35 anos entre as descobertas de Mendel e sua re-descoberta e disseminação

• Explosivamente agora

• A biologia ficou mais quantitativa

→ bioinformática

Novos instrumentos de medida de fenômenos biológicos

• Principalmente moleculares

• Sequenciador de DNA – Tamanho de moléculas de DNA

– Constituição da molécula (A,C,G,T) (Genômica)

• Indiretamente: RNA – Medir expressão gênica (Transcritômica)

• Mas também – Proteínas

– Metabólitos

• Um panorama detalhado e quantitativo do que acontece dentro de uma célula

8/7/2015 J. C. Setubal 24 http://fig.cox.miami.edu/~cmallery/255/255hist/mcb4.1.dogma.jpg

Bioinformática

• Bioinformática hoje é um campo vasto, difícil de definir

• Mas o grosso do que se faz está associado à biologia molecular

– Em particular genômica e derivados

Rápida história do sequenciamento

• 1944: DNA é o material da hereditariedade (Avery)

• 1953: estrutura do DNA é hélice dupla (Watson e Crick)

• 1970: obtenção manual de sequências

• 1977: sequenciamento de Sanger

• 1985: primeiros sequenciadores automáticos

• 1995: primeiro genoma de bactéria

• 2006: começo do sequenciamento de nova geração (Next Generation Sequencing)

Next Generation Sequencing

• Tecnologias

– 454, SOLiD, Illumina, Ion

– PacBio, Oxford nanopore, GNU

• Efeitos

– Barateamento extraordinário

– Crescimento exponencial de volume de dados

– Novas aplicações

MINION

MR Stratton et al. Nature 458, 719-724 (2009) doi:10.1038/nature07943

Improvements in the rate of DNA

sequencing over the past 30 years and into the future

BGI (China): projetos

Parafraseando Andy Warhol

• “todo mundo vai ser famoso por 15 minutos”

• Todo mundo terá seu genoma sequenciado

Metagenomas

JC Setubal 33

DNA A comunidade

SEQ BIOINFO

organism

function

http://h

utt

enhow

er.sph.h

arv

ard

.ed

u/m

eta

ph

lan

www.earthmicrobiome.org

Outras aplicações

• Sequenciamento de espécies extintas

– Homem de Neandertal

• Diagnóstico médico

– Surtos em hospitais

– Sequenciamento de microbiomas de pacientes com doenças misteriosas

• Leptospira presente em menino nos EUA (2013)

Bioinformática

• Tratamento computacional dessa massa de dados

– Armazenamento, estruturação (BD), visualização

– Mineração

– Análise (ferramentas)

– Integração

• Parte de um fenômeno maior: BIG DATA

2010

Bioinformática para NGS

Volume

• Armazenamento

– 600 Gbp ≈ 600 Gigabytes, por corrida (12 dias)

– 30 x 600 = 18 Terabytes por ano

• Comunicação

– Como transferir pela internet 1 terabyte de dados?

• Escalabilidade dos programas

– Genômica comparativa

Diagramas de Venn

n = 3

n = 6

Number of comparisons is quadratic in n

Number of regions in a Venn diagram is 2n Source: wikipedia

Distâncias entre 50 genomas de Xanthomonas

Robustez frente a erros e dados incompletos

• Mais erros de sequenciamento – Diferentes tecnologias tem diferentes erros

• Em alguns casos temos “buracos” nos dados – Genomas draft

Máquinas

Computação de Alto Desempenho: grandes máquinas e “nuvens”

Crédito: New York Times

BGI

Novos algoritmos

• Robustez perante erros

• Escalabilidade

– o venerável BLAST já não dá conta

Integração de dados

• Promessa de novos conhecimentos

• Gargalo de processamento

• Gargalo de interpretação

UCSC Genome Browser Hawkins et al, 2010

Visualização

David LA, Alm EJ. Rapid evolutionary innovation during an Archaean genetic expansion. Nature. 2011 469(7328):93-6.

“…map the

evolutionary history

of 3,983 gene

families across the

three domains of life

onto a geological

timeline.”

Estatística

• Muito dado → muito ruído

• Estatística é fundamental para enxergar padrões verdadeiros nos dados

• novas técnicas

We apply MIC and MINE to data sets in global health, gene expression, major-

league baseball, and the human gut microbiota and identify known and novel

relationships.

16 DECEMBER 2011 VOL 334 SCIENCE

Biologia mais parecida com física

genômica transcritômica

proteômica metabolômica

Problema

central

Modelos predições

A biologia também teve avanços extraordinários muito antes do sequenciamento de DNA

• Até 1980

– Avanços na medicina

• Antibióticos, intervenções cirúrgicas, medições internas

– Avanços na agronomia

• A “revolução verde” dos anos 70

Fonte: CDC/EUA

Expectativa atual

• Uma biologia mais quantitativa e com maior poder preditivo vai poder dar novos saltos

• “Engenharia biológica” já é uma realidade

• Medicina personalizada cada vez mais perto

“Predição de eclipses” e “naves espaciais” na biologia?

• Predições de fenótipo a partir do genótipo

– Lembrar que ambiente tem papel preponderante dependendo do traço genético

• Predições do resultado de interações entre entidades moleculares

– Desenho de remédios

Sistemas biológicos são muito mais complexos do que os sistemas

físicos

“Menos cartesianos”

Uma nota de cautela

O que é necessário para atuar em bioinformática?

• Ser (bem) treinado!

• Domínio de biologia molecular, computação, estatística, modelamento, ecologia

• Acompanhar evolução tecnológica

– Instrumentos medidores

– Técnicas, Algoritmos, Softwares

• Expansão das áreas de aplicação

Recommended