Upload
vuongque
View
214
Download
0
Embed Size (px)
Citation preview
Bioinformática
João Carlos Setubal Departamento de Bioquímica
Instituto de Química – USP 2015
O que é bioinformática
• O que é biologia?
– Estudo dos seres vivos
– Individualmente, macroscopicamente
• Zoologia, botânica
– Seus componentes
• Moléculas → células → tecidos → órgãos → indivíduos → populações → biosfera
– Suas relações: ecologia
– Seu funcionamento
• Bioquímica, Biologia molecular e celular
O que é bioinformática
biologia informática
(física)
Matemática
Computação
Estatística
etc
Bioquímica
Medicina
Agronomia
etc
“ciências da vida” “ciências exatas”
O paradigma científico dado pela física
Movimento retrógrado de Marte
• Sabemos desse fenômeno graças a medições
– Olho ou auxiliar
– Tempo
• Conhecido desde os antigos gregos (séc V a.C.)
• Como se pode explicar esse fenômeno?
• Qual é sua causa?
Precisamos de uma teoria
• Marte é um planeta que gira em torno da terra
• Epiciclos
Esta teoria não explica bem os dados de observação
• Teoria heliocêntrica
– Copérnico (1510)
• Órbitas não são círculos, mas elipses
– Kepler (1610)
Causa
• Gravidade
– Newton (1681)
• O que é a gravidade?
– Einstein (1905)
Como foi possível todo esse progresso?
• Fenômenos celestes se prestam a ser medidos
– Os intrumentos de medição eram simples
• Tecnologia de cálculo
– Números arábicos
– Ábacos
– Logaritmos (1610)
Duas grandes consequências
• Poder preditivo
• Geração de tecnologia
– Capacidade de “engenheirar”
Poder Preditivo
• Consigo saber exatamente onde Marte vai estar (ou já esteve) no céu em qualquer dia do futuro e do passado, com precisão de minutos
• Predição de eclipses
Predição de eclipses
http://eclipse.gsfc.nasa.gov/5MCSEmap/2901-3000/2903-01-19.gif
Duração
Quando
Tecnologia
• Naves em Marte Plutão: 14/7!
A biologia não era assim
• Basicamente descritiva
de Aristóteles (350 a.C.) até Mendel (1865 d.C.)
A biologia não era quantitativa
• Inveja da física
• Sem poder preditivo
– Como prever o resultado do cruzamento de variedades de ervilha?
• Até 1865 ninguém sabia a resposta
Mas isto começou a mudar
• Lentamente no começo
– 35 anos entre as descobertas de Mendel e sua re-descoberta e disseminação
• Explosivamente agora
• A biologia ficou mais quantitativa
→ bioinformática
Novos instrumentos de medida de fenômenos biológicos
• Principalmente moleculares
• Sequenciador de DNA – Tamanho de moléculas de DNA
– Constituição da molécula (A,C,G,T) (Genômica)
• Indiretamente: RNA – Medir expressão gênica (Transcritômica)
• Mas também – Proteínas
– Metabólitos
• Um panorama detalhado e quantitativo do que acontece dentro de uma célula
8/7/2015 J. C. Setubal 24 http://fig.cox.miami.edu/~cmallery/255/255hist/mcb4.1.dogma.jpg
Bioinformática
• Bioinformática hoje é um campo vasto, difícil de definir
• Mas o grosso do que se faz está associado à biologia molecular
– Em particular genômica e derivados
Rápida história do sequenciamento
• 1944: DNA é o material da hereditariedade (Avery)
• 1953: estrutura do DNA é hélice dupla (Watson e Crick)
• 1970: obtenção manual de sequências
• 1977: sequenciamento de Sanger
• 1985: primeiros sequenciadores automáticos
• 1995: primeiro genoma de bactéria
• 2006: começo do sequenciamento de nova geração (Next Generation Sequencing)
Next Generation Sequencing
• Tecnologias
– 454, SOLiD, Illumina, Ion
– PacBio, Oxford nanopore, GNU
• Efeitos
– Barateamento extraordinário
– Crescimento exponencial de volume de dados
– Novas aplicações
MINION
MR Stratton et al. Nature 458, 719-724 (2009) doi:10.1038/nature07943
Improvements in the rate of DNA
sequencing over the past 30 years and into the future
BGI (China): projetos
Parafraseando Andy Warhol
• “todo mundo vai ser famoso por 15 minutos”
• Todo mundo terá seu genoma sequenciado
Metagenomas
JC Setubal 33
DNA A comunidade
SEQ BIOINFO
organism
function
http://h
utt
enhow
er.sph.h
arv
ard
.ed
u/m
eta
ph
lan
www.earthmicrobiome.org
Outras aplicações
• Sequenciamento de espécies extintas
– Homem de Neandertal
• Diagnóstico médico
– Surtos em hospitais
– Sequenciamento de microbiomas de pacientes com doenças misteriosas
• Leptospira presente em menino nos EUA (2013)
Bioinformática
• Tratamento computacional dessa massa de dados
– Armazenamento, estruturação (BD), visualização
– Mineração
– Análise (ferramentas)
– Integração
• Parte de um fenômeno maior: BIG DATA
2010
Bioinformática para NGS
Volume
• Armazenamento
– 600 Gbp ≈ 600 Gigabytes, por corrida (12 dias)
– 30 x 600 = 18 Terabytes por ano
• Comunicação
– Como transferir pela internet 1 terabyte de dados?
• Escalabilidade dos programas
– Genômica comparativa
Diagramas de Venn
n = 3
n = 6
Number of comparisons is quadratic in n
Number of regions in a Venn diagram is 2n Source: wikipedia
Distâncias entre 50 genomas de Xanthomonas
Robustez frente a erros e dados incompletos
• Mais erros de sequenciamento – Diferentes tecnologias tem diferentes erros
• Em alguns casos temos “buracos” nos dados – Genomas draft
Máquinas
Computação de Alto Desempenho: grandes máquinas e “nuvens”
Crédito: New York Times
BGI
Novos algoritmos
• Robustez perante erros
• Escalabilidade
– o venerável BLAST já não dá conta
Integração de dados
• Promessa de novos conhecimentos
• Gargalo de processamento
• Gargalo de interpretação
UCSC Genome Browser Hawkins et al, 2010
Visualização
David LA, Alm EJ. Rapid evolutionary innovation during an Archaean genetic expansion. Nature. 2011 469(7328):93-6.
“…map the
evolutionary history
of 3,983 gene
families across the
three domains of life
onto a geological
timeline.”
Estatística
• Muito dado → muito ruído
• Estatística é fundamental para enxergar padrões verdadeiros nos dados
• novas técnicas
We apply MIC and MINE to data sets in global health, gene expression, major-
league baseball, and the human gut microbiota and identify known and novel
relationships.
16 DECEMBER 2011 VOL 334 SCIENCE
Biologia mais parecida com física
genômica transcritômica
proteômica metabolômica
Problema
central
Modelos predições
A biologia também teve avanços extraordinários muito antes do sequenciamento de DNA
• Até 1980
– Avanços na medicina
• Antibióticos, intervenções cirúrgicas, medições internas
– Avanços na agronomia
• A “revolução verde” dos anos 70
Fonte: CDC/EUA
Expectativa atual
• Uma biologia mais quantitativa e com maior poder preditivo vai poder dar novos saltos
• “Engenharia biológica” já é uma realidade
• Medicina personalizada cada vez mais perto
“Predição de eclipses” e “naves espaciais” na biologia?
• Predições de fenótipo a partir do genótipo
– Lembrar que ambiente tem papel preponderante dependendo do traço genético
• Predições do resultado de interações entre entidades moleculares
– Desenho de remédios
Sistemas biológicos são muito mais complexos do que os sistemas
físicos
“Menos cartesianos”
Uma nota de cautela
O que é necessário para atuar em bioinformática?
• Ser (bem) treinado!
• Domínio de biologia molecular, computação, estatística, modelamento, ecologia
• Acompanhar evolução tecnológica
– Instrumentos medidores
– Técnicas, Algoritmos, Softwares
• Expansão das áreas de aplicação