30
Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática do IGC

As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Ferramentas da Bioinformáticapara a descodificação do ADN

Daniel SobralUnidade de Bioinformática do IGC

Page 2: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

A informação de todos os seres vivos transmite-se através do ADN

A célula é feita sobretudo de proteínas(cadeias de 20 aminoácidos)

Mas a informação está no ADN(cadeias de 4 nucleótidos)

Page 3: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Já nos anos 60 se descobriu um código genético (quase) universal

A célula é feita sobretudo de proteínas(cadeias de 20 aminoácidos)

Mas a informação está no ADN(cadeias de 4 nucleótidos)

© ?? Google cacheFrançois Jacob and Jacques Monod. Journal of Molecular Biology (1961)

Page 4: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Já nos anos 60 se descobriu um código genético (quase) universal

© candelalearning.com

Page 5: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

A partir dos anos 70 começou-se a poder ler o ADN com eficiência

(por outro lado, as proteínas mesmo hoje não são assim tão simples de ler)

Genoma Humano: 3x109 nucleótidos

1º Genoma (1990-2000): 3x109 € em 10 anos

Hoje em dia: < 104 € em menos de 1 semana

© Nobel Media

Page 6: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Tornou-se então possível pensar na descodificação do “código da vida”

atctggtctcgatcgatcgatccggtacgttttcatcgctccggtacgttatattcgacgatttcgacgttcgacgcgattatcgatccggtacgttcggtttcgacgtatcgacgcgatccggtacgttatgacgagttctcgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgttcggtttctcggtttacacgttcggtcttctcggttctggtttctcggtttacgttcggttatctcggtttcgatccggtacgttcggtcgatccggtacgttcggtcgatccggtacgttcgccggtacgttatgacgagttctcgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgttcggtttctcgccggtacgttatgacgagttctcgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgttcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcct

Como interpretar esta sequência?

?

Page 7: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Mas o “código da vida” não é fácil

atctggtctcgatcgatcgatccggtacgttttcatcgctccggtacgttatattcgacgatttcgacgttcgacgcgattatcgatccggtacgttcggtttcgacgtatcgacgcgatccggtacgttatgacgagttctcgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgttcggtttctcggtttacacgttcggtcttctcggttctggtttctcggtttacgttcggttatctcggtttcgatccggtacgttcggtcgatccggtacgttcggtcgatccggtacgttcgccggtacgttatgacgagttctcgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgttcggtttctcgccggtacgttatgacgagttctcgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgttcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcct

atg: códão de iniciação do gene (metionina)(qual deles é o “verdadeiro” início do gene?)

?

Page 8: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Aos poucos foram-se descobrindo padrões

ATG

Estes padrões permitem identificar com maior probabilidade onde estão os genes

© Oxford Genetics

Page 9: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Mas a Natureza é complicada

Distâncias grandes e variáveis

(mais difícil encontrar padrões )

Genes repartido em partes

Entre muitas outras complicações!

Page 10: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Mas a Natureza é complicada

Vários padrões alternativos

Distâncias variáveis

Definir onde está um gene nem sempre é fácil

© James Kadonaga

Page 11: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Mas a Natureza é complicada

Padrões para definir as várias partes dos genes (exões)

© geneinfinity.org

Page 12: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Mas a Natureza é complicada

• Em organismos complexos, padrões que definem início dos genes não têm distâncias bem definidas e não estão sempre presentes (eg. TATA só está em 25% dos genes)

• Em muitos genes o que existe são ilhas de CpG– Mini Projeto 1

Page 13: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

A Natureza é complicada… e fascinante

Como se gera um organismo inteiro a partir da fusão entre duas células?

© Campbell’s book

Page 14: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Cada tipo de célula precisa de genes (proteínas) diferentes

© Arthur’s clipart

Page 15: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

As células têm todas a mesma origem(partilham o mesmo código genético)

Public Domain: US Gov

Page 16: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Alguns genes precisam de ter a sua expressão limitada/regulada

No ADN está codificado (pelo menos em parte) quando e onde os genes se ativam

Os genes para processar arabinose

em bactérias só ativam quando este

açúcar está disponível no ambiente

e glucose não está presente.

© igem.org

Page 17: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Parte desta regulação é feita por proteínas que se ligam ao ADN

Fatores de Transcrição

© Robert Tjian

Page 18: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Fatores de transcrição atuam ao reconhecerem motivos no ADN

Page 19: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

O enigma do “DNA lixo”

• Genoma Humano: ~3x109 nucleótidos• Só 2% codifica proteínas• O que faz o resto? Alguns pensam que é “lixo”

• Neste “lixo” está código para regular genes

Page 20: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

É importante encontrar os motivos onde se ligam fatores de transcrição

• Muitas (~90%) das mutações implicadas em doenças não afetam diretamente a proteína

• Pensa-se que em muitos casos essas mutações afetem a regulação de expressão dos genes

Page 21: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Mas encontrar estes sítios é como procurar uma agulha num palheiro

• Motivos são pequenos (6-30 bases)• Temos de procura-los em milhares de bases

atctggtctcgatcgatcgatccggtacgttttcatcgctccggtacgttatattcgacgatttcgacgttcgacgcgattatcgatccggtacgttcggtttcgacgtatcgacgcgatccggtacgttatgacgagttctcgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgttcggtttctcggtttacacgttcggtcttctcggttctggtttctcggtttacgttcggttatctcggtttcgatccggtacgttcggtcgatccggtacgttcggtcgatccggtacgttcgccggtacgttatgacgagttctcgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgttcggtttctcgccggtacgttatgacgagttctcgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgttcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcct

Page 22: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Felizmente há estratégias para facilitar

Page 23: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Felizmente há estratégias para facilitar

• Procurar apenas nos promotores de genes expressos em condições particulares

• Procurar zonas conservadas evolutivamente

• Técnicas experimentais para selecionar apenas as zonas onde o fator está ligado ao ADN

Page 24: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Problema de encontrar motivosEntrada: Conjunto de sequências relacionadasSaída: Motivo(s) mais enriquecidos

Caso Ideal:- Motivo perfeito, em todas as sequências

Realidade:- Motivo imperfeito, em algumas sequências

- Combinação de motivos (“gramáticas”)

Page 25: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Problema de encontrar motivos

No caso Ideal:• Como definir um motivo (probabilidade)?• Como descobrir o tamanho do motivo?

No caso Real:• Como contruir um motivo imperfeito?• Como integrar dependências entre posições?

Page 26: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Algumas abordagens• Assumir modelo nulo completamente aleatório

– Não realista, aparecem muitos falsos positivos

• Usar o genoma todo como modelo nulo– Modelo ordem 0: Humano: 41% C e G; 59% A e T

• O genoma humano tem padrões de ordem superior– Modelos de ordem superior (1..k)

• Precisam de muita informação• Fixar numa ordem pode causar outros problemas

• Usar a própria amostra para construir um modelo nulo– Pode não ter informação suficiente para gerar modelo– Podemos estar a perder informação ao usar a amostra para criar um modelo nulo

• Usar sequências “pseudo-aleatórias” que repliquem propriedades da amostra– Nem sempre fácil de gerar, podem causar mais problemas

Page 27: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Uma abordagem experimental

• SELEX: modelo nulo aleatório

• Problema maior: não nos dá as sequências “reais” onde o fator se liga ao ADN

Sequências aleatórias

Fator a testar

Seleção das sequências© Jussi Taipale

Page 28: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Abordagens para motivos imperfeitos

• Motivo deve minimizar Entropia Informativaie, deve ser o menos aleatório possível

A [ 4 19 0 0 0 0 ]C [16 0 20 0 0 0 ]G [ 0 1 0 20 0 20 ]T [ 0 0 0 0 20 0 ]

H(X) = 0.30

A [ 4 41 36 7 19 3 ] C [35 1 2 29 14 22 ] G [ 2 1 4 6 7 15 ] T [ 2 0 1 1 3 3 ]

H(X) = 2.05

Page 29: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Outros desafios

• Nem sempre há independência posicional

• Distâncias variáveis

GT OU CC

Page 30: As Ferramentas da Bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática

Problema de encontrar motivos

Mini-Projeto 2?Discutir estratégias para encontrar motivos enriquecidos em sequências de nucleótidos, em diversas condições- Começando pela situação ideal e introduzindo complexidade