Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
08/08/2019
1
Introdução à
Análise Computacional de Macromoléculas
BMP 0123 - 2019
08/08/2019
2
e-mail: [email protected]
http://www.icb.usp.br/~cewinter/
Sala 17 – ICB2
Carlos Eduardo Winter
Fone: 3091-7269
e-mail: [email protected]
e-mail: [email protected]
Thaís Crippa (aluna PAE)
e-mail: [email protected]
• Alunos com diferentes conhecimentos de biologia
• Alunos com diferentes conhecimentos de ciência
da computação e bioestatística
• A maior parte deles tem um gene, proteína ou
doença favorita
Quem está fazendo esta disciplina?
08/08/2019
3
• Fornecer uma introdução à bioinformática com um
foco no "National Center for Biotechnology
Information" (NCBI) e o "European
Bioinformatics Institute" (EBI)
Quais os objetivos desta disciplina?
• Combinar teoria e prática para ajudar o aluno a
resolver problemas de pesquisa
• Focalizar na análise de DNA, RNA e proteínas
Temas em toda a disciplina
Livros texto
Sítios na rede
Referências de Literatura
Famílias de genes/de proteínas
08/08/2019
4
Livros texto
O livro texto da disciplina é J. Pevsner, Bioinformatics and
Functional Genomics 3rd Edition (Wiley, 2015).
Lesk, A. M. (2008) Introdução à Bioinformática – 2a
edição – Artmed.
Existem diversos outros livros texto do mesmo assunto:
Baxevanis and Ouellette
David Mount
Durbin et al.
Bioinformática: da Biologia à Flexibilidade Moleculares
(2014) https://www.ufrgs.br/bioinfo/ebook/
08/08/2019
5
Disciplina dividida em duas partes
1. Análise de sequências de DNA, RNA e proteína em bancos de dados
• Genômica
• Acesso a sequências e literatura
• Alinhamento de pares de sequências
• BLAST
2. Análise de RNA e proteína no genoma
• Alinhamento de múltiplas sequências
• Filogenia molecular e evolução
• Expressão gênica
• Análise de proteínas e proteômica
• Estrutura de proteínas
I. COMO ACESSAR DADOS DE SEQUÊNCIAS
BIOLÓGICAS, PARTICULARMENTE SEQUÊNCIAS DE
DNA E PROTEÍNAS
II. ABORDAGENS DE GENÔMICA FUNCIONAL
PARA RNA E PROTEÍNA
08/08/2019
6
Avaliação
Todas as aulas contêm exercícios que devem ser
resolvidos. Dúvidas poderão ser esclarecidas por mim:
e-mail: [email protected]
fone: 3091-7269
sala: 17 – ICB2 – das 9:00 – 19:00h
Ou pela aluna PAE Thaís Crippa:
e-mail: [email protected]
Avaliação
DUAS provas escritas (peso 2 cada uma)
PROJETO (peso 3) que vocês deverão desenvolver
individualmente
08/08/2019
7
Cálculo da Média Final
Média Final =(Nota prova1 x 2) + (Nota prova2 x 2) + (Nota trabalho x 3)
7
(Nota prova sub x 2) + [Nota prova (1 ou 2) x 2] + (Nota trabalho x 3)
7
ou
=
Caso raro que exige atestado médico do COSEAS:
(Nota prova sub x 4) + (Nota trabalho x 3)
7Média Final =
A Prova de Recuperação será ministrada aos alunos que
tiverem média final inferior a 5,0 e superior a 3,0 em data a
ser agendada posteriormente, de acordo com a Norma de
Recuperação constante no Júpiter
08/08/2019
8
AULA 1
Introdução a biologia molecular e bioinformática
08/08/2019
9
T=tera=1012 P=peta=1015 E=exa=1018 Z=zetta=1021 TCGA = The Cancer Genome Atlas
ExAC = Exome Aggregation Consortium
Double
every
7
months
Historical
growth rateDouble every
12 monthsIllumina Estimate
Double
every
18
months
Moore’s
Law
CRESCIMENTO DO SEQUENCIAMENTO DE DNA
O dogma central segundo Francis Crick
“... once ‘information’ has passed into protein it cannot get out
again.”
08/08/2019
10
grupo
amino
Cadeia
lateral
grupo
carboxila
Estrutura de um L-amino ácido
grupo
amino
Cadeia
lateral
grupo
carboxila
grupo
amino
Cadeia
lateral
grupo
carboxila
Formação de uma ligação peptídica
08/08/2019
11
Cisteína
(na cadeia polipeptídica)
Cisteína
(em outra porção da
cadeia polipeptídica)
OXIDAÇÃO
REDUÇÃO
LIGAÇÃO DE
DISSULFETO
Cistina
(ligação cruzada de dois
Segmentos da cadeia
polipeptídica)
Formação da ligação (ou ponte) de dissulfeto numa proteína
Os RNAs se separam em bandas discretas num
gradiente de sacarose
As bandas de 23 e 16S correspondiam a
RNAs que se localizavam nos ribossomos
Elas correspondem a 85% do RNA
bacteriano.
A banda de 4S correspondia as
adaptadores propostos por Crick, mais
tarde denominados tRNAs e
correspondem a 15% de todo RNA
Os mRNAs são somente 1 a 4% do RNA
total, são polidispersos e não aparecem
como bandas
08/08/2019
12
Principais RNAs nos ribossomos
Principais RNAs nos ribossomos
08/08/2019
13
sítio de adição de nucleotídeos
à fita nascente de RNA
fita molde
fita não-molde
RNA
polimeraseRNA
5´
hélice de DNA
Síntese enzimática de RNA sobre um molde de
DNA, catalizada pela RNA polimerase
CONTROLE DE TRADUÇÃO
GRAMPO IRES
5´ UTR
PROTEÍNA
INTERACTORA
IRES=internal ribosomal entry site
uORF=upstream ORF
m7G uORF Região codificante
COMPLEXO PROTEICO
RNA antisenso
Mignone et al., Genome Biology 3(3):reviews0004.1-0004.10, 2002
ZIP code CPE
POLIADENILAÇÃO
LOCALIZAÇÃO SUBCELULAR ESTABILIDADE
3´ UTR
CPE=cytoplasmic polyadenylation element
Estrutura genérica de um mRNA eucariótico
08/08/2019
14
Íntrons e éxons nos mRNAs eucarióticos
Íntrons e éxons nos mRNAs eucarióticos
08/08/2019
15
Como ocorre o splicing do pré-mRNA
As três topologias possíveis para íntrons
08/08/2019
16
SS 5´ SS 3´
ÉXON ÉXONÍNTRON
Cis-splicing
ÉXON
RNP DE SL1
SS 5´
SS 3´
OUTRON
Trans-splicing
Processamento dos pré-mRNAs em nematoides
Blumenthal, Wormbook, doi/10.1895/wormbook.1.5.2, 2012
Blumenthal, Wormbook, doi/10.1895/wormbook.1.5.2, 2012
5´ 3´ 5´ 3´
PROMOTO
R
100 PB
ELEMENTO UrAAUAA
ASÍTIO DE TRANS-SPLICING
ESPECÍFICO PARA SL2
operon tipo SL2
5´ 3´5´ 3´
PROMOTO
RAAUAAA(N)5-20UUUUCAG
SÍTIO DE POLIADENILAÇÃO SÍTIO DE TRANS-SPLICING ESPECÍFICO PARA SL1
operon tipo SL1
Nematoides possuem operons
~
08/08/2019
17
5´ 3´
mRNA
ribossomo
polipeptídeo
nascente
subunidadesribossômicas
liberadas
fiminício
Cadeia polipeptídica
terminada e liberada
Biossíntese de proteína num poliribossomo
N-terminal
Núcleo Citoplasma Tradução
Dicer
TRBP
Proteínas celulares
clivagem do mRNAControle de
tradução
Seleção da fitae separação
Ago2 TRBP
Dicer
Montagem do miRNP
ou RISC
DicerTRBP
Complexo p/processar
Pre-miRNA
miRNP ou RISCmaduro
Membrana CelularEnvoltório Nuclear
miRNA
Reconhecimento
do mRNA alvo
mRNAs celulares
Microprocessador
DroshaDGCR8AAAAA
Transcrição
Transcrição
Pri-miRNA
Pré-miRNAPré-miRNAexportina-5
http://www.crchudequebec.ulaval.ca/uploads/Image/Fig%201%20CIHR%20Sept%202010.jpg
Funcionamento dos micro RNAs
08/08/2019
18
A INFORMÁTICA É UMA CIÊNCIA EXATA...
E A BIOINFORMÁTICA?
• Análise de alguns genes e proteínas ou mesmo de genomas, transcriptomas
ou proteomas inteiros. Utiliza-se da computação para desenvolvimento de
métodos adequados para a suas análises (banco de dados e algoritmos
específicos).
O que é bioinformática?Interface entre diversas áreas, da biologia a
computação
08/08/2019
19
Os dez principais desafios da bioinformática
[1] Modelos precisos de onde e quando a transcrição
ocorrerá num genoma (iniciação e terminação)
[2] Modelos preditivos precisos de "splicing" alternativo de
RNA
[3] Modelos precisos de vias de transdução de sinal;
capacidade de predizer respostas celulares a estímulos
externos
[4] Determinar os códigos de reconhecimento
proteína:DNA, proteína:RNA, proteína:proteína
[5] Predizer ab initio a estrutura de proteínas
Fonte: Ewan Birney,
Chris Burge, Jim Fickett
Os dez principais desafios da bioinformática
[6] Desenho racional de pequenas moléculas inbidoras de
proteínas
[7] Conhecimento do mecanismo da evolução de proteínas
[8] Conhecimento do mecanismo da especiação
[9] Desenvolvimento de ontologias gênicas eficientes:
meios sistemáticos de descrever as funções de genes e
proteínas
[10] Educação: desenvolvimento de currículos de
bioinformática
08/08/2019
20
Mathematics Is Biology’s Next
Microscope,
Only Better; Biology Is Mathematics’
Next
Physics, Only Better
PLoS Biology | www.plosbiology.org December 2004 | Volume 2 | Issue 12 | e439
Joel E. Cohen
Joel E. Cohen is at the Laboratory of Populations,
Rockefeller and Columbia Universities, New
York, New York, United States of America. E-mail:
https://doi.org/10.1371/journal.pbio.0020439
A Mathematician's Lament - Paul Lockhart - Bellevue Literary Press - NY - 2009
08/08/2019
21
A Ciência começa com um problema. Ela usa:
Problema
hipótese:
possível
soluçãopredição
novo problema teoria falsificação
Imaginação,
conjectura dedução
Imaginação
hipótese
falsificação
Falsificação -
Popper
COMO FUNCIONA A CIÊNCIA?
08/08/2019
22
PRINCÍPIOS GERAIS DA BIOLOGIA MOLECULAR
O DOGMA CENTRAL
A informação uma vez armazenada na forma de
proteína nunca mais pode sair daí (Crick,1958)
A HIPÓTESE DA sequência
A especificidade de um pedaço de ácido nucléico é
expressa somente pela sequência de suas bases, e
esta sequência é um código (simples) para a
sequência de aminoácidos de uma proteína
específica (Crick,1958)
Utilizadores de
instrumentos
Construtores
de
instrumentos
bioinformáti
ca
Informática
em saúde
pública
Informátic
a médica
infraestrutu
ra
bancos de
dados
algoritmo
s
08/08/2019
23
Três perspectivas da bioinformática
A célula
O organismo
A árvore da vida
DNA RNA fenótipoproteína
1ª perspectiva da Bioinformática: A CÉLULA
08/08/2019
24
Tempo do
desenvolvimento
Região do corpo, fisiologia,
farmacologia, patologia
2ª perspectiva da Bioinformática: O ORGANISMO
Segundo Pace NR (1997)
Science 276:734
3ª perspectiva da Bioinformática: A ÁRVORE DA VIDA
08/08/2019
25
Base para essa disciplina:
famílias de genes/proteínas
• Nós utilizaremos a "retinol-binding protein 4" (RBP4) –
membro da família das lipocalinas - como um modelo de
gene/proteína ao longo de todas as aulas.
• Também usaremos outros exemplos, como as globinas e
proteína pol de HIV-1
RBP4: um exemplo consistente
1. Proteína secretada, pequena e abundante. Transporta retinol para os olhos
dos vertebrados.
2. Há muitas proteínas homólogas a RBP4 em diversos vertebrados
(“ortólogas”). Exemplos para alinhamentos, busca em bancos de dados e
filogenia.
3. Há outras proteínas humanas relacionadas a RBP4 (“parálogas”). Essas
proteínas são chamadas lipocalinas. Incluem apolipoproteína D (ligadora de
colesterol), afrodisina relacionada à gravidez em hamsters e uma proteína
ligadora de odores no muco.
4. Há lipocalinas bacterianas. Algumas dessas podem ter sido transferidas
horizontalmente para eucariotos.
5. Os níveis de expressão gênica de algumas lipocalinas é regulado.
6. As lipocalinas são pequenas, abundantes e solúveis e suas propriedades
bioquímicas foram caracterizadas em detalhe.
7. Algumas lipocalinas estão relacionadas com doenças humanas.
08/08/2019
26
Gene pol de HIV-1 codifica três proteínas:
outro exemplo consistente
Aspartil
protease
Transcriptase
reversa
Integrase
PR RT IN
Gene pol de HIV
1. Pol é uma proteína com múltiplos domínios. Possui 1003 aminoácidos com
atividade de transcriptase reversa (uma DNA polimerase dependente de RNA).
É também uma aspartil protease, e possui atividade de integrase.
2. Natureza modular afeta sua capacidade de busca em bancos de dados e
alinhamentos de múltiplas sequências.
3. O gene pol incorpora substituições com extrema rapidez. Um indivíduo
infectado por HIV pode ter mais de um milhão de variantes de pol. O estudo da
evolução de pol complementa nosso estudo das lipocalinas.
4. Procuras em bancos de dados com pol ajudará a entender como restringir
procuras a domínios particulares da árvore da vida.
08/08/2019
27
Questões das aulas estão em:http://www.icb.usp.br/~biocomp/
Documentos e slides:http://www.icb.usp.br/~biocomp/docs.html
DNA from the beginning:http://www.dnaftb.org/
http://www.dnalc.org/resources/
Aulas online:http://www.ibiology.org/
http://www.hhmi.org/biointeractive