Upload
internet
View
103
Download
0
Embed Size (px)
Citation preview
BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS
Raquel C. de Melo Minardi
CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL
Motivação
Cientistas determinaram a estrutura de milhares de componentes biomoleculares das células
Entendimento da biologia celular em nível atômico
Estruturas levam a respostas a inúmeras questões biológicas, assim como permitem aos cientistas a colocação de inúmeras novas questões
Raquel C. de Melo Minardi 2/63
Motivação
Raquel C. de Melo Minardi 3/63
Estruturas disponíveis livremente Arquivos de coordenadas de proteínas a ácidos nucleicos
estão disponíveis on-line: robossomos, oncogenes, alvos terapêuticos e até mesmo vírus completos
Desenvolvimento de fármacos: o conhecimento da estrutura de proteínas permite o projeto de pequenas moléculas que se liguem a elas e possam, por exemplo, bloquear sua função
Raquel C. de Melo Minardi
É comum encontrar no PDB milhares de estruturas de proteases de HIV com drogas anti-HIV
Cientistas usam estruturas como esta para compreender ação dos medicamentos existentes e para projetar novos e mais poderosos medicamentos para lutar contra a resistência.
4/63
Estruturas disponíveis livremente
Raquel C. de Melo Minardi 5/63
Estruturas disponíveis livremente Revelação de detalhes da vida: estruturas de oxi e
desoxi-hemoglobinas revelam como ocorre o controle para ligação do oxigênio
Raquel C. de Melo Minardi
Uma pequena mutação faz com que hemoglobinas se agreguem em longas cadeias que distorcem as hemáceas e causam severos problemas circulatórios
6/63
Estruturas disponíveis livremente
Engenharia biomolecular e bionanotecnologia: Pesquisadores visam modificar biomoléculas para que adquiram novas funções ou mesmo projetar moléculas inteiramente novas
Raquel C. de Melo Minardi 7/63
PDB
Possibilta a exploração das bases atômicas da função molecular
É um repositório de coordenadas atômicas e anotações detalhadas sobre os detalhes experimentais
Desafios:
1. Obter o conjunto de moléculas de interesse
2. Utilizar / desenvolver modelos, algoritmos e ferramentas que possibilitem obter as propriedades de interesse
Raquel C. de Melo Minardi 8/63
PDB: Busca
Há muitas ferramentas disponíveis para busca no PDB baseadas em diversas propriedades como por exemplo nomes de moléculas e sequências de aminoácidos
Há ainda diversas referências cruzadas com outras bases como Gene Ontology, SCOP, CATH, EC numbers, etc
Há ainda a possibilidade de se acessar este repositório via FTP
wget -r ftp://ftp.wwpdb.org/pub/pdb/data/structures/all/pdb/* -nd -nv
Raquel C. de Melo Minardi 9/63
PDB: Visualização
O PDB utiliza comumente o plug-in do Jmol (desenvolvido em Java)
Há inúmeras outras possibilidades de ferramentas de visualização de estruturas no formato PDB como Rasmol e PyMol, por exemplo
Infelizmente, cada ferramenta utiliza um conjunto de comandos extremamente específico
Raquel C. de Melo Minardi 10/63
PDB: Visualização
Raquel C. de Melo Minardi
Rasmol
Programa leveSimplicidade de aprendizado
PyMol
Imagens de alta qualidade
11/63
PDB: Visualização
Raquel C. de Melo Minardi
Jmol
Pode ser embutido em páginas web
12/63
Dados do PDB
Os arquivos PDB são arquivos texto, podendo ser abertos em qualquer editor de textos como notepad, vi, etc.
Informação primária: coordenadas (x, y, z), ou seja, lista de átomos que compõem uma proteína e suas localizações no espaço tridimensional
Um PDB típico traz um resumo sobre a proteína, informações sobre citações, detalhes dos experimentos de resolução seguido das coordenadas
Outros formatos: mmCIF e XML
Raquel C. de Melo Minardi 13/63
Coordenadas
Um arquivo PDB pode conter coordenadas de uma coleção de proteínas, pequenas moléculas, íons e água
As informações de cada átomo são descritas em uma linha que começa com as palavras-chave “ATOM” ou “HETATM”
“ATOM” identifica átomos de proteínas e ácidos nucléicos
“HETATM” identifica átomos de pequenas moléculas
Após esta palavra, chave há uma lista de informações: nome do átomo, seu identificador no arquivo, nome e número do resíduo de aminoácidos ao qual pertence, uma letra indicando sua cadeia, coordenadas x, y, z e a sua ocupância e fator de temperatura
Raquel C. de Melo Minardi 14/63
Coordenadas
Raquel C. de Melo Minardi 15/63
Cadeias e modelos
Um arquivo PDB é sempre dividido em cadeiasCada cadeia polipeptídica recebe um identificador de uma letra
No caso de experimentos de RNM, ele é dividido em múltiplos modelos representando possíveis conformações para a molécula
Raquel C. de Melo Minardi 16/63
Resolução
A resolução é uma medida da qualidade do dado coletado do cristal contendo a proteína
Se todas as proteínas estiverem alinhadas de forma perfeita no cristal, obtem-se informações bastante precisas sobre a localização dos átomos
Caso contrário, se houver, por exemplo, movimentações no interior do cristal, o padrão de difração não será tão confiável
Raquel C. de Melo Minardi 17/63
Resolução
Raquel C. de Melo Minardi 18/63
Fator de temperatura
Se fossemos capazes de visualizar a nuvem eletrônica de um átomo rigidamente fixo, ela seria densa das proximidades do núcleo e cairia com o aumento da distância
Quando olhamos para as densidades experimentais, provenientes de experimentos de difração de raios-X, pequenas vibrações nas posições dos átomos distorcem um pouco a nuvem que somos capazes de visualizar
Estas distorções são captadas proporcionalmente pelo B-value ou fator de temperatura
B-value < 10, modelo bastante preciso B-value > 50, átomos quase não podem ser localizados
Raquel C. de Melo Minardi 19/63
Fator de temperatura
Raquel C. de Melo Minardi 20/63
Ocupância
Cristais macromoleculares são compostos de muitas moléculas individuais empacotadas em um arranjo simétrico
Em alguns cristais, podem haver diferenças entre estas moléculas
Uma cadeia lateral na superfície pode estar em diferentes orientações nos diferentes cristais, um ligante pode se ligar em diferentes orientações em um sítio ativo, um íon pode estar presente em apenas algumas moléculas
A ocupância é uma medida de cada conformação presente no cristal
De modo geral, a ocupância é 1 para a maioria dos átomos indicando que eles estão na mesma posição em todas as moléculas
Ocupâncias variam de 0 a 1
Raquel C. de Melo Minardi 21/63
Ocupância
Raquel C. de Melo Minardi 22/63
Ocupância
Raquel C. de Melo Minardi 23/63
Por que o PDB não é completo?
Devido a algumas limitações das técnicas de resolução, algumas partes da proteína podem estar faltando como:
Loops
Porções N e/ou C-terminais
Hidrogênios
Raquel C. de Melo Minardi 24/63
Loops ausentes
Como a resolução de estruturas por difração de raios-X é baseada na posição dos átomos nas diversas moléculas presentes no cristal, posições muito móveis podem não apresentar um padrão claro de difração
Raquel C. de Melo Minardi
Esta protease resolvida sem ligante e por difração de raios-X apresenta dois loops ausentes devido a alta flexibilidade
A mesma protease resolvida com inibidores, não apresenta este problema visto que os loops apresentam uma conformação mais estável neste caso
25/63
Hidrogênios
A grande maioria dos experimentos de difração de raios-X não resolve as posições dos hidrogênios. Estas podem ser inferidas por programas posteriormente
Já os experimentos de RNM baseam-se em um conjunto de distâncias entre hidrogênios apresentando as coordenadas para tais átomos
Raquel C. de Melo Minardi 26/63
Sequências
Cada arquivo PDB possui registros chamados SEQRES que contém a sequência primária de resíduos de aminoácidos que compõem a molécula
Raquel C. de Melo Minardi
Moléculas Nomenclatura
Aminoácidos ALA, CYS, ASP, GLU, PHE, GLY, HIS, ILE, LYS, LEU, MET, ASN, PRO, GLN,
ARG, SER, THR, VAL, TRP, TYR, (outros como MSE, CBR)
Desoxiribonucleotídeos DA, DC, DT, DG, DI
Ribonucleotídeos A, C, T, G, I
27/63
Sequências
É preciso ter cuidado ao usar a sequência proveniente de SEQRES: nem sempre ela corresponde à sequência descrita na seção de coordenadas
Terminais das cadeias e loops muito móveis normalmente não são obtidos nos experimentos e não tem as coordenadas descritas no arquivo PDB mesmo estando presente no experimento e descrita no SEQRES
Além disto, é comum trabalhar apenas com fragmentos das moléculas então normalmente apenas trechos da molécula têm suas coordenadas depositadas
O número dos aminoácidos pode assumir qualquer valor (negativo, 0, positivo)
Raquel C. de Melo Minardi 28/63
Coordenadas atômicas
Raquel C. de Melo Minardi 29/63
Seção de coordenadas
Raquel C. de Melo Minardi 30/63
Formato PDBhttp://www.wwpdb.org/documentation/format32/v3.2.html
Raquel C. de Melo Minardi 31/63
PDBest
PDBest – PDB Enhanced Structures ToolkitD. Pires , C. Silveira, M. Santoro e W. Meira Júnior.
Conjunto de scripts perl que: Separa arquivos PDB em cadeias Separa os arquivos de Difração de Raios-X e RNM Separa em diferentes modelos Separa ligantes Renumera os resíduos das cadeias Retira átomos de hidrogênio Seleciona por tipo ou nome de átomo, nome do resíduo,
cadeia, ocupância, intervalor de átomos e resíduos, estruturas secundárias.
Raquel C. de Melo Minardi 32/63
PDBest
ATOMTYPE = ,ALL, CHAIN = ,ALL,OCCUP = ,ALL,ATOMRANGE = ,ALL,RESRANGE = ,ALL,ATOMNAME = ,NOT-H*,RESNAME = ,ALL,SECONDSTR = ,ALL, INCREMENTINDEX = ,ALL,``
Raquel C. de Melo Minardi 33/63
Referências cruzadas
Raquel C. de Melo Minardi 34/63
Referências cruzadas
Raquel C. de Melo Minardi 35/63
SCOP
Raquel C. de Melo Minardi
Classificação hierárquica de domínios de proteínas segundo relacionamentos evolucionários e estruturais
Construído essencialmente por inspeção visual
Possui os seguintes níveis:1. Classe: conjunto de domínios cuja composição em termos
de estruturas secundárias é a mesma. Ex.: alfa, beta, alfa+beta, alfa/beta,…
2. Fold: conjunto de proteínas das quais o arranjo das estruturas secundárias e suas inter-conexões são os mesmos
3. Super-família: proteínas com baixa similaridade sequencial mas cujas estruturas e características funcionais sugerem relacionamentoes evolucionários
4. Família: conjunto de proteínas que compartilham pelo menos 30% de identidade de sequência ou que, apesar da baixa similaridade de sequência, têm alta conservação estrutural e funcional
36/63
SCOP
Raquel C. de Melo Minardi
http://scop.mrc-lmb.cam.ac.uk/scop/
37/63
Pfam
Raquel C. de Melo Minardi
http://pfam.sanger.ac.uk/
38/63
Pfam
Raquel C. de Melo Minardi
http://pfam.sanger.ac.uk/
39/63
Pfam
Raquel C. de Melo Minardi
http://pfam.sanger.ac.uk/
40/63
Pfam
Raquel C. de Melo Minardi
http://pfam.sanger.ac.uk/
41/63
STING
Raquel C. de Melo Minardi
Sequence To and withIN Graphicshttp://www.cbi.cnptia.embrapa.br/SMS
42/63
STING
Raquel C. de Melo Minardi
Sequence To and withIN Graphicshttp://www.cbi.cnptia.embrapa.br/SMS
43/63
Raquel C. de Melo Minardi 44/63
PDB Ligand Explorer
Raquel C. de Melo Minardi
http://www.pdb.org/pdb/Viewers/RCSBViewers/view.jsp?hetId=HEM&viewerType=LX&structureId=1A6M&structIdFromStrutsAction=1A6M
45/63
PDB Ligand Expo
Raquel C. de Melo Minardi
http://ligand-expo.rcsb.org
46/63
PDB Ligand Expo
Raquel C. de Melo Minardi 47/63
PubChem
Raquel C. de Melo Minardi
http://pubchem.ncbi.nlm.nih.gov/
48/63
PubChem
Raquel C. de Melo Minardi
http://pubchem.ncbi.nlm.nih.gov/
49/63
Formatos de moléculas
Raquel C. de Melo Minardi
Qual a modelagem mais natural paraum cientista da computação?
50/63
Formatos de moléculas
Raquel C. de Melo Minardi
Um grafo no qual:
• os átomos são nós
• as ligações covalentes são arestas
Como tratar a ressonância?
E o tautomerismo? (migração de um átomo de hidrogênio (ou próton) acompanhada da troca de uma ligação simples por uma dupla)
51/63
Formatos de moléculas
Raquel C. de Melo Minardi
Tabelas: mol, mdl, sdf
Linhas: smiles
52/63
Formatos de moléculas: SDF
Raquel C. de Melo Minardi
Molécula tem 21 átomos e 20 ligações
53/63
Formatos de moléculas: SMILES
Raquel C. de Melo Minardi
Simplified Molecular Input Line Entry Specificationé uma forma de descrever estruturas moleculares de forma não ambígua e através de uma cadeia de caracteres
A conversão de uma estrutura molecular para o formato SMILES baseia-se na modelagem de uma molécula como um grafo no qual nós são os átomos e as arestas são as ligações covalentes entre eles
A string é obtida através do caminhamento em profundidade no grafo
Antes, os átomos de hidrogênio são excluídos e os ciclos são transformados em uma árvore geradora mínima Quando os ciclos são quebrados, rótulos numéricos
indicam as ligações quebradas Parênteses indicam ramificações
54/63
Formatos de moléculas: SMILES
Raquel C. de Melo Minardi 55/63
Formatos de moléculas: SMILES
Raquel C. de Melo Minardi
ÁTOMOS
Representados pelo símbolo do elemento químico entre [] exceto para o subconjunto orgânico B, C, N, O, P, S, F, Cl, Br e IEx.: A água é representada como O
Qualquer átomo carregado deve ser colocado entre [] mais o H e a cargaEx.: [OH-], [OH+3]
56/63
Formatos de moléculas: SMILES
Raquel C. de Melo Minardi
LIGAÇÕES
Ligações em cadeias alifáticas são assumidas como simplesEx.: Etanol seria COO
Rótulos numéricos indicam o fechamento de anéis Ex.: Ciclohexano C1CCCCC1
57/63
Formatos de moléculas: SMILES
Raquel C. de Melo Minardi
LIGAÇÕES
Um segundo anel entra com rótulo 2Ex.: Naftaleno C1CCCCC1C2CCCCC2
Ligações duplas são representadas por =Ex. Dióxido de carbon O=C=O
Ligações triplas são representadas por #
58/63
Formatos de moléculas: SMILES
Raquel C. de Melo Minardi
RAMIFICAÇÕES
Ramificações são indicadas por parêntesesEx.:
CCC(=O)O C(F)(F)F
59/63
Formatos de moléculas: SMILES
Raquel C. de Melo Minardi
ESTEREOQUÍMICA
Configuração ao redor de ligações duplas F/C=C/F F/C=C\F
Configuração ao redor de carbonos tetraédricosEx.:
L-Alanina D-Alanina
60/63
Depict
Raquel C. de Melo Minardi
http://www.daylight.com/daycgi/depict
61/63
Depict
Raquel C. de Melo Minardi
http://www.openbabel.org
Exemplo de uso:babel –ipdb entrada.pdb -osmiles > saida.smiles
62/63
Chemaxon
Raquel C. de Melo Minardi
http://www.chemaxon.com
63/63