BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi...

Preview:

Citation preview

BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS

Raquel C. de Melo Minardi

raquelcm@dcc.ufmg.br

CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Motivação

Cientistas determinaram a estrutura de milhares de componentes biomoleculares das células

Entendimento da biologia celular em nível atômico

Estruturas levam a respostas a inúmeras questões biológicas, assim como permitem aos cientistas a colocação de inúmeras novas questões

Raquel C. de Melo Minardi 2/63

Motivação

Raquel C. de Melo Minardi 3/63

Estruturas disponíveis livremente Arquivos de coordenadas de proteínas a ácidos nucleicos

estão disponíveis on-line: robossomos, oncogenes, alvos terapêuticos e até mesmo vírus completos

Desenvolvimento de fármacos: o conhecimento da estrutura de proteínas permite o projeto de pequenas moléculas que se liguem a elas e possam, por exemplo, bloquear sua função

Raquel C. de Melo Minardi

É comum encontrar no PDB milhares de estruturas de proteases de HIV com drogas anti-HIV

Cientistas usam estruturas como esta para compreender ação dos medicamentos existentes e para projetar novos e mais poderosos medicamentos para lutar contra a resistência.

4/63

Estruturas disponíveis livremente

Raquel C. de Melo Minardi 5/63

Estruturas disponíveis livremente Revelação de detalhes da vida: estruturas de oxi e

desoxi-hemoglobinas revelam como ocorre o controle para ligação do oxigênio

Raquel C. de Melo Minardi

Uma pequena mutação faz com que hemoglobinas se agreguem em longas cadeias que distorcem as hemáceas e causam severos problemas circulatórios

6/63

Estruturas disponíveis livremente

Engenharia biomolecular e bionanotecnologia: Pesquisadores visam modificar biomoléculas para que adquiram novas funções ou mesmo projetar moléculas inteiramente novas

Raquel C. de Melo Minardi 7/63

PDB

Possibilta a exploração das bases atômicas da função molecular

É um repositório de coordenadas atômicas e anotações detalhadas sobre os detalhes experimentais

Desafios:

1. Obter o conjunto de moléculas de interesse

2. Utilizar / desenvolver modelos, algoritmos e ferramentas que possibilitem obter as propriedades de interesse

Raquel C. de Melo Minardi 8/63

PDB: Busca

Há muitas ferramentas disponíveis para busca no PDB baseadas em diversas propriedades como por exemplo nomes de moléculas e sequências de aminoácidos

Há ainda diversas referências cruzadas com outras bases como Gene Ontology, SCOP, CATH, EC numbers, etc

Há ainda a possibilidade de se acessar este repositório via FTP

wget -r ftp://ftp.wwpdb.org/pub/pdb/data/structures/all/pdb/* -nd -nv

Raquel C. de Melo Minardi 9/63

PDB: Visualização

O PDB utiliza comumente o plug-in do Jmol (desenvolvido em Java)

Há inúmeras outras possibilidades de ferramentas de visualização de estruturas no formato PDB como Rasmol e PyMol, por exemplo

Infelizmente, cada ferramenta utiliza um conjunto de comandos extremamente específico

Raquel C. de Melo Minardi 10/63

PDB: Visualização

Raquel C. de Melo Minardi

Rasmol

Programa leveSimplicidade de aprendizado

PyMol

Imagens de alta qualidade

11/63

PDB: Visualização

Raquel C. de Melo Minardi

Jmol

Pode ser embutido em páginas web

12/63

Dados do PDB

Os arquivos PDB são arquivos texto, podendo ser abertos em qualquer editor de textos como notepad, vi, etc.

Informação primária: coordenadas (x, y, z), ou seja, lista de átomos que compõem uma proteína e suas localizações no espaço tridimensional

Um PDB típico traz um resumo sobre a proteína, informações sobre citações, detalhes dos experimentos de resolução seguido das coordenadas

Outros formatos: mmCIF e XML

Raquel C. de Melo Minardi 13/63

Coordenadas

Um arquivo PDB pode conter coordenadas de uma coleção de proteínas, pequenas moléculas, íons e água

As informações de cada átomo são descritas em uma linha que começa com as palavras-chave “ATOM” ou “HETATM”

“ATOM” identifica átomos de proteínas e ácidos nucléicos

“HETATM” identifica átomos de pequenas moléculas

Após esta palavra, chave há uma lista de informações: nome do átomo, seu identificador no arquivo, nome e número do resíduo de aminoácidos ao qual pertence, uma letra indicando sua cadeia, coordenadas x, y, z e a sua ocupância e fator de temperatura

Raquel C. de Melo Minardi 14/63

Coordenadas

Raquel C. de Melo Minardi 15/63

Cadeias e modelos

Um arquivo PDB é sempre dividido em cadeiasCada cadeia polipeptídica recebe um identificador de uma letra

No caso de experimentos de RNM, ele é dividido em múltiplos modelos representando possíveis conformações para a molécula

Raquel C. de Melo Minardi 16/63

Resolução

A resolução é uma medida da qualidade do dado coletado do cristal contendo a proteína

Se todas as proteínas estiverem alinhadas de forma perfeita no cristal, obtem-se informações bastante precisas sobre a localização dos átomos

Caso contrário, se houver, por exemplo, movimentações no interior do cristal, o padrão de difração não será tão confiável

Raquel C. de Melo Minardi 17/63

Resolução

Raquel C. de Melo Minardi 18/63

Fator de temperatura

Se fossemos capazes de visualizar a nuvem eletrônica de um átomo rigidamente fixo, ela seria densa das proximidades do núcleo e cairia com o aumento da distância

Quando olhamos para as densidades experimentais, provenientes de experimentos de difração de raios-X, pequenas vibrações nas posições dos átomos distorcem um pouco a nuvem que somos capazes de visualizar

Estas distorções são captadas proporcionalmente pelo B-value ou fator de temperatura

B-value < 10, modelo bastante preciso B-value > 50, átomos quase não podem ser localizados

Raquel C. de Melo Minardi 19/63

Fator de temperatura

Raquel C. de Melo Minardi 20/63

Ocupância

Cristais macromoleculares são compostos de muitas moléculas individuais empacotadas em um arranjo simétrico

Em alguns cristais, podem haver diferenças entre estas moléculas

Uma cadeia lateral na superfície pode estar em diferentes orientações nos diferentes cristais, um ligante pode se ligar em diferentes orientações em um sítio ativo, um íon pode estar presente em apenas algumas moléculas

A ocupância é uma medida de cada conformação presente no cristal

De modo geral, a ocupância é 1 para a maioria dos átomos indicando que eles estão na mesma posição em todas as moléculas

Ocupâncias variam de 0 a 1

Raquel C. de Melo Minardi 21/63

Ocupância

Raquel C. de Melo Minardi 22/63

Ocupância

Raquel C. de Melo Minardi 23/63

Por que o PDB não é completo?

Devido a algumas limitações das técnicas de resolução, algumas partes da proteína podem estar faltando como:

Loops

Porções N e/ou C-terminais

Hidrogênios

Raquel C. de Melo Minardi 24/63

Loops ausentes

Como a resolução de estruturas por difração de raios-X é baseada na posição dos átomos nas diversas moléculas presentes no cristal, posições muito móveis podem não apresentar um padrão claro de difração

Raquel C. de Melo Minardi

Esta protease resolvida sem ligante e por difração de raios-X apresenta dois loops ausentes devido a alta flexibilidade

A mesma protease resolvida com inibidores, não apresenta este problema visto que os loops apresentam uma conformação mais estável neste caso

25/63

Hidrogênios

A grande maioria dos experimentos de difração de raios-X não resolve as posições dos hidrogênios. Estas podem ser inferidas por programas posteriormente

Já os experimentos de RNM baseam-se em um conjunto de distâncias entre hidrogênios apresentando as coordenadas para tais átomos

Raquel C. de Melo Minardi 26/63

Sequências

Cada arquivo PDB possui registros chamados SEQRES que contém a sequência primária de resíduos de aminoácidos que compõem a molécula

Raquel C. de Melo Minardi

Moléculas Nomenclatura

Aminoácidos ALA, CYS, ASP, GLU, PHE, GLY, HIS, ILE, LYS, LEU, MET, ASN, PRO, GLN,

ARG, SER, THR, VAL, TRP, TYR, (outros como MSE, CBR)

Desoxiribonucleotídeos DA, DC, DT, DG, DI

Ribonucleotídeos A, C, T, G, I

27/63

Sequências

É preciso ter cuidado ao usar a sequência proveniente de SEQRES: nem sempre ela corresponde à sequência descrita na seção de coordenadas

Terminais das cadeias e loops muito móveis normalmente não são obtidos nos experimentos e não tem as coordenadas descritas no arquivo PDB mesmo estando presente no experimento e descrita no SEQRES

Além disto, é comum trabalhar apenas com fragmentos das moléculas então normalmente apenas trechos da molécula têm suas coordenadas depositadas

O número dos aminoácidos pode assumir qualquer valor (negativo, 0, positivo)

Raquel C. de Melo Minardi 28/63

Coordenadas atômicas

Raquel C. de Melo Minardi 29/63

Seção de coordenadas

Raquel C. de Melo Minardi 30/63

Formato PDBhttp://www.wwpdb.org/documentation/format32/v3.2.html

Raquel C. de Melo Minardi 31/63

PDBest

PDBest – PDB Enhanced Structures ToolkitD. Pires , C. Silveira, M. Santoro e W. Meira Júnior.

Conjunto de scripts perl que: Separa arquivos PDB em cadeias Separa os arquivos de Difração de Raios-X e RNM Separa em diferentes modelos Separa ligantes Renumera os resíduos das cadeias Retira átomos de hidrogênio Seleciona por tipo ou nome de átomo, nome do resíduo,

cadeia, ocupância, intervalor de átomos e resíduos, estruturas secundárias.

Raquel C. de Melo Minardi 32/63

PDBest

ATOMTYPE = ,ALL, CHAIN = ,ALL,OCCUP = ,ALL,ATOMRANGE = ,ALL,RESRANGE = ,ALL,ATOMNAME = ,NOT-H*,RESNAME = ,ALL,SECONDSTR = ,ALL,    INCREMENTINDEX = ,ALL,``

Raquel C. de Melo Minardi 33/63

Referências cruzadas

Raquel C. de Melo Minardi 34/63

Referências cruzadas

Raquel C. de Melo Minardi 35/63

SCOP

Raquel C. de Melo Minardi

Classificação hierárquica de domínios de proteínas segundo relacionamentos evolucionários e estruturais

Construído essencialmente por inspeção visual

Possui os seguintes níveis:1. Classe: conjunto de domínios cuja composição em termos

de estruturas secundárias é a mesma. Ex.: alfa, beta, alfa+beta, alfa/beta,…

2. Fold: conjunto de proteínas das quais o arranjo das estruturas secundárias e suas inter-conexões são os mesmos

3. Super-família: proteínas com baixa similaridade sequencial mas cujas estruturas e características funcionais sugerem relacionamentoes evolucionários

4. Família: conjunto de proteínas que compartilham pelo menos 30% de identidade de sequência ou que, apesar da baixa similaridade de sequência, têm alta conservação estrutural e funcional

36/63

SCOP

Raquel C. de Melo Minardi

http://scop.mrc-lmb.cam.ac.uk/scop/

37/63

Pfam

Raquel C. de Melo Minardi

http://pfam.sanger.ac.uk/

38/63

Pfam

Raquel C. de Melo Minardi

http://pfam.sanger.ac.uk/

39/63

Pfam

Raquel C. de Melo Minardi

http://pfam.sanger.ac.uk/

40/63

Pfam

Raquel C. de Melo Minardi

http://pfam.sanger.ac.uk/

41/63

STING

Raquel C. de Melo Minardi

Sequence To and withIN Graphicshttp://www.cbi.cnptia.embrapa.br/SMS

42/63

STING

Raquel C. de Melo Minardi

Sequence To and withIN Graphicshttp://www.cbi.cnptia.embrapa.br/SMS

43/63

Raquel C. de Melo Minardi 44/63

PDB Ligand Explorer

Raquel C. de Melo Minardi

http://www.pdb.org/pdb/Viewers/RCSBViewers/view.jsp?hetId=HEM&viewerType=LX&structureId=1A6M&structIdFromStrutsAction=1A6M

45/63

PDB Ligand Expo

Raquel C. de Melo Minardi

http://ligand-expo.rcsb.org

46/63

PDB Ligand Expo

Raquel C. de Melo Minardi 47/63

PubChem

Raquel C. de Melo Minardi

http://pubchem.ncbi.nlm.nih.gov/

48/63

PubChem

Raquel C. de Melo Minardi

http://pubchem.ncbi.nlm.nih.gov/

49/63

Formatos de moléculas

Raquel C. de Melo Minardi

Qual a modelagem mais natural paraum cientista da computação?

50/63

Formatos de moléculas

Raquel C. de Melo Minardi

Um grafo no qual:

• os átomos são nós

• as ligações covalentes são arestas

Como tratar a ressonância?

E o tautomerismo? (migração de um átomo de hidrogênio (ou próton) acompanhada da troca de uma ligação simples por uma dupla)

51/63

Formatos de moléculas

Raquel C. de Melo Minardi

Tabelas: mol, mdl, sdf

Linhas: smiles

52/63

Formatos de moléculas: SDF

Raquel C. de Melo Minardi

Molécula tem 21 átomos e 20 ligações

53/63

Formatos de moléculas: SMILES

Raquel C. de Melo Minardi

Simplified Molecular Input Line Entry Specificationé uma forma de descrever estruturas moleculares de forma não ambígua e através de uma cadeia de caracteres

A conversão de uma estrutura molecular para o formato SMILES baseia-se na modelagem de uma molécula como um grafo no qual nós são os átomos e as arestas são as ligações covalentes entre eles

A string é obtida através do caminhamento em profundidade no grafo

Antes, os átomos de hidrogênio são excluídos e os ciclos são transformados em uma árvore geradora mínima Quando os ciclos são quebrados, rótulos numéricos

indicam as ligações quebradas Parênteses indicam ramificações

54/63

Formatos de moléculas: SMILES

Raquel C. de Melo Minardi 55/63

Formatos de moléculas: SMILES

Raquel C. de Melo Minardi

ÁTOMOS

Representados pelo símbolo do elemento químico entre [] exceto para o subconjunto orgânico B, C, N, O, P, S, F, Cl, Br e IEx.: A água é representada como O

Qualquer átomo carregado deve ser colocado entre [] mais o H e a cargaEx.: [OH-], [OH+3]

56/63

Formatos de moléculas: SMILES

Raquel C. de Melo Minardi

LIGAÇÕES

Ligações em cadeias alifáticas são assumidas como simplesEx.: Etanol seria COO

Rótulos numéricos indicam o fechamento de anéis Ex.: Ciclohexano C1CCCCC1

57/63

Formatos de moléculas: SMILES

Raquel C. de Melo Minardi

LIGAÇÕES

Um segundo anel entra com rótulo 2Ex.: Naftaleno C1CCCCC1C2CCCCC2

Ligações duplas são representadas por =Ex. Dióxido de carbon O=C=O

Ligações triplas são representadas por #

58/63

Formatos de moléculas: SMILES

Raquel C. de Melo Minardi

RAMIFICAÇÕES

Ramificações são indicadas por parêntesesEx.:

CCC(=O)O C(F)(F)F

59/63

Formatos de moléculas: SMILES

Raquel C. de Melo Minardi

ESTEREOQUÍMICA

Configuração ao redor de ligações duplas F/C=C/F F/C=C\F

Configuração ao redor de carbonos tetraédricosEx.:

L-Alanina D-Alanina

60/63

Depict

Raquel C. de Melo Minardi

http://www.daylight.com/daycgi/depict

61/63

Depict

Raquel C. de Melo Minardi

http://www.openbabel.org

Exemplo de uso:babel –ipdb entrada.pdb -osmiles > saida.smiles

62/63

Chemaxon

Raquel C. de Melo Minardi

http://www.chemaxon.com

63/63

Recommended