63
BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi [email protected] CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi [email protected] CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Embed Size (px)

Citation preview

Page 1: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS

Raquel C. de Melo Minardi

[email protected]

CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Page 2: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Motivação

Cientistas determinaram a estrutura de milhares de componentes biomoleculares das células

Entendimento da biologia celular em nível atômico

Estruturas levam a respostas a inúmeras questões biológicas, assim como permitem aos cientistas a colocação de inúmeras novas questões

Raquel C. de Melo Minardi 2/63

Page 3: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Motivação

Raquel C. de Melo Minardi 3/63

Page 4: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Estruturas disponíveis livremente Arquivos de coordenadas de proteínas a ácidos nucleicos

estão disponíveis on-line: robossomos, oncogenes, alvos terapêuticos e até mesmo vírus completos

Desenvolvimento de fármacos: o conhecimento da estrutura de proteínas permite o projeto de pequenas moléculas que se liguem a elas e possam, por exemplo, bloquear sua função

Raquel C. de Melo Minardi

É comum encontrar no PDB milhares de estruturas de proteases de HIV com drogas anti-HIV

Cientistas usam estruturas como esta para compreender ação dos medicamentos existentes e para projetar novos e mais poderosos medicamentos para lutar contra a resistência.

4/63

Page 5: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Estruturas disponíveis livremente

Raquel C. de Melo Minardi 5/63

Page 6: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Estruturas disponíveis livremente Revelação de detalhes da vida: estruturas de oxi e

desoxi-hemoglobinas revelam como ocorre o controle para ligação do oxigênio

Raquel C. de Melo Minardi

Uma pequena mutação faz com que hemoglobinas se agreguem em longas cadeias que distorcem as hemáceas e causam severos problemas circulatórios

6/63

Page 7: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Estruturas disponíveis livremente

Engenharia biomolecular e bionanotecnologia: Pesquisadores visam modificar biomoléculas para que adquiram novas funções ou mesmo projetar moléculas inteiramente novas

Raquel C. de Melo Minardi 7/63

Page 8: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

PDB

Possibilta a exploração das bases atômicas da função molecular

É um repositório de coordenadas atômicas e anotações detalhadas sobre os detalhes experimentais

Desafios:

1. Obter o conjunto de moléculas de interesse

2. Utilizar / desenvolver modelos, algoritmos e ferramentas que possibilitem obter as propriedades de interesse

Raquel C. de Melo Minardi 8/63

Page 9: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

PDB: Busca

Há muitas ferramentas disponíveis para busca no PDB baseadas em diversas propriedades como por exemplo nomes de moléculas e sequências de aminoácidos

Há ainda diversas referências cruzadas com outras bases como Gene Ontology, SCOP, CATH, EC numbers, etc

Há ainda a possibilidade de se acessar este repositório via FTP

wget -r ftp://ftp.wwpdb.org/pub/pdb/data/structures/all/pdb/* -nd -nv

Raquel C. de Melo Minardi 9/63

Page 10: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

PDB: Visualização

O PDB utiliza comumente o plug-in do Jmol (desenvolvido em Java)

Há inúmeras outras possibilidades de ferramentas de visualização de estruturas no formato PDB como Rasmol e PyMol, por exemplo

Infelizmente, cada ferramenta utiliza um conjunto de comandos extremamente específico

Raquel C. de Melo Minardi 10/63

Page 11: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

PDB: Visualização

Raquel C. de Melo Minardi

Rasmol

Programa leveSimplicidade de aprendizado

PyMol

Imagens de alta qualidade

11/63

Page 12: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

PDB: Visualização

Raquel C. de Melo Minardi

Jmol

Pode ser embutido em páginas web

12/63

Page 13: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Dados do PDB

Os arquivos PDB são arquivos texto, podendo ser abertos em qualquer editor de textos como notepad, vi, etc.

Informação primária: coordenadas (x, y, z), ou seja, lista de átomos que compõem uma proteína e suas localizações no espaço tridimensional

Um PDB típico traz um resumo sobre a proteína, informações sobre citações, detalhes dos experimentos de resolução seguido das coordenadas

Outros formatos: mmCIF e XML

Raquel C. de Melo Minardi 13/63

Page 14: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Coordenadas

Um arquivo PDB pode conter coordenadas de uma coleção de proteínas, pequenas moléculas, íons e água

As informações de cada átomo são descritas em uma linha que começa com as palavras-chave “ATOM” ou “HETATM”

“ATOM” identifica átomos de proteínas e ácidos nucléicos

“HETATM” identifica átomos de pequenas moléculas

Após esta palavra, chave há uma lista de informações: nome do átomo, seu identificador no arquivo, nome e número do resíduo de aminoácidos ao qual pertence, uma letra indicando sua cadeia, coordenadas x, y, z e a sua ocupância e fator de temperatura

Raquel C. de Melo Minardi 14/63

Page 15: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Coordenadas

Raquel C. de Melo Minardi 15/63

Page 16: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Cadeias e modelos

Um arquivo PDB é sempre dividido em cadeiasCada cadeia polipeptídica recebe um identificador de uma letra

No caso de experimentos de RNM, ele é dividido em múltiplos modelos representando possíveis conformações para a molécula

Raquel C. de Melo Minardi 16/63

Page 17: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Resolução

A resolução é uma medida da qualidade do dado coletado do cristal contendo a proteína

Se todas as proteínas estiverem alinhadas de forma perfeita no cristal, obtem-se informações bastante precisas sobre a localização dos átomos

Caso contrário, se houver, por exemplo, movimentações no interior do cristal, o padrão de difração não será tão confiável

Raquel C. de Melo Minardi 17/63

Page 18: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Resolução

Raquel C. de Melo Minardi 18/63

Page 19: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Fator de temperatura

Se fossemos capazes de visualizar a nuvem eletrônica de um átomo rigidamente fixo, ela seria densa das proximidades do núcleo e cairia com o aumento da distância

Quando olhamos para as densidades experimentais, provenientes de experimentos de difração de raios-X, pequenas vibrações nas posições dos átomos distorcem um pouco a nuvem que somos capazes de visualizar

Estas distorções são captadas proporcionalmente pelo B-value ou fator de temperatura

B-value < 10, modelo bastante preciso B-value > 50, átomos quase não podem ser localizados

Raquel C. de Melo Minardi 19/63

Page 20: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Fator de temperatura

Raquel C. de Melo Minardi 20/63

Page 21: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Ocupância

Cristais macromoleculares são compostos de muitas moléculas individuais empacotadas em um arranjo simétrico

Em alguns cristais, podem haver diferenças entre estas moléculas

Uma cadeia lateral na superfície pode estar em diferentes orientações nos diferentes cristais, um ligante pode se ligar em diferentes orientações em um sítio ativo, um íon pode estar presente em apenas algumas moléculas

A ocupância é uma medida de cada conformação presente no cristal

De modo geral, a ocupância é 1 para a maioria dos átomos indicando que eles estão na mesma posição em todas as moléculas

Ocupâncias variam de 0 a 1

Raquel C. de Melo Minardi 21/63

Page 22: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Ocupância

Raquel C. de Melo Minardi 22/63

Page 23: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Ocupância

Raquel C. de Melo Minardi 23/63

Page 24: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Por que o PDB não é completo?

Devido a algumas limitações das técnicas de resolução, algumas partes da proteína podem estar faltando como:

Loops

Porções N e/ou C-terminais

Hidrogênios

Raquel C. de Melo Minardi 24/63

Page 25: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Loops ausentes

Como a resolução de estruturas por difração de raios-X é baseada na posição dos átomos nas diversas moléculas presentes no cristal, posições muito móveis podem não apresentar um padrão claro de difração

Raquel C. de Melo Minardi

Esta protease resolvida sem ligante e por difração de raios-X apresenta dois loops ausentes devido a alta flexibilidade

A mesma protease resolvida com inibidores, não apresenta este problema visto que os loops apresentam uma conformação mais estável neste caso

25/63

Page 26: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Hidrogênios

A grande maioria dos experimentos de difração de raios-X não resolve as posições dos hidrogênios. Estas podem ser inferidas por programas posteriormente

Já os experimentos de RNM baseam-se em um conjunto de distâncias entre hidrogênios apresentando as coordenadas para tais átomos

Raquel C. de Melo Minardi 26/63

Page 27: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Sequências

Cada arquivo PDB possui registros chamados SEQRES que contém a sequência primária de resíduos de aminoácidos que compõem a molécula

Raquel C. de Melo Minardi

Moléculas Nomenclatura

Aminoácidos ALA, CYS, ASP, GLU, PHE, GLY, HIS, ILE, LYS, LEU, MET, ASN, PRO, GLN,

ARG, SER, THR, VAL, TRP, TYR, (outros como MSE, CBR)

Desoxiribonucleotídeos DA, DC, DT, DG, DI

Ribonucleotídeos A, C, T, G, I

27/63

Page 28: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Sequências

É preciso ter cuidado ao usar a sequência proveniente de SEQRES: nem sempre ela corresponde à sequência descrita na seção de coordenadas

Terminais das cadeias e loops muito móveis normalmente não são obtidos nos experimentos e não tem as coordenadas descritas no arquivo PDB mesmo estando presente no experimento e descrita no SEQRES

Além disto, é comum trabalhar apenas com fragmentos das moléculas então normalmente apenas trechos da molécula têm suas coordenadas depositadas

O número dos aminoácidos pode assumir qualquer valor (negativo, 0, positivo)

Raquel C. de Melo Minardi 28/63

Page 29: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Coordenadas atômicas

Raquel C. de Melo Minardi 29/63

Page 30: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Seção de coordenadas

Raquel C. de Melo Minardi 30/63

Page 31: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Formato PDBhttp://www.wwpdb.org/documentation/format32/v3.2.html

Raquel C. de Melo Minardi 31/63

Page 32: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

PDBest

PDBest – PDB Enhanced Structures ToolkitD. Pires , C. Silveira, M. Santoro e W. Meira Júnior.

Conjunto de scripts perl que: Separa arquivos PDB em cadeias Separa os arquivos de Difração de Raios-X e RNM Separa em diferentes modelos Separa ligantes Renumera os resíduos das cadeias Retira átomos de hidrogênio Seleciona por tipo ou nome de átomo, nome do resíduo,

cadeia, ocupância, intervalor de átomos e resíduos, estruturas secundárias.

Raquel C. de Melo Minardi 32/63

Page 33: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

PDBest

ATOMTYPE = ,ALL, CHAIN = ,ALL,OCCUP = ,ALL,ATOMRANGE = ,ALL,RESRANGE = ,ALL,ATOMNAME = ,NOT-H*,RESNAME = ,ALL,SECONDSTR = ,ALL,    INCREMENTINDEX = ,ALL,``

Raquel C. de Melo Minardi 33/63

Page 34: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Referências cruzadas

Raquel C. de Melo Minardi 34/63

Page 35: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Referências cruzadas

Raquel C. de Melo Minardi 35/63

Page 36: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

SCOP

Raquel C. de Melo Minardi

Classificação hierárquica de domínios de proteínas segundo relacionamentos evolucionários e estruturais

Construído essencialmente por inspeção visual

Possui os seguintes níveis:1. Classe: conjunto de domínios cuja composição em termos

de estruturas secundárias é a mesma. Ex.: alfa, beta, alfa+beta, alfa/beta,…

2. Fold: conjunto de proteínas das quais o arranjo das estruturas secundárias e suas inter-conexões são os mesmos

3. Super-família: proteínas com baixa similaridade sequencial mas cujas estruturas e características funcionais sugerem relacionamentoes evolucionários

4. Família: conjunto de proteínas que compartilham pelo menos 30% de identidade de sequência ou que, apesar da baixa similaridade de sequência, têm alta conservação estrutural e funcional

36/63

Page 37: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

SCOP

Raquel C. de Melo Minardi

http://scop.mrc-lmb.cam.ac.uk/scop/

37/63

Page 38: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Pfam

Raquel C. de Melo Minardi

http://pfam.sanger.ac.uk/

38/63

Page 39: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Pfam

Raquel C. de Melo Minardi

http://pfam.sanger.ac.uk/

39/63

Page 40: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Pfam

Raquel C. de Melo Minardi

http://pfam.sanger.ac.uk/

40/63

Page 41: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Pfam

Raquel C. de Melo Minardi

http://pfam.sanger.ac.uk/

41/63

Page 42: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

STING

Raquel C. de Melo Minardi

Sequence To and withIN Graphicshttp://www.cbi.cnptia.embrapa.br/SMS

42/63

Page 43: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

STING

Raquel C. de Melo Minardi

Sequence To and withIN Graphicshttp://www.cbi.cnptia.embrapa.br/SMS

43/63

Page 44: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Raquel C. de Melo Minardi 44/63

Page 45: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

PDB Ligand Explorer

Raquel C. de Melo Minardi

http://www.pdb.org/pdb/Viewers/RCSBViewers/view.jsp?hetId=HEM&viewerType=LX&structureId=1A6M&structIdFromStrutsAction=1A6M

45/63

Page 46: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

PDB Ligand Expo

Raquel C. de Melo Minardi

http://ligand-expo.rcsb.org

46/63

Page 47: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

PDB Ligand Expo

Raquel C. de Melo Minardi 47/63

Page 48: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

PubChem

Raquel C. de Melo Minardi

http://pubchem.ncbi.nlm.nih.gov/

48/63

Page 49: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

PubChem

Raquel C. de Melo Minardi

http://pubchem.ncbi.nlm.nih.gov/

49/63

Page 50: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Formatos de moléculas

Raquel C. de Melo Minardi

Qual a modelagem mais natural paraum cientista da computação?

50/63

Page 51: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Formatos de moléculas

Raquel C. de Melo Minardi

Um grafo no qual:

• os átomos são nós

• as ligações covalentes são arestas

Como tratar a ressonância?

E o tautomerismo? (migração de um átomo de hidrogênio (ou próton) acompanhada da troca de uma ligação simples por uma dupla)

51/63

Page 52: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Formatos de moléculas

Raquel C. de Melo Minardi

Tabelas: mol, mdl, sdf

Linhas: smiles

52/63

Page 53: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Formatos de moléculas: SDF

Raquel C. de Melo Minardi

Molécula tem 21 átomos e 20 ligações

53/63

Page 54: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Formatos de moléculas: SMILES

Raquel C. de Melo Minardi

Simplified Molecular Input Line Entry Specificationé uma forma de descrever estruturas moleculares de forma não ambígua e através de uma cadeia de caracteres

A conversão de uma estrutura molecular para o formato SMILES baseia-se na modelagem de uma molécula como um grafo no qual nós são os átomos e as arestas são as ligações covalentes entre eles

A string é obtida através do caminhamento em profundidade no grafo

Antes, os átomos de hidrogênio são excluídos e os ciclos são transformados em uma árvore geradora mínima Quando os ciclos são quebrados, rótulos numéricos

indicam as ligações quebradas Parênteses indicam ramificações

54/63

Page 55: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Formatos de moléculas: SMILES

Raquel C. de Melo Minardi 55/63

Page 56: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Formatos de moléculas: SMILES

Raquel C. de Melo Minardi

ÁTOMOS

Representados pelo símbolo do elemento químico entre [] exceto para o subconjunto orgânico B, C, N, O, P, S, F, Cl, Br e IEx.: A água é representada como O

Qualquer átomo carregado deve ser colocado entre [] mais o H e a cargaEx.: [OH-], [OH+3]

56/63

Page 57: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Formatos de moléculas: SMILES

Raquel C. de Melo Minardi

LIGAÇÕES

Ligações em cadeias alifáticas são assumidas como simplesEx.: Etanol seria COO

Rótulos numéricos indicam o fechamento de anéis Ex.: Ciclohexano C1CCCCC1

57/63

Page 58: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Formatos de moléculas: SMILES

Raquel C. de Melo Minardi

LIGAÇÕES

Um segundo anel entra com rótulo 2Ex.: Naftaleno C1CCCCC1C2CCCCC2

Ligações duplas são representadas por =Ex. Dióxido de carbon O=C=O

Ligações triplas são representadas por #

58/63

Page 59: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Formatos de moléculas: SMILES

Raquel C. de Melo Minardi

RAMIFICAÇÕES

Ramificações são indicadas por parêntesesEx.:

CCC(=O)O C(F)(F)F

59/63

Page 60: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Formatos de moléculas: SMILES

Raquel C. de Melo Minardi

ESTEREOQUÍMICA

Configuração ao redor de ligações duplas F/C=C/F F/C=C\F

Configuração ao redor de carbonos tetraédricosEx.:

L-Alanina D-Alanina

60/63

Page 61: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Depict

Raquel C. de Melo Minardi

http://www.daylight.com/daycgi/depict

61/63

Page 62: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Depict

Raquel C. de Melo Minardi

http://www.openbabel.org

Exemplo de uso:babel –ipdb entrada.pdb -osmiles > saida.smiles

62/63

Page 63: BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi raquelcm@dcc.ufmg.br CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

Chemaxon

Raquel C. de Melo Minardi

http://www.chemaxon.com

63/63