78
Bioinformát ica: Banco de Dados Prof. Dra. Adriana Dantas UERGS, Bento Gonçalves, RS

Bioinformática arquivo de dados

  • Upload
    uergs

  • View
    1.243

  • Download
    4

Embed Size (px)

Citation preview

Page 1: Bioinformática arquivo de dados

Bioinformática:Banco de Dados

Prof. Dra. Adriana DantasUERGS, Bento Gonçalves, RS

Page 2: Bioinformática arquivo de dados

Introdução• Tipos de dados relacionados a moléculas pra

suporte a pesquisa e aplicações em biologia, agricultura e tecnologias entre outras.

• Conhecer a infraestrutura básica da bioinformática, em termos dos sítios na web

• Conceitos básicos de recuperação de informação, concluindo como formular consultas a banco de dados

• Desenvolver habilidades com os instrumentos de pesquisa na web e em sítios específicos

• Aprender a pesquisar por informações especificas sobre sequencias, estruturas, vias metabólicas, e realizar analise com dados recuperados.

Page 3: Bioinformática arquivo de dados

Como acessar e recuperar informações dos bancos de dados?

• Todo banco de dados é composto por entradas (pacotes discretos e coerentes de informação)

• Um software de recuperação de informação identifica entradas relevantes para o seu interesse

• Para que a pesquisa seja bem-sucedida, seja o mais específico possível

• Se você procura uma albumina de galinha..• Busque por Chicken AND albumin

• Se você for procurar primeiro por Chicken vão aparecer entradas que não contêm informação sobre as albuminas (perda de tempo)

• Se você procurar por albumin vão aparecer entradas contendo a informação sobre albuminas que não são necessariamente de galinha (perda de informação)

Page 4: Bioinformática arquivo de dados

Saiba o quê e aonde você está pesquisando....

• Entrada: E. coli Escherichia coli

• E. Coli – Elisabetta ColiElisabetta Coli, pesquisadora do departamento de psiquiatria, farmacologia, neurobiologia e biotecnologia.

Page 5: Bioinformática arquivo de dados

Sede por conhecimento

• Talvez você não encontre o que você busca, mas se encontrar.....

• Se encontrou provavelmente vai querer saber mais

• Exemplos:

• Achar genes homólogos ao que você buscou

• Referências bibliográficas sobre o gene

• Estrutura da proteína codificada por esse gene

Page 6: Bioinformática arquivo de dados

Conexão entre os bancos de dados

(Interatividade)

• Achar genes homólogos ao que você buscou•Conexão entre entradas do mesmo banco (banco de dados de genes)

• Referências bibliográficas sobre o gene•Conexão entre banco de dados de genes e banco de referências

• Estrutura da proteína codificada por esse gene•Conexão entre banco de dados de genes e banco de estruturas de proteínas

Page 7: Bioinformática arquivo de dados

Bancos de dados e o crescimento da Bancos de dados e o crescimento da informaçãoinformação

• Informação aumenta, os genes evoluem e os bancos devem se adequar...e ..evoluir

• Aumento do recurso computacional para o arquivamento e interpretação dos dados

• Aumento do número de bancos especializados (“boutiques”)

• Surgimento dos sites “guarda-chuva” – tipo portal

• Aumento da interatividade

Page 8: Bioinformática arquivo de dados

Exemplos de bancos de dados públicospara biologia molecular• Bancos de dados primários (sequencias de nucleotídeos)

• NCBI, EMBL, DDBJ

• Meta-databases• ENTREZ

• Bancos de dados genômicos• Ensembl, SGD, TAIR

• Bancos de dados de proteínas• UNIPROT (PIR, SwissProt, TrEMBL), InterPro, ExPASY

• Bancos de dados de estrutura de proteínas• PDB

• Bancos de domínios e motivos proteicos• PFAM, SMART, PROSITE, PRODOM, PRINTS

• Bancos de vias metabólicas• KEGG, BioCyc

• Bancos de dados de expressão gênica• ArrayExpress, GEO

• Bancos de ontologia• Gene Ontology

Page 9: Bioinformática arquivo de dados

Bando de Dados Primários• Sequencias de ácidos nucleicos, incluindo

genmas completos

• Sequencias de aminoácidos de proteínas

• Estruturas de proteínas e ácidos nucleicos

• Estruturas cristalográficas de pequenas moléculas

• Funções de proteínas

• Padrões de expressão de genes

• Vias metabólicas e redes de interação e controle

• Publicações

Page 10: Bioinformática arquivo de dados

1. Bancos de dados primários(sequencias de nucleotídeos)• Arquivamento mundial de sequencias de ácidos nucleicos é

uma parceria entre:• GenBank (National Center for Biotechnology Information - NCBI)(EUA)• DDBJ (DNA Data Bank of Japan)• EMBL Nucleotide DB (European Molecular Biology Laboratory - EBI)• Consórcio International Nucleotide Sequence Database (INSD)

• Armazenam sequencias de nucleotídeos (DNA e RNA) coeltados de projetos de genomas, publicções cientificas e depósitos de patentes

• Eles trocam informação e são fontes para outros bancos de dados• http://www.ddbj.nig.ac.jp/• http://www.ebi.ac.uk/embl/• http://www.ncbi.nlm.nih.gov/

Page 11: Bioinformática arquivo de dados

Banco de dados de ácidos nucleicos• São coleções de registros ou entradas

• Cada entrada tem a forma de um arquivo texto contendo dados e anotações para uma sequencia contigua única.

• Muitas entradas são reunidas a partir de diversos artigos publicados que descrevem o fragmento sobreposto de uma sequencia completa.

• Outras sequencias são genomas completos.

• As entradas tem um ciclo de vida no banco de dados, ou seja, antes mesmo que esteja completa e verificada já é depositada.

• Classes de entradas:• Não anotada Preliminar Não revisada Padrão

Page 12: Bioinformática arquivo de dados

Entrada de sequencia de DNA do EMBL Data Library

Page 13: Bioinformática arquivo de dados
Page 14: Bioinformática arquivo de dados
Page 15: Bioinformática arquivo de dados
Page 16: Bioinformática arquivo de dados

Tabela de características para o gene do inibidor da tripsina pancreática

bovina• FT (feature tables) –

componente de anotação específica para regiões especificas, ex. sequencia codificadoras (CDS):

• Tabela indica regiões:• Executam ou afetam funções• Interagem com outras moléculas• Afetam replicação• Estão envolvidas na recombinação• São uma unidade repetitiva• Possuem estrutura secundaria e

terciaria• São revisadas ou concluídas

Page 17: Bioinformática arquivo de dados

National Center for Biotechnology National Center for Biotechnology Information (ncbi)Information (ncbi)

O O NCBINCBI fornece acesso a fornece acesso a genomas completos de genomas completos de

mais de 5.700 organismos. mais de 5.700 organismos. Genomas significam tanto Genomas significam tanto sequências completas de sequências completas de

organismos quanto os que organismos quanto os que estão em processo de estão em processo de

sequenciamento. sequenciamento.

http://www.ncbi.nlm.nih.govhttp://www.ncbi.nlm.nih.gov

Page 18: Bioinformática arquivo de dados

Acesso a Banco de Dados• Bando de Dados de ácidos nucleicos e proteínas mantém recursos

para uma ampla variedade de mecanismos de recuperação de informação e realização de analises

• 1. Categoria de possibilidades

• Recuperação de sequencias em banco de dados . Sequencias podem ser convocadas com base nas características de suas anotações

• 2. Comparação de sequencias – pesquisa sobre homologias

• 3. Tradução das sequencias de DNA em sequencias de proteínas

• 4. Tipos simples de analise e predição de estruturas – ex. métodos estatísticos para predição de estrutura secundaria de proteínas a partir somente de sequencias

• 5. Reconhecimento de padrões – é possível pesquisar todas as sequencias contendo um padrão , sitio de reconhecimento para enzimas.

• 6. Gráficos moleculares - mapeamento

Page 19: Bioinformática arquivo de dados

ENTREZ• O NCBI, mantém o sistema ENTREZ oferece acesso por meio das

seguintes divisões de banco de dados:

• PROTEINA

• PEPTIDEO

• Nucleotídeo

• GENE

• ESTRUTURA

• GENOMA

• POPSET – INFORMAÇÕES SOBRE POPULAÇÕES

• OMIM – ON LINE MEDELINA INHERITANCE IN MAN

• Pontos fortes dos sistema NCBI são as conexões entre os vários banco de dados.

• Recuperação das sequencias e estrutura é chamado de Entrez.

Page 20: Bioinformática arquivo de dados
Page 21: Bioinformática arquivo de dados
Page 22: Bioinformática arquivo de dados
Page 23: Bioinformática arquivo de dados

GenBank• Genbank, ddBJ,

EMBL

• Identificadores• gI, accession number

• Formatos• FASTA, GenBank• http://www.ncbi.nlm.nih.gov/nuccore/187830767?report=genbank&log$=seqview

• >gi|187830767|ref|NM_000546.4| Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA

• GATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTGCTTTCCACGACGGTGACACGCTTCCCTGGATTGGCAGCCAGACTGCCTTCCGGGTCACTGCCATGGAGGAGCCGCAGTCAGATCCTAGCGTCGAGCCCCCTCTGAGTCAGGAAACATTTTCAGACCTATGGAAACTACTTCCTGAAAACAACGTTCTGTCCCCCTTGCCGTCCCAAGCAATGGATGATTTGATGCTGTCCCCGGACGATATTGAACAATGGTTCACTGAAGACCCAGGTCCAGATGAAGCTCCCAG(...)

>gi|187830767 numero geninfo, identificador atribuído pelo NCBI para cada sequencia do seu banco de dados ENTREZ,O NCBI coleta sequencias a partir de varias fontes, incluindo coleções de arquivos de dados primários e pedidos de patentes.Seus números gi fornecem um identificador, do tipo guarda-chuva, comum e consistente, para as sequencias, sobrepondo as diferente convenções dos bancos de dados fonte.sp|P00435 indica que o banco de dados fonte é o SWISS-PROT, e o numero de entrada é P00435

Page 24: Bioinformática arquivo de dados

BLAST databases• Peptide Sequence Databases

• Nr: All non-redundant GenBank CDS translations + RefSeq Proteins + PDB + SwissProt + PIR + PRF • Refseq: RefSeq protein sequences from NCBI's Reference Sequence Project. • Swissprot: Last major release of the SWISS-PROT protein sequence database (no updates). • Pat: Proteins from the Patent division of GenPept. • Pdb: Sequences derived from the 3-dimensional structure from Brookhaven Protein Data Bank. • Month: All new or revised GenBank CDS translation+PDB+SwissProt+PIR+PRF released in the last 30 days.

• env_nr: Protein sequences from environmental samples.

• Nucleotide Sequence Databases • Nr: All GenBank + RefSeq Nucleotides + EMBL + DDBJ + PDB sequences (excluding HTGS0,1,2, EST, GSS, STS, PAT, WGS). No longer "non-redundant".

• refseq_rna, refseq_genomic• Est: Database of GenBank + EMBL + DDBJ sequences from EST Divisions

• est_human, est_mouse, est_others• gss: Genome Survey Sequence, includes single-pass genomic data, exon-trapped sequences, and Alu PCR sequences.

• Pat: Nucleotides from the Patent division of GenBank. • Month: All new or revised GenBank + EMBL + DDBJ + PDB sequences released in the last 30 days. • Dbsts: Database of GenBank+EMBL+DDBJ sequences from STS Divisions . • Chromosome: A database with complete genomes and chromosomes from the NCBI Reference Sequence project..

• Wgs: A database for whole genome shotgun sequence entries. • env_nt: Nucleotide sequences from environmental samples, including those from Sargasso Sea and Mine Drainage projects.

Page 25: Bioinformática arquivo de dados

RefSeq• Banco de dados de

sequências de referência para genomas

• Apresenta uma única cópia para cada gene no genoma• É o verdadeiro NR

• Dividido em genoma, cDNA e proteína (NC, NM e NP)

• Contém sequências de splicing alternativo

Page 26: Bioinformática arquivo de dados

dbEST

Page 27: Bioinformática arquivo de dados

dbGSS• Contém sequências

genômicas single-passed para diversos organismos

Page 28: Bioinformática arquivo de dados

UniGene• Contém clusters de ESTs

formados a partir de similaridades usando o algoritmo megaBLAST

• Reúne variantes de splicing no mesmo identificador

• Cataloga variantes de splicing por tecido

• Organização das sequências do GenBank em um conjunto de aglomerados

• Cada aglomerado do UniGene contém as sequências que representam um gene único

• E também informações relacionadas, como em que tecidos o gene é expresso, etc.

• E também onde está mapeado

Page 29: Bioinformática arquivo de dados

Pesquisando dados de nucleotídeos utilizando Entrez

Page 30: Bioinformática arquivo de dados
Page 31: Bioinformática arquivo de dados
Page 32: Bioinformática arquivo de dados

3 - Bancos de dados genômicos

• Coleção de informações sobre determinados genomas (quase sempre organimos modelo).

• Dados de anotação vinculados a genome browse

• Iniciativa conjunta ente o EBI e o Sanger Center.

• Coleta e anotação de sequencias disponíveis de eucariotos, tendo como foco principal o Homo sapiens.

Page 33: Bioinformática arquivo de dados
Page 34: Bioinformática arquivo de dados
Page 35: Bioinformática arquivo de dados
Page 36: Bioinformática arquivo de dados

Busca por região no cromossomo 16Busca por região no cromossomo 16

Page 37: Bioinformática arquivo de dados
Page 38: Bioinformática arquivo de dados

Ensembl fornece:Ensembl fornece:- - Genomas completos de diversos- Anotação de SNPs- Alinhamento com sequencias homólogas de outros organismo- Correlações com outros bancos de dados

Page 39: Bioinformática arquivo de dados

SGD fornece:SGD fornece:--Genoma completoGenoma completo--Fenótipos de mutantes Fenótipos de mutantes específicos para cada geneespecíficos para cada gene--Dados de expressão gênicaDados de expressão gênica

Page 40: Bioinformática arquivo de dados
Page 41: Bioinformática arquivo de dados

TAIR fornece:TAIR fornece:--Genoma completoGenoma completo--Localização das inserções de T-DNALocalização das inserções de T-DNA--Dados de expressão gênicaDados de expressão gênica

Page 42: Bioinformática arquivo de dados

4 - Bancos de proteínas• Consórcio que visa fornecer anotação

relevante e curada de proteínas.

• Baseiam-se em dados de proteômica (principalmente), genômica e transcriptômica.

Page 43: Bioinformática arquivo de dados

Banco de dados de sequencias de proteínas• Três bancos de dados de proteínas

• Protein Information Resource National Biomedical Research Foundation da Georgetown, University Medical Center em Washington, DC, EUA;

• SWISS-PROT, Swiss Institute of Bioinformatics, Genebra

• TrEMBL, European Bioinformatics Institute em Hinxton, Reino Unido.

• Como funciona:

• Proteínas anotadas são incluídas no UniProtKB-SwissProt

• Traduções de genes depositados no EBI são incluídos no UniProt-TrEMBL

Page 44: Bioinformática arquivo de dados
Page 45: Bioinformática arquivo de dados
Page 46: Bioinformática arquivo de dados

Enzyme DB armazena as seguintes informações:

• Numero EC: Numero EC: identificador numérico designado pela Comissão de Enzimas (autorizada pela União Internacional de Bioquímica e Biologia Molecular-IUBMB)

• Nome recomendado; Nomes alternativos; Atividade catalítica;Co-fatores; Ponteiros para SWISS-PROT e outros banco de dados; Ponteiro para doenças associadas coma deficiência da enzima.

• Caracteres:Caracteres:

• ID = identificação (identification)

• DE = descrição (description) = nome oficial

• NA = Nome alternativo (alternative names)

• CA = atividade catalítica (Catalytic activity)

• CF = co-fatores (cofactor(s))

• CC = Comentários (Comments)

• DR = Referencia de dados (Database reference para o SWISS-PROT)

Page 47: Bioinformática arquivo de dados
Page 48: Bioinformática arquivo de dados

Anotação da sequencia

Vantagens do UniProt:Vantagens do UniProt:- banco curado manualmente-contém muita informação sobre as proteínas (glicosilação, pontes dissulfeto, Sítios transmembrana)- conectado a outros bancos de dados de proteínas

Page 49: Bioinformática arquivo de dados

PIR e os bancos de dados PIR e os bancos de dados associados:associados:PIR-PSD -PIR-PSD -principal banco de principal banco de dados de sequencias de dados de sequencias de proteínas;proteínas;

iProClass iProClass – fornece informações – fornece informações abrangentes das propriedades de abrangentes das propriedades de proteínas presentes no proteínas presentes no SwissProt;SwissProt;

PIRSF:PIRSF: bando de dados de bando de dados de anotação e similaridade da anotação e similaridade da entrada é conectada a uma lista entrada é conectada a uma lista de sequencias similares com de sequencias similares com base em relações evolucionárias base em relações evolucionárias que permite a anotação de que permite a anotação de funções biológicas especificas e funções biológicas especificas e de funções bioquímicas de funções bioquímicas genéricas;genéricas;

RESID:RESID: banco de dados de banco de dados de modificações covalentes na modificações covalentes na estrutura de proteínas (ex. ponte estrutura de proteínas (ex. ponte de dissulfeto (característica de dissulfeto (característica estrutural importante em estrutural importante em proteínas)proteínas)

Page 50: Bioinformática arquivo de dados

Ferramentas de recuperação de infromação do PIR

• Recuperar entradas especificas de banco de dados

• Alinhamento par a par de sequencias

• PIRSF Scan: Compara uma sequencia sonda com bando de dados PIRSF de famílias de proteínas organizadas e anotadas

• Text Search: pesquisa por texto em banco de dados

• Peptide Search: pesquisa por pequenos peptídeos (3 a 30 resíduos)

• Pattern Search: reconhecimento dos padrões

• Related Sequences: identificação de homologias

Page 51: Bioinformática arquivo de dados

Expasy – Expasy – Expert Protein Expert Protein Analysis SystemAnalysis System

• Sistema de análise e recuperação de informação de proteínas.

• Produz as anotações para o UniProtKB/SwissProt

• Possui uma série de ferramentas para análise de proteínas

• Conexão com SRS (sequence retrieval system) – sistema integrado para recuperar informações de muitos banco de dados de sequencias diferente e pata utilizar as sequencias como entradas de ferramentas analíticas, como comparação e alinhamento de sequencias.

• SRS pode pesquisas em torno de 140 banco de daos de sequencias de proteínas e nucleotídeos, vias metabólicas, estruturas 3D e funções, genomas, doenças e informações sobre o fenótipo.

Page 52: Bioinformática arquivo de dados
Page 53: Bioinformática arquivo de dados
Page 54: Bioinformática arquivo de dados
Page 55: Bioinformática arquivo de dados

5 - Bancos de estruturas de proteínas e outras macromoléculas

• Anota, cataloga e distribui conjuntos de coordenadas atômicas de macromoléculas

• Principal banco é Protein Data Bank (PDB) fornece:

• Detalhes experimentais sobre a geração da estrutura

• Estrutura de proteínas, ácidos nucleicos e carboidratos. -

• Atribuições da estrutura

• - Coordenações atômicas

• Links para outros bancos de dados

Page 56: Bioinformática arquivo de dados
Page 57: Bioinformática arquivo de dados
Page 58: Bioinformática arquivo de dados
Page 59: Bioinformática arquivo de dados
Page 60: Bioinformática arquivo de dados

Informações que incluem na entrada do Protein Data Bank

• Que proteína é o assunto da entrada, e a qual espécie ela pertence

• Quem determinou a estrutura, referencias para publicações

• Detalhes experimentais, qualidade dos resultados NMR (Ressonância Magnética Nuclear) difração de raio X e estatísticas estereoquímicas

• A sequencia dos aminoácidos

• Que moléculas adicionais aparecem na estrutura, incluindo co-fatores, inibidores e solvente, como moléculas de água

• Atribuições de estrutura secundaria: hélice, folha

• Pontes de dissulfetos

• Coordenadas atômicas

Page 61: Bioinformática arquivo de dados

6 - Bancos de domínios proteicos• Anotam e catalogam domínios ou motivos

proteicos. Fazem comparações entre sequencia de consulta e banco de dados.

Page 62: Bioinformática arquivo de dados
Page 63: Bioinformática arquivo de dados
Page 64: Bioinformática arquivo de dados
Page 65: Bioinformática arquivo de dados
Page 66: Bioinformática arquivo de dados

Famílias protéicas• A maioria das proteínas pode ser agrupada

em famílias com base na similaridade entre suas sequências• Similaridade intra-espécies• Evidência de ancestralidade comum

• Proteínas da mesma família costumam ter funções moleculares e biológicas semelhantes → inferência biológica

• Inferência de função• Similaridade de sequência• Análise filogenética

Page 67: Bioinformática arquivo de dados
Page 68: Bioinformática arquivo de dados

Interpro• Portal que inclui vários bancos de dados

de domínios e de estrutura de proteínas

Page 69: Bioinformática arquivo de dados

Assinaturas ou domínios protéicos• Obtidos através da análise de regiões que se

mantém constantes em grupos de sequências similares alinhadas

• Distingue membros de famílias dos não-membros

• Auxilia a atribuição de funcionalidades moleculares e biológicas

Page 70: Bioinformática arquivo de dados
Page 71: Bioinformática arquivo de dados
Page 72: Bioinformática arquivo de dados
Page 73: Bioinformática arquivo de dados

7 - Bancos de vias metabólicas

• Kyoto Encyclopedia of genes and Genome (KEEG) arquiva genomas individuais, produtos de genes e suas funções, mas o seu diferencial principal esta na sua integração de informações bioquímicas e genéticas.

• KEGG se concentra nas interações: associações de moléculas e redes metabólicas e reguladoras

• Organiza em 5 tipos de dados :• 1. Catálogos de compostos químicos em células vivas• 2. Catálogo de genes• Informações sobre moléculas ou sequencias especificas

• 3. Mapas de genomas• Integra os genes de acordo com suas localização cromossômica

• 4. Mapas de vias• Descrevem redes em potencial de atividades moleculares, tanto metabólicas

como reguladoras, possíveis cascatas metabólicas, alinha proteínas com enzimas dentro das vias de referencias.

• 5. Tabelas de ortólogos• Liga enzimas presentes em outros organismos, permite analise das relações

entre as vias metabólicas de diferentes organismos.

Page 74: Bioinformática arquivo de dados
Page 75: Bioinformática arquivo de dados
Page 76: Bioinformática arquivo de dados

8 - Bancos de dados de expressão gênica• - Banco de dados de depósito de dados de

expressão gênica em larga escala (ArrayExpress – somente microarranjos)

• GEO database - Contém dados de experimentos de microarray

Page 77: Bioinformática arquivo de dados

COG• Cluster of Orthologous Groups• 66 genomas bacterianos

• Best Hits cruzados entre 3 organismos

• Genes bacterianos agrupados por função biológica

• KOG, eucariotos

Page 78: Bioinformática arquivo de dados

Conclusões• Há bancos de dados em bioinformática

para praticamente qualquer tipo de abordagem em biologia molecular

• Stein, 2009

• O papel central da bioinformática na pesquisa genômica moderna

• É preciso conhecer os serviços, mais cedo ou mais tarde, você pode precisar