29
Uso de ferramentas de acesso geral ou de ferramentas à medida em Bioinformática António Cardoso Costa Departamento de Eng.ª Informática Instituto Superior de Engenharia do Porto Palestra sobre Bioinformática

Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

Embed Size (px)

Citation preview

Page 1: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

Uso de ferramentas de acesso geral ou de ferramentas à medida em Bioinformática

António Cardoso CostaDepartamento de Eng.ª InformáticaInstituto Superior de Engenharia do Porto

Palestra sobre Bioinformática

Page 2: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

2

Agenda● O que é a Bioinformática● História da Bioinformática● A Bioinformática atual● Ferramentas de uso geral na Bioinformática● Utilizações da Bioinformática● Ferramentas à medida na Bioinformática● Ferramentas para entrar na Bioinformática● Conclusão

Page 3: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

3

O que é a Bioinformática

• A Bioinformática– É uma área interdisciplinar que desenvolve métodos

para armazenamento, acesso, organização e análise de dados biológicos detalhados e numa escala baixa

– Lida com dados biológicos elementares (ADN, etc.)

– Usa computadores para compreender a biologia

– Desenvolve ferramentas de software que lidam com informação biológica numa perspetiva utilitária

– Recorre à informática, matemática, engenharia, etc.

– É muito diferente da Biologia Computacional

Page 4: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

4

ADN e Proteínas Célula

Núcleo Cromossoma

ADN

Proteínas doVírus Ébola

Código do ADN [4]a c g t

Código proteico [20]A R N D C E Q G H IL K M F P S T W Y V

Figuras: Wikimedia

Page 5: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

5

História da Bioinformática

• Primeiras aplicações da Bioinformática– 1950: comparação computacional de sequências

proteicas e criação de repositórios de dados biológicos

– 1960: métodos de alinhamento de sequências

– 1970: análise automatizada de sequências biológicas

– 1980: análise de genomas e criação de grandes repositórios de dados de acesso geral (GenBank)

– 1990 em diante: desenvolvimento generalizado de novas ferramentas bioinformáticas visando dados biológicos – nucleótidos, aminoácidos, proteínas, etc.

Page 6: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

6

A Bioinformática atual

• Objetivos– Analizar e interpretar vários tipos de dados biológicos

– Vertentes principais da Bioinformática• Desenvolvimento e implementação de software que use

eficientemente os vários tipos de dados biológicos

• Desenvolvimento de algoritmos/heurísticas e medidas estatísticas para avaliar relações entre dados de repositórios

– A Bioinformática recorre a métodos computacionais• Reconhecimento de padrões, exploração de dados,

aprendizagem automática, visualização de informação, simulação de processos, computação avançada, etc.

Page 7: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

7

A Bioinformática atual

• Atividades comuns e áreas de aplicação– Mapear e analizar ADN e sequências proteicas

– Alinhar sequências com vista a compará-las

– Criar, visualizar e explorar modelos 3D de proteínas

– Extrair resultados de grandes repositórios de dados

– Anotar sequências, genomas, mutações, etc.

– Desenvolver ontologias para explorar dados biológicos

– Ajudar na análise da expressão/regulação de ADN, etc.

– Fornecer métodos e técnicas para fins forenses

Page 8: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

8

Ferramentas de acesso geral na Bioinformática

• Repositórios ou bases de dados– São essenciais para efeitos de aplicação e investigação

– Há grande diversidade e interligação de repositórios

– Os repositórios de dados são de vários tipos• Dados resultantes de métodos empíricos

• Dados resultantes de métodos preditivos

• Dados empíricos e preditivos

• Meta-dados que relacionam vários repositórios de dados

– Alguns casos notáveis• Nucleótidos: GenBank (EUA), EMBL (UE)

• Proteínas: UniProt (UE), PROSITE (UE), PDB (EUA)

Page 9: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

9

Ferramentas de acesso geral na Bioinformática

• GenBank (repositório de dados do NCBI)– «GenBank ® is the NIH genetic sequence database, an

annotated collection of all publicly available DNA sequences (Nucleic Acids Research, 2013 Jan; 41(D1):D36-42). GenBank is part of the International Nucleotide Sequence Database Collaboration, which comprises the DNA DataBank of Japan (DDBJ), the European Molecular Biology Laboratory (EMBL), and GenBank at NCBI. These three organizations exchange data on a daily basis...»

– Registo GenBank; Nucleótidos; BLAST; Serviços

Page 10: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

10

Ferramentas de acesso geral na Bioinformática

• EMBL (repositório de dados)– «EMBL is at the forefront of innovation in life sciences

research, technology development and transfer, and provides outstanding training and services to the scientific community in its member states. This publicly-funded non-profit institute is housed at five sites in Europe whose expertise covers the whole spectrum of molecular biology...»

– EMBL-UK; serviços (web)• «EMBL-EBI provides programmatic access to various data

resources and analysis tools via Web Services technologies»

Page 11: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

11

Ferramentas de acesso geral na Bioinformática

• UniProt (repositório de dados de EBI/SIB/PIR)– «The mission of UniProt is to provide the scientific

community with a comprehensive, high-quality and freely accessible resource of protein sequence and functional information...»

– Vários repositórios de sequências proteicas e serviços• UniProtKB; UniRef; UniParc

• Proteomes – conjunto das proteínas expressas pelo genoma

• Serviços gerais (CGI Services) (Web Services)

• Serviços orientados ao ambiente JAVA (API)

Page 12: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

12

Ferramentas de acesso geral na Bioinformática

• PDB (repositório de dados)– «The Worldwide Protein Data Bank (wwPDB) consists

of organizations that act as deposition, data processing and distribution centers for PDB data. Members are: RCSB PDB (USA), PDBe (Europe) and PDBj (Japan), and BMRB (USA). The wwPDB's mission is to maintain a single PDB archive of macromolecular structural data that is freely and publicly available to the global community...»

– PDBus / PDBe; Registo PDB; Serviço Web

Page 13: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

13

Ferramentas de acesso geral na Bioinformática

• Modalidades– Através de serviços remotos Web ou FTP• http://www.uniprot.org/uniprot/P31946

• http://rest.ensembl.org/homology/symbol/human/ABAT?;type=orthologues;aligned=0• ftp://ftp.ncbi.nlm.nih.gov/blast/db/

– Através de software local que recorre a uma API• esearch -db protein -query ABAT | efetch -format fasta

– Através de software local previamente obtido• clustalo --auto --force --wrap=100000 -i fich1 -o fich2

– Alternativa: software desenvolvido à medida

Page 14: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

14

Ferramentas de acesso geral na Bioinformática

• Ambientes de desenvolvimento de software– OBF (BioJava; BioPerl; BioPython; BioSQL); etc.• Usam ambientes de programação atuais complementados

com componentes funcionais específicos da Bioinformática

• É uma boa prática de desenvolvimento de software!

– Baseados em integração de funcionalidades/dados• geWorkbench; InterMine; BioGraph; PATRIC; Gaggle;

UGENE; etc.

– Baseados em fluxos de trabalho (workflow)• Armadillo; Anduril; BioUno; Galaxy; GenePattern;

Taverna Workbench; etc.

Page 15: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

15

Ferramentas de acesso geral na Bioinformática

• Software para instalação local em computador– Listagem na Wikipedia (inclui as categorias abaixo)

– Código fechado/proprietário• Ver lista acima filtrada por “commercial”

• Dendroscope – View phylogenetic trees and rooted networks

– Código aberto/livre• PHYLIP – Package of programs for inferring phylogenies

• Clustal – Multiple alignment of DNA/protein sequences

• JalView – MSA editing, visualisation and analysis

• PyMol – Molecular visualization system

• HyPhy – Hypothesis testing using phylogenies

Page 16: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

16

Utilizações da Bioinformática

• Como muitas pessoas usam a Bioinformática– 1. Procurar gene BRCA1 no UniProtKB• Selecionar 7 espécies e visualizar as sequências

• Descarregar as 7 sequências para ficheiro local

– 2. Visualizar as 7 sequências com o JalView• Antes de serem alinhadas com um software de MSA

• Depois de serem alinhadas (observar e analisar)

– 3. Escolher uma subsequência e pesquisar no BLAST• Verificar as sequências candidatas e analisar

– 4. Abrir sequência BRCA1_HUMAN no UniProtKB• Visualizar BRCA1 “1jnx” em 3D no software PyMol

Page 17: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

17

Ferramentas à medida na Bioinformática

• Descrição do problema– Dada uma lista de mutações (exemplo R283Q) em

sequências proteicas de genes humanos,

– Pesquisar essas mutações nas sequências proteicas ortólogas de 39 mamíferos previamente definidos e

– Guardar todos os casos de mutações iguais às humanas, nos 39 mamíferos em causa, numa folha de cálculo

– Pressupostos• As sequências humanas são descritas pelo identificador

RefSeq (exemplo: NP_000005.2)

Page 18: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

18

Ferramentas à medida na Bioinformática

• Análise do problema– O problema está claramente formulado? Sim/Não

– As fontes de informação estão definidas? Sim/Não

– O que está em falta para se poder resolver?

Discussão/sugestões!

Page 19: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

19

Ferramentas à medida na Bioinformática

• Análise do problema– O problema está claramente formulado? Sim

– As fontes de informação estão definidas? Não

– O que está em falta para se poder resolver?

• A lista que define os 39 mamíferos!

• Um repositório com sequências proteicas de mamíferos!

• Um algoritmo que descreva uma solução adequada!

• Uma solução implementada de modo correto e bem testada!

Page 20: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

20

Ferramentas à medida na Bioinformática

• Preparação da solução– Fornecida a lista com os nomes dos 39 mamíferos

– Identificado um repositório de dados com sequências proteicas de mamíferos: Ensembl• «The Ensembl project produces genome databases for

vertebrates and other eukaryotic species, and makes this information freely available online...»

• Existe uma interface Web para aceder ao Ensembl e obter automaticamente sequências proteicas de mamíferos que sejam ortólogas de uma dada sequência proteica humana:http://rest.ensembl.org/homology/symbol/human/X?;type=orthologues;aligned=0

– Descarregadas todas as sequências necessárias

Page 21: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

21

Ferramentas à medida na Bioinformática

• Definição da solução (algoritmo)– Solução incluirá ações (A), decisões (D) e ciclos (C)• Descrição simplificada da solução:

Esboço da solução?

Discussão/sugestões!

Page 22: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

22

Ferramentas à medida na Bioinformática• Definição da solução (algoritmo)– Solução incluirá ações (A), decisões (D) e ciclos (C)• Descrição simplificada da solução:

A: Inicia a execuçãoA: Prepara os dados necessáriosC: Para cada sequência de gene humanoC: .Para cada mamíferoD: ..Se existe sequência do respetivo gene ortólogoA: ...Faz alinhamento das sequências humana+mamíferoC: ....Para cada mutação do gene humano em causaD: .....Se há mutação na sequência do mamíferoA: ......Guarda informação da mutação encontradaA: Armazena os resultados encontrados num ficheiroA: Termina a execução

Page 23: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

23

Ferramentas à medida na Bioinformática

• Caraterísticas da solução encontrada– O tempo de execução (TE) será proporcional ao• Nº de genes humanos (N1)

• Nº de mamíferos (N2)

• Nº médio de mutações por gene humano (N3)

• TE ≈ N1 N2 N3

– A solução encontrada está próxima do ótimo

– Exemplo de resultadoABCB1 erinaceus_europaeus 472 V=>And...Vi.p.. NP_003733.2 homo_sapiensdn...Av.s.. ENSEEUP00000004710 erinaceus_europaeus

Page 24: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

24

Ferramentas para entrar na Bioinformática

• Aprender Bioinformática– Plataforma de aprendizagem Rosalind• Python Village (aprender a linguagem Python)

• Bioinformatics Stronghold (descobrir algoritmos)

• Bioinformatics Armory (ferramentas prontas a usar)

• Bioinformatics Textbook Track (coleção de exercícios)

• Algorithmic Heights (exercícios sobre algoritmos)

– Cursos online na plataforma Coursera

– Leituras• Bioinformatics for Dummies (2ª edição, Ebook)

• Livros sobre Bioinformática na Amazon UK

Page 25: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

25

Sequências de aminoácidos por alinhar e alinhadas

Page 26: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

26

Sequências de ADN por alinhar e alinhadas

Page 27: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

27

Visualização 3D de uma proteína (modo cartoon)

Page 28: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

28

Visualização 3D de uma proteína (superfície)

Page 29: Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

Uso de ferramentas de acesso geral ou de ferramentas à medida em Bioinformática

António Cardoso CostaDepartamento de Eng.ª InformáticaInstituto Superior de Engenharia do Porto

Palestra sobre Bioinformática