A Biologia na Era da Computação 2 · • Criação de gifs animados, jpeg, ps e VRML. • Acessos...

Preview:

Citation preview

A Biologia na Era da Computação

Hugo Brandão UchôaLaboratório de Sistemas Biomoleculares

IBILCE-UNESP

Tópicos

• Motivação• Áreas da Computação• Parmodel• BioLinux• MyODB• Conclusão

Motivação

• Grande desenvolvimento da computação.

• Aplicação nas mais diversas áreas do conhecimento humano.

• Extremamente útil para a biologia molecular.

Motivação

• Grande desenvolvimento da Biologia Molecular.

• Enorme quantidade de dados que necessitam ser armazenados e analisados.

Motivação

Motivação

• Surge o termo Bioinformática:

“Desenvolvimento e utilização de técnicas computacionais na resolução de problemas biológicos”

Motivação

• Pode ser dividida em duas partes:

– Desenvolvimento das ferramentas.

– Utilização das ferramentas.

Áreas da Computação

– Computação de Alto Desempenho– Banco de Dados – Computação Científica – Sistemas Operacionais– Redes Neurais

Áreas da Computação

• Computação de Alto Desempenho

– Surge da necessidade de maior poder computacional para a resolução de problemas de Biologia Estrutural

Áreas da Computação

Áreas da Computação

• Solução:

– Utilização de computadores que operam em paralelo (Clusters)

– Aplicação de técnicas de Programação Paralela para portar os programas a esta nova arquitetura

Áreas da Computação

• Bancos de Dados

– Grande massa de dados gerada.

– Armazenamento realizado em Bancos de Dados.

– Integração com ferramentas WEB para disponibilizar estes dados

Áreas da Computação

• Computação Científica

– Aplicação de computação na resolução de problemas científicos.

– Alinhamento de seqüências.

Áreas da Computação

• Sistemas Operacionais

– Utilização do Sistema Operacional Linux

– Necessidade de modificar este sistema para direcioná-lo à aplicações de biologia estrutural

– Facilitar a vida do usuário

Áreas da Computação

• Redes Neurais

– Simulam os neurônios e são utilizadas nas mais diversas aplicações

– Podem ser utilizadas para predizer estruturas secundárias de proteínas

Ferramentas do BMSys

• Objetivos:– Automatizar e paralelizar programas existentes;– Criação de interfaces amigáveis com acesso

pela WEB;– Desenvolvimento de novas ferramentas e bases

de dados;– Facilitar a vida dos biólogos;

Ferramentas do BMSys

• Parmodel;

• BioLinux;

• MyODB;

Parmodel

Nem sempre é possível determinar a estrutura terciária de uma proteína através de métodos experimentais.

Necessidade de usar técnicas computacionais para a construção de modelos.

Principal técnica: modelagem molecular por homologia.

Parmodel

Utilização do software Modeller (Sali & Blundell, 1993).

Processo não automatizado que envolve várias etapas.

Modelagem e análise demanda um tempo considerável.

Necessário realizar a análise e visualização dos modelos

Parmodel

• Criação do Parmodel - pipeline que permite a execução de todas as etapas da modelagem molecular por homologia:– Criação dos Modelos;– Avaliação;– Otimização;– Visualização;

Parmodel Modeling

- Identificação do paralelismo;- Escolha do estilo de paralelismo;- Desenvolvimento do algoritmo; - Escolha de uma linguagem de programação;

Parmodel Modeling

• Identificação do paralelismo:

Parmodel Modeling

• Escolha do estilo de paralelismo:

- Optou-se pelo modelo de paralelismo bag of tasks

- Caracteriza pela existência de um processo gerente que distribui tarefas aos processos trabalhadores

Parmodel Modeling

• Vantagens do bag of tasks:

- Balanceamento de carga;

- Escalabilidade;

Parmodel Modeling

Trab.1 Trab. 2 Trab. 3 Trab. 4 Trab.15

Gerente UsuárioInternetDados na Página

E-mail

AlinhamentoOrdena Nmodelos

Requisita modelagem

Envia número e semente

Envia result. da análise

Parmodel Modeling

• Desenvolvimento do programa através de uma linguagem:

- A linguagem utilizada foi o C.

- Utilização da biblioteca de troca de mensagens MPI (Message PassingInterface).

Parmodel Modeling

MPI é um modelo de interface de troca de mensagens para computadores que utilizam memória distribuída.

O MPI utiliza o paradigma SPMD (SingleProgram Multiple Data) onde cada processo executa o mesmo programa.

Parmodel Assessment

• Análise dos Modelos:– Procheck;

– 3DAnalysis;

– Whatcheck;

Parmodel Assessment

• Procheck:– Checa a qualidade estereoquímica da estrutura;– Construção do mapa de Ramachandran;– Importante na modelagem e na resolução de

estruturas de proteínas;

Parmodel Assessment

Procheck:

Parmodel Assessment

Procheck:

Parmodel Assessment

• 3DAnalysis:– Relaciona a estrutura tridimensional de uma

proteína com sua seqüência de aminoácidos;

– Permite saber se o modelo tridimensional condiz com a “preferência” de cada aminoácido;

Parmodel Assessment

• 3DAnalysis:- Classifica a qualidade dos modelos de acordo com os scores dos aminoácidos;

Score Ideal:

Sideal= exp(-0.83 + 1.008xln(L))

onde L= Número de aminoácidos

Parmodel Assessment

• 3DAnalysis:

Parmodel Assessment

• Whatcheck:

– Gera um relatório completo com várias análises da proteína;

– Informações relativas à qualidade estereoquímica e RMSD.

Parmodel Optimization

• Permite realizar a otimização dos modelos através da utilização do software GROMACS.

• Processo realizado através da minimização de energia da molécula.

• Nem sempre o modelo final melhora.

Parmodel Visualization

• Permite visualizar a estrutura secundária do modelo final.

• Criação de gifs animados, jpeg, ps e VRML.

• Acessos do mundo todo.

Parmodel Visualization

Parmodel Database

• Os 20 melhores modelos de cada modelagem podem ser obtidos através desta base de dados;

• Atualmente conta com 12.000 modelos;

Parmodel

• Resultados:– Permite executar modelagem, avaliação,

otimização e visualização dos modelos de forma automática;

– Diminui tempo de execução do Modeller;– Aumenta a chance de se obter bons modelos;– Acessível de qualquer lugar;

BioLinux-BR

Modificação do SO Linux incorporando ferramentas de bioinformática

Biolinux-BR

• Inexperiência dos usuários;

• Uso incorreto de aplicativos;

• Baixo nível de facilidade;

• Instalação de aplicativos de modo incorreto.

BioWindows?

Linux é difícil?

Características do Linux

• Multitarefa;• Estável;• Confiável;• Seguro;• Alto desempenho;• Suporte à redes;

BioLinux-BR

BioLinux-BR

• Facilidade de uso;

• Boot direto do CD;

• Reconhecimento automático de hardware;

• Programas pré-instalados e configurados;

• Atualizações de maneira simplificada.

BioLinux-BR

• Capacidade de instalar no HD;

• Fácil e rápido;

• Problema: não há como escapar de

particionar o disco.

BioLinux-BR

• Cientistas e pesquisadores de bioinformática;

• Usuários pouco familiarizados com a instalação de sistemas operacionais;

MyODB

• MyODB (My Own DataBase)• Ferramenta que possibilita a construção de

banco de dados do ponto de vista biológico através de busca por palavras chaves.

• Conjunto de 12 tabelas correlacionadas com dados específicos para as necessidades do usuário.

MyODB

MyODB

Scripts 02

üFiltrageme organizaçãodas informações (dados).üDados filtrados e organizados.

Scripts 03

üInserção dos dados nas tabelas correlacionadas.

üGrande quantidade de dados

Scripts 01

üBusca das informações por palavras chaves.

Banco de Dados

GenBankPDB

GenBank

ü Espéciesü Seqüências- DNA - Proteínas- EST

PDB

ü Estrutura

Nova tentativa

Paralelização

MyODB

Conclusão

• A bioinformática é uma área nova e está em ascensão.

• Existem muitos problemas que ainda podem ser resolvidos ou cuja a resolução pode ser aprimorada com a ajuda de técnicas computacionais.

Conclusão

http://www.biocristalografia.df.ibilce.unesp.br/tools/

FIM

Recommended