Predição de estruturas secundárias de proteínas utilizando redes neurais artificiais...

Preview:

Citation preview

Predição de estruturas secundárias de proteínas utilizando redes

neurais artificiais

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

• Introdução– Motivação– Proteínas– Estruturas de Proteínas– Redes Neurais Artificiais

• Objetivo• Metodologia• Resultados• Conclusões• Trabalhos Futuros

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

Introdução - Motivação

• O processo para catalogar as estruturas das proteínas em laboratório ainda é considerado financeiramente pouco viável.

• Busca-se utilizar a computação para fazer com que esse processo seja financeiramente viável mantendo os resultados confiáveis;

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

Introdução - Proteínas• São os componentes básicos de todo organismo desempenhando funções variadas;

• Ter o conhecimento dessas funções é de grande utilidade, pois com essas informações pode-se diagnosticar doenças, descobrir curas, desenvolver novos medicamentos, entre outras inúmeras utilidades.

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

Introdução - Proteínas

A função de uma proteína é determinada por sua estrutura tridimensional, e esta pela natureza e seqüência de seus aminoácidos constituintes.

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

Introdução - Proteínas

• Aminoácidos são compostos orgânicos que possuem uma estrutura básica comum, consiste de um carbono central, o qual possui quatro ligantes diferentes, um grupo carboxila (COOH), um grupo amino (NH2) e um radical R também chamado cadeia lateral do aminoácido.

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

Introdução - Proteínas

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

Introdução - Proteínas

• Funções das proteínas • Catalisadoras • Transportadoras• Contráteis ou de movimento• Estruturais• De defesa

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

Introdução – Estruturas de Proteínas• Estrutura primária

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

Introdução – Estruturas de Proteínas• Estrutura secundária

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

Introdução – Estruturas de Proteínas• Estrutura terciária

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

Introdução – Redes Neurais Artificiais RNAs

• Definição: “são sistemas paralelos distribuídos compostos por unidades de processamento simples chamados neurônios artificiais”;

• Dentre suas funções pode-se destacar a classificações de padrões;

• Simula funcionamento do cérebro humano

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

Introdução – Redes Neurais Artificiais• O modelo de neurônio artificial apresenta:

entradas, pesos, unidade de processamento e saída.

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

Objetivo

• Este trabalho objetiva prever a estrutura

secundária da proteína através de sua estrutura

primária utilizando RNAs como preditor;

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

Metodologia

• Obtenção dos dados.• O banco de dados público de proteínas

Protein Data Bank, PDB, foi utilizado para a obtenção dos dados.

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

Metodologia

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

• A rede deverá ser modelada da seguinte maneira:• Subseqüências extraídas da estrutura

primária serão as entradas da rede.• As estruturas secundárias destas

subseqüências servirão como um vetor de valores esperados para a rede.

• Deve-se selecionar uma topologia, o algoritmo de treinamento e os ajustes dos parâmetros da rede.

Metodologia

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

• Foi utilizado o Matlab 6.0 para a realização do treinamento e teste das RNAs;

Metodologia

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

Resuldados• Filtragem

A filtragem foi realizada obtendo subseqüências com tamanho de 10 aminoácidos.

• CodificaçãoA codificação dos dados adotada foi por fator de

hidrofobicidade.

Para realização da filtragem e da codificação, foram desenvolvidos softwares na linguagem Java.

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

Resultados

• Dos dados obtidos, cerca de 70 % deles foram separados para o treinamento, e os outros 30% foram separados para validação da rede.

Estrutura Para 70% dos dados

Para 30% dos dados

Alfa-Helice 29794 12770Folha-Beta 20286 8694

Coil 13313 5706Total 63393 27170

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

Resultados

• Várias topologias de redes Multi layer perceptron foram testadas;

• Assim como vários algoritmos de treinamento disponíveis no toolbox do MatLab 6.0;

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

Resultados• A rede treinada que obteve melhor desempenho

foi:– Backpropagation com taxa de aprendizado

adaptativa;– Taxa de momentum;– Funções de ativação tangente hiperbólica

sigmoidal nas camadas intermediárias e de saída, respectivamente;

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

Resultados• 10 neurônios camada de entrada• 55 neurônios camada intermediária• 3 neurônios camada de saída

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

Resultados• Com o treinamento a rede obteve uma taxa de

acertos totais de 78.1%, sendo que para Alfa-Helices a taxa foi de 89%, para folha-Beta a taxa foi de 77 % e de Coil a taxa foi de 68.3 %

Estrutura Performance (%)Alfa-Helice 89Folha-Beta 77

Coil 68.3Total 78.1

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

ResultadosID método ano performance (%)

1 cadeias de markov 2006 70.3

2 estatístico 1998 72.9

3 rede neural 2005 73.5

4 logica fuzzy 2005 75.75

5 support vector machine 2001 76.2

6 estatístico 2002 76.5

7 support vector machine 2007 77

8 rede neural 2008 78.1

9 rede neural 2004 79

10 rede neural 2000 80

11 rede neural 2006 80

12 estatístico 2005 80.7-81.7

13 rede neural 2005 81.8

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

Conclusões• A falta de informações detalhadas na

literatura sobre o processo de construção dos preditores não permitiu uma avaliação conclusiva sobre os resultados encontrados;

• A complexidade do problema o torna difícil de se tratar, ficando evidente pelo baixo nível de exatidão dos resultados.

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

Trabalhos Futuros• Utilizar RNAs independentes para os três tipos

de estruturas a fim de tentar melhorar a taxa de generalização;

• Realizar o treinamento das RNAs por novos algoritmos de treinamento como o algoritmo de treinamento Multi-Objetivo.

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues

FIM

Universidade Federal de LavrasDepartamento de Ciência da Computação

Orientado: Rilson Machado de OliveiraOrientador: Thiago de Souza Rodrigues