47
UNIVERSIDADE FEDERAL DE SANTA CATARINA CENTRO DE CIÊNCIAS BIOLÓGICAS CURSO DE CIÊNCIAS BIOLÓGICAS DEPARTAMENTO DE MICROBIOLOGIA, IMUNOLOGIA E PARASITOLOGIA LABORATÓRIO DE BIOINFORMÁTICA SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO DE EPÍTOPOS LINEARES Maycon Vieira da Silva Prof. Dr. Glauber Wagner Orientador Florianópolis, 2021

SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

UNIVERSIDADE FEDERAL DE SANTA CATARINA

CENTRO DE CIÊNCIAS BIOLÓGICAS

CURSO DE CIÊNCIAS BIOLÓGICAS

DEPARTAMENTO DE MICROBIOLOGIA, IMUNOLOGIA E PARASITOLOGIA

LABORATÓRIO DE BIOINFORMÁTICA

SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO

DE EPÍTOPOS LINEARES

Maycon Vieira da Silva

Prof. Dr. Glauber Wagner

Orientador

Florianópolis, 2021

Page 2: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …
Page 3: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

UNIVERSIDADE FEDERAL DE SANTA CATARINA

CENTRO DE CIÊNCIAS BIOLÓGICAS

CURSO DE CIÊNCIAS BIOLÓGICAS

DEPARTAMENTO DE MICROBIOLOGIA, IMUNOLOGIA E PARASITOLOGIA

LABORATÓRIO DE BIOINFORMÁTICA

SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO

DE EPÍTOPOS LINEARES

Maycon Vieira da Silva

Trabalho de Conclusão de Curso da

Universidade Federal de Santa Catarina

para a obtenção do Grau de Licenciado

em Ciências Biológicas.

Orientador: Profº. Dr. Glauber Wagner.

Florianópolis, 2021

Page 4: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

FICHA DE IDENTIFICAÇÃO DA OBRA

Page 5: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

Maycon Vieira da Silva

SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO DE EPÍTOPOS

LINEARES

Este Trabalho Conclusão de Curso foi julgado adequado para obtenção do Título de

Licenciado em Ciências Biológicas e aprovado em sua forma final pelo Curso de Ciências

Biológicas.

Florianópolis, 17 de setembro de 2021.

________________________

Prof. Dr. Carlos Roberto Zanetti

Coordenador do Curso

Banca Examinadora:

________________________

Prof. Dr. Glauber Wagner

Orientador

Universidade Federal de Santa Catarina

________________________

Prof. Dr. Renato Simões Moreira

Instituto Técnico Federal de Santa Catarina

________________________

Guilherme Augusto Maia, MSc.

Universidade Federal de Santa Catarina

Page 6: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

AGRADECIMENTOS

Agradeço a todos os professores que me fizeram chegar onde cheguei e a

meus pais que me educaram da maneira que sou hoje. Gostaria de agradecer,

especialmente, ao professor Dr. Glauber Wagner por toda a paciência em me esperar

a terminar este TCC feito de maneira bastante lenta devido à problemas pessoais de

saúde e tecnológicos que evitaram um desenvolvimento rápido da conclusão deste

trabalho. Além disso, quero agradecer o mesmo por me explicar e arranjar tempo para

solucionar algumas das minhas dúvidas. E não posso deixar de mencionar um

professor muito dedicado, inteligente, calmo e que soube passar seus ensinamentos

de programação da melhor maneira possível para quem não sabia quase nada, Prof.

Esp. Herval Daminelli do Instituto Federal de Santa Catarina (IFSC). E um

agradecimento especial ao projeto Curso em Vídeo, onde se dispõe de inúmeras aulas

de programação gratuitas no qual pude começar a programar os meus primeiros

programas. Professor Guanabara, um abraço!

Page 7: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

“Quanto maior são as dificuldades a vencer, maior será

a satisfação”.

(Cícero)

Page 8: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

RESUMO

Hoje existem muitos programas e servidores capazes de predizer várias

características sobre determinadas sequências proteicas ou nucleotídicas. Porém,

poucos permitem analisar os diferentes dados de diferentes servidores/programas em

uma única e simples interface. Para fazer tal integração, é necessário usar pipelines,

uma técnica que permite a sobreposição temporal de tarefas, neste caso, a realização

simultânea do envio e processamento de uma sequência proteica em diferentes

servidores. O objetivo deste trabalho é desenvolver um protótipo de plataforma web

de fácil acesso e uso para a predição de epítopos lineares a partir de sequências

proteicas. Para o teste, foram utilizadas 16.953 sequências de proteínas de Eimeria

tenella. Para se realizar o protótipo do programa SysPEP, foi realizado um

desenvolvimento no front-end, back-end, logo e banco de dados. Os dados foram

testados diretamente com comandos SQL em programas/servidores como: Bepipred,

NetMHC I, NetMHC II, WolfPsort, SignalP, TargetP, TMHMM, entre outros. Como

resultado, obtemos o desenvolvimento de uma interface web com as páginas “Home”,

“Run SysPEP”, “Result”, “Register”, “Contact”, “Login”, “Forgot my Password”, entre

outras janelas (pop ups). Também foi editado um banco de dados relacional em

MySQL que já havia sido criado primordialmente para melhorar a sua performance. A

estrutura deste protótipo já permite o envio dos dados aos servidores, trazendo os

resultados integrados. Este sistema poderá gerar uma economia de tempo para a

análise dos dados de diferentes servidores, pois permitirá a análise de vários dados

de servidores diferentes em uma única interface. Para isso, ainda será necessário a

correção de bugs e se desenhar um layout limpo de fácil e rápido acesso, construindo

gráficos, mais tabelas e trabalhando em um User Interface (UI) e User Experience

(UX) design. E assim, podendo contribuir para o desenvolvimento de vacinas,

diagnóstico de doenças e estudos de proteomas.

Palavras-chave: Bioinformática, Imunoinformática, Pipeline, Interface Usuário.

Page 9: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

ABSTRACT

Today there are many programs and servers capable of predicting various

characteristics about certain protein or nucleotide sequences. However, few allow

analyzing different data from different servers/programs in a single and simple

interface. To make such integration, it is necessary to use pipelines, a technique that

allows the temporal overlapping of tasks, in this case, the simultaneous execution of

the sending and processing of a protein sequence in different servers. The objective

of this work is to develop a prototype of a web platform that is easy to access and use

for the prediction of linear epitopes from protein sequences. For the test, 16,953

Eimeria tenella protein sequences were used. To carry out the prototype of the SysPEP

program, a development on the front-end, back-end, logo and database was carried

out. Data were directly tested with SQL commands in programs/servers such as:

Bepipred, NetMHC I, NetMHC II, WolfPsort, SignalP, TargetP, TMHMM, among

others. As a result, we get the development of a web interface with the pages “Home”,

“Run SysPEP”, “Result”, “Register”, “Contact”, “Login”, “Forgot my Password”, among

other windows (pop ups ). A relational MySQL database that had already been created

primarily to improve its performance was also edited. The structure of this prototype

already allows data to be sent to servers, bringing integrated results. This system can

save time for the analysis of data from different servers, as it will allow the analysis of

several data from different servers in a single interface. For that, it will still be necessary

to fix bugs and to design a clean layout for easy and quick access, building graphics,

more tables and working in a User Interface (UI) and User Experience (UX) design.

And so, it can contribute to the development of vaccines, disease diagnosis and

proteome studies.

Keywords: Bioinformatics, iImmunoinformatics, Pipeline, User interface.

Page 10: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

LISTA DE FIGURAS

Figura 1 — Diferença entre um epítopo linear e descontínuo (conformacional). ...... 16

Figura 2 — Exemplo de Regressão Linear. .............................................................. 17

Figura 3 — Exemplo de uma Rede Neural Artificial de 3 camadas. ......................... 18

Figura 4 — Logo SysPEP. ........................................................................................ 22

Figura 5 — Modelagem do banco de dados. ............................................................ 24

Figura 6 — Página HOME. ....................................................................................... 25

Figura 7 — Página Run SysPEP. ............................................................................. 26

Figura 8 — Algumas janelas de configurações e informações da página “Run

SysPEP”. ................................................................................................................... 28

Figura 9 — Resultados iniciais que aparecem na página “Result”. .......................... 30

Figura 10 — Tabela carregada via Ajax após o usuário clicar na linha da request da

página “Result”. ......................................................................................................... 30

Figura 11 — Tabela carregada via Ajax após o usuário clicar no ícone “Details” da

respectiva request. .................................................................................................... 31

Figura 12 — Janela da listagem de epítopos ligantes de Células B que têm o seu

número de aa. entre 9 e 20. ...................................................................................... 32

Figura 13 — Página para se registrar no SysPEP (Página “Register”). ................... 33

Figura 14 — Página para contato (Contact). ............................................................ 34

Figura 15 — Página para entrar no sistema (Login). ................................................ 35

Page 11: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

LISTA DE TABELAS

Tabela 1 — Resultado dos dados processados pelos programas. ........................... 36

Tabela 2 — Total de epítopos encontrados. ............................................................. 40

Tabela 3 — Total de epítopos encontrados em 2.550 proteínas com previsão de

serem secretadas de Eimeria tenella. ....................................................................... 41

Page 12: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

LISTA DE ABREVIATURAS, SÍMBOLOS E UNIDADES

aa: aminoácidos

AC: Accession Number

Acs: Anticorpos

BCR: B cell receptor (receptor de célula B)

CC: Creative Cloud

CPU: Central Process Unit

CSS: Cascading Style Sheets (Folhas de Estilo em Cascata)

DER: Diagrama de Entidade-Relacionamento

GB: Gigabyte

Ghz: GigaHertz

HTML: HyperText Markup Language (Linguagem de Marcação de Hipertexto)

MHC: Major Histocompatibility Complex (Complexo Principal de

Histocompatibilidade)

NCBI: National Center for Biotechnology Information

ORF: Open Reading Frame

PHP: Hypertext Preprocessor (Pré-Processador de Hipertexto)

SNC: Sistema Nervoso Central

SysPEP: System for Protein Epitope Prediction

TCR: T cell receptor (receptor de célula T)

UML: Unified Modeling Language (Linguagem de Modelagem Unificada)

UFSC: Universidade Federal de Santa Catarina

Page 13: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

SUMÁRIO

RESUMO 7

ABSTRACT 8

LISTA DE FIGURAS 9

LISTA DE TABELAS 10

SUMÁRIO 12

1 REVISÃO DE LITERATURA 14

1.1 Bioinformática 14

1.2 Imunoinformática 14

1.3 Vacinologia Reversa 14

1.4 Predição de epítopos 15

1.5 Pipelines ou Workflow Científico 18

1.6 Eimeria spp. 19

2 OBJETIVOS 20

2.1 Objetivo Geral 20

2.2 Objetivos Específicos 20

3 METODOLOGIA 21

3.1 Desenvolvimento do Programa 21

3.2 Logo 21

3.3 Programas/Servidores Utilizados 22

3.4 Banco de Dados 23

4 RESULTADOS E DISCUSSÃO 25

4.1 Interface Web 25

4.1.1 Página Home 25

4.1.2 Página Run SysPEP 25

4.1.3 Página Result 29

4.1.4 Página Register 32

4.1.5 Página Contact 33

4.1.6 Página Login 34

4.1.7 Página Forgot My Password 35

4.2 Banco de Dados 35

4.3 Teste do programa utilizando como modelo Eimeria tenella. 39

5 CONCLUSÃO 42

REFERÊNCIAS 44

Page 14: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

14

1 REVISÃO DE LITERATURA

1.1 Bioinformática

Basicamente, a bioinformática é uma informática aplicada ao processamento e

análise de dados obtidos em pesquisas biológicas. Esse campo interdisciplinar

abrange recursos não apenas da biologia, mas também da ciência da computação,

engenharia da informação, matemática e estatística para o entendimento final de

dados biológicos (RIBEIRO, 2020).

Há uma grande e crescente produção de dados em bioinformática. E para se

armazenar e organizar todos esses dados, foram criadas muitas bases de dados que

são mantidas e organizadas por consórcios internacionais, como a Nucleotide

Sequence Database (EMBL-Bank) - Reino Unido, Banco de Dados de DNA do Japão

(DDBJ) e o GenBank do Centro Nacional de Informações sobre Biotecnologia (NCBI)

(LESK, 2019).

1.2 Imunoinformática

A imunoinformática ou imunobioinformática soluciona problemas da área da

imunologia utilizando-se de informática, mas também consiste em uma especialização

da bioinformática. Para se demarcar epítopos potencialmente antigênicos e assim

poder auxiliar no desenvolvimento de diagnósticos e/ou vacinas, são utilizados bancos

de dados e programas para fazer determinadas predições, principalmente para o

mapeamento de epítopos de células B, MHC I e MHC II. O uso da informática para se

chegar aos dados desses epítopos também se chama imunoinformática (KREMER,

2020), o que também descreve parte deste trabalho.

1.3 Vacinologia Reversa

Utilizando-se da imunoinformática, podemos aplicar a tecnologia aplicada na

produção de vacinas denominada vacinologia reversa. Através dela, é feito a análise

do genoma, proteínas, características hidrofóbicas ou hidrofílicas, determinando as

Page 15: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

15

posições de cada proteína no meio intracelular ou extracelular e assim avaliando o

seu potencial uso para induzir imunidade em animais (ADU-BOBIE, 2003).

Através desta tecnologia, pode-se eliminar a necessidade do cultivo dos

agentes infectantes com seus fatores de virulência ou que eles possam ser

previamente isolados e purificados antes de serem inoculados para o estudo de sua

resposta imune (SCHATZMAYR, 2003).

1.4 Predição de epítopos

De acordo com Montassier (2015), epítopos são regiões de um antígeno que

possuem ação imunológica. Ou seja, uma sequência específica de uma molécula que

são reconhecidas pelos componentes de uma resposta imunitária como os BCR, TCR

e Acs.

Existem 3 tipos de epítopos. São classificados dependendo da forma de

interação com o sistema imune:

1. Epítopos de células B (linfócitos B), reconhecidos por BCR e anticorpos.

2. Epítopos de CTLs (linfócitos Tc) que são reconhecidos em conjunto com

o MHC I pelo TCR dos linfócitos citotóxicos.

3. Epítopos de células T-helper (linfócitos Th), reconhecidos em conjunto

com o MHC II pelo TCR das células T-helper.

Também podemos classificá-los dependendo da forma de como esse epítopo

é reconhecido pelo anticorpo. Se o epítopo é reconhecido por sua sequência linear de

aminoácidos, é denominado epítopo linear, mas se ele for reconhecido por uma

sequência não linear, caso (mais comum) que acontece em epítopos com formato

tridimensional, denomina-se epítopo descontínuo ou conformacional (Figura 1)

(ALMEIDA, 2009).

Page 16: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

16

Figura 1 — Diferença entre um epítopo linear e descontínuo (conformacional).

.

Fonte: Sequeiros (2016).

Para se prever um epítopo pode-se utilizar o aprendizado de máquina (machine

learning) que, basicamente, consiste no poder de análise de dados de um computador

utilizando-se ou não uma Rede Neural Artificial para determinar uma predição sobre

possíveis características sobre uma ou mais proteínas. Existem diversos modelos

para se analisar dados a fim de que o computador possa retornar a sua predição.

Entre os modelos mais utilizados em Redes Neurais Artificiais está o de Regressão

(ex. Regressão Linear). A Regressão Linear está vinculada à estatística. Por exemplo,

em um diagrama de dispersão, traça-se uma reta para resumir uma relação de dados

a fim de prever, com uma certa eficiência, o próximo dado (GOMES, 2019) (Figura 2)

Page 17: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

17

Figura 2 — Exemplo de Regressão Linear.

Formando uma reta em um diagrama de dispersão. Os pontos pretos são os dados reais, a linha em azul seria a previsão do próximo ponto, caso essa predição tivesse que ser continuada. Perceba que, a linha azul (previsão) passa o mais perto possível de cada dado real.

Fonte: khanacademy.org (2021).

Já a Rede Neural Artificial, são técnicas computacionais aliadas a modelos

matemáticos (como o caso da Regressão) inspirados em um SNC de um animal que

simulam o comportamento de redes neurais biológicas para fazer com que o

computador possa prever, enxergar e até escutar (FERNEDA, 2006). Para isso, ela

precisa de dados de entrada, no qual se colocam pesos a elas, para processar e dar,

no fim, a melhor escolha ou predição de um dado (Figura 3) (AMARAL, 2020).

Page 18: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

18

Figura 3 — Exemplo de uma Rede Neural Artificial de 3 camadas.

Uma camada com 4 entradas, uma camada oculta com 3 funções de ativação e uma camada de saída com 2 saídas. Cada esfera dessa representa um neurônio. Dependendo do problema a ser solucionado, pode-se haver mais ou menos neurônios, mas sempre terá apenas 1 camada de entrada e 1 camada de saída. Os “Pesos” têm o mesmo sentido das sinapses humana, transmitir a informação entre os neurônios. Eles, normalmente, possuem valores entre 0 e 1 que são multiplicados com os dados de entrada e são colocados, por padrão, aleatoriamente numa primeira inicialização do treino. No decorrer do treino desta rede, esses pesos são melhorados de acordo com os resultados da Loss Function e o Batch Size definido, que pode atualizar os pesos após a passagem por cada registro ou um grupo de registros. Cada saída final será submetida a uma Loss Function para analisar o quanto o resultado foi errado ou não comparando com dados reais, iniciando o processo de Backpropagation, que é o ajuste dos pesos em si (AMARAL, 2020).

Fonte: cerebromente.org.br (2021).

1.5 Pipelines ou Workflow Científico

Pipeline é um conceito ligado à arquitetura de computadores relacionado à

CPU. É uma técnica de implementação de processadores que permite a sobreposição

temporal das diversas fases de execução das instruções de uma tarefa. Porém, o

significado de pipeline referente a este trabalho é o de pipeline (de software), ou

workflow científico. Uma pipeline consegue automatizar uma rotina de trabalho

sequencial para executar programas e padronizar formatos de arquivos.

Resumidamente, você entra com os parâmetros que você determina e a pipeline

executará determinada sequência de programas automaticamente com os parâmetros

que você determinou (FILHO, 2019).

Para se gerenciar os workflows de trabalho (pois podem haver mais de um)

podemos usar os gerenciadores de workflow. Nessas plataformas, há diversos

Page 19: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

19

programas que, por exemplo, realizam as análises em um conjunto de proteínas de

forma ordenada com pipeline, com a mínima intervenção do usuário, gerando um

único painel de visualização para todos os programas (LUCIANI, 2017). Atualmente,

há vários workflows para análises genômicas, como por exemplo GENDB (MEYER et

al., 2003), GARSA (DAVILA et al., 2005) e o STINGRAY (WAGNER et al., 2011).

Entretanto, para análise proteômica, os workflows científicos para análise de uma

grande quantidade de dados oriundos de espectrometria de massas focam na análise

comparativa com base de dados, sem realizar análises de características estruturais.

Havendo assim, pouca integração de dados (KOHLBACHER et al., 2007). Sabendo

disso, seria bastante útil e cômodo termos um sistema que agregue todos esses dados

em uma única interface.

1.6 Eimeria spp.

Eimeria é um gênero presente dentro da Família Eimeriidae, Ordem

Eucoccidiorida, Classe Conoidasida, Filo Apicomplexa, Reino Protozoa (SCHOCH,

2020). Esses protozoários são parasitas intracelulares obrigatórios e eucariontes que

atacam enterócitos (células intestinais), principalmente de aves, ruminantes, equinos

e suínos (BIOMIN, 2020).

As Eimeria spp. são causadoras de uma das doenças mais importantes da

avicultura industrial, a coccidiose aviária. Atualmente, ela é responsável por 15 bilhões

de gastos anuais com profilaxia, tratamento e perdas provenientes desta doença nas

produções, uma vez que essa enfermidade diminui o desempenho do animal

(LANCINI, 2021). Essa doença desencadeia diarreia e enterite, no qual resulta numa

má absorção de nutrientes nas aves.

A coccidiose se torna preocupante quando se há uma constante necessidade

de se produzir mais alimentos avícolas (TOMASI, 2006). Segundo a Associação

Brasileira de Proteína Animal (ABPA), o consumo anual de aves foi estimado em 42,84

kg per capita em 2019 no Brasil (ABPA, 2020). Além disso, é o tipo de carne mais

consumida no território brasileiro, seguida da carne bovina e suína (DUARTE, 2015).

Como essas indústrias estão numa incessante busca para melhorar a

excelência em desempenho zootécnico (DINIZ, 2008), os estudos desses

protozoários se tornam importantes para que se possa melhorar o grande impacto

econômico ruim ao trazerem a baixa performance desses animais avícolas.

Page 20: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

20

Existem sete principais espécies preocupantes de Eimeria que parasitam a

galinha doméstica (Gallus gallus domesticus): E. acervulina, E. brunetti, E. maxima,

E. mitis, E. necatrix, E. praecox, E. tenella (ALMEIDA, 2020). Sendo que as mais

comuns em broilers (frango criado para a produção de carne de crescimento rápido)

são: E. acervulina, E. maxima e E. tenella (Giles et al., 2020; Györke et al., 2013;

Swayne et al., 2020).

A vacinação vem ganhando relevância para a profilaxia da coccidiose devido

ao fato dos coccidiostáticos promoverem resistência, perda de sensibilidade e

provocarem um efeito negativo nos resultados zootécnicos proporcional à dose

utilizada, interferindo no sistema circulatório, aumentando o débito cardíaco

(DONZELE et al., 2001), além do crescente número de regulamentações que

restringem o uso de aditivos alimentares, gerando uma certa preocupação dos

coccidiostáticos serem proibidos ou evitados (PEEK; LANDMAN, 2011).

Atualmente existem vacinas que contém as principais espécies de Eimeria (E.

acervulina, E. maxima. E. mitis, E. praecox e E. tenella) que causam a coccidiose

aviária em frangos, porém, atenuadas por precaução, a fim de evitar lesões nas

paredes do intestino dessas aves, o que poderia provocar perda de desempenho,

como já ocorreu no passado, no qual empresas utilizavam vacinas com oocistos

provenientes de cepas selvagens, extremamente agressivas (FABRI et al., 2020).

Por esses gastos na economia com profilaxia e com um possível crescente

interesse em vacinas contra coccidiose aviária, a interface web deste trabalho será

testada com dados provenientes de proteínas de Eimeria tenella.

2 OBJETIVOS

2.1 Objetivo Geral

Desenvolver uma plataforma web de fácil acesso e uso para a predição de

epítopos a partir de proteínas.

2.2 Objetivos Específicos

● Desenvolver uma interface gráfica web e um banco de dados.

● Integrar a plataforma gráfica uma pipeline já disponível no laboratório.

● Testar o programa utilizando o modelo biológico de Eimeria tenella.

Page 21: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

21

3 METODOLOGIA

3.1 Desenvolvimento do Programa

O código da interface web foi desenvolvido no Sublime Text 3.2.2 para

Windows 64 bits, utilizando-se de tecnologias como HTML5, CSS3 e Javascript

(Jquery v3.3.1 e Ajax). Também foram utilizados códigos em PHP para realizar o

cadastro de usuários, fazer o acesso ao sistema, fazer a comunicação entre o

formulário de contato e o e-mail dos desenvolvedores, gravar sessions (para

armazenar dados do usuário que ele já cadastrou no app, mesmo que ele recarregue

a página) e enviar os dados para a análise no servidor. Para se criar algumas janelas

de aviso foi-se utilizado o Sweet Alert 2 (https://sweetalert2.github.io/), e também

utilizado o framework de CSS Bulma para alguns detalhes da interface, como o botão

de carregamento de arquivo FASTA (“.faa”).

O planejamento da interface se baseou em um sistema que já vinha sendo

desenvolvido pelo laboratório (Wagner, 2015; Filho, 2019), porém, recomeçou com

uma nova representação visual (wireframe) básica desenhada a mão em reunião para

atualizar e melhorar o estilo e a experiência do usuário na aplicação.

3.2 Logo

Também foi desenvolvido uma logo para o SysPEP (Figura 4) através de um

programa de edição de imagem. A ideia era que a logo fosse remetida a algo

relacionado a ligações químicas para representar uma cadeia de aminoácidos, uma

vez que o maior foco inicial desta aplicação era que ela fizesse análises proteômicas

para identificação de epítopos específicos e assim contribuir para o desenvolvimento

de novas vacinas, não apenas para coccidiose aviária.

Para a criação desta logo, foi utilizado a proporção áurea (“proporção de ouro”)

que é uma constante real algébrica irracional (1,618) representada pela letra grega ɸ

(Phi) muito utilizada desde a antiguidade em pinturas renascentistas como nas de

Giotto, mas também muito encontrada na natureza como nas espirais de uma concha,

nas falanges dos dedos, nas colmeias, nas proporções entre asa e corpo de insetos,

em figuras algébricas como no decágono e pentagrama regulares (COLLISELLI,

2016).

Page 22: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

22

Já para a escolha das cores, foi utilizado o site Adobe Color

(https://color.adobe.com/pt/create/color-wheel) e a cor azul foi escolhida por

representar progresso científico, tecnologia e inovação. Buscou-se uma logo mais

simples possível para que se pudesse facilitar as suas diversas aplicações em

papelaria, jalecos e/ou uniformes caso fosse de interesse do laboratório.

Figura 4 — Logo SysPEP.

Desenvolvido e utilizado para representar o sistema web em desenvolvimento neste trabalho. Fonte: Elaborado pelo autor.

3.3 Programas/Servidores Utilizados

Os programas foram iniciados para 16.953 sequências de proteínas disponíveis

no NCBI (sequências acima de 100 aminoácidos) de Eimeria tenella (AC:

NC_004823.1) com os parâmetros padrões com exceção dos programas Bepipred,

NetMHCI e NetMHCII. No Bepipred foram procurados apenas epítopos entre ≥ 9 e ≤

25; e no NetMHCI e NetMHCII foram procurados apenas epítopos com 9 aminoácidos.

Os programas executados através da interface foram:

● Bepipred v1.0 (JESPERSEN et al., 2017): prevê os antígenos ligantes em

linfócitos B;

● NetMHCI v4.0 (ANDREATTA; NIELSEN, 2015): prevê os peptídeos ligantes de

MHC I;

● NetMHCII v2.2 (JENSEN et al., 2018): prevê os peptídeos ligantes de MHC II;

● Psort-II / WolfPsort v0.2 (HORTON et al., 2007): prevê a localização das

proteínas traduzidas a partir das ORF preditas;

Page 23: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

23

● SignalP v4.1 (EMANUELSSON et al., 2007): prevê a presença de peptídeo de

sinal e seus locais de clivagem;

● TargetP v1.1 (ARMENTEROS et al., 2019): prevê a localização subcelular de

proteínas eucarióticas;

● TMHMM v2.0 (KROGH et al., 2001): prevê domínios transmembranares;

A busca no banco de dados do retorno dos servidores com os resultados foi feita

de forma manual utilizando-se de linhas em SQL. Porém, alguns protótipos de listagem

dos resultados já foram desenvolvidos para uma futura utilização dos mesmos.

3.4 Banco de Dados

O desenvolvimento do banco de dados se continuou através de um

previamente criado pelo laboratório. A versão do MySQL utilizada foi a 5.7.31 e o

programa para manipular o banco de dados foi o HeidiSQL Portable 11.0.0.5919. Em

relação ao banco de dados original, foram adicionadas mais 3 tabelas e 1 tabela foi

editada. Na Figura 5 é possível ver o modelo relacional final.

O banco de dados com os dados de Eimeria (1,33 GB) foi copiado para diretório

local com um computador com 16 GB de RAM e um processador i5-9400F com 2,90

Ghz de clock para que se pudesse desenvolver com maior velocidade e evitar erros

que poderiam estar fora do ambiente desenvolvido aqui.

Além da criação das tabelas (em destaque vermelho na Figura 5) “organism”,

“request_has_sequence”, “email_run” e a edição da tabela “users2”, também foram

criadas novas chaves de índice através do comando SQL “CREATE INDEX”. As

chaves criadas foram:

1. “idx_sequenceID” na tabela “BepitopePred” indexando o campo

“Sequence_Id”;

2. “idx_sequenceID” na tabela “EpitopeMHCI” indexando o campo

“Sequence_Id”;

3. “idx_sequenceID” na tabela “EpitopeMHCII” indexando o campo

Sequence_Id”;

4. “idx_sequenceID” na tabela “SignalP” indexando o campo

“Sequence_Id”;

Page 24: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

24

5. “idx_localization” na tabela “SubCellLoc_Psort” indexando o campo

“Localization”;

6. “idx_sequenceID” na tabela “TargetP” indexando o campo

“Sequence_Id”.

Figura 5 — Modelagem do banco de dados.

Diagrama de Entidade-Relacionamento (DER) utilizando-se a notação UML de relacionamento. A tabela principal é a “request” centralizada na figura, no qual, um para um (1 - 1) e um para muitos (1 - n). O único relacionamento muitos para muitos (n - n) foi entre a tabela “request” e “sequence”, porém, como diz a regra, em relacionamentos muitos para muitos, devemos criar uma tabela de associação entre as duas registrando 2 chaves externas nela que serão correspondentes ao id de cada uma das tabelas. As tabelas contornadas em vermelho foram as adicionadas através deste trabalho.

Fonte: Elaborado pelo autor.

Page 25: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

25

4 RESULTADOS E DISCUSSÃO

Ao final do desenvolvimento da interface, foram construídas 7 páginas: Home,

Run SysPEP, Result, Contact, Login, Forgot My Password e Register.

4.1 Interface Web

4.1.1 Página Home

A página Home foi criada contendo uma breve descrição do objetivo do SysPEP

e para qual público alvo o sistema foi criado. Além de listar o grupo de pesquisa que

desenvolveu, elaborou a estratégia do fluxo de dados e das tecnologias que seriam

usadas (Figura 6).

Figura 6 — Página HOME.

Fonte: Elaborado pelo autor.

4.1.2 Página Run SysPEP

A página “Run SysPEP” é a parte onde o usuário entrará com os dados da sua

sequência e selecionará os programas que ele quer processar para, posteriormente,

os resultados aparecerem na página Result.

Em “Run SysPEP” é pedido o e-mail do usuário (caso ele não esteja logado), o

nome da espécie a ser analisada, a sequência proteica em formato FASTA e as

Page 26: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

26

escolhas dos 7 programas que o usuário quer analisar na sua sequência. Em relação

a sequência FASTA, é possível colar a sequência direto no campo “Single FASTA” ou

carregar um arquivo FASTA no botão de upload (Figura 7). No momento, o programa

executará apenas sequências de aminoácidos.

Na versão 1b do SysPEP só era permitido executar as análises que passassem

pela aprovação do administrador do SysPEP para evitar o excesso e redundância nos

dados (WAGNER, 2015), porém, com a nova versão concluída, busca-se que o

próprio usuário realize o início dessa análise de forma automática, sem que seja

necessária uma intervenção do administrador.

Figura 7 — Página Run SysPEP.

Fonte: Elaborado pelo autor.

Foi criado um mecanismo para auto-completar (autocomplete) com os dados

provenientes do banco de dados enquanto o usuário digita o nome da espécie no

campo “Specie”. Isso torna mais rápido o processo de digitação correta do nome da

espécie, como evita redundâncias no banco de dados, além de facilitar algumas

consultas no qual exigissem sumarizar lado-a-lado o nome da espécie com o

respectivo usuário e request. E caso o usuário digite uma espécie que não exista no

banco de dados, essa nova espécie é adicionada e aparecerá para o próximo usuário

ao digitar no campo “Specie” (Figura 7-A).

Page 27: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

27

Nesta mesma tela, foi criado um ícone de engrenagem ( - Configurações)

e um ícone de lâmpada ( - Como isso funciona?) ao lado de cada programa de

análise da proteína. O ícone de engrenagem serve para o usuário alterar os

parâmetros padrões do programa respectivo. Ao clicar na engrenagem, uma janela é

aberta para a configuração manual pelo usuário. Ao abrir e fechar essas janelas de

configurações (essas janelas também podem ser fechadas pressionando a tecla

“ESC”), as configurações selecionadas/escolhidas não retornam ao padrão, fazendo

com que o usuário possa abrir e fechar as configurações dos outros programas e

escolher exatamente como quer rodar cada um deles (Figura 8). Porém, ao recarregar

ou fechar e abrir a página, os parâmetros padrões são resetados.

Page 28: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

28

Figura 8 — Algumas janelas de configurações e informações da página “Run SysPEP”.

A1: configurações do TargetP; A2: informações do TargetP; B1: configurações do SignalP; B2: informações do SignalP; C1: configurações do BepiPred; C2: informações do BepiPred; D1: configurações do NetMHC I; D2: informações do NetMHC I. Fonte: Elaborado pelo autor.

Page 29: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

29

Já o ícone da lâmpada, serve para que o usuário possa reconhecer o que de

fato aquele programa poderá fazer com a sequência proteica dele carregada, além de

mostrar a linha de código que rodará no servidor para processar a sequência do

usuário. Do mesmo modo que nas configurações, ao clicar no ícone de lâmpada,

também se abre uma janela. (Figura 8 – A2, B2, C2, D2).

A Figura 8 (A1, B1, C1 e D1) demonstra o modelo de algumas janelas

construídas para alguns programas da página “Run SysPEP”, demonstrando todas as

configurações possíveis de se personalizar para cada sequência.

A linha do código (fundo preto e letra branca) que irá rodar no servidor,

demonstrada na Figura 8 (A2, B2, C2 e D2) é escrita dentro do elemento <code> do

HTML, assim, não se corre o risco da extensão Google Tradutor traduzir esta linha de

código, uma vez que esta página seja traduzida diretamente através do Google

Chrome. Além disso, algumas palavras foram escritas dentro de uma <span

translate="no"> para evitar problemas com a tradução também.

Após o envio dos dados do usuário ao servidor, a proposta final é de que o

usuário seja direcionado para a página “Result” e demonstre a porcentagem do

processo até a sua finalização. E também, assim que os dados forem processados

nos servidores escolhidos, um e-mail será encaminhado ao usuário informando-o que

o processamento dos dados foi concluído e que será possível visualizá-los na página

“Result” do Site SysPEP após acessarem a sua conta.

Atualmente, em ambiente de teste, após enviar os dados, é retornada uma

página simples apenas para mostrar as informações enviadas ao banco de dados do

SysPEP.

4.1.3 Página Result

Na página “Result” é onde mostrará todos os resultados após serem

processados pelos programas escolhidos nos respectivos servidores após os valores

serem registrados no banco de dados do SysPEP e então mostrados na tela do

usuário cadastrado por meio desta página.

Atualmente, a página deve mostrar uma lista das últimas requests (Figura 9).

Caso o usuário clique na linha da request, sem clicar no ícone de “Details”, o programa

mostrará a lista de proteínas provenientes daquela request que foi clicada (Figura 10).

Page 30: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

30

Figura 9 — Resultados iniciais que aparecem na página “Result”.

Uma lista das últimas requests feitas pelo usuário na tela “Run SysPEP”.

Fonte: Elaborado pelo autor. Figura 10 — Tabela carregada via Ajax após o usuário clicar na linha da request da página “Result”.

Uma lista das proteínas dessa request são mostradas na tela com o identificador da proteína no banco de dados SysPEP (ID), o nome da espécie (Organism), o peso molecular (Molecular Weight), o ponto isoelétrico (Isoelectric point), a localização subcelular das sequências de proteína de acordo com o programa Psort (Localization), a média geométrica entre C-score e a inclinação do S-score que mostra o local de clivagem do programa SignalP (SignalP Y) e os Epítopos previstos pelo programa Bepipred (Epitopes).

Fonte: Elaborado pelo autor.

Page 31: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

31

Se o usuário clicar no ícone “Details” ( ), uma visão geral é mostrada sobre

aquela request enviada totalizando os epítopos ligantes entre Células B, MHC I e MHC

II. E também mostra algumas informações a mais como o número de sequencias com

localização extracelular, sequências com localização extracelular na membrana

plasmática e proteínas secretadas. (Figura 11)

Figura 11 — Tabela carregada via Ajax após o usuário clicar no ícone “Details” da respectiva request.

Essas 4 tabelas (Visão geral de epítopos ligantes de Células B, MHC I, MHC II e Outras informações) mostram uma visão geral da request enviada, totalizando o total de epítopos, a contagem de epítopos, total de proteínas com epítopos reconhecidos, total de epítopos extracelulares e total de epítopos secretados de cada tipo de epítopo ligante.

Fonte: Elaborado pelo autor.

Page 32: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

32

Caso o usuário clique em “List Epitopes”, abrirá uma janela e serão listados

cada epítopo daquele determinado total (Figura 12).

Figura 12 — Janela da listagem de epítopos ligantes de Células B que têm o seu número de aa. entre 9 e 20.

O título da tabela mostra o total de registros daquela listagem, a listagem possui um filtro que filtra a lista pela descrição da proteína e possui paginação. Cada página traz 50 linhas. É possível acessar a primeira e última página diretamente clicando no link. Os links de paginação aparecem no início e no fim da tabela.

Fonte: Elaborado pelo autor.

4.1.4 Página Register

A página Register servirá para termos uma ideia do público que realmente está

usando o aplicativo como também para que se possa identificar de quem realmente é

aquela sequência enviada para a análise. Para se ter todo esse feedback e controle

foram pensados nos seguintes campos, Figura 13 (os campos com asterisco ao lado

são considerados obrigatórios para o registro do usuário no SysPEP):

1. Nome Completo*

2. E-mail*

3. Apelido*

4. idUFSC

Page 33: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

33

5. Nome da Empresa ou Universidade*

6. Nome do Laboratório

7. Objetivo*

8. Senha*

9. Telefone

10. Breve descrição do Request*

Figura 13 — Página para se registrar no SysPEP (Página “Register”).

Fonte: Elaborado pelo autor.

Caso o usuário tente cadastrar o mesmo e-mail mais de 1 vez, uma mensagem

é aberta avisando que o e-mail incluído já está cadastrado no nosso banco de dados.

Isso evita futuros problemas com identificação de usuário, como contas repetidas ou

até mesmo falsas.

4.1.5 Página Contact

A página de contato foi feita para que os usuários pudessem entrar em contato

com a equipe do SysPEP. Para isso, elaborou-se um formulário com os seguintes

campos: Nome, E-mail, Telefone e Mensagem. E ao lado, o mapa da localização do

laboratório responsável pelo SysPEP. Ao clicar em “Submit”, o e-mail deve ser enviado

para um e-mail da equipe. (Figura 14).

Page 34: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

34

Figura 14 — Página para contato (Contact).

Fonte: Elaborado pelo autor.

Futuramente, espera-se criar um e-mail de auto-confirmação, para que, assim

que o usuário enviar um e-mail através deste formulário, ele receba uma mensagem

no e-mail dele com a confirmação do envio e informando que a equipe entrará em

contato em breve.

4.1.6 Página Login

Após o registro do usuário, ele poderá acessar o SysPEP utilizando-se do seu

username e senha (Figura 15). Se os dados do acesso estiverem na base de dados

(já cadastrados), o acesso será permitido, uma janela informará que o acesso foi bem

sucedido e o usuário será direcionado para a página “Run SysPEP”. Caso os dados

do acesso não estejam no banco de dados, uma mensagem de erro é mostrada e o

usuário não consegue acessar. No menu, canto superior direito, também mostrará o

username da conta acessada e um botão de “SAIR” aparecerá caso o usuário queira

fazer logout.

Page 35: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

35

Figura 15 — Página para entrar no sistema (Login).

Fonte: Elaborado pelo autor.

4.1.7 Página Forgot My Password

A interface da página para a recuperação de senha também já foi criada. Após

a finalização dela no back-end (código escrito no lado do servidor) bastará apenas

que o usuário digite seu e-mail já cadastrado no SysPEP que ele receberá um link

criptografado com base no seu e-mail e senha anterior pelo e-mail. Ao entrar nesta

página, ele poderá criar uma nova senha, que será encaminhada ao banco de dados

de forma criptografada e então será resetada no banco de dados, permitindo que ele

possa entrar no sistema com a nova senha criada.

4.2 Banco de Dados

A tabela “organism” foi criada para o cadastro das diferentes espécies que

serão registradas quando o usuário adicionar o nome dela ao rodar uma sequência

de proteína através da página “Run SysPEP”. Toda e qualquer espécie que for

cadastrada nesta página irá para essa tabela caso essa espécie ainda não tenha sido

adicionada nela. Essas informações poderão gerar um perfil de espécies maior do

banco de dados do SysPEP e evitará uma sobrecarga de nomes de espécies

repetidas no banco de dados.

Page 36: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

36

A tabela “request_has_sequence” é uma tabela associativa entre a tabela

“request” e “sequence” ela foi criada como regra em bancos de dados relacionais para

relacionamentos muitos para muitos (n - n), assim resulta em 2 relacionamentos um

para muitos (1 - n) entre as tabelas relacionadas com a tabela associativa.

A tabela “email_run” foi criada para armazenar o e-mail das pessoas que não

se cadastraram no SysPEP e rodaram uma sequência através da página “Run

SysPEP”. Ainda não foi amplamente programado no código fonte, mas já está

cadastrando os dados. Ele armazena o e-mail e o ip público do usuário e serve para

deixar uma pessoa não cadastrada a fazer ao menos 1 run/request no programa

SysPEP. Cada vez que uma pessoa com o mesmo e-mail ou ip tentar fazer uma nova

run, é verificado nesta tabela se ela já fez uma run, caso tenha feito, o usuário é

redirecionado para a página de cadastro. Mas ainda é necessário aperfeiçoa-la, como

configurar a página “Result” para os usuários não cadastrados e arrumar alguns bugs

que podem estar acorrendo com essa nova regra de negócio.

Os e-mails armazenados na tabela “email_run” também podem ser usados

mais tarde para divulgar uma nova versão do SysPEP ou qualquer outra novidade

proveniente do sistema.

A busca dos resultados no banco de dados SysPEP retornou os seguintes

dados após consultas SQL (Tabela 1).

Tabela 1 — Resultado dos dados processados pelos programas.

Objetivo Resultado

Total de Epítopos ligantes de células B 88.737

Total de Epítopos ligantes de MHC I 8.662.194*

Total de Epítopos ligantes de MHC II 3.628#

Lista de Epítopos ligantes de células B com proteínas entre 9 e 20 aminoácidos

(Listagem de Epítopos)

Total Epítopos ligantes de células B com proteínas entre 9 e 20 aminoácidos

61.153

Lista de Epítopos e Alelos ligantes de MHC I com proteínas entre 7 e 20 aminoácidos

(Listagem de Epítopos)

Total de Epítopos ligantes de MHC I com proteínas entre 7 e 20 aminoácidos

8.662.194*

Lista de Epítopos e Alelos ligantes de MHC II com proteínas (Listagem de Epítopos)

Page 37: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

37

entre 7 e 20 aminoácidos

Total de Epítopos ligantes de MHC II com proteínas entre 7 e 20 aminoácidos

3.628#

Número de proteínas ligantes de Células B que tiveram epítopos reconhecidos

13.993

Número de sequências com Localização “extracellular” 8.223

Lista de epítopos com Localização “extracellular” ligantes de Células B

(Listagem de Epítopos)

Número de epítopos com Localização “extracellular” ligantes de Celulas B

31.393

Número de epítopos com Localização “extracellular” ligantes de MHC I

3.099.097*

Lista de epítopos com Localização “extracellular” ligantes de MHC II

(Listagem de Epítopos)

Número de epítopos com Localização “extracellular” ligantes de MHC II

1.350#

Número de sequências com Localização “extracellular plasma membrane”

2.144

Número de proteínas com predição de serem secretadas 2.550

Lista de epítopos ligantes de células B com predição de serem encontrados em proteínas secretadas

(Listagem de Epítopos)

Número de epítopos ligantes de células B com predição de serem encontrados em proteínas secretadas

10.570

Número de epítopos ligantes de MHC I com predição de serem encontrados em proteínas secretadas

1.136.069*

Lista de epítopos ligantes de MHC II com predição de serem encontrados em proteínas secretadas

(Listagem de Epítopos)

Número de epítopos ligantes de MHC II com predição de serem encontrados em proteínas secretadas

899#

* Foi processado apenas epítopos com 9 aa. e todos do alelo HLA-A0101.

# Foi processado apenas epítopos com 9 aa. e todos do alelo HLA-DPA101-DPB10401.

Fonte: Banco de dados Syspep.

Alguns testes de consulta no banco de dados utilizando o operador ‘LIKE’ para

realizar consultas em tempo real no qual o usuário personalizasse as consultas em

Page 38: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

38

um campo de filtro na interface ocorreram de forma muito lenta. A consulta retornou

um erro de falta de memória após 4 minutos e 45 segundos de espera, mesmo com a

máquina inteiramente disponível apenas para esse processamento. Problema que

também pôde ser identificado no trabalho de Luciani (2017, p. 28):

Outro problema apresentado foi a resposta de consulta dos SQL, em especial nas tabelas do netMHC I e II, pois estas armazenam mais de 1 milhão de entradas, o que é um gargalo para o sistema de gerenciamento de dados utilizado (MySQL) [...].

Após executar uma query diretamente pelo HeidiSQL no servidor local que

retornasse a descrição das sequências de proteína com as palavras que o usuário

digitasse na interface web, retornava o erro “Erro SQL (2008): MySQL client ran out of

memory”. Essa consulta foi feita na tabela “Bepitopepred” com “INNER JOIN” na

tabela “Sequence”: SELECT BepitopePred.Request_id,

BepitopePred.Sequence_Id, Sequence.Description,

CHARACTER_LENGTH(Epitope) AS 'Tamanho do Epítopo', START, END FROM

BepitopePred INNER JOIN Sequence ON Sequence.Sequence_Id =

BepitopePred.Sequence_Id LIKE Sequence.Description = '%cysteine%'

WHERE (CHARACTER_LENGTH(Epitope) > 9) AND (CHARACTER_LENGTH(Epitope)

< 20).

Uma boa forma de aumentar a velocidade dessas consultas e diminuir o

consumo de memória da máquina seria a criação de índices. Por padrão, o MySQL já

cria índices nos campos de chave primária, chave estrangeira e de constraint unique.

É possível ver se há algum índice na tabela utilizando-se o comando “SHOW INDEX

FROM <nome da tabela>”. Porém, no banco de dados do SysPEP não foi encontrado

nenhum índice nas tabelas.

Sem índice, uma das consultas que o SysPEP faz no banco de dados para

retornar um SELECT simples de COUNT() do total de epítopos com localização

extracelular e ligantes de Células B: “SELECT

COUNT(SubCellLoc_Psort.Sequence_Id) FROM SubCellLoc_Psort INNER JOIN

BepitopePred ON SubCellLoc_Psort.Sequence_Id=BepitopePred.Sequence_Id

WHERE SubCellLoc_Psort.Localization = 'extracellular'” demorou 23,062

segundos para percorrer 74.382 linhas na tabela “SubCellLoc_Psort” e mais 88.737

linhas da tabela “BepitopePred”, totalizando uma procura em 163.119 linhas.

Page 39: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

39

Criando um único índice na tabela “BepitopePred” na coluna “Sequence_Id”

com o comando “CREATE INDEX idx_sequenceID ON

BepitopePred(Sequence_Id)”, diminuímos a leitura de 88.737 para exatas 6 linhas

na tabela “BepiepitopePred” na execução descrita no parágrafo anterior. Isso nos

resulta em uma performance exageradamente mais eficiente: 0,047 segundos para o

retorno da execução. O que nos fornece uma consulta 99,8% mais rápida com a

criação de apenas um índice.

Alguns textos e vídeos na web relatam que usar o comando COLLATE na query

diminuiria o tempo de processamento da query (LIMA, 2017), porém, no caso das

consultas descritas neste trabalho, essa técnica não funcionou, desconfiamos que não

tenha apresentado efeito pelo fato da collate (“UTF8mb4_swedish_ci”) já ter sido

criada na criação junto com o banco de dados.

Já uma outra consulta testada no banco de dados na tabela “SubCellLol_Psort”

adicionando a tabela “EpitopeMHCI” com INNER JOIN, que demorava mais do que 4

minutos, pois tinha que percorrer mais que 8.736.576 registros para trazer o resultado

da listagem de epítopos com localização extracelular e ligantes de MHC I. Ao criar a

chave indexadora para a coluna “Sequence_Id” da tabela “EpitopeMHCI” com o

comando “CREATE INDEX idx_sequenceID ON EpitopeMHCI(Sequence_Id)”, o

retorno da resposta reduziu de incontáveis 4 minutos para 1 segundo. E após a criação

das 6 chaves indexadoras, esta consulta deixou de percorrer 8.736.576 milhões de

linhas (74.382 linhas da tabela “SubCellLoc_Psort” mais 8.662.194 linhas da tabela

“EpitopeMHCI”) para 15.657 mil (15.146 linhas da tabela “SubCellLoc_Psort” mais

mais 511 linhas da tabela “EpitopeMHCI”).

4.3 Teste do programa utilizando como modelo Eimeria tenella.

Após a análise das proteínas de Eimeria tenella através do SysPEP, foram

encontrados 88.737 epítopos ligantes de células B, 8.662.194 epítopos ligantes de

MHC I e 3.628 epítopos ligantes de MHC II, somando-se um total de 8.754.559

epítopos encontrados. Com os dados processados do programa BepiPred, também

foram contabilizados apenas os epítopos contendo entre 7 à 20 aminoácidos. Não

foram encontrados epítopos ligantes de MHC I e MHC II < 9 e > 10 aminoácidos

Page 40: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

40

(Tabela 2). Das 16.953 sequências de proteínas de Eimeria tenella, 13.993 eram

ligantes de Células B que tiveram seus epítopos reconhecidos.

Tabela 2 — Total de epítopos encontrados.

Organismo Ligantes de Epítopos > 7 e < 20 aa.

Epítopos extracelulare

s

Total

Células B* 75.218 31.393 88.737&

E. tenella MHC I$ 8.662.194! 3.099.097! 8.662.194!

MHC II# 3.628! 1.350! 3.628!

Total de Epítopos

8.741.04 3.131.840 8.754.559

* Preditos pelo programa Bepipred.

$ Preditos pelo programa NetMHCI.

# Preditos pelo programa NetMHCII.

& O total não está congruente às outras 2 colunas pois o total não inclui apenas epítopos entre 7 e 20

aa, mas sim, de 9 à 25 aa.

! Foi pedido para processar nos programa apenas epítopos com o tamanho = 9.

Fonte: Banco de dados Syspep.

Já os dados processados no Psort, retornaram 8.223 sequências e 3.041.840

epítopos com previsão de serem extracelulares. Das 8.223 sequências previstas para

serem extracelulares, 2.144 foram previstas para estarem extracelularmente ligadas

a membrana plasmática.

O programa TargetP retornou as previsões sobre as proteínas secretadas.

2.550 proteínas foram previstas para serem secretadas. Delas, foram encontradas

10.570 epítopos ligantes a células B, 1.136.069 epítopos ligantes a MHC I e 899

epítopos ligantes a MHC II. Somando-se um total de 1.147.538 epítopos com predição

de serem encontrados em proteínas secretadas por Eimeria tenella (Tabela 3).

Page 41: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

41

Tabela 3 — Total de epítopos encontrados em 2.550 proteínas com previsão de serem secretadas de Eimeria tenella.

Ligantes de Epítopos de proteínas secretadas

Células B 10.570

MHC I 1.136.069

MHC II 899

Total de Epítopos 1.147.538

Fonte: Banco de dados Syspep. Dados processados pelo servidor Psort.

Esses dados obtidos corroboram com a definição desses protozoários serem

parasitas intracelulares, uma vez que os dados expõem muitas de suas proteínas com

previsão de serem reconhecidas pelo MHC de classe I, no qual é sintetizada no RER

(Retículo Endoplasmático Rugoso) que possuem a função de sinalizar antígenos

intracelulares. É possível ver essa diferença tanto em epítopos de proteínas

secretadas (Tabela 3), como na contagem geral de epítopos (Tabela 2).

Page 42: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

42

5 CONCLUSÃO

Certamente, com um sistema totalmente completo, tanto no front-end como no

back-end, é possível melhorar as análises proteômicas e futuramente genômicas para

uma ou mais sequências. Trazendo economia de tempo para mensurar, comparar e

apresentar os dados de resposta de um workflow científico como o SysPEP tem

potencial de gerar ao usuário, automatizando os processos com pipelines eficientes.

Muito pode-se fazer para a melhoria do programa SysPEP, como realizar

plotagem de dados em gráficos para a melhor compreensão e exportação das

informações que o usuário terá após o processamento de suas sequências: melhorar

a segurança e limites para se rodar as sequências no servidor a fim de evitar

sobrecarga injusta no servidor entre os usuários, como restringir o uso de bots no

envio dos dados de pessoas mal intencionadas.

Também é necessário se pensar na melhor composição das páginas (layout)

para se mostrar os dados aos usuários da página “Results”. Neste trabalho foi

mostrado os dados mais importantes em forma de tabela, porém, pode-se melhorar a

visualização dos mesmos e trabalhar na criação de mais filtros para que o usuário

possa ter mais liberdade para se chegar nos dados que ele deseja.

Os dados obtidos confirmam uma forte ligação dos epítopos de Eimeria serem

amplamente reconhecidos por MHC de classe I, fortalecendo mais ainda a

confirmação desses protozoários agirem e se multiplicarem intracelularmente.

A partir dos vários epítopos e características que podem ser encontrados com

o programa desenvolvido neste trabalho, é possível contribuir para o desenvolvimento

de vacinas e diagnósticos de doenças de forma mais facilitada, pois o SysPEP permite

integrar todos os resultados em uma mesma tela com a mínima interferência do

usuário. Diferente de outros programas, que o usuário precisaria enviar suas

sequências para vários servidores diferentes e então resgatar esses resultados nos

diferentes sites/servidores.

Em relação aos testes realizados com proteínas de Eimeria tenella, conseguiu-

se uma quantidade de dados satisfatórios e intrigantes, pois mesmo buscando

epítopos que se ligam ao MHC de classe I com apenas 9 aminoácidos, a quantidade

de epítopos encontrados para ele foi maior que dos epítopos que se ligam a Células

B que buscou epítopos entre ≥ 9 e ≤ 25 aminoácidos.

Page 43: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

43

Com o melhoramento do programa, acredita-se que se possa ter uma interface

ótima para estudos de sequências proteicas, bem como, futuramente, nucleotídicas.

Page 44: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

44

REFERÊNCIAS

ABPA. Projeções mostram que setores devem fechar 2020 com números positivos. 2020. Disponível em: https://abpa-br.org/projecoes-mostram-que-setores-devem-fechar-2020-com-numeros-positivos/. Acesso em: 14 set. 2021. ADU-BOBIE, J., et al. Two years into reverse vaccinology. Vaccine, vol. 21, p. 605-10. 2003. ALMEIDA, A. Antígenos. Universidade Federal da Bahia. 2009. Disponível em: http://www.medicina.ufba.br/imuno/roteiros_imuno/Roteiro%20de%20ant%C3%ADgenos%2002-1.pdf. Acesso em: 14 set. 2021. ALMEIDA, M. C. Comparação de dois métodos de controlo de coccidiose em broilers: Vacinação vs Coccidiostáticos. 2020. Disponível em: http://comum.rcaap.pt/bitstream/10400.26/33358/1/Disserta%c3%a7%c3%a3o%20M%c3%a1rcia%20Almeida.pdf. Acesso em: 28 abr. 2021. AMARAL, F. Como uma Rede Neural Aprende? Tutorial para Leigos. Youtube, 30/abr/2020. Disponível em: https://www.youtube.com/watch?v=mWD8wWwZpi8. Acesso em: 14 set. 2021. ANDREATTA, M.; NIELSEN, M. Gapped sequence alignment using artificial neural networks: application to the MHC class I system. OXFORD. Bioinformatics. doi: 10.1093/bioinformatics/btv639. 2015. ARMENTEROS, J. J. A. et al. Detecting Sequence Signals in Targeting Peptides Using Deep Learning. Life Science Alliance 2 (5), e201900429. doi:10.26508/lsa.201900429. 2019. BIOMIN. Coccidiose em aves. 2020. Disponível em: https://www.biomin.net/br/especies/aves/coccidiose-aviaria/. Acesso em: 14 set. 2021. BRAGHETTO, K. R.; CORDEIRO, D. Introdução à Modelagem e Execução de Workflows Científicos. EACH - USP. 2014. Disponível em: http://www.each.usp.br/dc/papers/jai-cap-workflows.pdf. Acesso em: 29 abr. 2021. COLLISELLI, N. MATEMATICAMENTE PERFEITO: A PROPORÇÃO ÁUREA NO UNIVERSO. Educação Nacional de Educação Matemática. Educação Matemática na Contemporaneidade: desafios e possibilidades. São Paulo – SP. 2016. DAVILA, A. M., et al. (2005). GARSA: genomic analysis resources for sequence annotation. Bioinformatics 21(23): 4302-4303. DINIZ, G. S. USO DE SALINOMICINA E SEMDURAMICINA EM DIFERENTES CONCENTRAÇÕES SOBRE O DESEMPENHO E CONTROLE DA EIMERIOSE EM FRANGOS DE CORTE. Universidade Estadual de Londrina. 2008. Disponível em:

Page 45: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

45

www.uel.br/pos/ciencia_animal/arquivos/Disserta%C3%A7%C3%A3o%20Giankleber%20S.%20Diniz.pdf. Acesso em: 19 jun. 2021. DONZELE, J. L. et al. Efeito da Nicarbazina sobre o Desempenho de Frangos de Corte Recebendo Diferentes Níveis de Lisina Submetidos a Estresse por Calor. 2001. Disponível em: https://www.scielo.br/scielo.php?script=sci_arttext&pid=S1516-35982001000400020. Acesso em: 29 abr. 2021. DUARTE, J. O. Panorama Internacional. Agência Embrapa de Informação Tecnológica, 2015. Disponível em: http://www.agencia.cnptia.embrapa.br/gestor/milho/arvore/CONTAG01_14_168200511157.html. Acesso em: 28 abr. 2021. EMANUELSSON, O., et al. Locating proteins in the cell using TargetP, SignalP and related tools. Nat Protoc 2(4): 953-971. 2007. FABRI, F. et al. Coccidiose: Revisando Conceitos de Controle com a utilização da Vacina Viva Atenuada e Aumentando o Lucro com Sustentabilidade: Resultados em Granjas no Brasil. aviNews Brasil. 2020. Disponível em: https://avicultura.info/pt-br/controle-da-coccidiose-com-vacina-viva-atenuada/. Acesso em: 29 abr. 2021. FERNEDA, E. Redes neurais e sua aplicação em sistemas de recuperação de informação. Ribeirão Preto - USP. 2006. Disponivel em: https://www.scielo.br/j/ci/a/SQ9myjZWLxnyXfstXMgCdcH/?format=pdf&lang=pt. Acesso em: 24 set. 2021. FILHO, V. B. Epítopos lineares de Eimeria spp.: fase I - predição in silico de epítopos com potencial aplicação em vacinas e diagnóstico de coccidiose aviária. Orientador: Glauber Wagner. Relatório de Projeto de Pesquisa. Universidade Federal de Santa Catarina. 2019. GILES, T. et al. Diagnosis of sub-clinical coccidiosis in fast growing broiler chickens by MicroRNA profiling. Genomics, v.112, n.5, p.3218-3225, 2020. doi: 10.1016/j.ygeno.2020.03.010. GOMES, P. C. T. Regressão Linear: entenda como utilizar. DataGeeks. 2019. Disponível em: https://www.datageeks.com.br/regressao-linear/. Acesso em: 14 set. 2021. GYÖRKE, A.; POP, L.; COZMA, V. Prevalence and distribution of Eimeria species in broiler chicken farms of different capacities. Parasite, v.20, p.50, 2013. doi: 10.1051/parasite/2013052. HORTON, P. et al. WoLF PSORT: protein localization predictor. Nucleic Acids Res. PubMed. PMID: 17517783. DOI: 10.1093/nar/gkm259. 2007. JENSEN, K. K. et al. Improved methods for predicting peptide binding affinity to MHC class II molecules. PubMed. PMID: 29315598. DOI: 10.1111/imm.12889. 2018.

Page 46: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

46

JESPERSEN, M. C. et al. BepiPred-2.0: improving sequence-based B-cell epitope prediction using conformational epitopes. Nucleic Acids Res. 2017 (Web Server issue). doi: 10.1093/nar/gkx352 KOHLBACHER, O. et al. TOPP--the OpenMS proteomics pipeline. Bioinformatics 23(2): e191-197. 2007. Disponível em: https://academic.oup.com/bioinformatics/article/23/2/e191/201948. Acesso em: 14 set. 2021. KREMER, F. S. Introdução à Imunoinformática. Omixdata. Disponivel em: https://medium.com/omixdata/introdu%C3%A7%C3%A3o-%C3%A0-imunoinform%C3%A1tica-cacde2f6cee0. Acesso em: 24 set. 2021. KROGH, A. et al. Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes. J Mol Biol 305(3): 567-580. 2001. LANCINI, J. B. Coccidiose: o que é, alternativas de controle e prevenção. O Presente Rural - Minuto Agro Aves. 2021. Disponível em: https://opresenterural.com.br/coccidiose-o-que-e-alternativas-de-controle-e-prevencao/. Acesso em: 30 abr. 2021. LESK, A. M. Bioinformatics. Encyclopaedia Britanicca. Disponível em: https://www.britannica.com/science/bioinformatics. Acesso em: 24 set. 2021. LIMA, F. Melhorando a performance de uma consulta com like '%String%' alterando a Collation. Youtube, 3/fev/2017. Disponível em: https://www.youtube.com/watch?v=cyteAND34I0&t=2s. Acesso em: 25 nov. 2021. LUCIANI, F. R.. Desenvolvimento de um sistema integrado para a predição de características canônicas e epítopos presentes em proteínas de agentes infecioso-parasitários. Universidade Federal de Santa Catarina (UFSC). Programa Institucional de Bolsas de Iniciação em Pesquisa Científica (PIBIC). 2017. MEYER, F., et al. (2003). GenDB--an open source genome annotation system for prokaryote genomes. Nucleic Acids Res 31(8): 2187-2195. MONTASSIER, H. J. Moléculas Reconhecidas pelo Sistema Imune:- PAMPS e Antígenos (Ag). UNESP - Departamento de Patologia Veterinária, 2015. Disponível em: https://www.fcav.unesp.br/Home/departamentos/patologia/HELIOJOSEMONTASSIER/aula-2--antigenos.pdf. Acesso em: 29 abr. 2021. PEEK, H.; LANDMAN, W. Coccidiosis in poultry: anticoccidial products, vaccines and other prevention strategies. Veterinary Quarterly, v.31, n.3, p.143-161, 2011. doi: 10.1080/01652176.2011.605247. RIBEIRO, H. F. A Era da Informação. In: SILVA, S. A.; NOTARI, D. L.; DALL’ALBA, G. (org). Bioinformática: contexto computacional e aplicações. Caxias do Sul: EDUCS, 2020. p. 13-17.

Page 47: SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO …

47

SCHATZMAYR, H. G. Novas perspectivas em vacinas virais. História, Ciências, Saúde - Manguinbos, vol. 10 (suplemento 2): p. 655-69. 2003 SCHOCH, C. L., et al. NCBI Taxonomy: a comprehensive update on curation, resources and tools. Database (Oxford). 2020: baaa062. PubMed: 32761142 PMC: PMC7408187 SEQUEIROS, M. F. Antigeno e Anticorpo. 2016. p. 24. Universidade Estadual de Ponta Grossa - UEPG. Disponível em: https://pt.slideshare.net/maurisnaider/antigeno-e-anticorpo. Acesso em: 04 maio 2021. SILVA, G. P. Pipeline. Universidade do Rio de Janeiro. 2017. Disponível em: https://dcc.ufrj.br/~gabriel/arqcomp/Pipeline.pdf. Acesso em: 14 set. 2021.

TOMASI, P. H. D. Avaliação de vacinas contra coccidiose e a utilização de peptídeos em frangos de corte. 2006. 47f. Dissertação de mestrado em Medicina Veterinária, Universidade Federal do Paraná – Curitiba, Disponível em: http://www.dspace.c3sl.ufpr.br/dspace/bitstream/1884/.../TesePedroFinal.pdf. Acesso em: 14 set. 2021. SWAYNE, D. et al. Diseases of poultry. 14.ed. Hoboken: WileyBlackwell, 2020. p.1193-1212. WAGNER, G. Desenvolvimento e Validação de uma Plataforma para a Predição de Epítopos de Agentes Infecto-Parasitários do Oeste de Santa Catarina. Relatório Técnico-Científico. Fundação Universidade do Oeste de Santa Catarina – Campus Joaçaba. 2015 WAGNER, G. et al. STINGRAY: System for Integrated Genomic Resources and Analysis. Retrieved 01 de fevereiro, 2011.