Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
UNIVERSIDADE FEDERAL DE SANTA CATARINA
CENTRO DE CIÊNCIAS BIOLÓGICAS
CURSO DE CIÊNCIAS BIOLÓGICAS
DEPARTAMENTO DE MICROBIOLOGIA, IMUNOLOGIA E PARASITOLOGIA
LABORATÓRIO DE BIOINFORMÁTICA
SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO
DE EPÍTOPOS LINEARES
Maycon Vieira da Silva
Prof. Dr. Glauber Wagner
Orientador
Florianópolis, 2021
UNIVERSIDADE FEDERAL DE SANTA CATARINA
CENTRO DE CIÊNCIAS BIOLÓGICAS
CURSO DE CIÊNCIAS BIOLÓGICAS
DEPARTAMENTO DE MICROBIOLOGIA, IMUNOLOGIA E PARASITOLOGIA
LABORATÓRIO DE BIOINFORMÁTICA
SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO
DE EPÍTOPOS LINEARES
Maycon Vieira da Silva
Trabalho de Conclusão de Curso da
Universidade Federal de Santa Catarina
para a obtenção do Grau de Licenciado
em Ciências Biológicas.
Orientador: Profº. Dr. Glauber Wagner.
Florianópolis, 2021
FICHA DE IDENTIFICAÇÃO DA OBRA
Maycon Vieira da Silva
SYSPEP: PROTÓTIPO DE SISTEMA INTEGRADO PARA PREDIÇÃO DE EPÍTOPOS
LINEARES
Este Trabalho Conclusão de Curso foi julgado adequado para obtenção do Título de
Licenciado em Ciências Biológicas e aprovado em sua forma final pelo Curso de Ciências
Biológicas.
Florianópolis, 17 de setembro de 2021.
________________________
Prof. Dr. Carlos Roberto Zanetti
Coordenador do Curso
Banca Examinadora:
________________________
Prof. Dr. Glauber Wagner
Orientador
Universidade Federal de Santa Catarina
________________________
Prof. Dr. Renato Simões Moreira
Instituto Técnico Federal de Santa Catarina
________________________
Guilherme Augusto Maia, MSc.
Universidade Federal de Santa Catarina
AGRADECIMENTOS
Agradeço a todos os professores que me fizeram chegar onde cheguei e a
meus pais que me educaram da maneira que sou hoje. Gostaria de agradecer,
especialmente, ao professor Dr. Glauber Wagner por toda a paciência em me esperar
a terminar este TCC feito de maneira bastante lenta devido à problemas pessoais de
saúde e tecnológicos que evitaram um desenvolvimento rápido da conclusão deste
trabalho. Além disso, quero agradecer o mesmo por me explicar e arranjar tempo para
solucionar algumas das minhas dúvidas. E não posso deixar de mencionar um
professor muito dedicado, inteligente, calmo e que soube passar seus ensinamentos
de programação da melhor maneira possível para quem não sabia quase nada, Prof.
Esp. Herval Daminelli do Instituto Federal de Santa Catarina (IFSC). E um
agradecimento especial ao projeto Curso em Vídeo, onde se dispõe de inúmeras aulas
de programação gratuitas no qual pude começar a programar os meus primeiros
programas. Professor Guanabara, um abraço!
“Quanto maior são as dificuldades a vencer, maior será
a satisfação”.
(Cícero)
RESUMO
Hoje existem muitos programas e servidores capazes de predizer várias
características sobre determinadas sequências proteicas ou nucleotídicas. Porém,
poucos permitem analisar os diferentes dados de diferentes servidores/programas em
uma única e simples interface. Para fazer tal integração, é necessário usar pipelines,
uma técnica que permite a sobreposição temporal de tarefas, neste caso, a realização
simultânea do envio e processamento de uma sequência proteica em diferentes
servidores. O objetivo deste trabalho é desenvolver um protótipo de plataforma web
de fácil acesso e uso para a predição de epítopos lineares a partir de sequências
proteicas. Para o teste, foram utilizadas 16.953 sequências de proteínas de Eimeria
tenella. Para se realizar o protótipo do programa SysPEP, foi realizado um
desenvolvimento no front-end, back-end, logo e banco de dados. Os dados foram
testados diretamente com comandos SQL em programas/servidores como: Bepipred,
NetMHC I, NetMHC II, WolfPsort, SignalP, TargetP, TMHMM, entre outros. Como
resultado, obtemos o desenvolvimento de uma interface web com as páginas “Home”,
“Run SysPEP”, “Result”, “Register”, “Contact”, “Login”, “Forgot my Password”, entre
outras janelas (pop ups). Também foi editado um banco de dados relacional em
MySQL que já havia sido criado primordialmente para melhorar a sua performance. A
estrutura deste protótipo já permite o envio dos dados aos servidores, trazendo os
resultados integrados. Este sistema poderá gerar uma economia de tempo para a
análise dos dados de diferentes servidores, pois permitirá a análise de vários dados
de servidores diferentes em uma única interface. Para isso, ainda será necessário a
correção de bugs e se desenhar um layout limpo de fácil e rápido acesso, construindo
gráficos, mais tabelas e trabalhando em um User Interface (UI) e User Experience
(UX) design. E assim, podendo contribuir para o desenvolvimento de vacinas,
diagnóstico de doenças e estudos de proteomas.
Palavras-chave: Bioinformática, Imunoinformática, Pipeline, Interface Usuário.
ABSTRACT
Today there are many programs and servers capable of predicting various
characteristics about certain protein or nucleotide sequences. However, few allow
analyzing different data from different servers/programs in a single and simple
interface. To make such integration, it is necessary to use pipelines, a technique that
allows the temporal overlapping of tasks, in this case, the simultaneous execution of
the sending and processing of a protein sequence in different servers. The objective
of this work is to develop a prototype of a web platform that is easy to access and use
for the prediction of linear epitopes from protein sequences. For the test, 16,953
Eimeria tenella protein sequences were used. To carry out the prototype of the SysPEP
program, a development on the front-end, back-end, logo and database was carried
out. Data were directly tested with SQL commands in programs/servers such as:
Bepipred, NetMHC I, NetMHC II, WolfPsort, SignalP, TargetP, TMHMM, among
others. As a result, we get the development of a web interface with the pages “Home”,
“Run SysPEP”, “Result”, “Register”, “Contact”, “Login”, “Forgot my Password”, among
other windows (pop ups ). A relational MySQL database that had already been created
primarily to improve its performance was also edited. The structure of this prototype
already allows data to be sent to servers, bringing integrated results. This system can
save time for the analysis of data from different servers, as it will allow the analysis of
several data from different servers in a single interface. For that, it will still be necessary
to fix bugs and to design a clean layout for easy and quick access, building graphics,
more tables and working in a User Interface (UI) and User Experience (UX) design.
And so, it can contribute to the development of vaccines, disease diagnosis and
proteome studies.
Keywords: Bioinformatics, iImmunoinformatics, Pipeline, User interface.
LISTA DE FIGURAS
Figura 1 — Diferença entre um epítopo linear e descontínuo (conformacional). ...... 16
Figura 2 — Exemplo de Regressão Linear. .............................................................. 17
Figura 3 — Exemplo de uma Rede Neural Artificial de 3 camadas. ......................... 18
Figura 4 — Logo SysPEP. ........................................................................................ 22
Figura 5 — Modelagem do banco de dados. ............................................................ 24
Figura 6 — Página HOME. ....................................................................................... 25
Figura 7 — Página Run SysPEP. ............................................................................. 26
Figura 8 — Algumas janelas de configurações e informações da página “Run
SysPEP”. ................................................................................................................... 28
Figura 9 — Resultados iniciais que aparecem na página “Result”. .......................... 30
Figura 10 — Tabela carregada via Ajax após o usuário clicar na linha da request da
página “Result”. ......................................................................................................... 30
Figura 11 — Tabela carregada via Ajax após o usuário clicar no ícone “Details” da
respectiva request. .................................................................................................... 31
Figura 12 — Janela da listagem de epítopos ligantes de Células B que têm o seu
número de aa. entre 9 e 20. ...................................................................................... 32
Figura 13 — Página para se registrar no SysPEP (Página “Register”). ................... 33
Figura 14 — Página para contato (Contact). ............................................................ 34
Figura 15 — Página para entrar no sistema (Login). ................................................ 35
LISTA DE TABELAS
Tabela 1 — Resultado dos dados processados pelos programas. ........................... 36
Tabela 2 — Total de epítopos encontrados. ............................................................. 40
Tabela 3 — Total de epítopos encontrados em 2.550 proteínas com previsão de
serem secretadas de Eimeria tenella. ....................................................................... 41
LISTA DE ABREVIATURAS, SÍMBOLOS E UNIDADES
aa: aminoácidos
AC: Accession Number
Acs: Anticorpos
BCR: B cell receptor (receptor de célula B)
CC: Creative Cloud
CPU: Central Process Unit
CSS: Cascading Style Sheets (Folhas de Estilo em Cascata)
DER: Diagrama de Entidade-Relacionamento
GB: Gigabyte
Ghz: GigaHertz
HTML: HyperText Markup Language (Linguagem de Marcação de Hipertexto)
MHC: Major Histocompatibility Complex (Complexo Principal de
Histocompatibilidade)
NCBI: National Center for Biotechnology Information
ORF: Open Reading Frame
PHP: Hypertext Preprocessor (Pré-Processador de Hipertexto)
SNC: Sistema Nervoso Central
SysPEP: System for Protein Epitope Prediction
TCR: T cell receptor (receptor de célula T)
UML: Unified Modeling Language (Linguagem de Modelagem Unificada)
UFSC: Universidade Federal de Santa Catarina
SUMÁRIO
RESUMO 7
ABSTRACT 8
LISTA DE FIGURAS 9
LISTA DE TABELAS 10
SUMÁRIO 12
1 REVISÃO DE LITERATURA 14
1.1 Bioinformática 14
1.2 Imunoinformática 14
1.3 Vacinologia Reversa 14
1.4 Predição de epítopos 15
1.5 Pipelines ou Workflow Científico 18
1.6 Eimeria spp. 19
2 OBJETIVOS 20
2.1 Objetivo Geral 20
2.2 Objetivos Específicos 20
3 METODOLOGIA 21
3.1 Desenvolvimento do Programa 21
3.2 Logo 21
3.3 Programas/Servidores Utilizados 22
3.4 Banco de Dados 23
4 RESULTADOS E DISCUSSÃO 25
4.1 Interface Web 25
4.1.1 Página Home 25
4.1.2 Página Run SysPEP 25
4.1.3 Página Result 29
4.1.4 Página Register 32
4.1.5 Página Contact 33
4.1.6 Página Login 34
4.1.7 Página Forgot My Password 35
4.2 Banco de Dados 35
4.3 Teste do programa utilizando como modelo Eimeria tenella. 39
5 CONCLUSÃO 42
REFERÊNCIAS 44
14
1 REVISÃO DE LITERATURA
1.1 Bioinformática
Basicamente, a bioinformática é uma informática aplicada ao processamento e
análise de dados obtidos em pesquisas biológicas. Esse campo interdisciplinar
abrange recursos não apenas da biologia, mas também da ciência da computação,
engenharia da informação, matemática e estatística para o entendimento final de
dados biológicos (RIBEIRO, 2020).
Há uma grande e crescente produção de dados em bioinformática. E para se
armazenar e organizar todos esses dados, foram criadas muitas bases de dados que
são mantidas e organizadas por consórcios internacionais, como a Nucleotide
Sequence Database (EMBL-Bank) - Reino Unido, Banco de Dados de DNA do Japão
(DDBJ) e o GenBank do Centro Nacional de Informações sobre Biotecnologia (NCBI)
(LESK, 2019).
1.2 Imunoinformática
A imunoinformática ou imunobioinformática soluciona problemas da área da
imunologia utilizando-se de informática, mas também consiste em uma especialização
da bioinformática. Para se demarcar epítopos potencialmente antigênicos e assim
poder auxiliar no desenvolvimento de diagnósticos e/ou vacinas, são utilizados bancos
de dados e programas para fazer determinadas predições, principalmente para o
mapeamento de epítopos de células B, MHC I e MHC II. O uso da informática para se
chegar aos dados desses epítopos também se chama imunoinformática (KREMER,
2020), o que também descreve parte deste trabalho.
1.3 Vacinologia Reversa
Utilizando-se da imunoinformática, podemos aplicar a tecnologia aplicada na
produção de vacinas denominada vacinologia reversa. Através dela, é feito a análise
do genoma, proteínas, características hidrofóbicas ou hidrofílicas, determinando as
15
posições de cada proteína no meio intracelular ou extracelular e assim avaliando o
seu potencial uso para induzir imunidade em animais (ADU-BOBIE, 2003).
Através desta tecnologia, pode-se eliminar a necessidade do cultivo dos
agentes infectantes com seus fatores de virulência ou que eles possam ser
previamente isolados e purificados antes de serem inoculados para o estudo de sua
resposta imune (SCHATZMAYR, 2003).
1.4 Predição de epítopos
De acordo com Montassier (2015), epítopos são regiões de um antígeno que
possuem ação imunológica. Ou seja, uma sequência específica de uma molécula que
são reconhecidas pelos componentes de uma resposta imunitária como os BCR, TCR
e Acs.
Existem 3 tipos de epítopos. São classificados dependendo da forma de
interação com o sistema imune:
1. Epítopos de células B (linfócitos B), reconhecidos por BCR e anticorpos.
2. Epítopos de CTLs (linfócitos Tc) que são reconhecidos em conjunto com
o MHC I pelo TCR dos linfócitos citotóxicos.
3. Epítopos de células T-helper (linfócitos Th), reconhecidos em conjunto
com o MHC II pelo TCR das células T-helper.
Também podemos classificá-los dependendo da forma de como esse epítopo
é reconhecido pelo anticorpo. Se o epítopo é reconhecido por sua sequência linear de
aminoácidos, é denominado epítopo linear, mas se ele for reconhecido por uma
sequência não linear, caso (mais comum) que acontece em epítopos com formato
tridimensional, denomina-se epítopo descontínuo ou conformacional (Figura 1)
(ALMEIDA, 2009).
16
Figura 1 — Diferença entre um epítopo linear e descontínuo (conformacional).
.
Fonte: Sequeiros (2016).
Para se prever um epítopo pode-se utilizar o aprendizado de máquina (machine
learning) que, basicamente, consiste no poder de análise de dados de um computador
utilizando-se ou não uma Rede Neural Artificial para determinar uma predição sobre
possíveis características sobre uma ou mais proteínas. Existem diversos modelos
para se analisar dados a fim de que o computador possa retornar a sua predição.
Entre os modelos mais utilizados em Redes Neurais Artificiais está o de Regressão
(ex. Regressão Linear). A Regressão Linear está vinculada à estatística. Por exemplo,
em um diagrama de dispersão, traça-se uma reta para resumir uma relação de dados
a fim de prever, com uma certa eficiência, o próximo dado (GOMES, 2019) (Figura 2)
17
Figura 2 — Exemplo de Regressão Linear.
Formando uma reta em um diagrama de dispersão. Os pontos pretos são os dados reais, a linha em azul seria a previsão do próximo ponto, caso essa predição tivesse que ser continuada. Perceba que, a linha azul (previsão) passa o mais perto possível de cada dado real.
Fonte: khanacademy.org (2021).
Já a Rede Neural Artificial, são técnicas computacionais aliadas a modelos
matemáticos (como o caso da Regressão) inspirados em um SNC de um animal que
simulam o comportamento de redes neurais biológicas para fazer com que o
computador possa prever, enxergar e até escutar (FERNEDA, 2006). Para isso, ela
precisa de dados de entrada, no qual se colocam pesos a elas, para processar e dar,
no fim, a melhor escolha ou predição de um dado (Figura 3) (AMARAL, 2020).
18
Figura 3 — Exemplo de uma Rede Neural Artificial de 3 camadas.
Uma camada com 4 entradas, uma camada oculta com 3 funções de ativação e uma camada de saída com 2 saídas. Cada esfera dessa representa um neurônio. Dependendo do problema a ser solucionado, pode-se haver mais ou menos neurônios, mas sempre terá apenas 1 camada de entrada e 1 camada de saída. Os “Pesos” têm o mesmo sentido das sinapses humana, transmitir a informação entre os neurônios. Eles, normalmente, possuem valores entre 0 e 1 que são multiplicados com os dados de entrada e são colocados, por padrão, aleatoriamente numa primeira inicialização do treino. No decorrer do treino desta rede, esses pesos são melhorados de acordo com os resultados da Loss Function e o Batch Size definido, que pode atualizar os pesos após a passagem por cada registro ou um grupo de registros. Cada saída final será submetida a uma Loss Function para analisar o quanto o resultado foi errado ou não comparando com dados reais, iniciando o processo de Backpropagation, que é o ajuste dos pesos em si (AMARAL, 2020).
Fonte: cerebromente.org.br (2021).
1.5 Pipelines ou Workflow Científico
Pipeline é um conceito ligado à arquitetura de computadores relacionado à
CPU. É uma técnica de implementação de processadores que permite a sobreposição
temporal das diversas fases de execução das instruções de uma tarefa. Porém, o
significado de pipeline referente a este trabalho é o de pipeline (de software), ou
workflow científico. Uma pipeline consegue automatizar uma rotina de trabalho
sequencial para executar programas e padronizar formatos de arquivos.
Resumidamente, você entra com os parâmetros que você determina e a pipeline
executará determinada sequência de programas automaticamente com os parâmetros
que você determinou (FILHO, 2019).
Para se gerenciar os workflows de trabalho (pois podem haver mais de um)
podemos usar os gerenciadores de workflow. Nessas plataformas, há diversos
19
programas que, por exemplo, realizam as análises em um conjunto de proteínas de
forma ordenada com pipeline, com a mínima intervenção do usuário, gerando um
único painel de visualização para todos os programas (LUCIANI, 2017). Atualmente,
há vários workflows para análises genômicas, como por exemplo GENDB (MEYER et
al., 2003), GARSA (DAVILA et al., 2005) e o STINGRAY (WAGNER et al., 2011).
Entretanto, para análise proteômica, os workflows científicos para análise de uma
grande quantidade de dados oriundos de espectrometria de massas focam na análise
comparativa com base de dados, sem realizar análises de características estruturais.
Havendo assim, pouca integração de dados (KOHLBACHER et al., 2007). Sabendo
disso, seria bastante útil e cômodo termos um sistema que agregue todos esses dados
em uma única interface.
1.6 Eimeria spp.
Eimeria é um gênero presente dentro da Família Eimeriidae, Ordem
Eucoccidiorida, Classe Conoidasida, Filo Apicomplexa, Reino Protozoa (SCHOCH,
2020). Esses protozoários são parasitas intracelulares obrigatórios e eucariontes que
atacam enterócitos (células intestinais), principalmente de aves, ruminantes, equinos
e suínos (BIOMIN, 2020).
As Eimeria spp. são causadoras de uma das doenças mais importantes da
avicultura industrial, a coccidiose aviária. Atualmente, ela é responsável por 15 bilhões
de gastos anuais com profilaxia, tratamento e perdas provenientes desta doença nas
produções, uma vez que essa enfermidade diminui o desempenho do animal
(LANCINI, 2021). Essa doença desencadeia diarreia e enterite, no qual resulta numa
má absorção de nutrientes nas aves.
A coccidiose se torna preocupante quando se há uma constante necessidade
de se produzir mais alimentos avícolas (TOMASI, 2006). Segundo a Associação
Brasileira de Proteína Animal (ABPA), o consumo anual de aves foi estimado em 42,84
kg per capita em 2019 no Brasil (ABPA, 2020). Além disso, é o tipo de carne mais
consumida no território brasileiro, seguida da carne bovina e suína (DUARTE, 2015).
Como essas indústrias estão numa incessante busca para melhorar a
excelência em desempenho zootécnico (DINIZ, 2008), os estudos desses
protozoários se tornam importantes para que se possa melhorar o grande impacto
econômico ruim ao trazerem a baixa performance desses animais avícolas.
20
Existem sete principais espécies preocupantes de Eimeria que parasitam a
galinha doméstica (Gallus gallus domesticus): E. acervulina, E. brunetti, E. maxima,
E. mitis, E. necatrix, E. praecox, E. tenella (ALMEIDA, 2020). Sendo que as mais
comuns em broilers (frango criado para a produção de carne de crescimento rápido)
são: E. acervulina, E. maxima e E. tenella (Giles et al., 2020; Györke et al., 2013;
Swayne et al., 2020).
A vacinação vem ganhando relevância para a profilaxia da coccidiose devido
ao fato dos coccidiostáticos promoverem resistência, perda de sensibilidade e
provocarem um efeito negativo nos resultados zootécnicos proporcional à dose
utilizada, interferindo no sistema circulatório, aumentando o débito cardíaco
(DONZELE et al., 2001), além do crescente número de regulamentações que
restringem o uso de aditivos alimentares, gerando uma certa preocupação dos
coccidiostáticos serem proibidos ou evitados (PEEK; LANDMAN, 2011).
Atualmente existem vacinas que contém as principais espécies de Eimeria (E.
acervulina, E. maxima. E. mitis, E. praecox e E. tenella) que causam a coccidiose
aviária em frangos, porém, atenuadas por precaução, a fim de evitar lesões nas
paredes do intestino dessas aves, o que poderia provocar perda de desempenho,
como já ocorreu no passado, no qual empresas utilizavam vacinas com oocistos
provenientes de cepas selvagens, extremamente agressivas (FABRI et al., 2020).
Por esses gastos na economia com profilaxia e com um possível crescente
interesse em vacinas contra coccidiose aviária, a interface web deste trabalho será
testada com dados provenientes de proteínas de Eimeria tenella.
2 OBJETIVOS
2.1 Objetivo Geral
Desenvolver uma plataforma web de fácil acesso e uso para a predição de
epítopos a partir de proteínas.
2.2 Objetivos Específicos
● Desenvolver uma interface gráfica web e um banco de dados.
● Integrar a plataforma gráfica uma pipeline já disponível no laboratório.
● Testar o programa utilizando o modelo biológico de Eimeria tenella.
21
3 METODOLOGIA
3.1 Desenvolvimento do Programa
O código da interface web foi desenvolvido no Sublime Text 3.2.2 para
Windows 64 bits, utilizando-se de tecnologias como HTML5, CSS3 e Javascript
(Jquery v3.3.1 e Ajax). Também foram utilizados códigos em PHP para realizar o
cadastro de usuários, fazer o acesso ao sistema, fazer a comunicação entre o
formulário de contato e o e-mail dos desenvolvedores, gravar sessions (para
armazenar dados do usuário que ele já cadastrou no app, mesmo que ele recarregue
a página) e enviar os dados para a análise no servidor. Para se criar algumas janelas
de aviso foi-se utilizado o Sweet Alert 2 (https://sweetalert2.github.io/), e também
utilizado o framework de CSS Bulma para alguns detalhes da interface, como o botão
de carregamento de arquivo FASTA (“.faa”).
O planejamento da interface se baseou em um sistema que já vinha sendo
desenvolvido pelo laboratório (Wagner, 2015; Filho, 2019), porém, recomeçou com
uma nova representação visual (wireframe) básica desenhada a mão em reunião para
atualizar e melhorar o estilo e a experiência do usuário na aplicação.
3.2 Logo
Também foi desenvolvido uma logo para o SysPEP (Figura 4) através de um
programa de edição de imagem. A ideia era que a logo fosse remetida a algo
relacionado a ligações químicas para representar uma cadeia de aminoácidos, uma
vez que o maior foco inicial desta aplicação era que ela fizesse análises proteômicas
para identificação de epítopos específicos e assim contribuir para o desenvolvimento
de novas vacinas, não apenas para coccidiose aviária.
Para a criação desta logo, foi utilizado a proporção áurea (“proporção de ouro”)
que é uma constante real algébrica irracional (1,618) representada pela letra grega ɸ
(Phi) muito utilizada desde a antiguidade em pinturas renascentistas como nas de
Giotto, mas também muito encontrada na natureza como nas espirais de uma concha,
nas falanges dos dedos, nas colmeias, nas proporções entre asa e corpo de insetos,
em figuras algébricas como no decágono e pentagrama regulares (COLLISELLI,
2016).
22
Já para a escolha das cores, foi utilizado o site Adobe Color
(https://color.adobe.com/pt/create/color-wheel) e a cor azul foi escolhida por
representar progresso científico, tecnologia e inovação. Buscou-se uma logo mais
simples possível para que se pudesse facilitar as suas diversas aplicações em
papelaria, jalecos e/ou uniformes caso fosse de interesse do laboratório.
Figura 4 — Logo SysPEP.
Desenvolvido e utilizado para representar o sistema web em desenvolvimento neste trabalho. Fonte: Elaborado pelo autor.
3.3 Programas/Servidores Utilizados
Os programas foram iniciados para 16.953 sequências de proteínas disponíveis
no NCBI (sequências acima de 100 aminoácidos) de Eimeria tenella (AC:
NC_004823.1) com os parâmetros padrões com exceção dos programas Bepipred,
NetMHCI e NetMHCII. No Bepipred foram procurados apenas epítopos entre ≥ 9 e ≤
25; e no NetMHCI e NetMHCII foram procurados apenas epítopos com 9 aminoácidos.
Os programas executados através da interface foram:
● Bepipred v1.0 (JESPERSEN et al., 2017): prevê os antígenos ligantes em
linfócitos B;
● NetMHCI v4.0 (ANDREATTA; NIELSEN, 2015): prevê os peptídeos ligantes de
MHC I;
● NetMHCII v2.2 (JENSEN et al., 2018): prevê os peptídeos ligantes de MHC II;
● Psort-II / WolfPsort v0.2 (HORTON et al., 2007): prevê a localização das
proteínas traduzidas a partir das ORF preditas;
23
● SignalP v4.1 (EMANUELSSON et al., 2007): prevê a presença de peptídeo de
sinal e seus locais de clivagem;
● TargetP v1.1 (ARMENTEROS et al., 2019): prevê a localização subcelular de
proteínas eucarióticas;
● TMHMM v2.0 (KROGH et al., 2001): prevê domínios transmembranares;
A busca no banco de dados do retorno dos servidores com os resultados foi feita
de forma manual utilizando-se de linhas em SQL. Porém, alguns protótipos de listagem
dos resultados já foram desenvolvidos para uma futura utilização dos mesmos.
3.4 Banco de Dados
O desenvolvimento do banco de dados se continuou através de um
previamente criado pelo laboratório. A versão do MySQL utilizada foi a 5.7.31 e o
programa para manipular o banco de dados foi o HeidiSQL Portable 11.0.0.5919. Em
relação ao banco de dados original, foram adicionadas mais 3 tabelas e 1 tabela foi
editada. Na Figura 5 é possível ver o modelo relacional final.
O banco de dados com os dados de Eimeria (1,33 GB) foi copiado para diretório
local com um computador com 16 GB de RAM e um processador i5-9400F com 2,90
Ghz de clock para que se pudesse desenvolver com maior velocidade e evitar erros
que poderiam estar fora do ambiente desenvolvido aqui.
Além da criação das tabelas (em destaque vermelho na Figura 5) “organism”,
“request_has_sequence”, “email_run” e a edição da tabela “users2”, também foram
criadas novas chaves de índice através do comando SQL “CREATE INDEX”. As
chaves criadas foram:
1. “idx_sequenceID” na tabela “BepitopePred” indexando o campo
“Sequence_Id”;
2. “idx_sequenceID” na tabela “EpitopeMHCI” indexando o campo
“Sequence_Id”;
3. “idx_sequenceID” na tabela “EpitopeMHCII” indexando o campo
Sequence_Id”;
4. “idx_sequenceID” na tabela “SignalP” indexando o campo
“Sequence_Id”;
24
5. “idx_localization” na tabela “SubCellLoc_Psort” indexando o campo
“Localization”;
6. “idx_sequenceID” na tabela “TargetP” indexando o campo
“Sequence_Id”.
Figura 5 — Modelagem do banco de dados.
Diagrama de Entidade-Relacionamento (DER) utilizando-se a notação UML de relacionamento. A tabela principal é a “request” centralizada na figura, no qual, um para um (1 - 1) e um para muitos (1 - n). O único relacionamento muitos para muitos (n - n) foi entre a tabela “request” e “sequence”, porém, como diz a regra, em relacionamentos muitos para muitos, devemos criar uma tabela de associação entre as duas registrando 2 chaves externas nela que serão correspondentes ao id de cada uma das tabelas. As tabelas contornadas em vermelho foram as adicionadas através deste trabalho.
Fonte: Elaborado pelo autor.
25
4 RESULTADOS E DISCUSSÃO
Ao final do desenvolvimento da interface, foram construídas 7 páginas: Home,
Run SysPEP, Result, Contact, Login, Forgot My Password e Register.
4.1 Interface Web
4.1.1 Página Home
A página Home foi criada contendo uma breve descrição do objetivo do SysPEP
e para qual público alvo o sistema foi criado. Além de listar o grupo de pesquisa que
desenvolveu, elaborou a estratégia do fluxo de dados e das tecnologias que seriam
usadas (Figura 6).
Figura 6 — Página HOME.
Fonte: Elaborado pelo autor.
4.1.2 Página Run SysPEP
A página “Run SysPEP” é a parte onde o usuário entrará com os dados da sua
sequência e selecionará os programas que ele quer processar para, posteriormente,
os resultados aparecerem na página Result.
Em “Run SysPEP” é pedido o e-mail do usuário (caso ele não esteja logado), o
nome da espécie a ser analisada, a sequência proteica em formato FASTA e as
26
escolhas dos 7 programas que o usuário quer analisar na sua sequência. Em relação
a sequência FASTA, é possível colar a sequência direto no campo “Single FASTA” ou
carregar um arquivo FASTA no botão de upload (Figura 7). No momento, o programa
executará apenas sequências de aminoácidos.
Na versão 1b do SysPEP só era permitido executar as análises que passassem
pela aprovação do administrador do SysPEP para evitar o excesso e redundância nos
dados (WAGNER, 2015), porém, com a nova versão concluída, busca-se que o
próprio usuário realize o início dessa análise de forma automática, sem que seja
necessária uma intervenção do administrador.
Figura 7 — Página Run SysPEP.
Fonte: Elaborado pelo autor.
Foi criado um mecanismo para auto-completar (autocomplete) com os dados
provenientes do banco de dados enquanto o usuário digita o nome da espécie no
campo “Specie”. Isso torna mais rápido o processo de digitação correta do nome da
espécie, como evita redundâncias no banco de dados, além de facilitar algumas
consultas no qual exigissem sumarizar lado-a-lado o nome da espécie com o
respectivo usuário e request. E caso o usuário digite uma espécie que não exista no
banco de dados, essa nova espécie é adicionada e aparecerá para o próximo usuário
ao digitar no campo “Specie” (Figura 7-A).
27
Nesta mesma tela, foi criado um ícone de engrenagem ( - Configurações)
e um ícone de lâmpada ( - Como isso funciona?) ao lado de cada programa de
análise da proteína. O ícone de engrenagem serve para o usuário alterar os
parâmetros padrões do programa respectivo. Ao clicar na engrenagem, uma janela é
aberta para a configuração manual pelo usuário. Ao abrir e fechar essas janelas de
configurações (essas janelas também podem ser fechadas pressionando a tecla
“ESC”), as configurações selecionadas/escolhidas não retornam ao padrão, fazendo
com que o usuário possa abrir e fechar as configurações dos outros programas e
escolher exatamente como quer rodar cada um deles (Figura 8). Porém, ao recarregar
ou fechar e abrir a página, os parâmetros padrões são resetados.
28
Figura 8 — Algumas janelas de configurações e informações da página “Run SysPEP”.
A1: configurações do TargetP; A2: informações do TargetP; B1: configurações do SignalP; B2: informações do SignalP; C1: configurações do BepiPred; C2: informações do BepiPred; D1: configurações do NetMHC I; D2: informações do NetMHC I. Fonte: Elaborado pelo autor.
29
Já o ícone da lâmpada, serve para que o usuário possa reconhecer o que de
fato aquele programa poderá fazer com a sequência proteica dele carregada, além de
mostrar a linha de código que rodará no servidor para processar a sequência do
usuário. Do mesmo modo que nas configurações, ao clicar no ícone de lâmpada,
também se abre uma janela. (Figura 8 – A2, B2, C2, D2).
A Figura 8 (A1, B1, C1 e D1) demonstra o modelo de algumas janelas
construídas para alguns programas da página “Run SysPEP”, demonstrando todas as
configurações possíveis de se personalizar para cada sequência.
A linha do código (fundo preto e letra branca) que irá rodar no servidor,
demonstrada na Figura 8 (A2, B2, C2 e D2) é escrita dentro do elemento <code> do
HTML, assim, não se corre o risco da extensão Google Tradutor traduzir esta linha de
código, uma vez que esta página seja traduzida diretamente através do Google
Chrome. Além disso, algumas palavras foram escritas dentro de uma <span
translate="no"> para evitar problemas com a tradução também.
Após o envio dos dados do usuário ao servidor, a proposta final é de que o
usuário seja direcionado para a página “Result” e demonstre a porcentagem do
processo até a sua finalização. E também, assim que os dados forem processados
nos servidores escolhidos, um e-mail será encaminhado ao usuário informando-o que
o processamento dos dados foi concluído e que será possível visualizá-los na página
“Result” do Site SysPEP após acessarem a sua conta.
Atualmente, em ambiente de teste, após enviar os dados, é retornada uma
página simples apenas para mostrar as informações enviadas ao banco de dados do
SysPEP.
4.1.3 Página Result
Na página “Result” é onde mostrará todos os resultados após serem
processados pelos programas escolhidos nos respectivos servidores após os valores
serem registrados no banco de dados do SysPEP e então mostrados na tela do
usuário cadastrado por meio desta página.
Atualmente, a página deve mostrar uma lista das últimas requests (Figura 9).
Caso o usuário clique na linha da request, sem clicar no ícone de “Details”, o programa
mostrará a lista de proteínas provenientes daquela request que foi clicada (Figura 10).
30
Figura 9 — Resultados iniciais que aparecem na página “Result”.
Uma lista das últimas requests feitas pelo usuário na tela “Run SysPEP”.
Fonte: Elaborado pelo autor. Figura 10 — Tabela carregada via Ajax após o usuário clicar na linha da request da página “Result”.
Uma lista das proteínas dessa request são mostradas na tela com o identificador da proteína no banco de dados SysPEP (ID), o nome da espécie (Organism), o peso molecular (Molecular Weight), o ponto isoelétrico (Isoelectric point), a localização subcelular das sequências de proteína de acordo com o programa Psort (Localization), a média geométrica entre C-score e a inclinação do S-score que mostra o local de clivagem do programa SignalP (SignalP Y) e os Epítopos previstos pelo programa Bepipred (Epitopes).
Fonte: Elaborado pelo autor.
31
Se o usuário clicar no ícone “Details” ( ), uma visão geral é mostrada sobre
aquela request enviada totalizando os epítopos ligantes entre Células B, MHC I e MHC
II. E também mostra algumas informações a mais como o número de sequencias com
localização extracelular, sequências com localização extracelular na membrana
plasmática e proteínas secretadas. (Figura 11)
Figura 11 — Tabela carregada via Ajax após o usuário clicar no ícone “Details” da respectiva request.
Essas 4 tabelas (Visão geral de epítopos ligantes de Células B, MHC I, MHC II e Outras informações) mostram uma visão geral da request enviada, totalizando o total de epítopos, a contagem de epítopos, total de proteínas com epítopos reconhecidos, total de epítopos extracelulares e total de epítopos secretados de cada tipo de epítopo ligante.
Fonte: Elaborado pelo autor.
32
Caso o usuário clique em “List Epitopes”, abrirá uma janela e serão listados
cada epítopo daquele determinado total (Figura 12).
Figura 12 — Janela da listagem de epítopos ligantes de Células B que têm o seu número de aa. entre 9 e 20.
O título da tabela mostra o total de registros daquela listagem, a listagem possui um filtro que filtra a lista pela descrição da proteína e possui paginação. Cada página traz 50 linhas. É possível acessar a primeira e última página diretamente clicando no link. Os links de paginação aparecem no início e no fim da tabela.
Fonte: Elaborado pelo autor.
4.1.4 Página Register
A página Register servirá para termos uma ideia do público que realmente está
usando o aplicativo como também para que se possa identificar de quem realmente é
aquela sequência enviada para a análise. Para se ter todo esse feedback e controle
foram pensados nos seguintes campos, Figura 13 (os campos com asterisco ao lado
são considerados obrigatórios para o registro do usuário no SysPEP):
1. Nome Completo*
2. E-mail*
3. Apelido*
4. idUFSC
33
5. Nome da Empresa ou Universidade*
6. Nome do Laboratório
7. Objetivo*
8. Senha*
9. Telefone
10. Breve descrição do Request*
Figura 13 — Página para se registrar no SysPEP (Página “Register”).
Fonte: Elaborado pelo autor.
Caso o usuário tente cadastrar o mesmo e-mail mais de 1 vez, uma mensagem
é aberta avisando que o e-mail incluído já está cadastrado no nosso banco de dados.
Isso evita futuros problemas com identificação de usuário, como contas repetidas ou
até mesmo falsas.
4.1.5 Página Contact
A página de contato foi feita para que os usuários pudessem entrar em contato
com a equipe do SysPEP. Para isso, elaborou-se um formulário com os seguintes
campos: Nome, E-mail, Telefone e Mensagem. E ao lado, o mapa da localização do
laboratório responsável pelo SysPEP. Ao clicar em “Submit”, o e-mail deve ser enviado
para um e-mail da equipe. (Figura 14).
34
Figura 14 — Página para contato (Contact).
Fonte: Elaborado pelo autor.
Futuramente, espera-se criar um e-mail de auto-confirmação, para que, assim
que o usuário enviar um e-mail através deste formulário, ele receba uma mensagem
no e-mail dele com a confirmação do envio e informando que a equipe entrará em
contato em breve.
4.1.6 Página Login
Após o registro do usuário, ele poderá acessar o SysPEP utilizando-se do seu
username e senha (Figura 15). Se os dados do acesso estiverem na base de dados
(já cadastrados), o acesso será permitido, uma janela informará que o acesso foi bem
sucedido e o usuário será direcionado para a página “Run SysPEP”. Caso os dados
do acesso não estejam no banco de dados, uma mensagem de erro é mostrada e o
usuário não consegue acessar. No menu, canto superior direito, também mostrará o
username da conta acessada e um botão de “SAIR” aparecerá caso o usuário queira
fazer logout.
35
Figura 15 — Página para entrar no sistema (Login).
Fonte: Elaborado pelo autor.
4.1.7 Página Forgot My Password
A interface da página para a recuperação de senha também já foi criada. Após
a finalização dela no back-end (código escrito no lado do servidor) bastará apenas
que o usuário digite seu e-mail já cadastrado no SysPEP que ele receberá um link
criptografado com base no seu e-mail e senha anterior pelo e-mail. Ao entrar nesta
página, ele poderá criar uma nova senha, que será encaminhada ao banco de dados
de forma criptografada e então será resetada no banco de dados, permitindo que ele
possa entrar no sistema com a nova senha criada.
4.2 Banco de Dados
A tabela “organism” foi criada para o cadastro das diferentes espécies que
serão registradas quando o usuário adicionar o nome dela ao rodar uma sequência
de proteína através da página “Run SysPEP”. Toda e qualquer espécie que for
cadastrada nesta página irá para essa tabela caso essa espécie ainda não tenha sido
adicionada nela. Essas informações poderão gerar um perfil de espécies maior do
banco de dados do SysPEP e evitará uma sobrecarga de nomes de espécies
repetidas no banco de dados.
36
A tabela “request_has_sequence” é uma tabela associativa entre a tabela
“request” e “sequence” ela foi criada como regra em bancos de dados relacionais para
relacionamentos muitos para muitos (n - n), assim resulta em 2 relacionamentos um
para muitos (1 - n) entre as tabelas relacionadas com a tabela associativa.
A tabela “email_run” foi criada para armazenar o e-mail das pessoas que não
se cadastraram no SysPEP e rodaram uma sequência através da página “Run
SysPEP”. Ainda não foi amplamente programado no código fonte, mas já está
cadastrando os dados. Ele armazena o e-mail e o ip público do usuário e serve para
deixar uma pessoa não cadastrada a fazer ao menos 1 run/request no programa
SysPEP. Cada vez que uma pessoa com o mesmo e-mail ou ip tentar fazer uma nova
run, é verificado nesta tabela se ela já fez uma run, caso tenha feito, o usuário é
redirecionado para a página de cadastro. Mas ainda é necessário aperfeiçoa-la, como
configurar a página “Result” para os usuários não cadastrados e arrumar alguns bugs
que podem estar acorrendo com essa nova regra de negócio.
Os e-mails armazenados na tabela “email_run” também podem ser usados
mais tarde para divulgar uma nova versão do SysPEP ou qualquer outra novidade
proveniente do sistema.
A busca dos resultados no banco de dados SysPEP retornou os seguintes
dados após consultas SQL (Tabela 1).
Tabela 1 — Resultado dos dados processados pelos programas.
Objetivo Resultado
Total de Epítopos ligantes de células B 88.737
Total de Epítopos ligantes de MHC I 8.662.194*
Total de Epítopos ligantes de MHC II 3.628#
Lista de Epítopos ligantes de células B com proteínas entre 9 e 20 aminoácidos
(Listagem de Epítopos)
Total Epítopos ligantes de células B com proteínas entre 9 e 20 aminoácidos
61.153
Lista de Epítopos e Alelos ligantes de MHC I com proteínas entre 7 e 20 aminoácidos
(Listagem de Epítopos)
Total de Epítopos ligantes de MHC I com proteínas entre 7 e 20 aminoácidos
8.662.194*
Lista de Epítopos e Alelos ligantes de MHC II com proteínas (Listagem de Epítopos)
37
entre 7 e 20 aminoácidos
Total de Epítopos ligantes de MHC II com proteínas entre 7 e 20 aminoácidos
3.628#
Número de proteínas ligantes de Células B que tiveram epítopos reconhecidos
13.993
Número de sequências com Localização “extracellular” 8.223
Lista de epítopos com Localização “extracellular” ligantes de Células B
(Listagem de Epítopos)
Número de epítopos com Localização “extracellular” ligantes de Celulas B
31.393
Número de epítopos com Localização “extracellular” ligantes de MHC I
3.099.097*
Lista de epítopos com Localização “extracellular” ligantes de MHC II
(Listagem de Epítopos)
Número de epítopos com Localização “extracellular” ligantes de MHC II
1.350#
Número de sequências com Localização “extracellular plasma membrane”
2.144
Número de proteínas com predição de serem secretadas 2.550
Lista de epítopos ligantes de células B com predição de serem encontrados em proteínas secretadas
(Listagem de Epítopos)
Número de epítopos ligantes de células B com predição de serem encontrados em proteínas secretadas
10.570
Número de epítopos ligantes de MHC I com predição de serem encontrados em proteínas secretadas
1.136.069*
Lista de epítopos ligantes de MHC II com predição de serem encontrados em proteínas secretadas
(Listagem de Epítopos)
Número de epítopos ligantes de MHC II com predição de serem encontrados em proteínas secretadas
899#
* Foi processado apenas epítopos com 9 aa. e todos do alelo HLA-A0101.
# Foi processado apenas epítopos com 9 aa. e todos do alelo HLA-DPA101-DPB10401.
Fonte: Banco de dados Syspep.
Alguns testes de consulta no banco de dados utilizando o operador ‘LIKE’ para
realizar consultas em tempo real no qual o usuário personalizasse as consultas em
38
um campo de filtro na interface ocorreram de forma muito lenta. A consulta retornou
um erro de falta de memória após 4 minutos e 45 segundos de espera, mesmo com a
máquina inteiramente disponível apenas para esse processamento. Problema que
também pôde ser identificado no trabalho de Luciani (2017, p. 28):
Outro problema apresentado foi a resposta de consulta dos SQL, em especial nas tabelas do netMHC I e II, pois estas armazenam mais de 1 milhão de entradas, o que é um gargalo para o sistema de gerenciamento de dados utilizado (MySQL) [...].
Após executar uma query diretamente pelo HeidiSQL no servidor local que
retornasse a descrição das sequências de proteína com as palavras que o usuário
digitasse na interface web, retornava o erro “Erro SQL (2008): MySQL client ran out of
memory”. Essa consulta foi feita na tabela “Bepitopepred” com “INNER JOIN” na
tabela “Sequence”: SELECT BepitopePred.Request_id,
BepitopePred.Sequence_Id, Sequence.Description,
CHARACTER_LENGTH(Epitope) AS 'Tamanho do Epítopo', START, END FROM
BepitopePred INNER JOIN Sequence ON Sequence.Sequence_Id =
BepitopePred.Sequence_Id LIKE Sequence.Description = '%cysteine%'
WHERE (CHARACTER_LENGTH(Epitope) > 9) AND (CHARACTER_LENGTH(Epitope)
< 20).
Uma boa forma de aumentar a velocidade dessas consultas e diminuir o
consumo de memória da máquina seria a criação de índices. Por padrão, o MySQL já
cria índices nos campos de chave primária, chave estrangeira e de constraint unique.
É possível ver se há algum índice na tabela utilizando-se o comando “SHOW INDEX
FROM <nome da tabela>”. Porém, no banco de dados do SysPEP não foi encontrado
nenhum índice nas tabelas.
Sem índice, uma das consultas que o SysPEP faz no banco de dados para
retornar um SELECT simples de COUNT() do total de epítopos com localização
extracelular e ligantes de Células B: “SELECT
COUNT(SubCellLoc_Psort.Sequence_Id) FROM SubCellLoc_Psort INNER JOIN
BepitopePred ON SubCellLoc_Psort.Sequence_Id=BepitopePred.Sequence_Id
WHERE SubCellLoc_Psort.Localization = 'extracellular'” demorou 23,062
segundos para percorrer 74.382 linhas na tabela “SubCellLoc_Psort” e mais 88.737
linhas da tabela “BepitopePred”, totalizando uma procura em 163.119 linhas.
39
Criando um único índice na tabela “BepitopePred” na coluna “Sequence_Id”
com o comando “CREATE INDEX idx_sequenceID ON
BepitopePred(Sequence_Id)”, diminuímos a leitura de 88.737 para exatas 6 linhas
na tabela “BepiepitopePred” na execução descrita no parágrafo anterior. Isso nos
resulta em uma performance exageradamente mais eficiente: 0,047 segundos para o
retorno da execução. O que nos fornece uma consulta 99,8% mais rápida com a
criação de apenas um índice.
Alguns textos e vídeos na web relatam que usar o comando COLLATE na query
diminuiria o tempo de processamento da query (LIMA, 2017), porém, no caso das
consultas descritas neste trabalho, essa técnica não funcionou, desconfiamos que não
tenha apresentado efeito pelo fato da collate (“UTF8mb4_swedish_ci”) já ter sido
criada na criação junto com o banco de dados.
Já uma outra consulta testada no banco de dados na tabela “SubCellLol_Psort”
adicionando a tabela “EpitopeMHCI” com INNER JOIN, que demorava mais do que 4
minutos, pois tinha que percorrer mais que 8.736.576 registros para trazer o resultado
da listagem de epítopos com localização extracelular e ligantes de MHC I. Ao criar a
chave indexadora para a coluna “Sequence_Id” da tabela “EpitopeMHCI” com o
comando “CREATE INDEX idx_sequenceID ON EpitopeMHCI(Sequence_Id)”, o
retorno da resposta reduziu de incontáveis 4 minutos para 1 segundo. E após a criação
das 6 chaves indexadoras, esta consulta deixou de percorrer 8.736.576 milhões de
linhas (74.382 linhas da tabela “SubCellLoc_Psort” mais 8.662.194 linhas da tabela
“EpitopeMHCI”) para 15.657 mil (15.146 linhas da tabela “SubCellLoc_Psort” mais
mais 511 linhas da tabela “EpitopeMHCI”).
4.3 Teste do programa utilizando como modelo Eimeria tenella.
Após a análise das proteínas de Eimeria tenella através do SysPEP, foram
encontrados 88.737 epítopos ligantes de células B, 8.662.194 epítopos ligantes de
MHC I e 3.628 epítopos ligantes de MHC II, somando-se um total de 8.754.559
epítopos encontrados. Com os dados processados do programa BepiPred, também
foram contabilizados apenas os epítopos contendo entre 7 à 20 aminoácidos. Não
foram encontrados epítopos ligantes de MHC I e MHC II < 9 e > 10 aminoácidos
40
(Tabela 2). Das 16.953 sequências de proteínas de Eimeria tenella, 13.993 eram
ligantes de Células B que tiveram seus epítopos reconhecidos.
Tabela 2 — Total de epítopos encontrados.
Organismo Ligantes de Epítopos > 7 e < 20 aa.
Epítopos extracelulare
s
Total
Células B* 75.218 31.393 88.737&
E. tenella MHC I$ 8.662.194! 3.099.097! 8.662.194!
MHC II# 3.628! 1.350! 3.628!
Total de Epítopos
8.741.04 3.131.840 8.754.559
* Preditos pelo programa Bepipred.
$ Preditos pelo programa NetMHCI.
# Preditos pelo programa NetMHCII.
& O total não está congruente às outras 2 colunas pois o total não inclui apenas epítopos entre 7 e 20
aa, mas sim, de 9 à 25 aa.
! Foi pedido para processar nos programa apenas epítopos com o tamanho = 9.
Fonte: Banco de dados Syspep.
Já os dados processados no Psort, retornaram 8.223 sequências e 3.041.840
epítopos com previsão de serem extracelulares. Das 8.223 sequências previstas para
serem extracelulares, 2.144 foram previstas para estarem extracelularmente ligadas
a membrana plasmática.
O programa TargetP retornou as previsões sobre as proteínas secretadas.
2.550 proteínas foram previstas para serem secretadas. Delas, foram encontradas
10.570 epítopos ligantes a células B, 1.136.069 epítopos ligantes a MHC I e 899
epítopos ligantes a MHC II. Somando-se um total de 1.147.538 epítopos com predição
de serem encontrados em proteínas secretadas por Eimeria tenella (Tabela 3).
41
Tabela 3 — Total de epítopos encontrados em 2.550 proteínas com previsão de serem secretadas de Eimeria tenella.
Ligantes de Epítopos de proteínas secretadas
Células B 10.570
MHC I 1.136.069
MHC II 899
Total de Epítopos 1.147.538
Fonte: Banco de dados Syspep. Dados processados pelo servidor Psort.
Esses dados obtidos corroboram com a definição desses protozoários serem
parasitas intracelulares, uma vez que os dados expõem muitas de suas proteínas com
previsão de serem reconhecidas pelo MHC de classe I, no qual é sintetizada no RER
(Retículo Endoplasmático Rugoso) que possuem a função de sinalizar antígenos
intracelulares. É possível ver essa diferença tanto em epítopos de proteínas
secretadas (Tabela 3), como na contagem geral de epítopos (Tabela 2).
42
5 CONCLUSÃO
Certamente, com um sistema totalmente completo, tanto no front-end como no
back-end, é possível melhorar as análises proteômicas e futuramente genômicas para
uma ou mais sequências. Trazendo economia de tempo para mensurar, comparar e
apresentar os dados de resposta de um workflow científico como o SysPEP tem
potencial de gerar ao usuário, automatizando os processos com pipelines eficientes.
Muito pode-se fazer para a melhoria do programa SysPEP, como realizar
plotagem de dados em gráficos para a melhor compreensão e exportação das
informações que o usuário terá após o processamento de suas sequências: melhorar
a segurança e limites para se rodar as sequências no servidor a fim de evitar
sobrecarga injusta no servidor entre os usuários, como restringir o uso de bots no
envio dos dados de pessoas mal intencionadas.
Também é necessário se pensar na melhor composição das páginas (layout)
para se mostrar os dados aos usuários da página “Results”. Neste trabalho foi
mostrado os dados mais importantes em forma de tabela, porém, pode-se melhorar a
visualização dos mesmos e trabalhar na criação de mais filtros para que o usuário
possa ter mais liberdade para se chegar nos dados que ele deseja.
Os dados obtidos confirmam uma forte ligação dos epítopos de Eimeria serem
amplamente reconhecidos por MHC de classe I, fortalecendo mais ainda a
confirmação desses protozoários agirem e se multiplicarem intracelularmente.
A partir dos vários epítopos e características que podem ser encontrados com
o programa desenvolvido neste trabalho, é possível contribuir para o desenvolvimento
de vacinas e diagnósticos de doenças de forma mais facilitada, pois o SysPEP permite
integrar todos os resultados em uma mesma tela com a mínima interferência do
usuário. Diferente de outros programas, que o usuário precisaria enviar suas
sequências para vários servidores diferentes e então resgatar esses resultados nos
diferentes sites/servidores.
Em relação aos testes realizados com proteínas de Eimeria tenella, conseguiu-
se uma quantidade de dados satisfatórios e intrigantes, pois mesmo buscando
epítopos que se ligam ao MHC de classe I com apenas 9 aminoácidos, a quantidade
de epítopos encontrados para ele foi maior que dos epítopos que se ligam a Células
B que buscou epítopos entre ≥ 9 e ≤ 25 aminoácidos.
43
Com o melhoramento do programa, acredita-se que se possa ter uma interface
ótima para estudos de sequências proteicas, bem como, futuramente, nucleotídicas.
44
REFERÊNCIAS
ABPA. Projeções mostram que setores devem fechar 2020 com números positivos. 2020. Disponível em: https://abpa-br.org/projecoes-mostram-que-setores-devem-fechar-2020-com-numeros-positivos/. Acesso em: 14 set. 2021. ADU-BOBIE, J., et al. Two years into reverse vaccinology. Vaccine, vol. 21, p. 605-10. 2003. ALMEIDA, A. Antígenos. Universidade Federal da Bahia. 2009. Disponível em: http://www.medicina.ufba.br/imuno/roteiros_imuno/Roteiro%20de%20ant%C3%ADgenos%2002-1.pdf. Acesso em: 14 set. 2021. ALMEIDA, M. C. Comparação de dois métodos de controlo de coccidiose em broilers: Vacinação vs Coccidiostáticos. 2020. Disponível em: http://comum.rcaap.pt/bitstream/10400.26/33358/1/Disserta%c3%a7%c3%a3o%20M%c3%a1rcia%20Almeida.pdf. Acesso em: 28 abr. 2021. AMARAL, F. Como uma Rede Neural Aprende? Tutorial para Leigos. Youtube, 30/abr/2020. Disponível em: https://www.youtube.com/watch?v=mWD8wWwZpi8. Acesso em: 14 set. 2021. ANDREATTA, M.; NIELSEN, M. Gapped sequence alignment using artificial neural networks: application to the MHC class I system. OXFORD. Bioinformatics. doi: 10.1093/bioinformatics/btv639. 2015. ARMENTEROS, J. J. A. et al. Detecting Sequence Signals in Targeting Peptides Using Deep Learning. Life Science Alliance 2 (5), e201900429. doi:10.26508/lsa.201900429. 2019. BIOMIN. Coccidiose em aves. 2020. Disponível em: https://www.biomin.net/br/especies/aves/coccidiose-aviaria/. Acesso em: 14 set. 2021. BRAGHETTO, K. R.; CORDEIRO, D. Introdução à Modelagem e Execução de Workflows Científicos. EACH - USP. 2014. Disponível em: http://www.each.usp.br/dc/papers/jai-cap-workflows.pdf. Acesso em: 29 abr. 2021. COLLISELLI, N. MATEMATICAMENTE PERFEITO: A PROPORÇÃO ÁUREA NO UNIVERSO. Educação Nacional de Educação Matemática. Educação Matemática na Contemporaneidade: desafios e possibilidades. São Paulo – SP. 2016. DAVILA, A. M., et al. (2005). GARSA: genomic analysis resources for sequence annotation. Bioinformatics 21(23): 4302-4303. DINIZ, G. S. USO DE SALINOMICINA E SEMDURAMICINA EM DIFERENTES CONCENTRAÇÕES SOBRE O DESEMPENHO E CONTROLE DA EIMERIOSE EM FRANGOS DE CORTE. Universidade Estadual de Londrina. 2008. Disponível em:
45
www.uel.br/pos/ciencia_animal/arquivos/Disserta%C3%A7%C3%A3o%20Giankleber%20S.%20Diniz.pdf. Acesso em: 19 jun. 2021. DONZELE, J. L. et al. Efeito da Nicarbazina sobre o Desempenho de Frangos de Corte Recebendo Diferentes Níveis de Lisina Submetidos a Estresse por Calor. 2001. Disponível em: https://www.scielo.br/scielo.php?script=sci_arttext&pid=S1516-35982001000400020. Acesso em: 29 abr. 2021. DUARTE, J. O. Panorama Internacional. Agência Embrapa de Informação Tecnológica, 2015. Disponível em: http://www.agencia.cnptia.embrapa.br/gestor/milho/arvore/CONTAG01_14_168200511157.html. Acesso em: 28 abr. 2021. EMANUELSSON, O., et al. Locating proteins in the cell using TargetP, SignalP and related tools. Nat Protoc 2(4): 953-971. 2007. FABRI, F. et al. Coccidiose: Revisando Conceitos de Controle com a utilização da Vacina Viva Atenuada e Aumentando o Lucro com Sustentabilidade: Resultados em Granjas no Brasil. aviNews Brasil. 2020. Disponível em: https://avicultura.info/pt-br/controle-da-coccidiose-com-vacina-viva-atenuada/. Acesso em: 29 abr. 2021. FERNEDA, E. Redes neurais e sua aplicação em sistemas de recuperação de informação. Ribeirão Preto - USP. 2006. Disponivel em: https://www.scielo.br/j/ci/a/SQ9myjZWLxnyXfstXMgCdcH/?format=pdf&lang=pt. Acesso em: 24 set. 2021. FILHO, V. B. Epítopos lineares de Eimeria spp.: fase I - predição in silico de epítopos com potencial aplicação em vacinas e diagnóstico de coccidiose aviária. Orientador: Glauber Wagner. Relatório de Projeto de Pesquisa. Universidade Federal de Santa Catarina. 2019. GILES, T. et al. Diagnosis of sub-clinical coccidiosis in fast growing broiler chickens by MicroRNA profiling. Genomics, v.112, n.5, p.3218-3225, 2020. doi: 10.1016/j.ygeno.2020.03.010. GOMES, P. C. T. Regressão Linear: entenda como utilizar. DataGeeks. 2019. Disponível em: https://www.datageeks.com.br/regressao-linear/. Acesso em: 14 set. 2021. GYÖRKE, A.; POP, L.; COZMA, V. Prevalence and distribution of Eimeria species in broiler chicken farms of different capacities. Parasite, v.20, p.50, 2013. doi: 10.1051/parasite/2013052. HORTON, P. et al. WoLF PSORT: protein localization predictor. Nucleic Acids Res. PubMed. PMID: 17517783. DOI: 10.1093/nar/gkm259. 2007. JENSEN, K. K. et al. Improved methods for predicting peptide binding affinity to MHC class II molecules. PubMed. PMID: 29315598. DOI: 10.1111/imm.12889. 2018.
46
JESPERSEN, M. C. et al. BepiPred-2.0: improving sequence-based B-cell epitope prediction using conformational epitopes. Nucleic Acids Res. 2017 (Web Server issue). doi: 10.1093/nar/gkx352 KOHLBACHER, O. et al. TOPP--the OpenMS proteomics pipeline. Bioinformatics 23(2): e191-197. 2007. Disponível em: https://academic.oup.com/bioinformatics/article/23/2/e191/201948. Acesso em: 14 set. 2021. KREMER, F. S. Introdução à Imunoinformática. Omixdata. Disponivel em: https://medium.com/omixdata/introdu%C3%A7%C3%A3o-%C3%A0-imunoinform%C3%A1tica-cacde2f6cee0. Acesso em: 24 set. 2021. KROGH, A. et al. Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes. J Mol Biol 305(3): 567-580. 2001. LANCINI, J. B. Coccidiose: o que é, alternativas de controle e prevenção. O Presente Rural - Minuto Agro Aves. 2021. Disponível em: https://opresenterural.com.br/coccidiose-o-que-e-alternativas-de-controle-e-prevencao/. Acesso em: 30 abr. 2021. LESK, A. M. Bioinformatics. Encyclopaedia Britanicca. Disponível em: https://www.britannica.com/science/bioinformatics. Acesso em: 24 set. 2021. LIMA, F. Melhorando a performance de uma consulta com like '%String%' alterando a Collation. Youtube, 3/fev/2017. Disponível em: https://www.youtube.com/watch?v=cyteAND34I0&t=2s. Acesso em: 25 nov. 2021. LUCIANI, F. R.. Desenvolvimento de um sistema integrado para a predição de características canônicas e epítopos presentes em proteínas de agentes infecioso-parasitários. Universidade Federal de Santa Catarina (UFSC). Programa Institucional de Bolsas de Iniciação em Pesquisa Científica (PIBIC). 2017. MEYER, F., et al. (2003). GenDB--an open source genome annotation system for prokaryote genomes. Nucleic Acids Res 31(8): 2187-2195. MONTASSIER, H. J. Moléculas Reconhecidas pelo Sistema Imune:- PAMPS e Antígenos (Ag). UNESP - Departamento de Patologia Veterinária, 2015. Disponível em: https://www.fcav.unesp.br/Home/departamentos/patologia/HELIOJOSEMONTASSIER/aula-2--antigenos.pdf. Acesso em: 29 abr. 2021. PEEK, H.; LANDMAN, W. Coccidiosis in poultry: anticoccidial products, vaccines and other prevention strategies. Veterinary Quarterly, v.31, n.3, p.143-161, 2011. doi: 10.1080/01652176.2011.605247. RIBEIRO, H. F. A Era da Informação. In: SILVA, S. A.; NOTARI, D. L.; DALL’ALBA, G. (org). Bioinformática: contexto computacional e aplicações. Caxias do Sul: EDUCS, 2020. p. 13-17.
47
SCHATZMAYR, H. G. Novas perspectivas em vacinas virais. História, Ciências, Saúde - Manguinbos, vol. 10 (suplemento 2): p. 655-69. 2003 SCHOCH, C. L., et al. NCBI Taxonomy: a comprehensive update on curation, resources and tools. Database (Oxford). 2020: baaa062. PubMed: 32761142 PMC: PMC7408187 SEQUEIROS, M. F. Antigeno e Anticorpo. 2016. p. 24. Universidade Estadual de Ponta Grossa - UEPG. Disponível em: https://pt.slideshare.net/maurisnaider/antigeno-e-anticorpo. Acesso em: 04 maio 2021. SILVA, G. P. Pipeline. Universidade do Rio de Janeiro. 2017. Disponível em: https://dcc.ufrj.br/~gabriel/arqcomp/Pipeline.pdf. Acesso em: 14 set. 2021.
TOMASI, P. H. D. Avaliação de vacinas contra coccidiose e a utilização de peptídeos em frangos de corte. 2006. 47f. Dissertação de mestrado em Medicina Veterinária, Universidade Federal do Paraná – Curitiba, Disponível em: http://www.dspace.c3sl.ufpr.br/dspace/bitstream/1884/.../TesePedroFinal.pdf. Acesso em: 14 set. 2021. SWAYNE, D. et al. Diseases of poultry. 14.ed. Hoboken: WileyBlackwell, 2020. p.1193-1212. WAGNER, G. Desenvolvimento e Validação de uma Plataforma para a Predição de Epítopos de Agentes Infecto-Parasitários do Oeste de Santa Catarina. Relatório Técnico-Científico. Fundação Universidade do Oeste de Santa Catarina – Campus Joaçaba. 2015 WAGNER, G. et al. STINGRAY: System for Integrated Genomic Resources and Analysis. Retrieved 01 de fevereiro, 2011.