Upload
trantram
View
214
Download
0
Embed Size (px)
Citation preview
UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO
CENTRO DE CIÊNCIAS HUMANAS E NATURAIS
DEPARTAMENTO DE CIÊNCIAS BIOLÓGICAS
MAURÍCIO ALEXANDER DE MOURA FERREIRA
BIOINFORMÁTICA COMO FERRAMENTA NO
MELHORAMENTO GENÉTICO DE PLANTAS
VITÓRIA
2017
MAURÍCIO ALEXANDER DE MOURA FERREIRA
BIOINFORMÁTICA COMO FERRAMENTA NO MELHORAMENTO GENÉTICO DE
PLANTAS
Trabalho de conclusão de curso apresentado ao Departamento de Ciências Biológicas do Centro de Ciências Humanas e Naturais da Universidade Federal do Espírito Santo, como requisito parcial para obtenção do grau de Bacharel em Ciências Biológicas.
Orientadora: Prof.ª Dr.ª Patrícia
Machado Bueno Fernandes
VITÓRIA
2017
MAURÍCIO ALEXANDER DE MOURA FERREIRA
BIOINFORMÁTICA COMO FERRAMENTA NO MELHORAMENTO GENÉTICO DE
PLANTAS
Trabalho de conclusão de curso
apresentado ao Departamento de
Ciências Biológicas do Centro de
Ciências Humanas e Naturais da
Universidade Federal do Espírito
Santo, como requisito parcial para
obtenção do grau de Bacharel em
Ciências Biológicas.
Orientadora: Prof.ª Dr.ª Patrícia
Machado Bueno Fernandes
Aprovado em 21 de dezembro de 2017
COMISSÃO EXAMINADORA
_________________________________________________
Prof.ª Dr.ª Patrícia Machado Bueno Fernandes
Universidade Federal do Espírito Santo
Orientadora
_________________________________________________
Dr. Oeber de Freitas Quadros
Universidade Federal do Espírito Santo
_________________________________________________
Profª. Drª. Diolina Moura Silva
Universidade Federal do Espírito Santo
AGRADECIMENTOS
A Universidade Federal do Espírito Santo, alicerce da minha formação
profissional e científica.
As agências de fomento, FAPES, CAPES e CNPq, pelo apoio financeiro e
incentivo à formação de recursos humanos na ciência.
A minha orientadora, Prof.ª Dr.ª Patrícia Fernandes, pelas orientações, pela
oportunidade de imersão em pesquisa científica e pelo exemplo de competência e
sumidade o qual posso me espelhar.
Aos professores Dr. Alberto Fernandes, Dr. Alexandre Santos, Dr.ª Diolina
Moura, e Dr. José Aires Ventura, por todos os ensinamentos que contribuíram para
meu desenvolvimento acadêmico.
Ao meu supervisor na iniciação científica, Dr. Oeber Quadros, pela
inestimável amizade e por trilhar meus caminhos na prática da ciência.
Ao corpo docente da graduação, por todo o conhecimento adquirido ao longo
do curso que me ajudou nesta jornada científica.
Aos colegas de laboratório, que contribuíram através de conversas,
discussões e elucubrações sobre as complexidades dos sistemas biológicos.
A Ana Carolina Graciano, Isabela Ramos, Luiza Adami e Luiza Favarato, por
compartilharem das vivências e experiências na iniciação científica que nos
elevaram e somaram em nosso conhecimento.
A Bruno Evaldt, Marina Braga e Stefanie Lievore, por serem meus
companheiros nas dificuldades da graduação e por tornarem prazerosa esta
caminhada.
"Está chovendo DNA lá fora. Estão
fazendo chover instruções lá fora, uma
chuva de programas, uma chuva de
algoritmos para o crescimento de
árvores. Isto não é uma metáfora, é a
pura verdade."
Richard Dawkins, em “O Relojoeiro
Cego” (1986)
RESUMO
A partir do ano 2000, com o sequenciamento do genoma da planta-modelo
Arabidopsis thaliana, a bioinformática tornou-se essencial para o melhoramento
vegetal. O desenvolvimento de plataformas de sequenciamento de ácidos nucleicos
gerou um volume astronômico de dados (“big data”) desde sua concepção, sendo
necessários esforços computacionais para sua análise. Após o sequenciamento de
um genoma, sua análise é feita por bioinformática, empregando algoritmos
computacionais para sua montagem e anotação. As análises do genoma podem
revelar genes presentes em um organismo e os marcadores moleculares associados
aos genótipos. A genotipagem por marcadores moleculares, associadas ao estudo
das vias de expressão gênica, permite que o fenótipo seja inferido a partir destas
informações. Todas as informações sobre sequências, moléculas e suas anotações
são armazenadas em bancos de dados públicos. Abordagens ômicas como a
transcriptômica e proteômica indicam o estado fisiológico de plantas sobre diversas
condições. Algoritmos de aprendizado de máquina, mineração de dados e redes
neurais permitem ao computador buscar por padrões em enormes volumes de
dados, e compreendem uma abordagem mais profundamente computacional do que
propriamente biológica. Por fim, a biologia de sistemas integra dados de diferentes
níveis hierárquicos e aplica modelos matemáticos na elucidação de mecanismos
moleculares.
Palavras-chave: Agricultura. Ciências agrárias. Computação. Biotecnologia.
ABSTRACT
Since the year 2000, with the sequencing of the model plant Arabidopsis thaliana,
bioinformatics became an important tool for crop breeding. Large sets of data were
generated by high-throughput sequencing, requiring computational efforts to make
sense of the data. After sequencing a genome, it is necessary to assemble and
annotate it. This is accomplished by computer algorithms. Genome analysis reveal
the set of genes present in a certain organism, and the molecular markers associated
with a genotype. The use of molecular markers for genotyping, combined with gene
expression analysis, allows the inference of the phenotype through data. All
information generated about sequences, molecules, and pathways, are stored in
public online databases. Omics approaches such as proteomics and transcriptomics
can reveal the physiological state of a plant. Machine learning, data mining, and
neural networks allows computers to find patterns in large volumes of data. This
approach is more related to computer science than biology. Finally, systems biology
can be used for integration of data in a number of hierarchical levels. The use of
mathematical modelling can elucidate the mechanisms of many molecular systems.
Keywords: Agriculture. Crop science. Computing. Biotechnology.
LISTA DE FIGURAS
Figura 1 – Evolução do trigo moderno (Triticum aestivum). ............................... 14
Figura 2 – Montagem de genomas por sobreposição de sequências. Adaptado
de National Institutes of Health (2017)................................................................... 18
Figura 3 – A) Esquematização de um grafo. O problema das Pontes de
Königsberg representa um grafo de caminho euleriano. Devem-se atravessar
todas as pontes, porém sem repetir nenhuma. Ou seja, o fluxo de interações
passa por cada nó apenas uma vez. B) Contigs para montagem C) Divisão de
contigs em k-mers e montagem genômica com grafo de Bruijin por caminho
euleriano. Adaptado de Schatz, (2010). ................................................................. 19
Figura 4 – Software UGENE para análise de sequencias de DNA ...................... 22
Figura 5 – Software EMBOSS em uso no terminal ............................................... 23
Figura 6 – Regulação por RNAs pequenos. Adaptado de Ryan et al., (2015). ... 26
Figura 7 – Níveis hierárquicos organizacionais e sua integração. ..................... 28
LISTA DE TABELAS
Tabela 1 – Marcadores moleculares utilizados no melhoramento. ..................... 16
Tabela 2 – Bancos de dados online ....................................................................... 21
Tabela 3 – Exemplos de softwares de código-aberto .......................................... 24
Tabela 4 – Linguagens de programação e seus pacotes para bioinformática .. 24
LISTA DE ABREVIATURAS
DNA – Ácido desoxirribonucleico
RFLP - Restriction Fragment Lenght Polymorphism
RAPD - Random Amplified Polymorphic DNA
SNP - Single Nucleotide Polymorphism
SCAR - Sequence Characterized Amplified Regions
SSR - Simple Sequence Repeats
WGS - Whole Genome Shotgun Sequencing
NGS - Next Generation Sequencing
OLC - Overlap-layout-consensus
DBG - Grafo de Bruijin
SGA - Grafo de cordas
RNA – Ácido ribonucleico
miRNA - microRNA
siRNA – Pequeno RNA de interferência
NCBI - National Center for Biotechnology Information
PMeV – Complexo papaya meleira virus e papaya meleira virus 2
IPP - Interações proteína-proteína
SUMÁRIO
1 INTRODUÇÃO ....................................................................................................... 13
1.1 A bioinformática ................................................................................................ 13
1.2 A arte e ciência do melhoramento vegetal ...................................................... 14
2 BIOINFORMÁTICA NO MELHORAMENTO VEGETAL ........................................ 16
2.1 Genômica de plantas ........................................................................................ 16
2.2 Bancos de dados genômicos ........................................................................... 21
2.3 Ferramentas de software .................................................................................. 22
2.4 Análise da expressão gênica ........................................................................... 24
2.5 Aprendizado de máquina .................................................................................. 26
2.6 Biologia de sistemas ......................................................................................... 27
2.7 Casos de melhoramento genético ................................................................... 29
3 CONCLUSÕES ...................................................................................................... 31
REFERÊNCIAS ......................................................................................................... 32
13
1 INTRODUÇÃO
1.1 A bioinformática
O desenvolvimento de plataformas de sequenciamento de ácidos nucleicos gerou
um volume astronômico de dados (“big data”) desde sua popularização
(PETTERSSON; LUNDEBERG; AHMADIAN, 2009). A necessidade de analisar e
interpretar estes dados fez nascer a bioinformática: uma ciência capaz de explorar
essa infinidade de dados através de ferramentas computacionais (LUSCOMBE;
GREENBAUM; GERSTEIN, 2001).
Os dados biológicos são gerados de diversas maneiras. Por exemplo, dados de
ácidos nucléicos são gerados por sequenciamento, dados de proteínas são obtidos
por métodos analíticos como espectrometria de massas, e interações gênicas ou
proteicas por experimentos como duplo-híbrido de leveduras (BARH; KHAN;
DAVIES, 2015a). Uma das formas de lidar com estes grandes volumes de dados é a
partir da implementação de algoritmos, que são séries de instruções para execução
de tarefas, como cálculos matemáticos, processamento de dados, e automação de
processos (CAN, 2014). Algoritmos na análise de sequências permite a montagem e
anotação de genomas, identificação de similaridades entre organismos (homologias)
e suas implicações evolutivas. Além disso, algoritmos são usados na construção de
modelos tridimensionais de RNAs e proteínas a partir de sequências (SELZER;
MARHÖFER; ROHWER, 2008a).
A bioinformática torna possível a integração de diversos tipos de dados biológicos,
como sequências de DNA, estrutura de peptídeos, vias metabólicas e vias de
sinalização. Com isso, é possível entender com maior resolução os processos
biológicos como mudanças na expressão gênica, localização de proteínas e suas
interações com genes e outras proteínas, e como o acervo total de metabólitos
altera o funcionamento de um tecido (VASSILEV et al., 2005). Com a difusão de
plataformas de sequenciamento, a bioinformática tornou-se essencial no
melhoramento vegetal. Do funcionamento de raízes, caules e folhas, formação de
flores e frutos, aos ciclos de vida e reprodução, a bioinformática vegetal revela as
diversas funções desempenhadas pelos genes das plantas, como os intricados
14
sistemas moleculares que integram o metabolismo e são determinantes na formação
do fenótipo observado, demonstrando sua aplicabilidade e importância em todas as
áreas do melhoramento genético de plantas (VASSILEV et al., 2005).
1.2 A arte e ciência do melhoramento vegetal
O melhoramento vegetal é tanto uma ciência quanto é uma arte, dedicada a
modificação de plantas para benefício humano (SLEPER; POEHLMAN, 2006). A
domesticação é um processo evolutivo onde as plantas domesticadas sofrem
alterações morfológicas e fisiológicas que as distinguem de seus ancestrais
selvagens (HANCOCK, 2005). Estas alterações são alcançadas através da seleção
artificial e cruzamento seletivo, onde traços fenotípicos de interesse são
selecionados por agricultores que julgam as novas variedades como sendo
vantajosas e as plantam no próximo cultivo, além de seletivamente cruzarem com
outras plantas de interesse (ZOHARY; HOPF; WEISS, 2012). O processo de
domesticação dos cereais selvagens fornece um exemplo de como a seleção
artificial é empregada para alterar as características de uma espécie (Figura 1).
Figura 1 - Evolução do trigo moderno (Triticum aestivum).
15
Avanços na bioquímica e genética de plantas propiciaram o desenvolvimento de
diversas técnicas de melhoramento que complementaram substancialmente o
cruzamento seletivo (WILDE, 2015). A cultura de tecidos vegetais permite a
propagação e hibridização in vitro de células, tecidos e órgãos de plantas, além de
transformações genéticas (SMITH, 2013). A mutagênese é uma técnica de indução
de mutações em sementes e órgãos de plantas para a produção de novas
características. Plantas mutantes com fenótipo agronomicamente vantajoso são
cruzadas com variedades de interesse para obtenção de novas cultivares (LEE et
al., 2014). A cultura de tecidos também pode ser uma fonte de mutantes, devido ao
fenômeno de variação somaclonal (KRISHNA et al., 2016). As tecnologias de DNA
recombinante permitem a modificação direta do genoma das plantas, apresentando
fenótipo resultante da expressão dos genes alterados (BAWA; ANILAKUMAR,
2013).
Durante a maior parte da história do melhoramento vegetal, as características de
interesse eram selecionadas por indicadores morfológicos como cor, tamanho e
formato do fruto, altura da planta, número de inflorescências, dentre outros (TOPPA;
JADOSKI, 2013). Estes indicadores representam polimorfismos (variedade de alelos
em um mesmo locus) que podem ser estudados e selecionados ao nível dos genes
e proteínas que produzem tais características, sendo chamados de marcadores
moleculares. Este tipo de melhoramento é denominado melhoramento assistido por
marcadores moleculares (XU; CROUCH, 2008). Dessa forma, marcadores
moleculares permitem acessar diretamente o genótipo de um organismo, sem a
necessidade da expressão do fenótipo, que pode ser afetado por fatores como
interações gênicas e influência ambiental (JIANG, 2015). A Tabela 1 resume os
principais tipos de marcadores moleculares usados atualmente.
16
Tabela 1 – Marcadores moleculares utilizados no melhoramento.
Marcador molecular Característica
Polimorfismo no Comprimento do
Fragmento de Restrição (RFLP, do
inglês Restriction Fragment Lenght
Polymorphism)
Perfil de clivagem do DNA por
enzimas de restrição
DNA Polimórfico Amplificado
Aleatoriamente (RAPD, do inglês
Random Amplified Polymorphic DNA)
Perfil de amplificação do DNA por
primers aleatórios
Polimorfismo de único nucleotídeo
(SNP, do inglês Single Nucleotide
Polymorphism)
Mutações pontuais na sequência de
DNA
Regiões Amplificadas de Sequências
Caracterizadas (SCAR, do inglês
Sequence Characterized Amplified
Regions)
Amplificação espécie-específica por
PCR
Repetições simples de sequências
(SSR, do inglês Simple Sequence
Repeats)
Repetições de nucleotídeos
2 BIOINFORMÁTICA NO MELHORAMENTO VEGETAL
2.1 Genômica de plantas
A primeira planta a ter seu genoma sequenciado foi a planta-modelo Arabidopsis
thaliana, no ano 2000 (THE ARABIDOPSIS GENOME INITIATIVE, 2000). Nos anos
seguintes, foi sequenciado o genoma de diversas plantas cultivadas, como arroz em
2002 (YU, 2002) e uva em 2007 (JAILLON et al., 2007), e também de plantas não
cultivadas, como Populus trichocarpa (árvore-modelo) em 2006 (TUSKAN et al.,
2006). O sequenciamento de Sanger foi o primeiro método a ser utilizado para
projetos de sequenciamento de genomas completos de plantas (THE ARABIDOPSIS
GENOME INITIATIVE, 2000). O método consiste na replicação in vitro de DNA com
17
o uso de nucleotídeos modificados que terminam prematuramente a síntese do
DNA.
A principal estratégia para sequenciamento consiste em fragmentar o genoma em
múltiplas sequências menores, e sequenciar cada fragmento individualmente,
chamada sequenciamento completo do genoma por fragmentação (WGS, do inglês
whole genome shotgun sequencing) (SHENDURE et al., 2017). Os fragmentos
sequenciados são unidos novamente por bioinformática. Apesar de reduzir o tempo
e esforço de projetos de sequenciamento, o WGS ainda continuava caro por conta
do alto custo do método de Sanger (BOLGER et al., 2014). O desenvolvimento de
plataformas de sequenciamento de alto rendimento (do inglês High-Throughput
Sequencing, previamente chamado de Next Generation Sequencing, NGS) reduziu
consideravelmente o custo e o tempo de sequenciamento (REUTER; SPACEK;
SNYDER, 2015).
A plataforma Illumina HiSeq emergiu como a plataforma de sequenciamento
dominante, sendo o genoma do pepino o primeiro genoma vegetal sequenciado pela
plataforma, em 2009 (HUANG et al., 2009). Diversos outros vegetais tiveram seus
genomas sequenciados por esta plataforma, como a batata (XU et al., 2011), a
banana (D’HONT et al., 2012), a laranja (XU et al., 2013a), o grão-de-bico
(VARSHNEY et al., 2013), a melancia (XU et al., 2013b), a ervilha-de-pombo
(VARSHNEY et al., 2012), variedades de repolho da China (WANG et al., 2011), e o
espruce-da-noruega (NYSTEDT et al., 2013). As tecnologias NGS geram volumes
gigantescos de dados. No período entre 1995 (ano do sequenciamento do primeiro
genoma completo, da bactéria Haemophilus influenzae) e 2015, a capacidade de
geração de dados genômicos duplicou a cada 9 meses (SCHATZ, 2015). A
plataforma Illumina X10, lançada em 2015, é capaz de sequenciar o equivalente a
um genoma humano haploide por minuto (3 Gbp/min) (ILLUMINA, 2015).
Após o sequenciamento por WGS, é necessário reconstruir a sequência original a
partir dos fragmentos sequenciados. Este processo é nomeado montagem de
genomas, que funciona como a montagem de um quebra-cabeças, onde cada
fragmento é uma peça, e o genoma é o quebra-cabeça finalizado. Na montagem de
genomas por referência, o genoma é reconstruído a partir de genomas já existentes,
18
por homologia. Na montagem de sequências de novo, os fragmentos sequenciados
são unidos por algoritmos computacionais (TIWARY, 2015).
A montagem de novo forma uma sequência longa chamada contig. O algoritmo de
consenso de sobreposição (OLC, do inglês overlap-layout-consensus) busca regiões
de sobreposição entre fragmentos e deriva um contig por uma sequência consenso
(Figura 2) (LI et al., 2012).
Figura 2 - Montagem de genomas por sobreposição de sequências. Adaptado de
National Institutes of Health (2017).
Algoritmos de grafos também são úteis na montagem de genomas, como grafo de
Bruijin (DBG, do inglês De Bruijin Graph) e grafos de caminho euleriano (LI et al.,
2012). Na abordagem baseada em grafos, os fragmentos de sequência são divididos
em sequência menores (k-mer), onde cada k-mer é integrado a um DBG para
determinar a sequência original. A solução ótima é encontrada através da busca por
um caminho euleriano, onde cada caminho passa por um nó uma única vez (Figura
3) (TIWARY, 2015).
19
Figura 3 – A) Esquematização de um grafo. O problema das Pontes de Königsberg
representa um grafo de caminho euleriano. Devem-se atravessar todas as pontes,
porém sem repetir nenhuma. Ou seja, o fluxo de interações passa por cada nó
apenas uma vez. B) Contigs para montagem C) Divisão de contigs em k-mers e
montagem genômica com grafo de Bruijin por caminho euleriano. Adaptado de
Schatz, (2010).
A montagem de novo gera contigs que necessitam ser reunidos para a formação do
genoma completo. Os contigs são unidos em uma sequência contínua denominada
20
supercontig ou scaffold. Para gerar um genoma inteiro, os contigs são orientados na
direção 5’-3’ e postos na ordem correta. Em seguida, a distância (em pares de base)
entre um contig outro é calculada, e lacunas entre contigs são corrigidas, resultando
em um genoma completo. A construção de scaffolds pode ser mais precisa
integrando dados como sequências de referência, mapas de restrição e dados de
RNA-seq (TIWARY, 2015).
A montagem do genoma é apenas o primeiro passo na análise genômica. É
necessário, em seguida, interpretar o significado das sequências. Este processo é
chamado anotação de genomas, e revela as diversas características do genoma,
tendo amplas aplicações (BOLGER et al., 2017). É possível identificar e caracterizar
marcadores moleculares, como os 246 SSRs identificados em Prunus virginiana
(WANG et al., 2012), e SNPs codominantes em trigo desenvolvidos para diferenciar
genótipos heterozigotos e homozigotos (NIE et al., 2012). Em soja, foram
identificados 1.790 SNPs, utilizados para reconstrução do mapa genético (HYTEN et
al., 2010). Em trigo, 497.118 SNPs foram descobertos (YOU et al., 2011). A
sequência do genoma da soja desvendou o locus E1, que controla o tempo de
floração em adaptação a diferentes fotoperíodos (XIA et al., 2012). O
sequenciamento do genoma da batata auxiliou na identificação de fatores de
transcrição que regulam a maturidade da planta e seu ciclo de vida
(KLOOSTERMAN et al., 2013).
Pequenos RNAs não-codificantes como os microRNAs (miRNA) e os pequenos
RNAs de interferência (siRNA) podem ser mapeados na anotação do genoma. Em
amendoim, após sequenciamento do genoma por NGS, foram identificadas 36
famílias de miRNAs associados ao crescimento e resposta a estresses ambientais
(ZHAO et al., 2010). Também foram identificados siRNAs em tomate responsáveis
pelo desenvolvimento de amadurecimento de frutos (MOHORIANU et al., 2011). Na
cana-de-açúcar, 26 famílias de miRNAs envolvidos no crescimento de gemas
axilares foram detectados (ORTIZ-MOREA et al., 2013). A busca de pequenos RNAs
por sequenciamento NGS pode ajudar a entender os mecanismos regulatórios no
desenvolvimento de tecidos e órgãos, e a quantificação destes pequenos RNAs
pode indicar o estado fisiológico da planta, como estresse causados por fatores
bióticos e abióticos (JHA et al., 2015).
21
2.2 Bancos de dados genômicos
A informação gerada por projetos de sequenciamento necessita ser armazenada e
organizada em bancos de dados online para que outros pesquisadores tenham
acesso. Bancos de dados genômicos armazenam sequências de DNA, RNA,
proteínas e suas anotações (SELZER; MARHÖFER; ROHWER, 2008b). Os bancos
de dados do Centro Nacional de Informação de Biotecnologia (NCBI, do inglês
National Center for Biotechnology Information), EMBL e Banco de Dados de DNA do
Japão (DNA Data Bank of Japan) são os maiores bancos de dados. Até setembro de
2017, os três bancos somaram mais de 900 milhões de sequências, com cerca de
2,6 trilhões de nucleotídeos no total (DNA DATA BANK OF JAPAN, 2017). Os
principais bancos de dados são exibidos na Tabela 2.
Tabela 2 – Bancos de dados online
Banco de dados Função Endereço
NCBI Sequências de DNA,
RNA e proteínas
http://www.ncbi.nlm.nih.gov/
Phytozome 12 Sequências de DNA
de plantas
http://phytozome.jgi.doe.gov
PLAZA Sequências de DNA
de plantas
http://plaza.psb.ugent.be
PlantGDB Sequências de DNA
de plantas
http://www.plantgdb.org/
Ensembl Plants Sequências de DNA
de plantas
http://plants.ensembl.org/index.html
ChloroplastDB Sequências de DNA
de cloroplastos
http://chloroplast.cbio.psu.edu/
KEGG Vias metabólicas http://www.genome.jp/kegg/
UniProt Sequência e função
de proteínas
http://www.uniprot.org
Protein Data
Bank
Sequência e função
de proteínas
http://www.rcsb.org/pdb/home/home.do
22
2.3 Ferramentas de software
A bioinformática emprega diversos programas (softwares) para realizar suas
análises. Estes softwares utilizam os dados fornecidos pelo usuário, processam
instruções programadas e retornam um resultado a ser interpretado. Os softwares
para bioinformática são programados para processarem dados oriundos de
plataformas de sequenciamento e outras ferramentas de análise, como
espectrometria de massas na proteômica (ONG et al., 2016). Estes dados
apresentam formato especifico para cada tipo de dado. Por exemplo, sequencias de
nucleotídeos e aminoácidos são armazenados em arquivos de texto com a extensão
“.FASTA”, e eletroferogramas oriundos de sequenciamento Sanger com a extensão
“.AB1” (OPHIR, 2013).
Os softwares para bioinformática podem ser classificados de acordo com a interface
utilizada pelo usuário. Softwares com interface gráfica apresentam informações e
ferramentas visuais, e botões clicáveis para interação com o usuário (Figura 4).
Figura 4 - Software UGENE para análise de sequencias de DNA
23
Outros softwares não possuem interface gráfica, e por isso necessitam ser
manipulados em terminal de linhas de comando (Figura 5).
Figura 5 – Software EMBOSS em uso no terminal
Muitos softwares apresentam código aberto, o que permitem que outros
programadores façam alterações no código fonte do programa e alterem suas
funções. Exemplos de softwares de código aberto são apresentados na Tabela 3.
24
Tabela 3 – Exemplos de softwares de código-aberto
Software Função
AMPHORA Análise de dados metagenômicos
Bioclipse Visualização de biomoléculas
EMBOSS Análise de sequências
PathVisio Desenho de mapas metabólicos
CytoScape Desenho de redes de interações
UGENE Análise de sequências
Orange Mineração de dados genômicos
Há ainda uso de linguagens de programação para automatização de processos e
análise de dados onde não há software previamente construído. Muitas destas
linguagens possuem pacotes adicionais para análise de dados biológicos (BARH;
KHAN; DAVIES, 2015b). As principais linguagens de programação usadas na
bioinformática são apresentadas na Tabela 4.
Tabela 4 - Linguagens de programação e seus pacotes para bioinformática
Linguagem de programação Pacote para bioinformática
C++ Bio++
Java BioJava
JavaScript BioJS
Perl BioPerl
Python Biopython / Bioconda
R Bioconductor
Swift BioSwift
2.4 Análise da expressão gênica
A expressão diferencial de genes pode ser estudada por bioinformática. As
plataformas NGS, além de sequenciar o genoma, podem sequenciar o conjunto total
de RNAs transcritos após transcrição reversa. Esta abordagem, denominada
25
transcriptômica, reflete o conjunto de genes que são expressos em um dado
momento. Proteínas também são essenciais na análise da expressão gênica, e a
proteômica pode identificar um grande conjunto de proteínas presentes em um
organismo (JHA et al., 2015). No entanto, a análise de RNAm não reflete
diretamente a quantidade de proteínas presentes em um dado momento. A
transcrição é apenas a primeira etapa da expressão gênica, ocorrendo ainda
processos de controle pós-transcricional (como miRNAs e siRNAs) e processamento
do mRNA como splicing. Desta forma, o conteúdo proteico será substancialmente
diferente do perfil de RNAm transcritos. A abundância de proteínas, além de indicar
o perfil de expressão gênica, também revela o estado fisiológico em que a célula se
encontra, devido a função das proteínas (GUPTA; SHEKHAR; AGRAWAL, 2015).
Porém, a proteômica não é eficiente em detectar proteínas em baixa abundância e
nem proteoformas oriundas de splicing alternativo. Por isso, a integração do
transcriptoma com o proteoma pode fornecer informações adicionais que
complementam uma a outra (KUMAR et al., 2016).
Abordagens transcriptômicas já foram empregadas na caracterização de mudanças
na expressão global de genes em resposta a patógenos (SANA et al., 2010),
associações simbióticas (HOCHER et al., 2011), estresses abióticos (NARSAI;
CASTLEDEN; WHELAN, 2010), teor de nutrientes (LIHUA et al., 2010), e toxicidade
de metais pesados (MATTIELLO et al., 2010). Perfis proteômicos também auxiliam
na investigação de tolerância a estresses abióticos (MANAA et al., 2011), no
desenvolvimento (AGRAWAL; RAKWAL, 2006), resposta a patógenos e interações
planta-microrganismo (KAV et al., 2007). Soares et al. (2016) identificou 1333
proteínas em mamão infectado pelo complexo viral PMeV (papaya meleira virus e
papaya meleira virus 2). Destas, 111 proteínas estavam alteradas em abundância,
sendo 57 aumentadas e 54 diminuídas, correspondendo ao aumento na fotossíntese
e diminuição do funcionamento do sistema ubiquitina-proteassoma.
RNAs pequenos como miRNAs e siRNAs podem ainda fornecer informações sobre
como genes são regulados (Figura 6). Em mamão, Abreu et al., (2014) analisou
4.251 miRNAs baixados do banco de dados Plant miRNA Database (PMRD). Deste
total, foi apurado os miRNAs miR156, miR162, miR398, e miR408, envolvidos no
controle da degradação de proteínas pelo sistema ubiquitina-proteassoma, que se
26
encontra alterado durante a infecção pelo complexo viral PMeV (RODRIGUES et
al., 2012).
Figura 6 – Regulação por RNAs pequenos. Adaptado de Ryan et al., (2015).
2.5 Aprendizado de máquina
O aprendizado de máquina é um campo da ciência de dados que explora a
habilidade de programas de computador aprenderem sem programação prévia.
Similar ao campo da inteligência artificial, os algoritmos computacionais utilizados no
aprendizado de máquina permitem ao computador fazer predições e reconhecer
padrões a partir de dados prévios. (WITTEN et al., 2017).
Aplicações do aprendizado de máquina em plantas foram na diferenciação de
células vivas e mortas e na análise dos estágios de desenvolvimento de embriões.
Também foi feito a predição do comprimento de hipocótilos regenerados de calos de
arroz em diferentes meios de cultura. O raio, comprimento, largura, circularidade,
área e perímetro foram medidos e utilizados como entrada no programa. A rede
neural predisse o comprimento dos hipocótilos com 95% de precisão, e com um erro
médio de 1.3 milímetros (OSAMA; MISHRA; SOMVANSHI, 2015). Outras aplicações
de redes neurais foram na predição da eficácia de controle de pragas, como
otimização da concentração de pesticidas e impacto ambiental (DANIEL et al.,
2008). Também foi feito a predição do rendimento de culturas como milho, beterraba
e soja. A combinação de redes neurais com sensores bioelétricos já foi empregada
na detecção de viroses em plantas. Biossensores foram usados para detectar
27
interações de suspenções celulares com o vírus, que foram medidas e fornecidas a
redes neurais para treinamento e aprendizado (GLEZAKOS et al., 2010).
2.6 Biologia de sistemas
A biologia de sistemas é o estudo das interações entre as diversas partes que
compõem um organismo. Os sistemas biológicos apresentam níveis de
complexidade organizados em hierarquias. Cada nível hierárquico origina-se das
propriedades emergentes das redes de interações em um nível inferior (LIU;
STEWART, 2016). A biologia de sistemas se apoia nas ômicas para geração de
dados, e na bioinformática para desenvolvimento e aplicação de algoritmos, modelos
computacionais e análises estatísticas. A biologia de sistemas de plantas se
concretiza pela integração das informações fisiológicas, genéticas, moleculares e
bioquímicas dos vegetais, de acordo com sua hierarquia de complexidade (Figura 7).
O funcionamento de uma célula vegetal é atribuído às intricadas interações entre
seus componentes macromoleculares como DNA-proteína, RNA-proteína, e em
especial interações proteína-proteína (IPP). As interações DNA-proteína incluem,
por exemplo, as histonas ancoradas no DNA para formação da cromatina e fatores
de transcrição que influenciam na expressão gênica. Interações RNA-proteína
coordenam processos como síntese, processamento e transporte de RNAm, e em
complexos ribonucleoproteícos como o sistema CRISPR/Cas9. Interações proteína-
proteína ocorrem em atividades como transdução de sinal, transporte entre
membranas, e no metabolismo celular. A caracterização das interações ajuda a
elucidar os diferentes processos celulares que ocorrem nos organismos, e provê
uma base na caracterização funcional de proteínas individuais. Em plantas, é
previsto que ocorram cerca de 15.000 a 75.000 pares de interação proteica, de
proteomas estimados em 30.000 a 40.000 proteínas (SHETH; THAKER, 2014).
28
Figura 7 – Níveis hierárquicos organizacionais e sua integração.
As IPPs podem ser preditas computacionalmente. Algoritmos de predição podem
utilizar dados obtidos experimentalmente, como duplo-híbrido em leveduras, co-
imunoprecipitação de proteínas, ou sequências obtidas em bancos de dados (QI;
BAR-JOSEPH; KLEIN-SEETHARAMAN, 2006). Métodos de aprendizado de
máquina podem distinguir como pares de proteínas que interagem entre si diferem
de proteínas que não interagem, sendo o algoritmo random decision forest o mais
eficaz na predição de IPPs, em especial proteínas de membrana (QI et al., 2009). É
possível predizer IPPs através da mineração de textos, extraindo informação
diretamente do texto em artigos científicos (HOFFMANN et al., 2005). Grafos
também podem ser úteis, como grafos de coeficientes de agrupamento e
intermediação (BARABÁSI; OLTVAI, 2004).
Redes de regulação gênica são conjuntos de mecanismos reguladores que
interagem entre si e com moléculas para controlar os níveis de expressão de RNAm
e proteínas na célula. São compostos de genes, RNAs não codificantes, proteínas,
metabólitos e moléculas sinalizadoras. Os mecanismos reguladores englobam todos
os estágios da expressão gênica: transcrição do DNA, processamento e regulação
pós-transcricional, tradução do mRNA e modificações pós-traducionais das
proteínas (SHETH; THAKER, 2014). A modelagem computacional de redes de
regulação gênica em plantas já foi empregada em estudos dos processos
29
fisiológicos e do desenvolvimento, como modelagem dos sistemas que controlam o
tamanho das células-guarda durante a abertura e fechamento dos estômatos (LI;
ASSMANN; ALBERT, 2006), modelagem de células durante a diferenciação celular
na formação de flores (ESPINOSA-SOTO; PADILLA-LONGORIA; ALVAREZ-
BUYLLA, 2004), e integração de redes regulatórias mediadas por miRNAs (MENG et
al., 2011).
2.7 Casos de melhoramento genético
Os marcadores moleculares identificados pela genômica permitem a seleção de
genótipos sem a necessidade de cruzamentos-teste. Os SNPs e SSR são úteis no
desenvolvimento de mapas de ligação gênica e na genotipagem, ao revelar sítios
polimórficos e suas localidades no genoma (OLIVER et al., 2011). Genes de traços
fenotípicos agronomicamente vantajosos podem ser identificados no genoma por
marcadores moleculares, direcionando os esforços de cruzamento seletivo
(BOLGER et al., 2014). Por exemplo, alelos do gene Ryadg em batata foram
selecionados para resistência ao Potato Y Virus, através da genotipagem de
variedades selvagens de batata identificados por marcadores moleculares
(ORTEGA; LOPEZ-VIZCON, 2012). A variedade de arroz Green Super Rice foi
desenvolvida a partir do cruzamento entre diversas variedades de arroz, assistida
por marcadores associados a alelos de resistência a pragas e resistência a seca
(AGRAWAL, 2015). Em cana-de-açúcar, 1839 marcadores AFLP correspondentes a
genes do metabolismo de produção de sacarose e resistência à seca foram
utilizados na caracterização de germoplasma, e as variedades identificadas como
vantajosas foram selecionadas (CARLINI-GARCIA et al., 2012). Em feijão, 22 SSRs
polimórficos revelaram a diversidade genética de 16 cultivares, revelando diferentes
índices de heterozigosidade (VELOSO, 2014). Em eucalipto, RAPDs e SCARs
associados a genes de florescimento precoce (vantajoso para projetos de
melhoramento) foram identificados e hibridizados (GOLLE et al., 2009).
Genes identificados por bioinformática podem ser modificados por engenharia
genética para conferir um fenótipo superior. Genes de biossíntese de betacaroteno
caracterizados em narciso e milho foram utilizadas na criação do "Arroz Dourado",
30
capaz de biossintetizar o betacaroteno (KORTH, 2016). A soja resistente ao
herbicida glifosato foi desenvolvida a partir da identificação de uma proteína (5-
enolpiruvil-chiquimato-3-fosfato sintase) que não interage com o herbicida, pois o
glifosato causa toxicidade em plantas ao interferir com proteínas da via do
chiquimato. Semelhantemente, o "milho Bt" foi modificado para expressar a proteína
delta-toxina, identificada na bactéria Bacillus thurigiensis, que é tóxica a insetos e
atua na proteção do milho. Há também uma variedade de mamão geneticamente
modificado para expressar a proteína capsidial do Papaya ringspot virus Type P,
tornando-o resistente ao vírus. Eucalipto resistente a baixas temperaturas foi
desenvolvido a partir da clonagem de proteínas de Arabidospsis thaliana, e
macieiras com maior tolerância ao amarelecimento foram criadas a partir do
silenciamento do gene responsável pela proteína polifenol oxidase (BARKER et al.,
2013). A bioinformática auxilia ainda na identificação de alvos para edição por
CRISPR/Cas9, como o mapeamento de miRNAs acumulados que inibam o
funcionamento de vias de defesa contra fitopatógenos, e o desenho de RNAs-guias
para o silenciamento destes miRNAs (LIU et al., 2017).
A caracterização de vias metabólicas pela biologia de sistemas em arroz identificou
proteínas do metabolismo do amido que estão relacionadas a qualidade de
sementes para o mercado. Ao mapear a degradação do endosperma na
germinação, pôde se obter dados sobre possíveis alelos vantajosos que podem ser
cruzados para obtenção de novas cultivares. A caracterização de vias de tolerância
ao estresse térmico em arroz, trigo, milho e soja elucidaram proteínas mais
termostáveis e proteínas de choque térmico mais eficientes, o que pode direcionar
esforços de engenharia genética destas proteínas em outras plantas (DAS;
PAUDEL; ROHILA, 2015).
31
3 CONCLUSÕES
A bioinformática é uma ferramenta poderosa no melhoramento genético. Com o
enorme volume de dados gerados por plataformas NGS, torna-se inviável análises
estatísticas tradicionais, necessitando de métodos mais robustos. Com isso, a
bioinformática se consolida como uma ciência que busca sentido em dados
biológicos. Descoberta de marcadores moleculares, vias de regulação da expressão
gênica, abundância de moléculas, modelagem e experimentação in silico são
algumas das aplicações que a bioinformática traz ao melhoramento vegetal. Desta
forma, torna-se um essencial paradigma para geneticistas e melhoristas que buscam
cultivares mais eficientes e com maior valor de mercado. A integração de
experimentos computacionais (“dry lab”) com experimentos convencionais de
bancada (“wet lab”) na análise de dados ômicos pode permitir a identificação de
sistemas moleculares (e.g. interações gênicas, vias metabólicas) e sua modelagem
in silico pode direcionar esforços na busca experimental por genes e vias de
interesse para melhoramento genético.
32
REFERÊNCIAS
ABREU, P. M. V et al. Carica papaya microRNAs are responsive to Papaya meleira
virus infection. PLoS ONE, v. 9, n. 7, 2014.
AGRAWAL, G. K.; RAKWAL, R. Rice proteomics: A cornerstone for cereal food crop
prqteqmes. Mass Spectrometry Reviews, v. 25, n. 1, p. 1–53, 2006.
AGRAWAL, P. K. Omics of Model Plants. In: BARH, D.; KHAN, M. S.; DAVIES, E.
(Eds.). . PlantOmics: The Omics of Plant Science. 1. ed. [s.l.] Springer India, 2015.
p. 1–32.
BARABÁSI, A.-L.; OLTVAI, Z. N. Network biology: understanding the cell’s functional
organization. Nature Reviews Genetics, v. 5, n. 2, p. 101–113, 2004.
BARH, D.; KHAN, M. S.; DAVIES, E. (EDS.). PlantOmics: The Omics of Plant
Science. 1. ed. [s.l.] Springer India, 2015a.
BARH, D.; KHAN, M. S.; DAVIES, E. PlantOmics: The Omics of Plant Science.
[s.l.] Springer India, 2015b.
BARKER, W. D. et al. Genetically Modified Trees, The new frontier of biotechnology.
2013.
BAWA, A. S.; ANILAKUMAR, K. R. Genetically modified foods: Safety, risks and
public concerns - A review. Journal of Food Science and Technology, v. 50, n. 6,
p. 1035–1046, 2013.
BOLGER, M. et al. From plant genomes to phenotypes. Journal of Biotechnology,
v. 261, n. February, p. 46–52, 2017.
BOLGER, M. E. et al. Plant genome sequencing - applications for crop improvement.
Current Opinion in Biotechnology, v. 26, p. 31–37, 2014.
CAN, T. Introduction to Bioinformatics. In: YOUSEF, M.; ALLMER, J. (Eds.). .
miRNomics: MicroRNA Biology and Computational Analysis. Totowa, NJ:
Humana Press, 2014. p. 51–71.
CARLINI-GARCIA, L. A. et al. Aplicação de Marcadores Moleculares no
Melhoramento Genético da Cana-de-açúcar. Pesquisa & Tecnologia, v. 9, n. 2,
33
2012.
D’HONT, A. et al. The banana (Musa acuminata) genome and the evolution of
monocotyledonous plants. Nature, v. 488, n. 7410, p. 213–217, 2012.
DANIEL, J. et al. A Survey of Artificial Neural Network-Based Modeling in
Agroecology. In: PRASAD, B. (Ed.). . Soft Computing Applications in Industry.
Berlin, Heidelberg: Springer Berlin Heidelberg, 2008. p. 247–269.
DAS, A.; PAUDEL, B.; ROHILA, J. S. Potentials of Proteomics in Crop Breeding. In:
AL-KHAYRI, J. M.; JAIN, S. M.; JOHNSON, D. V (Eds.). . Advances in Plant
Breeding Strategies: Breeding, Biotechnology and Molecular Tools. Cham:
Springer International Publishing, 2015. p. 513–537.
DNA DATA BANK OF JAPAN. DDBJ Database Release History. Disponível em:
<http://www.ddbj.nig.ac.jp/breakdown_stats/dbgrowth-e.html>. Acesso em: 9 dez.
2017.
ESPINOSA-SOTO, C.; PADILLA-LONGORIA, P.; ALVAREZ-BUYLLA, E. R. A gene
regulatory network model for cell-fate determination during Arabidopsis thalianal
flower development that is robust and recovers experimental gene expression
profiles. Plant Cell, v. 16, n. 11, p. 2923–2939, 2004.
GLEZAKOS, T. J. et al. Plant virus identification based on neural networks with
evolutionary preprocessing. Computers and Electronics in Agriculture, v. 70, n. 2,
p. 263–275, 2010.
GOLLE, D. P. et al. Melhoramento florestal: ênfase na aplicação da biotecnologia.
Ciência Rural, v. 39, p. 1607–1614, 2009.
GUPTA, D. B.; SHEKHAR, S.; AGRAWAL, L. Plant Proteomics: Technologies and
Applications. In: BARH, D.; KHAN, M. S.; DAVIES, E. (Eds.). . PlantOmics: The
Omics of Plant Science. New Delhi: Springer India, 2015. p. 213–256.
HANCOCK, J. F. Contributions of domesticated plant studies to our understanding of
plant evolution. Annals of Botany, v. 96, n. 6, p. 953–963, 2005.
HOCHER, V. et al. Transcriptomics of Actinorhizal Symbioses Reveals Homologs of
the Whole Common Symbiotic Signaling Cascade. Plant Physiology, v. 156, n. 2, p.
700–711, 2011.
34
HOFFMANN, R. et al. Text Mining for Metabolic Pathways, Signaling Cascades, and
Protein Networks. Science Signaling, v. 2005, n. 283, p. pe21-pe21, 2005.
HUANG, S. et al. The genome of the cucumber, Cucumis sativus L. Nature
Genetics, v. 41, n. 12, p. 1275–1281, 2009.
HYTEN, D. L. et al. High-throughput SNP discovery through deep resequencing of a
reduced representation library to anchor and orient scaffolds in the soybean whole
genome sequence. BMC genomics, v. 11, n. 1, p. 38, 2010.
ILLUMINA. HiSeqX series of sequencing systemsSan Diego, EUA, 2015.
JAILLON, O. et al. The grapevine genome sequence suggests ancestral
hexaploidization in major angiosperm phyla. Nature, v. 449, n. 7161, p. 463–467,
2007.
JHA, U. C. et al. Functional Genomics: Applications in Plant Science. In: BARH, D.;
KHAN, M. S.; DAVIES, E. (Eds.). . PlantOmics: The Omics of Plant Science. New
Delhi: Springer India, 2015. p. 65–111.
JIANG, G.-L. Molecular Marker-Assisted Breeding: A Plant Breeder’s Review. In: AL-
KHAYRI, J. M.; JAIN, S. M.; JOHNSON, D. V (Eds.). . Advances in Plant Breeding
Strategies: Breeding, Biotechnology and Molecular Tools. Cham: Springer
International Publishing, 2015. p. 431–472.
KAV, N. N. V et al. Application of Proteomics to Investigate Plant-Microbe
Interactions. Current Proteomics, v. 4, n. 1, p. 28–43, 2007.
KLOOSTERMAN, B. et al. Naturally occurring allele diversity allows potato cultivation
in northern latitudes. Nature, v. 495, p. 246–250, 2013.
KORTH, K. L. Genes and Traits of Interest. In: Plant Biotechnology and Genetics:
Principles, Techniques, and Application. 2. ed. [s.l.] John Wiley & Sons Ltd, 2016.
p. 211–231.
KRISHNA, H. et al. Somaclonal variations and their applications in horticultural crops
improvement. 3 Biotech, v. 6, n. 1, p. 1–18, 2016.
KUMAR, D. et al. Integrating transcriptome and proteome profiling : p. 2533–2544,
2016.
35
LEE, L. S. et al. Mutation and Mutation Screening. In: HENRY, R. J.; FURTADO, A.
(Eds.). . Cereal Genomics: Methods and Protocols. Totowa, NJ: Humana Press,
2014. p. 77–95.
LI, S.; ASSMANN, S. M.; ALBERT, R. Predicting essential components of signal
transduction networks: A dynamic model of guard cell abscisic acid signaling. PLoS
Biology, v. 4, n. 10, p. 1732–1748, 2006.
LI, Z. et al. Comparison of the two major classes of assembly algorithms: Overlap-
layout-consensus and de-bruijn-graph. Briefings in Functional Genomics, v. 11, n.
1, p. 25–37, 2012.
LIHUA, L. I. et al. Transcriptomic analysis of rice responses to low phosphorus
stress. Chinese Science Bulletin, v. 55, n. 3, p. 251–258, 2010.
LIU, W.; STEWART, C. N. Plant Systems Biology. In: Plant Biotechnology and
Genetics: Principles, Techniques, and Application. 2. ed. [s.l.] John Wiley & Sons
Ltd, 2016. p. 155–180.
LIU, X. et al. Application of CRISPR/Cas9 in plant biology. Acta Pharmaceutica
Sinica B, v. 7, n. 3, p. 292–302, 2017.
LUSCOMBE, N. M.; GREENBAUM, D.; GERSTEIN, M. What is bioinformatics? A
proposed definition and overview of the field. Methods of Information in Medicine,
v. 40, n. 4, p. 346–358, 2001.
MANAA, A. et al. Salt and genotype impact on plant physiology and root proteome
variations in tomato. Journal of Experimental Botany, v. 62, n. 8, p. 2797–2813,
2011.
MATTIELLO, L. et al. Transcriptional profile of maize roots under acid soil growth.
BMC Plant Biology, v. 10, n. 1, p. 196, 2010.
MENG, Y. et al. The Regulatory Activities of Plant MicroRNAs: A More Dynamic
Perspective. Plant Physiology, v. 157, n. 4, p. 1583–1595, 2011.
MOHORIANU, I. et al. Profiling of short RNAs during fleshy fruit development reveals
stage-specific sRNAome expression patterns. Plant Journal, v. 67, n. 2, p. 232–246,
2011.
36
NARSAI, R.; CASTLEDEN, I.; WHELAN, J. Common and distinct organ and stress
responsive transcriptomic patterns in Oryza sativa and Arabidopsis thaliana. BMC
Plant Biology, v. 10, n. 1, p. 262, 2010.
NATIONAL INSTITUTES OF HEALTH. Talking Glossary of Genetic Terms.
Disponível em: <https://www.genome.gov/glossary/>. Acesso em: 9 dez. 2017.
NIE, X. et al. Development of chromosome-arm-specific microsatellite markers in
Triticum aestivum (Poaceae) using NGS technology. American Journal of Botany,
v. 99, n. 9, p. 369–371, 2012.
NYSTEDT, B. et al. The Norway spruce genome sequence and conifer genome
evolution. Nature, v. 497, n. 7451, p. 579–584, 2013.
OLIVER, R. E. et al. Model SNP development for complex genomes based on
hexaploid oat using high-throughput 454 sequencing technology. BMC Genomics, v.
12, n. 1, p. 77, 2011.
ONG, Q. et al. Bioinformatics Approach in Plant Genomic Research. Current
Genomics, v. 17, p. 368–378, 2016.
OPHIR, R. Bioinformatics tools for marker discovery in plant breeding. Israel Journal
of Chemistry, v. 53, n. 3–4, p. 173–179, 2013.
ORTEGA, F.; LOPEZ-VIZCON, C. Application of Molecular Marker-Assisted
Selection (MAS) for Disease Resistance in a Practical Potato Breeding Programme.
Potato Research, v. 55, n. 1, p. 1–13, 2012.
ORTIZ-MOREA, F. A. et al. Global analysis of the sugarcane microtranscriptome
reveals a unique composition of small RNAs associated with axillary bud outgrowth.
Journal of Experimental Botany, v. 64, n. 8, p. 2307–2320, 2013.
OSAMA, K.; MISHRA, B. N.; SOMVANSHI, P. Machine Learning Techniques in Plant
Biology. In: BARH, D.; KHAN, M. S.; DAVIES, E. (Eds.). . PlantOmics: The Omics
of Plant Science. New Delhi: Springer India, 2015. p. 731–754.
PETTERSSON, E.; LUNDEBERG, J.; AHMADIAN, A. Generations of sequencing
technologies. Genomics, v. 93, n. 2, p. 105–111, 2009.
QI, Y. et al. Systematic prediction of human membrane receptor interactions.
37
Proteomics, v. 9, n. 23, p. 5243–5255, 2009.
QI, Y.; BAR-JOSEPH, Z.; KLEIN-SEETHARAMAN, J. Evaluation of Different
Biological Data and Computational Classification Methods for Use in Protein
Interaction Prediction. Proteins, v. 63, p. 490–500, 2006.
REUTER, J. A.; SPACEK, D. V.; SNYDER, M. P. High-Throughput Sequencing
Technologies. Molecular Cell, v. 58, n. 4, p. 586–597, 2015.
RODRIGUES, S. P. et al. Label-free quantitative proteomics reveals differentially
regulated proteins in the latex of sticky diseased Carica papaya L. plants. Journal of
Proteomics, v. 75, n. 11, p. 3191–3198, 2012.
RYAN, B.; JOILIN, G.; WILLIAMS, J. M. Plasticity-related microRNA and their
potential contribution to the maintenance of long-term potentiation. Frontiers in
Molecular Neuroscience, v. 8, n. February, p. 1–17, 2015.
SANA, T. R. et al. Metabolomic and transcriptomic analysis of the rice response to
the bacterial blight pathogen Xanthomonas oryzae pv. oryzae. Metabolomics, v. 6,
n. 3, p. 451–465, 2010.
SCHATZ, M. Assembly of Large Genomes using Cloud Computing. p. 1165–1173,
2010.
SCHATZ, M. C. Biological data sciences in genome research. Genome Research, v.
25, n. 10, p. 1417–1422, 2015.
SELZER, P. M.; MARHÖFER, R. J.; ROHWER, A. Applied Bioinformatics: An
Introduction. 1. ed. [s.l.] Springer Berlin Heidelberg, 2008a.
SELZER, P. M.; MARHÖFER, R. J.; ROHWER, A. (EDS.). Biological Databases. In:
Applied Bioinformatics: An Introduction. Berlin, Heidelberg: Springer Berlin
Heidelberg, 2008b. p. 45–74.
SHENDURE, J. et al. DNA sequencing at 40: Past, present and future. Nature, v.
550, n. 7676, 2017.
SHETH, B. P.; THAKER, V. S. Plant systems biology: Insights, advances and
challenges. Planta, v. 240, n. 1, p. 33–54, 2014.
SLEPER, D. A.; POEHLMAN, J. M. Breeding field crops. [s.l.] Blackwell Pub, 2006.
38
SMITH, R. H. (ED.). Plant Tissue Culture: Techniques and Experiments. 3. ed.
[s.l: s.n.].
SOARES, E. DE A. et al. Label-free quantitative proteomic analysis of pre-flowering
PMeV-infected Carica papaya L. Journal of Proteomics, v. 151, 2016.
THE ARABIDOPSIS GENOME INITIATIVE. Analysis of the genome sequence of the
flowering plant Arabidopsis thaliana. Nature, v. 408, n. 6814, p. 796–815, 2000.
TIWARY, B. K. Next-Generation Sequencing and Assembly of Plant Genomes. In:
BARH, D.; KHAN, M. S.; DAVIES, E. (Eds.). . PlantOmics: The Omics of Plant
Science. New Delhi: Springer India, 2015. p. 53–64.
TOPPA, E. V. B.; JADOSKI, C. J. O Uso dos Marcadores Moleculares no
Melhoramento Genético de Plantas. Scientia Agraria Paranaensis, v. 12, n. 1, p. 1–
5, 2013.
TUSKAN, G. A. et al. The Genome of Black Cottonwood, Populus trichocarpa.
Science, v. 313, n. 5793, p. 1596–1604, 2006.
VARSHNEY, R. K. et al. Draft genome sequence of pigeonpea (Cajanus cajan), an
orphan legume crop of resource-poor farmers. Nature Biotechnology, v. 30, n. 1, p.
83–89, 2012.
VARSHNEY, R. K. et al. Draft genome sequence of chickpea (Cicer arietinum)
provides a resource for trait improvement. Nature Biotechnology, v. 31, n. 3, p.
240–246, 2013.
VASSILEV, D. et al. Application of bioinformatics in plant breeding. Biotechnology
and Biotechnological Equipment, v. 19, n. October, p. 139–152, 2005.
VELOSO, J. S. Divergência genética de cultivares de feijão. [s.l.] Universidade
Federal de Lavras, 2014.
WANG, H. et al. Development and cross-species/genera transferability of
microsatellite markers discovered using 454 genome sequencing in chokecherry
(Prunus virginiana L.). Plant Cell Reports, v. 31, n. 11, p. 2047–2055, 2012.
WANG, X. et al. The genome of the mesopolyploid crop species Brassica rapa.
Nature Genetics, v. 43, n. 10, p. 1035–1040, 2011.
39
WILDE, H. D. Induced Mutations in Plant Breeding. In: Advances in Plant Breeding
Strategies: Breeding, Biotechnology and Molecular Tools. Cham: Springer
International Publishing, 2015. p. 329–344.
WITTEN, I. H. (IAN H. . et al. Data mining : practical machine learning tools and
techniques. 4. ed. [s.l.] Elsevier Inc., 2017.
XIA, Z. et al. Positional cloning and characterization reveal the molecular basis for
soybean maturity locus E1 that regulates photoperiodic flowering. Proceedings of
the National Academy of Sciences, v. 109, n. 32, p. E2155–E2164, 2012.
XU, Q. et al. The draft genome of sweet orange (Citrus sinensis). Nature Genetics,
v. 45, n. 1, p. 59–66, 2013a.
XU, X. et al. Genome sequence and analysis of the tuber crop potato. Nature, v.
475, n. 7355, p. 189–195, 2011.
XU, Y. et al. The draft genome of watermelon (Citrullus lanatus) and resequencing of
20 diverse accessions. Nature Genetics, v. 45, n. 1, p. 51–58, 2013b.
XU, Y.; CROUCH, J. H. Marker-assisted selection in plant breeding: From
publications to practice. Crop Science, v. 48, n. 2, p. 391–407, 2008.
YOU, F. M. et al. Annotation-based genome-wide SNP discovery in the large and
complex Aegilops tauschii genome using next-generation sequencing without a
reference genome sequence. BMC Genomics, v. 12, n. 1, p. 59, 2011.
YU, J. A Draft Sequence of the Rice Genome (Oryza sativa L. ssp. indica). Science,
v. 296, n. 5565, p. 79–92, 2002.
ZHAO, C. Z. et al. Deep sequencing identifies novel and conserved microRNAs in
peanuts (Arachis hypogaea L.). BMC Plant Biol, v. 10, p. 3, 2010.
ZOHARY, D.; HOPF, M.; WEISS, E. Domestication of Plants in the Old World:
The origin and spread of domesticated plants in Southwest Asia, Europe, and
the Mediterranean Basin. [s.l.] Oxford University Press, 2012.