39
UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO CENTRO DE CIÊNCIAS HUMANAS E NATURAIS DEPARTAMENTO DE CIÊNCIAS BIOLÓGICAS MAURÍCIO ALEXANDER DE MOURA FERREIRA BIOINFORMÁTICA COMO FERRAMENTA NO MELHORAMENTO GENÉTICO DE PLANTAS VITÓRIA 2017

BIOINFORMÁTICA COMO FERRAMENTA NO …biologia.ufes.br/.../anexo/mauricio_alexander_de_moura_ferreira_.pdf · Trabalho de conclusão de curso apresentado ao Departamento de Ciências

Embed Size (px)

Citation preview

UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO

CENTRO DE CIÊNCIAS HUMANAS E NATURAIS

DEPARTAMENTO DE CIÊNCIAS BIOLÓGICAS

MAURÍCIO ALEXANDER DE MOURA FERREIRA

BIOINFORMÁTICA COMO FERRAMENTA NO

MELHORAMENTO GENÉTICO DE PLANTAS

VITÓRIA

2017

MAURÍCIO ALEXANDER DE MOURA FERREIRA

BIOINFORMÁTICA COMO FERRAMENTA NO MELHORAMENTO GENÉTICO DE

PLANTAS

Trabalho de conclusão de curso apresentado ao Departamento de Ciências Biológicas do Centro de Ciências Humanas e Naturais da Universidade Federal do Espírito Santo, como requisito parcial para obtenção do grau de Bacharel em Ciências Biológicas.

Orientadora: Prof.ª Dr.ª Patrícia

Machado Bueno Fernandes

VITÓRIA

2017

MAURÍCIO ALEXANDER DE MOURA FERREIRA

BIOINFORMÁTICA COMO FERRAMENTA NO MELHORAMENTO GENÉTICO DE

PLANTAS

Trabalho de conclusão de curso

apresentado ao Departamento de

Ciências Biológicas do Centro de

Ciências Humanas e Naturais da

Universidade Federal do Espírito

Santo, como requisito parcial para

obtenção do grau de Bacharel em

Ciências Biológicas.

Orientadora: Prof.ª Dr.ª Patrícia

Machado Bueno Fernandes

Aprovado em 21 de dezembro de 2017

COMISSÃO EXAMINADORA

_________________________________________________

Prof.ª Dr.ª Patrícia Machado Bueno Fernandes

Universidade Federal do Espírito Santo

Orientadora

_________________________________________________

Dr. Oeber de Freitas Quadros

Universidade Federal do Espírito Santo

_________________________________________________

Profª. Drª. Diolina Moura Silva

Universidade Federal do Espírito Santo

A Gersimar, Norma, Gersimar Jr.,

Denise e Francisco, pilares da minha

felicidade.

AGRADECIMENTOS

A Universidade Federal do Espírito Santo, alicerce da minha formação

profissional e científica.

As agências de fomento, FAPES, CAPES e CNPq, pelo apoio financeiro e

incentivo à formação de recursos humanos na ciência.

A minha orientadora, Prof.ª Dr.ª Patrícia Fernandes, pelas orientações, pela

oportunidade de imersão em pesquisa científica e pelo exemplo de competência e

sumidade o qual posso me espelhar.

Aos professores Dr. Alberto Fernandes, Dr. Alexandre Santos, Dr.ª Diolina

Moura, e Dr. José Aires Ventura, por todos os ensinamentos que contribuíram para

meu desenvolvimento acadêmico.

Ao meu supervisor na iniciação científica, Dr. Oeber Quadros, pela

inestimável amizade e por trilhar meus caminhos na prática da ciência.

Ao corpo docente da graduação, por todo o conhecimento adquirido ao longo

do curso que me ajudou nesta jornada científica.

Aos colegas de laboratório, que contribuíram através de conversas,

discussões e elucubrações sobre as complexidades dos sistemas biológicos.

A Ana Carolina Graciano, Isabela Ramos, Luiza Adami e Luiza Favarato, por

compartilharem das vivências e experiências na iniciação científica que nos

elevaram e somaram em nosso conhecimento.

A Bruno Evaldt, Marina Braga e Stefanie Lievore, por serem meus

companheiros nas dificuldades da graduação e por tornarem prazerosa esta

caminhada.

"Está chovendo DNA lá fora. Estão

fazendo chover instruções lá fora, uma

chuva de programas, uma chuva de

algoritmos para o crescimento de

árvores. Isto não é uma metáfora, é a

pura verdade."

Richard Dawkins, em “O Relojoeiro

Cego” (1986)

RESUMO

A partir do ano 2000, com o sequenciamento do genoma da planta-modelo

Arabidopsis thaliana, a bioinformática tornou-se essencial para o melhoramento

vegetal. O desenvolvimento de plataformas de sequenciamento de ácidos nucleicos

gerou um volume astronômico de dados (“big data”) desde sua concepção, sendo

necessários esforços computacionais para sua análise. Após o sequenciamento de

um genoma, sua análise é feita por bioinformática, empregando algoritmos

computacionais para sua montagem e anotação. As análises do genoma podem

revelar genes presentes em um organismo e os marcadores moleculares associados

aos genótipos. A genotipagem por marcadores moleculares, associadas ao estudo

das vias de expressão gênica, permite que o fenótipo seja inferido a partir destas

informações. Todas as informações sobre sequências, moléculas e suas anotações

são armazenadas em bancos de dados públicos. Abordagens ômicas como a

transcriptômica e proteômica indicam o estado fisiológico de plantas sobre diversas

condições. Algoritmos de aprendizado de máquina, mineração de dados e redes

neurais permitem ao computador buscar por padrões em enormes volumes de

dados, e compreendem uma abordagem mais profundamente computacional do que

propriamente biológica. Por fim, a biologia de sistemas integra dados de diferentes

níveis hierárquicos e aplica modelos matemáticos na elucidação de mecanismos

moleculares.

Palavras-chave: Agricultura. Ciências agrárias. Computação. Biotecnologia.

ABSTRACT

Since the year 2000, with the sequencing of the model plant Arabidopsis thaliana,

bioinformatics became an important tool for crop breeding. Large sets of data were

generated by high-throughput sequencing, requiring computational efforts to make

sense of the data. After sequencing a genome, it is necessary to assemble and

annotate it. This is accomplished by computer algorithms. Genome analysis reveal

the set of genes present in a certain organism, and the molecular markers associated

with a genotype. The use of molecular markers for genotyping, combined with gene

expression analysis, allows the inference of the phenotype through data. All

information generated about sequences, molecules, and pathways, are stored in

public online databases. Omics approaches such as proteomics and transcriptomics

can reveal the physiological state of a plant. Machine learning, data mining, and

neural networks allows computers to find patterns in large volumes of data. This

approach is more related to computer science than biology. Finally, systems biology

can be used for integration of data in a number of hierarchical levels. The use of

mathematical modelling can elucidate the mechanisms of many molecular systems.

Keywords: Agriculture. Crop science. Computing. Biotechnology.

LISTA DE FIGURAS

Figura 1 – Evolução do trigo moderno (Triticum aestivum). ............................... 14

Figura 2 – Montagem de genomas por sobreposição de sequências. Adaptado

de National Institutes of Health (2017)................................................................... 18

Figura 3 – A) Esquematização de um grafo. O problema das Pontes de

Königsberg representa um grafo de caminho euleriano. Devem-se atravessar

todas as pontes, porém sem repetir nenhuma. Ou seja, o fluxo de interações

passa por cada nó apenas uma vez. B) Contigs para montagem C) Divisão de

contigs em k-mers e montagem genômica com grafo de Bruijin por caminho

euleriano. Adaptado de Schatz, (2010). ................................................................. 19

Figura 4 – Software UGENE para análise de sequencias de DNA ...................... 22

Figura 5 – Software EMBOSS em uso no terminal ............................................... 23

Figura 6 – Regulação por RNAs pequenos. Adaptado de Ryan et al., (2015). ... 26

Figura 7 – Níveis hierárquicos organizacionais e sua integração. ..................... 28

LISTA DE TABELAS

Tabela 1 – Marcadores moleculares utilizados no melhoramento. ..................... 16

Tabela 2 – Bancos de dados online ....................................................................... 21

Tabela 3 – Exemplos de softwares de código-aberto .......................................... 24

Tabela 4 – Linguagens de programação e seus pacotes para bioinformática .. 24

LISTA DE ABREVIATURAS

DNA – Ácido desoxirribonucleico

RFLP - Restriction Fragment Lenght Polymorphism

RAPD - Random Amplified Polymorphic DNA

SNP - Single Nucleotide Polymorphism

SCAR - Sequence Characterized Amplified Regions

SSR - Simple Sequence Repeats

WGS - Whole Genome Shotgun Sequencing

NGS - Next Generation Sequencing

OLC - Overlap-layout-consensus

DBG - Grafo de Bruijin

SGA - Grafo de cordas

RNA – Ácido ribonucleico

miRNA - microRNA

siRNA – Pequeno RNA de interferência

NCBI - National Center for Biotechnology Information

PMeV – Complexo papaya meleira virus e papaya meleira virus 2

IPP - Interações proteína-proteína

SUMÁRIO

1 INTRODUÇÃO ....................................................................................................... 13

1.1 A bioinformática ................................................................................................ 13

1.2 A arte e ciência do melhoramento vegetal ...................................................... 14

2 BIOINFORMÁTICA NO MELHORAMENTO VEGETAL ........................................ 16

2.1 Genômica de plantas ........................................................................................ 16

2.2 Bancos de dados genômicos ........................................................................... 21

2.3 Ferramentas de software .................................................................................. 22

2.4 Análise da expressão gênica ........................................................................... 24

2.5 Aprendizado de máquina .................................................................................. 26

2.6 Biologia de sistemas ......................................................................................... 27

2.7 Casos de melhoramento genético ................................................................... 29

3 CONCLUSÕES ...................................................................................................... 31

REFERÊNCIAS ......................................................................................................... 32

13

1 INTRODUÇÃO

1.1 A bioinformática

O desenvolvimento de plataformas de sequenciamento de ácidos nucleicos gerou

um volume astronômico de dados (“big data”) desde sua popularização

(PETTERSSON; LUNDEBERG; AHMADIAN, 2009). A necessidade de analisar e

interpretar estes dados fez nascer a bioinformática: uma ciência capaz de explorar

essa infinidade de dados através de ferramentas computacionais (LUSCOMBE;

GREENBAUM; GERSTEIN, 2001).

Os dados biológicos são gerados de diversas maneiras. Por exemplo, dados de

ácidos nucléicos são gerados por sequenciamento, dados de proteínas são obtidos

por métodos analíticos como espectrometria de massas, e interações gênicas ou

proteicas por experimentos como duplo-híbrido de leveduras (BARH; KHAN;

DAVIES, 2015a). Uma das formas de lidar com estes grandes volumes de dados é a

partir da implementação de algoritmos, que são séries de instruções para execução

de tarefas, como cálculos matemáticos, processamento de dados, e automação de

processos (CAN, 2014). Algoritmos na análise de sequências permite a montagem e

anotação de genomas, identificação de similaridades entre organismos (homologias)

e suas implicações evolutivas. Além disso, algoritmos são usados na construção de

modelos tridimensionais de RNAs e proteínas a partir de sequências (SELZER;

MARHÖFER; ROHWER, 2008a).

A bioinformática torna possível a integração de diversos tipos de dados biológicos,

como sequências de DNA, estrutura de peptídeos, vias metabólicas e vias de

sinalização. Com isso, é possível entender com maior resolução os processos

biológicos como mudanças na expressão gênica, localização de proteínas e suas

interações com genes e outras proteínas, e como o acervo total de metabólitos

altera o funcionamento de um tecido (VASSILEV et al., 2005). Com a difusão de

plataformas de sequenciamento, a bioinformática tornou-se essencial no

melhoramento vegetal. Do funcionamento de raízes, caules e folhas, formação de

flores e frutos, aos ciclos de vida e reprodução, a bioinformática vegetal revela as

diversas funções desempenhadas pelos genes das plantas, como os intricados

14

sistemas moleculares que integram o metabolismo e são determinantes na formação

do fenótipo observado, demonstrando sua aplicabilidade e importância em todas as

áreas do melhoramento genético de plantas (VASSILEV et al., 2005).

1.2 A arte e ciência do melhoramento vegetal

O melhoramento vegetal é tanto uma ciência quanto é uma arte, dedicada a

modificação de plantas para benefício humano (SLEPER; POEHLMAN, 2006). A

domesticação é um processo evolutivo onde as plantas domesticadas sofrem

alterações morfológicas e fisiológicas que as distinguem de seus ancestrais

selvagens (HANCOCK, 2005). Estas alterações são alcançadas através da seleção

artificial e cruzamento seletivo, onde traços fenotípicos de interesse são

selecionados por agricultores que julgam as novas variedades como sendo

vantajosas e as plantam no próximo cultivo, além de seletivamente cruzarem com

outras plantas de interesse (ZOHARY; HOPF; WEISS, 2012). O processo de

domesticação dos cereais selvagens fornece um exemplo de como a seleção

artificial é empregada para alterar as características de uma espécie (Figura 1).

Figura 1 - Evolução do trigo moderno (Triticum aestivum).

15

Avanços na bioquímica e genética de plantas propiciaram o desenvolvimento de

diversas técnicas de melhoramento que complementaram substancialmente o

cruzamento seletivo (WILDE, 2015). A cultura de tecidos vegetais permite a

propagação e hibridização in vitro de células, tecidos e órgãos de plantas, além de

transformações genéticas (SMITH, 2013). A mutagênese é uma técnica de indução

de mutações em sementes e órgãos de plantas para a produção de novas

características. Plantas mutantes com fenótipo agronomicamente vantajoso são

cruzadas com variedades de interesse para obtenção de novas cultivares (LEE et

al., 2014). A cultura de tecidos também pode ser uma fonte de mutantes, devido ao

fenômeno de variação somaclonal (KRISHNA et al., 2016). As tecnologias de DNA

recombinante permitem a modificação direta do genoma das plantas, apresentando

fenótipo resultante da expressão dos genes alterados (BAWA; ANILAKUMAR,

2013).

Durante a maior parte da história do melhoramento vegetal, as características de

interesse eram selecionadas por indicadores morfológicos como cor, tamanho e

formato do fruto, altura da planta, número de inflorescências, dentre outros (TOPPA;

JADOSKI, 2013). Estes indicadores representam polimorfismos (variedade de alelos

em um mesmo locus) que podem ser estudados e selecionados ao nível dos genes

e proteínas que produzem tais características, sendo chamados de marcadores

moleculares. Este tipo de melhoramento é denominado melhoramento assistido por

marcadores moleculares (XU; CROUCH, 2008). Dessa forma, marcadores

moleculares permitem acessar diretamente o genótipo de um organismo, sem a

necessidade da expressão do fenótipo, que pode ser afetado por fatores como

interações gênicas e influência ambiental (JIANG, 2015). A Tabela 1 resume os

principais tipos de marcadores moleculares usados atualmente.

16

Tabela 1 – Marcadores moleculares utilizados no melhoramento.

Marcador molecular Característica

Polimorfismo no Comprimento do

Fragmento de Restrição (RFLP, do

inglês Restriction Fragment Lenght

Polymorphism)

Perfil de clivagem do DNA por

enzimas de restrição

DNA Polimórfico Amplificado

Aleatoriamente (RAPD, do inglês

Random Amplified Polymorphic DNA)

Perfil de amplificação do DNA por

primers aleatórios

Polimorfismo de único nucleotídeo

(SNP, do inglês Single Nucleotide

Polymorphism)

Mutações pontuais na sequência de

DNA

Regiões Amplificadas de Sequências

Caracterizadas (SCAR, do inglês

Sequence Characterized Amplified

Regions)

Amplificação espécie-específica por

PCR

Repetições simples de sequências

(SSR, do inglês Simple Sequence

Repeats)

Repetições de nucleotídeos

2 BIOINFORMÁTICA NO MELHORAMENTO VEGETAL

2.1 Genômica de plantas

A primeira planta a ter seu genoma sequenciado foi a planta-modelo Arabidopsis

thaliana, no ano 2000 (THE ARABIDOPSIS GENOME INITIATIVE, 2000). Nos anos

seguintes, foi sequenciado o genoma de diversas plantas cultivadas, como arroz em

2002 (YU, 2002) e uva em 2007 (JAILLON et al., 2007), e também de plantas não

cultivadas, como Populus trichocarpa (árvore-modelo) em 2006 (TUSKAN et al.,

2006). O sequenciamento de Sanger foi o primeiro método a ser utilizado para

projetos de sequenciamento de genomas completos de plantas (THE ARABIDOPSIS

GENOME INITIATIVE, 2000). O método consiste na replicação in vitro de DNA com

17

o uso de nucleotídeos modificados que terminam prematuramente a síntese do

DNA.

A principal estratégia para sequenciamento consiste em fragmentar o genoma em

múltiplas sequências menores, e sequenciar cada fragmento individualmente,

chamada sequenciamento completo do genoma por fragmentação (WGS, do inglês

whole genome shotgun sequencing) (SHENDURE et al., 2017). Os fragmentos

sequenciados são unidos novamente por bioinformática. Apesar de reduzir o tempo

e esforço de projetos de sequenciamento, o WGS ainda continuava caro por conta

do alto custo do método de Sanger (BOLGER et al., 2014). O desenvolvimento de

plataformas de sequenciamento de alto rendimento (do inglês High-Throughput

Sequencing, previamente chamado de Next Generation Sequencing, NGS) reduziu

consideravelmente o custo e o tempo de sequenciamento (REUTER; SPACEK;

SNYDER, 2015).

A plataforma Illumina HiSeq emergiu como a plataforma de sequenciamento

dominante, sendo o genoma do pepino o primeiro genoma vegetal sequenciado pela

plataforma, em 2009 (HUANG et al., 2009). Diversos outros vegetais tiveram seus

genomas sequenciados por esta plataforma, como a batata (XU et al., 2011), a

banana (D’HONT et al., 2012), a laranja (XU et al., 2013a), o grão-de-bico

(VARSHNEY et al., 2013), a melancia (XU et al., 2013b), a ervilha-de-pombo

(VARSHNEY et al., 2012), variedades de repolho da China (WANG et al., 2011), e o

espruce-da-noruega (NYSTEDT et al., 2013). As tecnologias NGS geram volumes

gigantescos de dados. No período entre 1995 (ano do sequenciamento do primeiro

genoma completo, da bactéria Haemophilus influenzae) e 2015, a capacidade de

geração de dados genômicos duplicou a cada 9 meses (SCHATZ, 2015). A

plataforma Illumina X10, lançada em 2015, é capaz de sequenciar o equivalente a

um genoma humano haploide por minuto (3 Gbp/min) (ILLUMINA, 2015).

Após o sequenciamento por WGS, é necessário reconstruir a sequência original a

partir dos fragmentos sequenciados. Este processo é nomeado montagem de

genomas, que funciona como a montagem de um quebra-cabeças, onde cada

fragmento é uma peça, e o genoma é o quebra-cabeça finalizado. Na montagem de

genomas por referência, o genoma é reconstruído a partir de genomas já existentes,

18

por homologia. Na montagem de sequências de novo, os fragmentos sequenciados

são unidos por algoritmos computacionais (TIWARY, 2015).

A montagem de novo forma uma sequência longa chamada contig. O algoritmo de

consenso de sobreposição (OLC, do inglês overlap-layout-consensus) busca regiões

de sobreposição entre fragmentos e deriva um contig por uma sequência consenso

(Figura 2) (LI et al., 2012).

Figura 2 - Montagem de genomas por sobreposição de sequências. Adaptado de

National Institutes of Health (2017).

Algoritmos de grafos também são úteis na montagem de genomas, como grafo de

Bruijin (DBG, do inglês De Bruijin Graph) e grafos de caminho euleriano (LI et al.,

2012). Na abordagem baseada em grafos, os fragmentos de sequência são divididos

em sequência menores (k-mer), onde cada k-mer é integrado a um DBG para

determinar a sequência original. A solução ótima é encontrada através da busca por

um caminho euleriano, onde cada caminho passa por um nó uma única vez (Figura

3) (TIWARY, 2015).

19

Figura 3 – A) Esquematização de um grafo. O problema das Pontes de Königsberg

representa um grafo de caminho euleriano. Devem-se atravessar todas as pontes,

porém sem repetir nenhuma. Ou seja, o fluxo de interações passa por cada nó

apenas uma vez. B) Contigs para montagem C) Divisão de contigs em k-mers e

montagem genômica com grafo de Bruijin por caminho euleriano. Adaptado de

Schatz, (2010).

A montagem de novo gera contigs que necessitam ser reunidos para a formação do

genoma completo. Os contigs são unidos em uma sequência contínua denominada

20

supercontig ou scaffold. Para gerar um genoma inteiro, os contigs são orientados na

direção 5’-3’ e postos na ordem correta. Em seguida, a distância (em pares de base)

entre um contig outro é calculada, e lacunas entre contigs são corrigidas, resultando

em um genoma completo. A construção de scaffolds pode ser mais precisa

integrando dados como sequências de referência, mapas de restrição e dados de

RNA-seq (TIWARY, 2015).

A montagem do genoma é apenas o primeiro passo na análise genômica. É

necessário, em seguida, interpretar o significado das sequências. Este processo é

chamado anotação de genomas, e revela as diversas características do genoma,

tendo amplas aplicações (BOLGER et al., 2017). É possível identificar e caracterizar

marcadores moleculares, como os 246 SSRs identificados em Prunus virginiana

(WANG et al., 2012), e SNPs codominantes em trigo desenvolvidos para diferenciar

genótipos heterozigotos e homozigotos (NIE et al., 2012). Em soja, foram

identificados 1.790 SNPs, utilizados para reconstrução do mapa genético (HYTEN et

al., 2010). Em trigo, 497.118 SNPs foram descobertos (YOU et al., 2011). A

sequência do genoma da soja desvendou o locus E1, que controla o tempo de

floração em adaptação a diferentes fotoperíodos (XIA et al., 2012). O

sequenciamento do genoma da batata auxiliou na identificação de fatores de

transcrição que regulam a maturidade da planta e seu ciclo de vida

(KLOOSTERMAN et al., 2013).

Pequenos RNAs não-codificantes como os microRNAs (miRNA) e os pequenos

RNAs de interferência (siRNA) podem ser mapeados na anotação do genoma. Em

amendoim, após sequenciamento do genoma por NGS, foram identificadas 36

famílias de miRNAs associados ao crescimento e resposta a estresses ambientais

(ZHAO et al., 2010). Também foram identificados siRNAs em tomate responsáveis

pelo desenvolvimento de amadurecimento de frutos (MOHORIANU et al., 2011). Na

cana-de-açúcar, 26 famílias de miRNAs envolvidos no crescimento de gemas

axilares foram detectados (ORTIZ-MOREA et al., 2013). A busca de pequenos RNAs

por sequenciamento NGS pode ajudar a entender os mecanismos regulatórios no

desenvolvimento de tecidos e órgãos, e a quantificação destes pequenos RNAs

pode indicar o estado fisiológico da planta, como estresse causados por fatores

bióticos e abióticos (JHA et al., 2015).

21

2.2 Bancos de dados genômicos

A informação gerada por projetos de sequenciamento necessita ser armazenada e

organizada em bancos de dados online para que outros pesquisadores tenham

acesso. Bancos de dados genômicos armazenam sequências de DNA, RNA,

proteínas e suas anotações (SELZER; MARHÖFER; ROHWER, 2008b). Os bancos

de dados do Centro Nacional de Informação de Biotecnologia (NCBI, do inglês

National Center for Biotechnology Information), EMBL e Banco de Dados de DNA do

Japão (DNA Data Bank of Japan) são os maiores bancos de dados. Até setembro de

2017, os três bancos somaram mais de 900 milhões de sequências, com cerca de

2,6 trilhões de nucleotídeos no total (DNA DATA BANK OF JAPAN, 2017). Os

principais bancos de dados são exibidos na Tabela 2.

Tabela 2 – Bancos de dados online

Banco de dados Função Endereço

NCBI Sequências de DNA,

RNA e proteínas

http://www.ncbi.nlm.nih.gov/

Phytozome 12 Sequências de DNA

de plantas

http://phytozome.jgi.doe.gov

PLAZA Sequências de DNA

de plantas

http://plaza.psb.ugent.be

PlantGDB Sequências de DNA

de plantas

http://www.plantgdb.org/

Ensembl Plants Sequências de DNA

de plantas

http://plants.ensembl.org/index.html

ChloroplastDB Sequências de DNA

de cloroplastos

http://chloroplast.cbio.psu.edu/

KEGG Vias metabólicas http://www.genome.jp/kegg/

UniProt Sequência e função

de proteínas

http://www.uniprot.org

Protein Data

Bank

Sequência e função

de proteínas

http://www.rcsb.org/pdb/home/home.do

22

2.3 Ferramentas de software

A bioinformática emprega diversos programas (softwares) para realizar suas

análises. Estes softwares utilizam os dados fornecidos pelo usuário, processam

instruções programadas e retornam um resultado a ser interpretado. Os softwares

para bioinformática são programados para processarem dados oriundos de

plataformas de sequenciamento e outras ferramentas de análise, como

espectrometria de massas na proteômica (ONG et al., 2016). Estes dados

apresentam formato especifico para cada tipo de dado. Por exemplo, sequencias de

nucleotídeos e aminoácidos são armazenados em arquivos de texto com a extensão

“.FASTA”, e eletroferogramas oriundos de sequenciamento Sanger com a extensão

“.AB1” (OPHIR, 2013).

Os softwares para bioinformática podem ser classificados de acordo com a interface

utilizada pelo usuário. Softwares com interface gráfica apresentam informações e

ferramentas visuais, e botões clicáveis para interação com o usuário (Figura 4).

Figura 4 - Software UGENE para análise de sequencias de DNA

23

Outros softwares não possuem interface gráfica, e por isso necessitam ser

manipulados em terminal de linhas de comando (Figura 5).

Figura 5 – Software EMBOSS em uso no terminal

Muitos softwares apresentam código aberto, o que permitem que outros

programadores façam alterações no código fonte do programa e alterem suas

funções. Exemplos de softwares de código aberto são apresentados na Tabela 3.

24

Tabela 3 – Exemplos de softwares de código-aberto

Software Função

AMPHORA Análise de dados metagenômicos

Bioclipse Visualização de biomoléculas

EMBOSS Análise de sequências

PathVisio Desenho de mapas metabólicos

CytoScape Desenho de redes de interações

UGENE Análise de sequências

Orange Mineração de dados genômicos

Há ainda uso de linguagens de programação para automatização de processos e

análise de dados onde não há software previamente construído. Muitas destas

linguagens possuem pacotes adicionais para análise de dados biológicos (BARH;

KHAN; DAVIES, 2015b). As principais linguagens de programação usadas na

bioinformática são apresentadas na Tabela 4.

Tabela 4 - Linguagens de programação e seus pacotes para bioinformática

Linguagem de programação Pacote para bioinformática

C++ Bio++

Java BioJava

JavaScript BioJS

Perl BioPerl

Python Biopython / Bioconda

R Bioconductor

Swift BioSwift

2.4 Análise da expressão gênica

A expressão diferencial de genes pode ser estudada por bioinformática. As

plataformas NGS, além de sequenciar o genoma, podem sequenciar o conjunto total

de RNAs transcritos após transcrição reversa. Esta abordagem, denominada

25

transcriptômica, reflete o conjunto de genes que são expressos em um dado

momento. Proteínas também são essenciais na análise da expressão gênica, e a

proteômica pode identificar um grande conjunto de proteínas presentes em um

organismo (JHA et al., 2015). No entanto, a análise de RNAm não reflete

diretamente a quantidade de proteínas presentes em um dado momento. A

transcrição é apenas a primeira etapa da expressão gênica, ocorrendo ainda

processos de controle pós-transcricional (como miRNAs e siRNAs) e processamento

do mRNA como splicing. Desta forma, o conteúdo proteico será substancialmente

diferente do perfil de RNAm transcritos. A abundância de proteínas, além de indicar

o perfil de expressão gênica, também revela o estado fisiológico em que a célula se

encontra, devido a função das proteínas (GUPTA; SHEKHAR; AGRAWAL, 2015).

Porém, a proteômica não é eficiente em detectar proteínas em baixa abundância e

nem proteoformas oriundas de splicing alternativo. Por isso, a integração do

transcriptoma com o proteoma pode fornecer informações adicionais que

complementam uma a outra (KUMAR et al., 2016).

Abordagens transcriptômicas já foram empregadas na caracterização de mudanças

na expressão global de genes em resposta a patógenos (SANA et al., 2010),

associações simbióticas (HOCHER et al., 2011), estresses abióticos (NARSAI;

CASTLEDEN; WHELAN, 2010), teor de nutrientes (LIHUA et al., 2010), e toxicidade

de metais pesados (MATTIELLO et al., 2010). Perfis proteômicos também auxiliam

na investigação de tolerância a estresses abióticos (MANAA et al., 2011), no

desenvolvimento (AGRAWAL; RAKWAL, 2006), resposta a patógenos e interações

planta-microrganismo (KAV et al., 2007). Soares et al. (2016) identificou 1333

proteínas em mamão infectado pelo complexo viral PMeV (papaya meleira virus e

papaya meleira virus 2). Destas, 111 proteínas estavam alteradas em abundância,

sendo 57 aumentadas e 54 diminuídas, correspondendo ao aumento na fotossíntese

e diminuição do funcionamento do sistema ubiquitina-proteassoma.

RNAs pequenos como miRNAs e siRNAs podem ainda fornecer informações sobre

como genes são regulados (Figura 6). Em mamão, Abreu et al., (2014) analisou

4.251 miRNAs baixados do banco de dados Plant miRNA Database (PMRD). Deste

total, foi apurado os miRNAs miR156, miR162, miR398, e miR408, envolvidos no

controle da degradação de proteínas pelo sistema ubiquitina-proteassoma, que se

26

encontra alterado durante a infecção pelo complexo viral PMeV (RODRIGUES et

al., 2012).

Figura 6 – Regulação por RNAs pequenos. Adaptado de Ryan et al., (2015).

2.5 Aprendizado de máquina

O aprendizado de máquina é um campo da ciência de dados que explora a

habilidade de programas de computador aprenderem sem programação prévia.

Similar ao campo da inteligência artificial, os algoritmos computacionais utilizados no

aprendizado de máquina permitem ao computador fazer predições e reconhecer

padrões a partir de dados prévios. (WITTEN et al., 2017).

Aplicações do aprendizado de máquina em plantas foram na diferenciação de

células vivas e mortas e na análise dos estágios de desenvolvimento de embriões.

Também foi feito a predição do comprimento de hipocótilos regenerados de calos de

arroz em diferentes meios de cultura. O raio, comprimento, largura, circularidade,

área e perímetro foram medidos e utilizados como entrada no programa. A rede

neural predisse o comprimento dos hipocótilos com 95% de precisão, e com um erro

médio de 1.3 milímetros (OSAMA; MISHRA; SOMVANSHI, 2015). Outras aplicações

de redes neurais foram na predição da eficácia de controle de pragas, como

otimização da concentração de pesticidas e impacto ambiental (DANIEL et al.,

2008). Também foi feito a predição do rendimento de culturas como milho, beterraba

e soja. A combinação de redes neurais com sensores bioelétricos já foi empregada

na detecção de viroses em plantas. Biossensores foram usados para detectar

27

interações de suspenções celulares com o vírus, que foram medidas e fornecidas a

redes neurais para treinamento e aprendizado (GLEZAKOS et al., 2010).

2.6 Biologia de sistemas

A biologia de sistemas é o estudo das interações entre as diversas partes que

compõem um organismo. Os sistemas biológicos apresentam níveis de

complexidade organizados em hierarquias. Cada nível hierárquico origina-se das

propriedades emergentes das redes de interações em um nível inferior (LIU;

STEWART, 2016). A biologia de sistemas se apoia nas ômicas para geração de

dados, e na bioinformática para desenvolvimento e aplicação de algoritmos, modelos

computacionais e análises estatísticas. A biologia de sistemas de plantas se

concretiza pela integração das informações fisiológicas, genéticas, moleculares e

bioquímicas dos vegetais, de acordo com sua hierarquia de complexidade (Figura 7).

O funcionamento de uma célula vegetal é atribuído às intricadas interações entre

seus componentes macromoleculares como DNA-proteína, RNA-proteína, e em

especial interações proteína-proteína (IPP). As interações DNA-proteína incluem,

por exemplo, as histonas ancoradas no DNA para formação da cromatina e fatores

de transcrição que influenciam na expressão gênica. Interações RNA-proteína

coordenam processos como síntese, processamento e transporte de RNAm, e em

complexos ribonucleoproteícos como o sistema CRISPR/Cas9. Interações proteína-

proteína ocorrem em atividades como transdução de sinal, transporte entre

membranas, e no metabolismo celular. A caracterização das interações ajuda a

elucidar os diferentes processos celulares que ocorrem nos organismos, e provê

uma base na caracterização funcional de proteínas individuais. Em plantas, é

previsto que ocorram cerca de 15.000 a 75.000 pares de interação proteica, de

proteomas estimados em 30.000 a 40.000 proteínas (SHETH; THAKER, 2014).

28

Figura 7 – Níveis hierárquicos organizacionais e sua integração.

As IPPs podem ser preditas computacionalmente. Algoritmos de predição podem

utilizar dados obtidos experimentalmente, como duplo-híbrido em leveduras, co-

imunoprecipitação de proteínas, ou sequências obtidas em bancos de dados (QI;

BAR-JOSEPH; KLEIN-SEETHARAMAN, 2006). Métodos de aprendizado de

máquina podem distinguir como pares de proteínas que interagem entre si diferem

de proteínas que não interagem, sendo o algoritmo random decision forest o mais

eficaz na predição de IPPs, em especial proteínas de membrana (QI et al., 2009). É

possível predizer IPPs através da mineração de textos, extraindo informação

diretamente do texto em artigos científicos (HOFFMANN et al., 2005). Grafos

também podem ser úteis, como grafos de coeficientes de agrupamento e

intermediação (BARABÁSI; OLTVAI, 2004).

Redes de regulação gênica são conjuntos de mecanismos reguladores que

interagem entre si e com moléculas para controlar os níveis de expressão de RNAm

e proteínas na célula. São compostos de genes, RNAs não codificantes, proteínas,

metabólitos e moléculas sinalizadoras. Os mecanismos reguladores englobam todos

os estágios da expressão gênica: transcrição do DNA, processamento e regulação

pós-transcricional, tradução do mRNA e modificações pós-traducionais das

proteínas (SHETH; THAKER, 2014). A modelagem computacional de redes de

regulação gênica em plantas já foi empregada em estudos dos processos

29

fisiológicos e do desenvolvimento, como modelagem dos sistemas que controlam o

tamanho das células-guarda durante a abertura e fechamento dos estômatos (LI;

ASSMANN; ALBERT, 2006), modelagem de células durante a diferenciação celular

na formação de flores (ESPINOSA-SOTO; PADILLA-LONGORIA; ALVAREZ-

BUYLLA, 2004), e integração de redes regulatórias mediadas por miRNAs (MENG et

al., 2011).

2.7 Casos de melhoramento genético

Os marcadores moleculares identificados pela genômica permitem a seleção de

genótipos sem a necessidade de cruzamentos-teste. Os SNPs e SSR são úteis no

desenvolvimento de mapas de ligação gênica e na genotipagem, ao revelar sítios

polimórficos e suas localidades no genoma (OLIVER et al., 2011). Genes de traços

fenotípicos agronomicamente vantajosos podem ser identificados no genoma por

marcadores moleculares, direcionando os esforços de cruzamento seletivo

(BOLGER et al., 2014). Por exemplo, alelos do gene Ryadg em batata foram

selecionados para resistência ao Potato Y Virus, através da genotipagem de

variedades selvagens de batata identificados por marcadores moleculares

(ORTEGA; LOPEZ-VIZCON, 2012). A variedade de arroz Green Super Rice foi

desenvolvida a partir do cruzamento entre diversas variedades de arroz, assistida

por marcadores associados a alelos de resistência a pragas e resistência a seca

(AGRAWAL, 2015). Em cana-de-açúcar, 1839 marcadores AFLP correspondentes a

genes do metabolismo de produção de sacarose e resistência à seca foram

utilizados na caracterização de germoplasma, e as variedades identificadas como

vantajosas foram selecionadas (CARLINI-GARCIA et al., 2012). Em feijão, 22 SSRs

polimórficos revelaram a diversidade genética de 16 cultivares, revelando diferentes

índices de heterozigosidade (VELOSO, 2014). Em eucalipto, RAPDs e SCARs

associados a genes de florescimento precoce (vantajoso para projetos de

melhoramento) foram identificados e hibridizados (GOLLE et al., 2009).

Genes identificados por bioinformática podem ser modificados por engenharia

genética para conferir um fenótipo superior. Genes de biossíntese de betacaroteno

caracterizados em narciso e milho foram utilizadas na criação do "Arroz Dourado",

30

capaz de biossintetizar o betacaroteno (KORTH, 2016). A soja resistente ao

herbicida glifosato foi desenvolvida a partir da identificação de uma proteína (5-

enolpiruvil-chiquimato-3-fosfato sintase) que não interage com o herbicida, pois o

glifosato causa toxicidade em plantas ao interferir com proteínas da via do

chiquimato. Semelhantemente, o "milho Bt" foi modificado para expressar a proteína

delta-toxina, identificada na bactéria Bacillus thurigiensis, que é tóxica a insetos e

atua na proteção do milho. Há também uma variedade de mamão geneticamente

modificado para expressar a proteína capsidial do Papaya ringspot virus Type P,

tornando-o resistente ao vírus. Eucalipto resistente a baixas temperaturas foi

desenvolvido a partir da clonagem de proteínas de Arabidospsis thaliana, e

macieiras com maior tolerância ao amarelecimento foram criadas a partir do

silenciamento do gene responsável pela proteína polifenol oxidase (BARKER et al.,

2013). A bioinformática auxilia ainda na identificação de alvos para edição por

CRISPR/Cas9, como o mapeamento de miRNAs acumulados que inibam o

funcionamento de vias de defesa contra fitopatógenos, e o desenho de RNAs-guias

para o silenciamento destes miRNAs (LIU et al., 2017).

A caracterização de vias metabólicas pela biologia de sistemas em arroz identificou

proteínas do metabolismo do amido que estão relacionadas a qualidade de

sementes para o mercado. Ao mapear a degradação do endosperma na

germinação, pôde se obter dados sobre possíveis alelos vantajosos que podem ser

cruzados para obtenção de novas cultivares. A caracterização de vias de tolerância

ao estresse térmico em arroz, trigo, milho e soja elucidaram proteínas mais

termostáveis e proteínas de choque térmico mais eficientes, o que pode direcionar

esforços de engenharia genética destas proteínas em outras plantas (DAS;

PAUDEL; ROHILA, 2015).

31

3 CONCLUSÕES

A bioinformática é uma ferramenta poderosa no melhoramento genético. Com o

enorme volume de dados gerados por plataformas NGS, torna-se inviável análises

estatísticas tradicionais, necessitando de métodos mais robustos. Com isso, a

bioinformática se consolida como uma ciência que busca sentido em dados

biológicos. Descoberta de marcadores moleculares, vias de regulação da expressão

gênica, abundância de moléculas, modelagem e experimentação in silico são

algumas das aplicações que a bioinformática traz ao melhoramento vegetal. Desta

forma, torna-se um essencial paradigma para geneticistas e melhoristas que buscam

cultivares mais eficientes e com maior valor de mercado. A integração de

experimentos computacionais (“dry lab”) com experimentos convencionais de

bancada (“wet lab”) na análise de dados ômicos pode permitir a identificação de

sistemas moleculares (e.g. interações gênicas, vias metabólicas) e sua modelagem

in silico pode direcionar esforços na busca experimental por genes e vias de

interesse para melhoramento genético.

32

REFERÊNCIAS

ABREU, P. M. V et al. Carica papaya microRNAs are responsive to Papaya meleira

virus infection. PLoS ONE, v. 9, n. 7, 2014.

AGRAWAL, G. K.; RAKWAL, R. Rice proteomics: A cornerstone for cereal food crop

prqteqmes. Mass Spectrometry Reviews, v. 25, n. 1, p. 1–53, 2006.

AGRAWAL, P. K. Omics of Model Plants. In: BARH, D.; KHAN, M. S.; DAVIES, E.

(Eds.). . PlantOmics: The Omics of Plant Science. 1. ed. [s.l.] Springer India, 2015.

p. 1–32.

BARABÁSI, A.-L.; OLTVAI, Z. N. Network biology: understanding the cell’s functional

organization. Nature Reviews Genetics, v. 5, n. 2, p. 101–113, 2004.

BARH, D.; KHAN, M. S.; DAVIES, E. (EDS.). PlantOmics: The Omics of Plant

Science. 1. ed. [s.l.] Springer India, 2015a.

BARH, D.; KHAN, M. S.; DAVIES, E. PlantOmics: The Omics of Plant Science.

[s.l.] Springer India, 2015b.

BARKER, W. D. et al. Genetically Modified Trees, The new frontier of biotechnology.

2013.

BAWA, A. S.; ANILAKUMAR, K. R. Genetically modified foods: Safety, risks and

public concerns - A review. Journal of Food Science and Technology, v. 50, n. 6,

p. 1035–1046, 2013.

BOLGER, M. et al. From plant genomes to phenotypes. Journal of Biotechnology,

v. 261, n. February, p. 46–52, 2017.

BOLGER, M. E. et al. Plant genome sequencing - applications for crop improvement.

Current Opinion in Biotechnology, v. 26, p. 31–37, 2014.

CAN, T. Introduction to Bioinformatics. In: YOUSEF, M.; ALLMER, J. (Eds.). .

miRNomics: MicroRNA Biology and Computational Analysis. Totowa, NJ:

Humana Press, 2014. p. 51–71.

CARLINI-GARCIA, L. A. et al. Aplicação de Marcadores Moleculares no

Melhoramento Genético da Cana-de-açúcar. Pesquisa & Tecnologia, v. 9, n. 2,

33

2012.

D’HONT, A. et al. The banana (Musa acuminata) genome and the evolution of

monocotyledonous plants. Nature, v. 488, n. 7410, p. 213–217, 2012.

DANIEL, J. et al. A Survey of Artificial Neural Network-Based Modeling in

Agroecology. In: PRASAD, B. (Ed.). . Soft Computing Applications in Industry.

Berlin, Heidelberg: Springer Berlin Heidelberg, 2008. p. 247–269.

DAS, A.; PAUDEL, B.; ROHILA, J. S. Potentials of Proteomics in Crop Breeding. In:

AL-KHAYRI, J. M.; JAIN, S. M.; JOHNSON, D. V (Eds.). . Advances in Plant

Breeding Strategies: Breeding, Biotechnology and Molecular Tools. Cham:

Springer International Publishing, 2015. p. 513–537.

DNA DATA BANK OF JAPAN. DDBJ Database Release History. Disponível em:

<http://www.ddbj.nig.ac.jp/breakdown_stats/dbgrowth-e.html>. Acesso em: 9 dez.

2017.

ESPINOSA-SOTO, C.; PADILLA-LONGORIA, P.; ALVAREZ-BUYLLA, E. R. A gene

regulatory network model for cell-fate determination during Arabidopsis thalianal

flower development that is robust and recovers experimental gene expression

profiles. Plant Cell, v. 16, n. 11, p. 2923–2939, 2004.

GLEZAKOS, T. J. et al. Plant virus identification based on neural networks with

evolutionary preprocessing. Computers and Electronics in Agriculture, v. 70, n. 2,

p. 263–275, 2010.

GOLLE, D. P. et al. Melhoramento florestal: ênfase na aplicação da biotecnologia.

Ciência Rural, v. 39, p. 1607–1614, 2009.

GUPTA, D. B.; SHEKHAR, S.; AGRAWAL, L. Plant Proteomics: Technologies and

Applications. In: BARH, D.; KHAN, M. S.; DAVIES, E. (Eds.). . PlantOmics: The

Omics of Plant Science. New Delhi: Springer India, 2015. p. 213–256.

HANCOCK, J. F. Contributions of domesticated plant studies to our understanding of

plant evolution. Annals of Botany, v. 96, n. 6, p. 953–963, 2005.

HOCHER, V. et al. Transcriptomics of Actinorhizal Symbioses Reveals Homologs of

the Whole Common Symbiotic Signaling Cascade. Plant Physiology, v. 156, n. 2, p.

700–711, 2011.

34

HOFFMANN, R. et al. Text Mining for Metabolic Pathways, Signaling Cascades, and

Protein Networks. Science Signaling, v. 2005, n. 283, p. pe21-pe21, 2005.

HUANG, S. et al. The genome of the cucumber, Cucumis sativus L. Nature

Genetics, v. 41, n. 12, p. 1275–1281, 2009.

HYTEN, D. L. et al. High-throughput SNP discovery through deep resequencing of a

reduced representation library to anchor and orient scaffolds in the soybean whole

genome sequence. BMC genomics, v. 11, n. 1, p. 38, 2010.

ILLUMINA. HiSeqX series of sequencing systemsSan Diego, EUA, 2015.

JAILLON, O. et al. The grapevine genome sequence suggests ancestral

hexaploidization in major angiosperm phyla. Nature, v. 449, n. 7161, p. 463–467,

2007.

JHA, U. C. et al. Functional Genomics: Applications in Plant Science. In: BARH, D.;

KHAN, M. S.; DAVIES, E. (Eds.). . PlantOmics: The Omics of Plant Science. New

Delhi: Springer India, 2015. p. 65–111.

JIANG, G.-L. Molecular Marker-Assisted Breeding: A Plant Breeder’s Review. In: AL-

KHAYRI, J. M.; JAIN, S. M.; JOHNSON, D. V (Eds.). . Advances in Plant Breeding

Strategies: Breeding, Biotechnology and Molecular Tools. Cham: Springer

International Publishing, 2015. p. 431–472.

KAV, N. N. V et al. Application of Proteomics to Investigate Plant-Microbe

Interactions. Current Proteomics, v. 4, n. 1, p. 28–43, 2007.

KLOOSTERMAN, B. et al. Naturally occurring allele diversity allows potato cultivation

in northern latitudes. Nature, v. 495, p. 246–250, 2013.

KORTH, K. L. Genes and Traits of Interest. In: Plant Biotechnology and Genetics:

Principles, Techniques, and Application. 2. ed. [s.l.] John Wiley & Sons Ltd, 2016.

p. 211–231.

KRISHNA, H. et al. Somaclonal variations and their applications in horticultural crops

improvement. 3 Biotech, v. 6, n. 1, p. 1–18, 2016.

KUMAR, D. et al. Integrating transcriptome and proteome profiling : p. 2533–2544,

2016.

35

LEE, L. S. et al. Mutation and Mutation Screening. In: HENRY, R. J.; FURTADO, A.

(Eds.). . Cereal Genomics: Methods and Protocols. Totowa, NJ: Humana Press,

2014. p. 77–95.

LI, S.; ASSMANN, S. M.; ALBERT, R. Predicting essential components of signal

transduction networks: A dynamic model of guard cell abscisic acid signaling. PLoS

Biology, v. 4, n. 10, p. 1732–1748, 2006.

LI, Z. et al. Comparison of the two major classes of assembly algorithms: Overlap-

layout-consensus and de-bruijn-graph. Briefings in Functional Genomics, v. 11, n.

1, p. 25–37, 2012.

LIHUA, L. I. et al. Transcriptomic analysis of rice responses to low phosphorus

stress. Chinese Science Bulletin, v. 55, n. 3, p. 251–258, 2010.

LIU, W.; STEWART, C. N. Plant Systems Biology. In: Plant Biotechnology and

Genetics: Principles, Techniques, and Application. 2. ed. [s.l.] John Wiley & Sons

Ltd, 2016. p. 155–180.

LIU, X. et al. Application of CRISPR/Cas9 in plant biology. Acta Pharmaceutica

Sinica B, v. 7, n. 3, p. 292–302, 2017.

LUSCOMBE, N. M.; GREENBAUM, D.; GERSTEIN, M. What is bioinformatics? A

proposed definition and overview of the field. Methods of Information in Medicine,

v. 40, n. 4, p. 346–358, 2001.

MANAA, A. et al. Salt and genotype impact on plant physiology and root proteome

variations in tomato. Journal of Experimental Botany, v. 62, n. 8, p. 2797–2813,

2011.

MATTIELLO, L. et al. Transcriptional profile of maize roots under acid soil growth.

BMC Plant Biology, v. 10, n. 1, p. 196, 2010.

MENG, Y. et al. The Regulatory Activities of Plant MicroRNAs: A More Dynamic

Perspective. Plant Physiology, v. 157, n. 4, p. 1583–1595, 2011.

MOHORIANU, I. et al. Profiling of short RNAs during fleshy fruit development reveals

stage-specific sRNAome expression patterns. Plant Journal, v. 67, n. 2, p. 232–246,

2011.

36

NARSAI, R.; CASTLEDEN, I.; WHELAN, J. Common and distinct organ and stress

responsive transcriptomic patterns in Oryza sativa and Arabidopsis thaliana. BMC

Plant Biology, v. 10, n. 1, p. 262, 2010.

NATIONAL INSTITUTES OF HEALTH. Talking Glossary of Genetic Terms.

Disponível em: <https://www.genome.gov/glossary/>. Acesso em: 9 dez. 2017.

NIE, X. et al. Development of chromosome-arm-specific microsatellite markers in

Triticum aestivum (Poaceae) using NGS technology. American Journal of Botany,

v. 99, n. 9, p. 369–371, 2012.

NYSTEDT, B. et al. The Norway spruce genome sequence and conifer genome

evolution. Nature, v. 497, n. 7451, p. 579–584, 2013.

OLIVER, R. E. et al. Model SNP development for complex genomes based on

hexaploid oat using high-throughput 454 sequencing technology. BMC Genomics, v.

12, n. 1, p. 77, 2011.

ONG, Q. et al. Bioinformatics Approach in Plant Genomic Research. Current

Genomics, v. 17, p. 368–378, 2016.

OPHIR, R. Bioinformatics tools for marker discovery in plant breeding. Israel Journal

of Chemistry, v. 53, n. 3–4, p. 173–179, 2013.

ORTEGA, F.; LOPEZ-VIZCON, C. Application of Molecular Marker-Assisted

Selection (MAS) for Disease Resistance in a Practical Potato Breeding Programme.

Potato Research, v. 55, n. 1, p. 1–13, 2012.

ORTIZ-MOREA, F. A. et al. Global analysis of the sugarcane microtranscriptome

reveals a unique composition of small RNAs associated with axillary bud outgrowth.

Journal of Experimental Botany, v. 64, n. 8, p. 2307–2320, 2013.

OSAMA, K.; MISHRA, B. N.; SOMVANSHI, P. Machine Learning Techniques in Plant

Biology. In: BARH, D.; KHAN, M. S.; DAVIES, E. (Eds.). . PlantOmics: The Omics

of Plant Science. New Delhi: Springer India, 2015. p. 731–754.

PETTERSSON, E.; LUNDEBERG, J.; AHMADIAN, A. Generations of sequencing

technologies. Genomics, v. 93, n. 2, p. 105–111, 2009.

QI, Y. et al. Systematic prediction of human membrane receptor interactions.

37

Proteomics, v. 9, n. 23, p. 5243–5255, 2009.

QI, Y.; BAR-JOSEPH, Z.; KLEIN-SEETHARAMAN, J. Evaluation of Different

Biological Data and Computational Classification Methods for Use in Protein

Interaction Prediction. Proteins, v. 63, p. 490–500, 2006.

REUTER, J. A.; SPACEK, D. V.; SNYDER, M. P. High-Throughput Sequencing

Technologies. Molecular Cell, v. 58, n. 4, p. 586–597, 2015.

RODRIGUES, S. P. et al. Label-free quantitative proteomics reveals differentially

regulated proteins in the latex of sticky diseased Carica papaya L. plants. Journal of

Proteomics, v. 75, n. 11, p. 3191–3198, 2012.

RYAN, B.; JOILIN, G.; WILLIAMS, J. M. Plasticity-related microRNA and their

potential contribution to the maintenance of long-term potentiation. Frontiers in

Molecular Neuroscience, v. 8, n. February, p. 1–17, 2015.

SANA, T. R. et al. Metabolomic and transcriptomic analysis of the rice response to

the bacterial blight pathogen Xanthomonas oryzae pv. oryzae. Metabolomics, v. 6,

n. 3, p. 451–465, 2010.

SCHATZ, M. Assembly of Large Genomes using Cloud Computing. p. 1165–1173,

2010.

SCHATZ, M. C. Biological data sciences in genome research. Genome Research, v.

25, n. 10, p. 1417–1422, 2015.

SELZER, P. M.; MARHÖFER, R. J.; ROHWER, A. Applied Bioinformatics: An

Introduction. 1. ed. [s.l.] Springer Berlin Heidelberg, 2008a.

SELZER, P. M.; MARHÖFER, R. J.; ROHWER, A. (EDS.). Biological Databases. In:

Applied Bioinformatics: An Introduction. Berlin, Heidelberg: Springer Berlin

Heidelberg, 2008b. p. 45–74.

SHENDURE, J. et al. DNA sequencing at 40: Past, present and future. Nature, v.

550, n. 7676, 2017.

SHETH, B. P.; THAKER, V. S. Plant systems biology: Insights, advances and

challenges. Planta, v. 240, n. 1, p. 33–54, 2014.

SLEPER, D. A.; POEHLMAN, J. M. Breeding field crops. [s.l.] Blackwell Pub, 2006.

38

SMITH, R. H. (ED.). Plant Tissue Culture: Techniques and Experiments. 3. ed.

[s.l: s.n.].

SOARES, E. DE A. et al. Label-free quantitative proteomic analysis of pre-flowering

PMeV-infected Carica papaya L. Journal of Proteomics, v. 151, 2016.

THE ARABIDOPSIS GENOME INITIATIVE. Analysis of the genome sequence of the

flowering plant Arabidopsis thaliana. Nature, v. 408, n. 6814, p. 796–815, 2000.

TIWARY, B. K. Next-Generation Sequencing and Assembly of Plant Genomes. In:

BARH, D.; KHAN, M. S.; DAVIES, E. (Eds.). . PlantOmics: The Omics of Plant

Science. New Delhi: Springer India, 2015. p. 53–64.

TOPPA, E. V. B.; JADOSKI, C. J. O Uso dos Marcadores Moleculares no

Melhoramento Genético de Plantas. Scientia Agraria Paranaensis, v. 12, n. 1, p. 1–

5, 2013.

TUSKAN, G. A. et al. The Genome of Black Cottonwood, Populus trichocarpa.

Science, v. 313, n. 5793, p. 1596–1604, 2006.

VARSHNEY, R. K. et al. Draft genome sequence of pigeonpea (Cajanus cajan), an

orphan legume crop of resource-poor farmers. Nature Biotechnology, v. 30, n. 1, p.

83–89, 2012.

VARSHNEY, R. K. et al. Draft genome sequence of chickpea (Cicer arietinum)

provides a resource for trait improvement. Nature Biotechnology, v. 31, n. 3, p.

240–246, 2013.

VASSILEV, D. et al. Application of bioinformatics in plant breeding. Biotechnology

and Biotechnological Equipment, v. 19, n. October, p. 139–152, 2005.

VELOSO, J. S. Divergência genética de cultivares de feijão. [s.l.] Universidade

Federal de Lavras, 2014.

WANG, H. et al. Development and cross-species/genera transferability of

microsatellite markers discovered using 454 genome sequencing in chokecherry

(Prunus virginiana L.). Plant Cell Reports, v. 31, n. 11, p. 2047–2055, 2012.

WANG, X. et al. The genome of the mesopolyploid crop species Brassica rapa.

Nature Genetics, v. 43, n. 10, p. 1035–1040, 2011.

39

WILDE, H. D. Induced Mutations in Plant Breeding. In: Advances in Plant Breeding

Strategies: Breeding, Biotechnology and Molecular Tools. Cham: Springer

International Publishing, 2015. p. 329–344.

WITTEN, I. H. (IAN H. . et al. Data mining : practical machine learning tools and

techniques. 4. ed. [s.l.] Elsevier Inc., 2017.

XIA, Z. et al. Positional cloning and characterization reveal the molecular basis for

soybean maturity locus E1 that regulates photoperiodic flowering. Proceedings of

the National Academy of Sciences, v. 109, n. 32, p. E2155–E2164, 2012.

XU, Q. et al. The draft genome of sweet orange (Citrus sinensis). Nature Genetics,

v. 45, n. 1, p. 59–66, 2013a.

XU, X. et al. Genome sequence and analysis of the tuber crop potato. Nature, v.

475, n. 7355, p. 189–195, 2011.

XU, Y. et al. The draft genome of watermelon (Citrullus lanatus) and resequencing of

20 diverse accessions. Nature Genetics, v. 45, n. 1, p. 51–58, 2013b.

XU, Y.; CROUCH, J. H. Marker-assisted selection in plant breeding: From

publications to practice. Crop Science, v. 48, n. 2, p. 391–407, 2008.

YOU, F. M. et al. Annotation-based genome-wide SNP discovery in the large and

complex Aegilops tauschii genome using next-generation sequencing without a

reference genome sequence. BMC Genomics, v. 12, n. 1, p. 59, 2011.

YU, J. A Draft Sequence of the Rice Genome (Oryza sativa L. ssp. indica). Science,

v. 296, n. 5565, p. 79–92, 2002.

ZHAO, C. Z. et al. Deep sequencing identifies novel and conserved microRNAs in

peanuts (Arachis hypogaea L.). BMC Plant Biol, v. 10, p. 3, 2010.

ZOHARY, D.; HOPF, M.; WEISS, E. Domestication of Plants in the Old World:

The origin and spread of domesticated plants in Southwest Asia, Europe, and

the Mediterranean Basin. [s.l.] Oxford University Press, 2012.