Upload
donhi
View
215
Download
0
Embed Size (px)
Citation preview
i
KATIA CRISTIANE BRUMATTI GONÇALVES
ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE
EXPRESSÃO GÊNICA UTILIZANDO DADOS ORIUNDOS DE
SEQUENCIAMENTO POR TECNOLOGIA DE “NEXT-GENERATION”
EM ANIMAIS CONTROLE E EM MODELOS DE EPILEPSIA DO
LOBO TEMPORAL MESIAL.
CAMPINAS
2015
ii
iii
UNIVERSIDADE ESTADUAL DE CAMPINAS
Faculdade de Ciência Médicas
KATIA CRISTIANE BRUMATTI GONÇALVES
ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE
EXPRESSÃO GÊNICA UTILIZANDO DADOS ORIUNDOS DE
SEQUENCIAMENTO POR TECNOLOGIA DE “NEXT-GENERATION”
EM ANIMAIS CONTROLE E EM MODELOS DE EPILEPSIA DO
LOBO TEMPORAL MESIAL.
Dissertação apresentada à Faculdade de Ciências
Médicas da Universidade Estadual de Campinas como
parte dos requisitos exigidos para a obtenção do título
de Mestra em Ciências.
ORIENTADORA: PROFA DRA ISCIA TERESINHA LOPES CENDES
COORIENTADORA: DRA CRISTIANE DE SOUZA ROCHA
ESTE EXEMPLAR CORRESPONDE À VERSÃO
FINAL DA DISSERTAÇÃO DEFENDIDA PELA
ALUNA KATIA CRISTIANE BRUMATTI GONÇALVES, E ORIENTADA PELA
PROFA DRA ÍSCIA TERESINHA LOPES CENDES.
_______________________________
CAMPINAS
2015
iv
Ficha catalográfica Universidade Estadual de Campinas
Biblioteca da Faculdade de Ciências Médicas Maristella Soares dos Santos - CRB 8/8402
Brumatti Gonçalves, Katia Cristiane, 1976- B834e Estudo de bioinformática aplicado à análise de
expressão gênica utilizando dados oriundos de sequenciamento por tecnologia de "Next-Generation" em animais controle e em modelos de epilepsia do lobo temporal mesial / Katia Cristiane Brumatti Gonçalves. -- Campinas, SP : [s.n.], 2015.
Orientador : Íscia Teresinha Lopes Cendes. Coorientador : Cristiane de Souza Rocha. Dissertação (Mestrado) - Universidade Estadual de Campinas, Faculdade de Ciências Médicas.
1. Biologia computacional. 2. Expressão gênica. 3.
Processamento alternativo. I. Lopes-Cendes, Íscia Teresinha,1964-. II. Rocha, Cristiane de Souza,1978-. III. Universidade Estadual de Campinas. Faculdade de Ciências Médicas. IV. Título.
Informações para Biblioteca Digital
Título em outro idioma: Bioinformatics study applied to gene expression analysis using
data from "Next-Generation" sequencing technology in control animals and in models of
epilepsy of mesial temporal lobe.
Palavras-chave em inglês:
Computational biology
Gene expression
Alternative Splicing
Área de concentração: Fisiopatologia Médica
Titulação: Mestra em Ciências Banca examinadora:
Íscia Teresinha Lopes Cendes [Orientador]
Claudia Vianna Maurer Morelli
Ana Lucia Brunialti Godard
Data de defesa: 20-02-2015
Programa de Pós-Graduação: Fisiopatologia Médica
v
BANCA EXAMINADORA DA DEFESA DE MESTRADO
KATIA CRISTIANE BRUMATTI G O N Ç A L V E S
Orientador (a) PROF(A). DR(A). ISCIA TERESINHA LOPES CENDES
Coorientador (a) PROF(A). DR(A). CRISTIANE DE SOUZA ROCHA
MEMBROS:
1. PROF(A). DR(A). ISCIA TERESINHA LOPES CENDES
2. PROF(A). DR(A). ANA LUCIA BRUNIALTI GODARD
3. PROF(A). DR(A). CLAUDIA VIANNA MAURER MORELLI
Programa de Pós-Graduação em Fisiopatooga Médica da Faculdade de
Ciéncias Médicas da Universidade Estadual de Campinas
Data: 20 de fevereiro de 2015
vi
vii
Resumo
O campo da bioinformática associada à Next Generation Sequencing (NGS)
ainda está em estado imaturo. A técnica de microarray tem sido muito utilizada nas
últimas décadas em estudos de níveis de expressão de genes, porém essa técnica
possui limitações. Sequenciamento de RNA (RNA-Seq) tem vantagens sobre as
abordagens atuais, pois permite que o transcriptoma inteiro seja pesquisado com
alto rendimento, fazendo com que RNA-Seq seja útil para estudar transcriptomas
complexos, além disso, permite a análise de splicing alternativo. Muitas ferramentas
têm sido desenvolvidas para abordar diferentes aspectos da análise de dados em
RNA-Seq, e sua análise é um desafio constante. Nesse contexto, o objetivo deste
estudo foi utilizar métodos de bioinformática para a análise de expressão gênica
utilizando dados de RNA-Seq. Para isso, foram utilizados dados brutos obtidos em
dois experimentos diferentes: a) utilizando animais normais, na qual a análise
comparativa foi realizada das regiões do hipocampo CA1, CA2 e CA3 e giro
denteado, e b) utilizando animais tratados com pilocarpina e animais controle. Na
análise dos dois experimentos, foram encontrados 3 genes (Nnat, Sv2b e Neurod6)
em comum que tem diferença na expressão, ambos genes tem envolvimento no
sistema nervoso central. Na análise de splicing alternativo, a ferramenta MISO
(Mixture of Isoforms) comparado ao pipeline utilizado em Cuffdiff, gerou resultados
melhores e mais detalhados, já que a ferramenta também realiza a quantificação
dos transcritos, e com seus resultados foram descobertos 6 transcritos (Arpp21,
Gria1, Gria2, Nrxn1, Dclk1 e Rtn1) em comum nas regiões do hipocampo, que tem
alta expressão em giro denteado. Atualmente, existem diversos softwares em
ascensão para análise diferencial, porém, o pipeline utilizado neste trabalho é ainda
uma das principais ferramentas para análise de RNA-Seq, por usar algoritmos
confiáveis e permitir flexibilização das análises quando necessário. Este estudo
apresentou uma proposta de pipeline para a análise de expressão diferencial e
identificação de splicing alternativo, para dados obtidos através de tecnologia de
sequenciamento RNA-Seq. Foram identificados 5760 transcritos considerados
significativamente expressos, e sugere que 6 transcritos sejam decorrentes de
splicing alternativo.
viii
ix
Abstract
The field of bioinformatics associated with Next Generation Sequencing
(NGS) is still in an immature state. The microarray technique has been widely used
in recent decades in studies of gene expression levels, but this technique has
limitations. Sequencing RNA (RNA-Seq) has advantages over current approaches
because it allows the whole transcriptome is researched with high yield, making
RNA-Seq be useful for studying complex transcriptomes, moreover, allows the
analysis of alternative splicing. Many tools have been developed to aproach different
aspects of data analysis in RNA-Seq, and its analysis is a constant challenge. In this
context, the objective of this study was to use bioinformatics methods for gene
expression analysis using RNA-Seq data. For this, the raw data obtained in two
different experiments were used: a) using normal animalsin which was made a
comparative analysis of the hippocampus (CA1, CA2 and CA3) and dentate gyrus,
and b) using pilocarpine treated animals and animals control. In the analysis of two
experiments, were found three genes (NNAT, Sv2b and Neurod6) in common that
there is a difference in the expression, both of genes is involved in the central
nervous system. In alternative splicing analysis, MISO (Mixture of Isoforms) tool
compared to the pipeline used in Cuffdiff, gave better and more detailed results, as
the tool also performs the quantification of transcripts, and their results were found
6 transcripts (Arpp21, Gria1, Gria2, Nrxn1, Dclk1 and Rtn1) in common in the regions
of the hippocampus, which has high expression in the dentate gyrus. Currently, there
are various software on the rise for differential analysis, however, the pipeline used
in this work is still one of the main tools for RNA-Seq analysis, by using reliable
algorithms and allow flexibility of analyzes when necessary. This study showed a
pipeline proposed for the analysis of differential expression, and alternative splicing
of identification data obtained for RNA-Seq sequencing technology. 5760 transcripts
considered significantly expressed were identified, and suggests that 6 transcripts
are derived from alternative splicing.
Key words: Computational biology, Gene expression, Alternative Splicing.
x
xi
Sumário
Resumo ............................................................................................................. vii
Abstract .............................................................................................................. ix
Lista de Figuras ............................................................................................... xvii
Lista de tabelas ................................................................................................ xix
Lista de Abreviaturas ........................................................................................ xxi
1. Introdução ...................................................................................................... 1
1.1 Epilepsia ............................................................................................ 1
1.2 Expressão Gênica.............................................................................. 2
1.3 Splicing Alternativo ............................................................................ 4
1.4 Sequenciamento de Nova Geração ................................................... 7
1.5 RNA-Seq ............................................................................................ 9
1.6 Controle de qualidade ...................................................................... 11
1.7 Alinhamento de Sequências ............................................................ 12
1.8 Quantificação da Expressão Gênica ................................................ 13
1.9 Bioinformática .................................................................................. 14
2. Objetivos ...................................................................................................... 17
2.1 Objetivos específicos ....................................................................... 17
3 Métodos......................................................................................................... 19
3.1 Softwares utilizados ......................................................................... 19
3.2 Controle de qualidade ...................................................................... 20
3.3 Trimagem ......................................................................................... 24
3.4 Tophat2 ............................................................................................ 25
3.5 Controle de Qualidade ..................................................................... 31
3.5.1 FastQC ............................................................................... 31
3.5.2 RNA-SeQC ......................................................................... 31
3.6 Cufflinks ........................................................................................... 33
3.7 Cuffmerge ........................................................................................ 37
3.8 Cuffdiff ............................................................................................. 39
3.9 CummeRbund .................................................................................. 44
3.10 MISO – Mixture of Isoforms ........................................................... 45
4 Situações biológicas analisadas .................................................................... 51
xii
4.1 Tecido Normal: Hipocampo sub-regiões CA1, CA2 e CA3 e Giro
Denteado ............................................................................................... 51
4.2 Resumo dos procedimentos envolvidos no preparo das amostras e
sequenciamento dos espécimes teciduais do modelo de epilepsia induzido
por injeção de pilocarpina sem a presença de status epilepticus. ......... 59
5 Resultados .................................................................................................... 65
5.1 Análise de Qualidade ....................................................................... 65
5.2 Quantificação Expressão Gênica ..................................................... 76
6 Discussão ...................................................................................................... 91
7 Conclusões .................................................................................................... 99
8 Referências ................................................................................................. 101
xiii
Dedico essa dissertação à toda minha família.
"Esqueceram, principalmente, de nos contar alguns segredos realmente
úteis: felicidade não é ter, é ser...E por último: viver não é ser normal, é ser você, e
ser você é a única receita (quase mágica) para ser real e verdadeiramente feliz."
(Kamila Behling)
xiv
xv
Agradecimentos
Primeiramente a Deus pela saúde.
À minha orientadora Profa. Dra. Íscia Lopes Cendes e coorientadora Dra.
Cristiane de Souza Rocha, pela oportunidade, atenção, paciência, sugestões e
ensinamentos que foram a base deste estudo. Também agradeço ao Prof. François
Artiguenave, quem abriu as portas para que eu pudesse realizar esse trabalho.
Ao Prof. Dr. Benilton Carvalho, pelo auxílio na manipulação dos dados e nas
análises estatísticas, e principalmente pelo otimismo, que sempre mostrou em meu
trabalho. Ao colega Murilo Guimarães, por me receber no laboratório com muito
carinho, sendo sempre prestativo, bondoso e paciente, e pelos ensinamentos,
particularmente em Linux. Ao colega de laboratório Welliton Souza, pelos auxílios
prestados principalmente na parte de informática e pelos conselhos fornecidos. À
todos aqueles que estão e aqueles que já não estão no laboratório, e que sempre
formaram parte da minha lembrança.
À todos os meus amigos de Campinas e Londrina, por toda amizade, carinho,
cumplicidade e incentivo.
À CAPES pela bolsa de Mestrado.
Em especial, à minha família, sobretudo meu marido Ezequiel e minha filha
Manuela (que nasceu junto com esse estudo), que me acompanharam desde o
início, me dando suporte para seguir em frente, com seu carinho, paciência e
compreensão. A minha mãe e padrasto, que foram essenciais nessa reta final. A
minha irmã Kely, que mesmo estando longe sempre esteve presente com seu
incentivo e apoio. A Uly, que também é parte essencial da minha vida, mesmo não
se comunicando com palavras transmite um olhar cheio de carinho. Amo vocês para
todo sempre.
xvi
xvii
Lista de Figuras
Figura 1 – Visão geral do fluxo de informações a partir do DNA para a proteína em
uma célula eucariótica ........................................................................................ 3
Figura 2 - O splicing alternativo .......................................................................... 5
Figura 3 - Experiência típica de RNA-Seq ........................................................ 10
Figura 4 – Exemplo de gráfico mostrando a Qualidade da Sequência Por Base
gerada por FastQC. (Fonte: Elaborada pela autora). ....................................... 22
Figura 5 – Exemplo de gráfico mostrando o Conteúdo da Sequência Por Base
gerado por FastQC. (Fonte: Elaborada pela autora). ....................................... 23
Figura 6 – Exemplo de gráfico contendo o Conteúdo GC Por Sequência gerado por
FastQC. ............................................................................................................ 24
Figura 7 – Representação da estratégia usada por Tophat2 ........................... 27
Figura 8 - Demonstração do parâmetro --library type. ...................................... 30
Figura 9 - Visão geral da ferramenta Cufflinks ................................................. 36
Figura 10 - Cuffmerge ...................................................................................... 38
Figura 11 – Etapas da abordagem Cuffdiff para análise diferencial em nível de
isoformas em dados de RNA-Seq. ................................................................... 41
Figura 12 - Exemplo do gráfico Sashimi_plot gerado pela ferramenta MISO. .. 45
Figura 13 - Visão geral da ferramenta MISO .................................................... 47
Figura 14 - Exemplo de saída MISO para a contagem de reads para um éxon
ignorado ........................................................................................................... 49
Figura 15 - Regiões Analisadas do giro denteado versus o hipocampo sub-regiões
CA1, CA2 e CA3. ............................................................................................. 51
Figura 16 - Pipeline Experimento regiões do Hipocampo CA1, CA2 e CA3 e Giro
Denteado. ......................................................................................................... 52
Figura 17 - Pipeline proposto para o modelo Pilocarpina. ................................ 61
Figura 18 - Qualidade da Sequência por base (Experimento Hipocampo e Giro
Denteado)......................................................................................................... 66
xviii
Figura 19 - Qualidade da sequência por base (Modelo Pilocarpina) ................ 68
Figura 20 - Qualidade das sequências Por Base, após a trimagem (Modelo
Pilocarpina) ...................................................................................................... 69
Figura 21 - Gráfico gerado por RNA-SeQC (Cobertura baixa) ......................... 73
Figura 22 - Gráfico gerado por RNA-SeQC (Cobertura média) ........................ 74
Figura 23 - Gráfico gerado por RNA-SeQC (Cobertura alta) ............................ 75
Figura 24 - Volcano plot CA1 x DG .................................................................. 79
Figura 25 - Volcano plot CA2 x DG .................................................................. 79
Figura 26 - Volcano plot CA3 x DG .................................................................. 79
Figura 27 - PCA por amostra, referente a análise do tecido normal do hipocampo e
giro denteado. .................................................................................................. 81
Figura 28 - PCA agrupado, referente a análise do tecido normal do hipocampo e
giro denteado. .................................................................................................. 82
Figura 29 - Dendrograma por amostra referente a análise do tecido normal do
hipocampo e giro denteado .............................................................................. 83
Figura 30- Dendrograma agrupado referente a análise do tecido normal do
hipocampo e giro denteado. ............................................................................. 84
Figura 31 - Volcano Plot contendo os genes diferencialmente expressos no modelo
pilocarpina ........................................................................................................ 87
Figura 32 - Gráfico de Venn com os transcritos encontrados por MISO .......... 89
Figura 33 - Volcano plot: Controle X Pilocarpina .............................................. 93
Figura 34 - Volcano plot: Região CA1 X DG .................................................... 95
Figura 35 - Volcano plot: Região CA2 X DG. ................................................... 96
Figura 36 - Volcano plot: Região CA3 X DG. ................................................... 98
xix
Lista de tabelas
Tabela 1 - Vantagens do uso da Tecnologia de RNA-Seq comparada aos outros
métodos usados em transcriptoma. Adaptado de (Wang et al., 2009). ............ 11
Tabela 2 - Índices de qualidade Phred ............................................................. 12
Tabela 3 - Listagem de softwares utilizados..................................................... 19
Tabela 4 - Estatísticas básicas geradas por FastQC ....................................... 21
Tabela 5 - Quantidade de fragmentos por regiões ........................................... 55
Tabela 6 - Comparação entre arquivos pré e pós alinhamento (Hipocampo e Giro
Denteado)......................................................................................................... 67
Tabela 7 - Estatísticas básicas FastQC (modelo Pilocarpina). ......................... 67
Tabela 8 - Estatística básica FastQC arquivo trimado (modelo pilocarpina). ... 69
Tabela 9 - Estatística basica FastQC "Pós Alinhamento"................................. 70
Tabela 10 - RNA-SeQC Total Reads. .............................................................. 71
Tabela 11 - RNA-SeQC Mapped Reads. ......................................................... 71
Tabela 12 - RNA-SeQC Transcript-associated Reads. .................................... 72
Tabela 13 - RNA-SeQC (Cobertura baixa). ...................................................... 73
Tabela 14 - RNA-SeQC (Cobertura média). ..................................................... 74
Tabela 15 - RNA-SeQC (Cobertura alta). ......................................................... 75
Tabela 16 - Opção 1 usado em Cuffdiff. ........................................................... 76
Tabela 17 - Opção 2 usado em Cuffdiff. ........................................................... 77
Tabela 18 - Opção 3 usado em Cuffdiff. ........................................................... 77
Tabela 19 - Opção 3 usado em Cuffdiff, com arquivos que foram trimados. .... 78
Tabela 20 - Tabela de saída do pipeline utilizando Cuffdiff no modelo pilocarpina
......................................................................................................................... 85
Tabela 21 - Total de transcritos encontrados com MISO. ................................ 89
Tabela 22 - Listagem de Splicing obtidos por Cuffdiff no modelo pilocarpina. . 90
Tabela 23 - Controle vs Pilo ............................................................................. 92
Tabela 24 - CA1 vs DG .................................................................................... 94
Tabela 25 - CA2 vs DG .................................................................................... 96
Tabela 26 - CA3 vs DG .................................................................................... 97
xx
xxi
Lista de Abreviaturas
BAM: Binary Alignment Map.
SAM: Sequence Alignment Map.
cDNA: complementary DNA.
CDS: Coding DNA Sequences.
DNA: Deoxyribonucleic acid.
RNA: Ribonucleic acid.
mRNA: Messenger RNA.
GFF: Generic Feature Format.
GTF: General Transfer Format.
NGS: Next-Generation Sequencing.
PCR: Polymerase Chain Reaction.
PE: Paired End.
SE: Single End.
RPKM: Reads Per Kilobase per Milion mapped reads.
FPKM: Fragments per kilobase of éxon per million fragments mapped.
INDEL: Inserção/deleção.
FLOW CELL: Constituída por "canaletas" cuja superfície é recoberta por
oligonucleotídeos complementares às sequências adaptadoras adicionadas
aos fragmentos da biblioteca.
READ: fragmento sequenciado.
PROBES: sondas de sequenciamento.
BEADS: Pequenas esferas com a sequência complementar ao adaptador.
SNPs: Single Nucleotide Polymorphism.
CPU: Central Processing Unit.
BLAST: Basic Local Alignment Search Tool. Encontra regiões de semelhança
entre sequências biológicas.
FASTQ: formato utilizado para representar sequências geradas por
sequenciadores.
BP: Base pairs.
GAP: Região do genoma não capturada por nenhum read.
FDR: False discovery rate.
xxii
1
1. Introdução
1.1 Epilepsia
A epilepsia é um distúrbio cerebral caracterizada pela presença das crises
epilépticas, fenômeno recorrente e súbito de alteração do fluxo elétrico normal
presente na transmissão sináptica cerebral. A epilepsia não constitui uma entidade
singular, ou uma doença única, mas é um conjunto de doenças e distúrbios que
refletem uma disfunção cerebral subjacente e que podem resultar de muitas causas
diferentes (FISHER et al., 2005). A epilepsia do lobo temporal mesial é a forma mais
comum de epilepsia em adultos, e seu substrato fisiopatológico é mais comumente,
uma lesão anátomo-patológica, chamada, esclerose mesial temporal que acomete,
principalmente a estrutura do hipocampo. Esta é a lesão epileptogênica mais
comum encontrada em pacientes com epilepsia (ENGEL, 2001), principalmente
naqueles que tem epilepsia grave de difícil tratamento com
medicamentos(BLÜMCKE et al., 2013). Daí vem o interesse na literatura entre
médicos e pesquisadores no estudo dessa forma de epilepsia, na tentativa de
elucidar os mecanismos que levam a essa forma frequente e grave de epilepsia.
Para desenvolver uma estratégia terapêutica eficaz que pode interferir com
o processo de desenvolvimento de epilepsia (epileptogênese), é crucial estudar as
alterações que ocorrem no cérebro após uma lesão e antes da epilepsia se
desenvolver. Não é possível determinar essas alterações no tecido humano, por
razões éticas óbvias. Ao longo dos anos, os modelos experimentais de epilepsia
têm contribuído imensamente para melhorar a compreensão do mecanismo de
epileptogênese. Existem muitos modelos que se replicam, pelo menos, algumas das
características de epilepsia humana. Alguns dos modelos utilizados são: modelo
químico, modelo de estimulação elétrica, modelo genético e modelo de trauma. Um
típico modelo químico é o modelo de pilocarpina, este modelo é bastante utilizado
para estudar a epilepsia do lobo temporal (ELT). A pilocarpina é um agonista do
receptor de acetilcolina que ativa os receptores muscarínicos. Tem sido sugerido
2
que os receptores muscarínicos estejam envolvidos no início das convulsões,
enquanto que receptores de glutamato estão envolvidos na manutenção de
convulsões. A duração do estado epiléptico no modelo de pilocarpina, pode ser
controlada por tratamento da benzodiazepina ou fenobarbital. Aproximadamente 45
minutos após a injeção de pilocarpina, os ratos desenvolvem convulsões que podem
durar várias horas. Após 1-2 semanas de período oculto, a maioria dos ratos adultos
tratados com pilocarpina desenvolvem crises espontâneas recorrentes. Outro
modelo utilizado é o modelo genético. A mutação em muitos genes pode causar
epilepsia. A disfunção dos canais iónicos, receptores, enzimas e transportadores
causadas por mutações nos genes tem sido relatado como causador de epilepsia.
Variações na gravidade das crises, a apresentação clínica das convulsões, e efeitos
a longo prazo da síndrome são observados em indivíduos com mesma mutação. A
hipótese da causa dessas variações, podem ser os modificadores genéticos ou
ambientais. As mutações em proteínas que estão envolvidos na migração dos
neurônios durante o desenvolvimento, também estão associados com a epilepsia
(RAOL; BROOKS-KAYAL, 2012).
1.2 Expressão Gênica
Expressão gênica é um processo multiestágios, e foi definida por Lewin como
um processo pelo qual a informação hereditária contida em um gene, é processada
em um produto gênico (Lewin, 2004). Os fluxos de informações que partem do DNA
para o RNA é um processo conhecido como transcrição. A partir do RNA para a
proteína, este processo chama-se tradução. Juntos, estes processos são
conhecidos como expressão gênica (BRAY et al., 2009) (Figura 1). A expressão
gênica, é o processo pelo qual a informação codificada no DNA é interpretada pela
célula para guiar a síntese de proteínas. Nos eucariotos ela é influenciada por uma
ampla variedade de mecanismos incluindo a perda, amplificação, e o rearranjo de
genes. (BROWN, 1981). Compreender os princípios e mecanismos que regem
esses programas complexos de expressão de genes é importante para a
compreensão de doenças. (MARGUERAT; BÄHLER, 2010)
3
Figura 1 – Visão geral do fluxo de informações a partir do DNA para a proteína em uma célula eucariótica.
Primeiro, ambas as regiões codificantes e não codificantes de DNA são transcritos em mRNA. Algumas
regiões são removidas (íntrons) durante o processamento inicial mRNA. O restante (éxons) são unidas em
conjunto, e a molécula de mRNA emendada (vermelho) está preparado para a exportação para fora do
núcleo através da adição de uma esfera e uma cauda poliA. Uma vez no citoplasma, o mRNA pode ser usado
para construir uma proteína. (O’CONNOR, C. M. & ADAMS, 2010).
A expressão do gene é definida como a soma da expressão de todas as
suas isoformas (GARBER et al., 2011).
É bem estabelecido que as alterações na expressão de genes são
importantes na aprendizagem e na memória, e também que a regulação da
expressão do gene inadequado é uma causa de um grande número de doenças
neuronais. Os perfis de expressão gênica em cada neurônio são muito dinâmicos e
requintadamente sensível a atividade sináptica. Assim, cada neurônio dentro do
cérebro tem o potencial de possuir um conjunto único de modificações da cromatina
e perfil gene-expressão. Embora muitos mecanismos que controlam a expressão
de genes em neurônios têm sido descobertos, ainda há muito trabalho a ser feito
4
antes de entender completamente como estes mecanismos individuais são
integrados em redes de genes neuronais para criar um órgão complexo que mantém
o controle homeostático de nossos corpos, nos permitindo interpretar o nosso
ambiente e tomar decisões complexas (OOI; WOOD, 2008).
Alteração na expressão gênica é uma das principais respostas do tecido
cerebral a insultos epileptogênicos. As abordagens de investigação baseiam-se na
análise individual da expressão de determinados genes ou na análise de expressão
de múltiplos genes simultaneamente. Outra abordagem é a análise em larga escala,
utilizando técnicas analíticas mais modernas, esta estratégia reduz o viés dos genes
avaliados possibilitando a descoberta de novos transcritos (ROMCY-PEREIRA et
al., 2008).
1.3 Splicing Alternativo
Em organismos eucarióticos, a organização gênica consiste em conjuntos de
éxons que são sequências codificantes, separadas por íntrons que são sequências
não-codificantes. O número de íntrons varia muito, e o tamanho de éxons e íntrons
também é bastante variável.
Os íntrons são removidos do pré-mRNA por meio de um mecanismo
denominado processamento de RNA (splicing). Este processo converte o pré-
mRNA em RNA mensageiro maduro (mRNA). Frequentemente, pré-mRNAs podem
ser processados de mais de um modo, originando mRNAs alternativos, pela
remoção de diferentes combinações de íntrons. Esse processo é denominado
splicing alternativo, dessa maneira, um gene pode dar origem a mais de um produto
polipeptídico (LEVIN, 2004) (Figura 2).
5
Figura 2 - O splicing alternativo: Um único gene pode produzir várias proteínas relacionadas, ou isoformas,
por meio de splicing alternativo.(AE GUTTMACHER AND FS COLLINS, 2002)
O splicing alternativo é um elemento chave da expressão do gene eucariótico
que aumenta a capacidade de codificação do genoma humano e um número
crescente de exemplos ilustra que a seleção dos locais de splice errados podem
gerar doenças humanas (TAZI et al., 2009).
O fenômeno de splicing alternativo foi descoberto no final de 1970, e foi então
verificado experimentalmente na década de 1980, mas a verdadeira revolução em
splicing alternativo ocorreu na era do sequenciamento do genoma humano. Splicing
alternativo tem captado a atenção da comunidade genômica como um importante
mecanismo de regulação para modular o conteúdo gene e proteína na célula. A
descoberta de que muitos genes podem produzir múltiplas isoformas de mRNA e
proteína, através da seleção regulada de diferentes combinações de éxons, mudou
irreversivelmente a perspectiva de muitos problemas genômicos importantes
(FLOREA, 2006).
6
Splicing alternativo do pré-mRNA gera diversidade de proteínas em todo o
transcriptoma, enquanto que os erros na sua regulação subjazem de uma variedade
de doenças humanas. Mecanismos de salto de éxon e inclusão, assim como a
seleção de sítio de splicing 5 e 3, são comumente usados para a produção de
múltiplas isoformas mRNA a partir de um único gene (DEMBOWSKI et al., 2012).
No sistema nervoso, milhares de mRNAs de splicing alternativo são
convertidas para os seus homólogos de proteínas onde as isoformas específicas
desempenham um papel na aprendizagem e na memória, o reconhecimento de
células neuronais, neurotransmissor, a função de canal iônico, e especificidade para
o receptor. A natureza essencial deste processo é sublinhada pela constatação de
que a sua desregulação é uma característica comum de doença humana. O splicing
alternativo afeta a função da proteína no sistema nervoso, em uma variedade
interessante. Eventos de splicing específicos para neurônios são controlados por
matrizes altamente complexas de elementos de RNA positivos e negativos. Estas
permitem respostas sutis espacial e temporal por exemplo, e para a plasticidade da
função celular que está associada com a aprendizagem e memória. Além de
abordagens genéticas e moleculares, inovadoras aplicações de genômica,
proteômica, e ferramentas computacionais para ajudar no problema de splicing
alternativo no sistema nervoso, oferecem perspectivas animadoras para a
descoberta (GRABOWSKI; BLACK, 2001).
Ao longo dos últimos anos, a análise do splicing alternativo usando
bioinformática tem emergido como um importante campo, e mudou
significativamente a nossa visão da função do genoma. Estudos indicam a presença
de formas de splicing alternativo em até 80 por cento dos genes humanos (LEE;
WANG, 2005).
7
1.4 Sequenciamento de Nova Geração
O Projeto Genoma Humano foi realizado com a primeira geração de
sequenciamento, conhecida como sequenciamento Sanger (o método de
terminação de cadeia), desenvolvido em 1975 por Edward Sanger, que foi
considerado o padrão ouro para o sequenciamento de ácidos nucleicos. Desde a
conclusão da primeira sequência do genoma humano, a demanda por métodos de
sequenciamento mais baratos e mais rápidos aumentou muito. Esta demanda tem
impulsionado o desenvolvimento de métodos de sequenciamento de segunda
geração “Next Generation Sequencing” (NGS). Plataformas NGS executam
sequenciamento paralelo em massa, durante o qual milhões de fragmentos de DNA
a partir de uma única amostra são sequenciados em paralelo. (GRADA;
WEINBRECHT, 2013)
Como técnicas de sequenciamento de nova geração ou Next Generation
Sequencing (NGS) tornaram-se mais baratas e mais avançadas em rendimento ao
longo do tempo, grandes inovações e conclusões têm sido geradas em várias áreas
biológicas. Técnicas NGS trouxeram uma evidente revolução no campo da biologia
e outros campos intimamente relacionados, e moldaram uma nova tendência de
quão moderna a pesquisa biológica pode ser feita em um nível de grande escala.
Com os avanços destas técnicas, hoje em dia é possível fazer a varredura e
sequenciar um genoma inteiro ou exoma ao nível de pares de bases, a uma taxa de
erro baixa, em um intervalo de tempo aceitável e em um menor custo.
(PAVLOPOULOS et al., 2013). Um grande progresso ocorreu durante estes últimos
10 anos de existência das tecnologias de sequenciamento de nova geração (NGS).
Houve um avanço em termos de velocidade, comprimento dos reads, junto com
uma forte redução no custo por base. Todas as melhorias juntas acarretaram em
novas aplicações em NGS (DIJK, VAN et al., 2014).
Sequenciamento por síntese “Pirossequenciamento” (RONAGHI, 1998) é
uma técnica construída sobre um monitoramento em tempo real de 4 enzimas de
síntese de DNA por bioluminescência usando uma cascata que após a incorporação
de nucleotídeos termina em um sinal de luz que é detectável. O sistema de detecção
8
é baseado na pirofosfato libertado quando um nucleotídeo é introduzido no DNA de
cadeia simples. Desse modo, o sinal pode ser quantitativamente ligado com o
número de bases adicionadas.
Sequenciamento por síntese, utilizado pela Illumina Genome Analyzer, inicia-
se com o DNA fragmentado aleatoriamente e, após a fragmentação, adaptadores
diferentes são ligados às extremidades dos fragmentos. Os fragmentos, em
seguida, são desnaturados, distribuídos e imobilizados em uma superfície sólida
(flow cell), a qual é revestida por uma camada de oligonucleotídeos complementares
aos dois tipos de adaptadores dos fragmentos. A flow cell permite que seja feito à
amplificação em ponte dos fragmentos sobre a sua superfície, e usa DNA
polimerase para produzir múltiplas cópias de DNAs, ou aglomerados (clusters),
onde cada um representa a molécula única que iniciou a amplificação do conjunto.
Uma biblioteca em separado podem ser adicionados a cada um dos oito canais da
flow cell, ou a mesma biblioteca pode ser utilizada em todos os oito, ou suas
combinações. Cada cluster contém aproximadamente um milhão cópias do
fragmento original, o que é suficiente para relatar bases incorporadas na intensidade
de sinal necessária para a detecção durante sequenciamento, em que todos os
quatro nucleotídeos são adicionados em simultâneo aos canais da flow cell,
juntamente com DNA polimerase, para incorporação no cluster estimulado com
fragmentos de oligo especificamente, os nucleotídeos carregam uma única base
fluorescente e o grupo 3´ é quimicamente bloqueado de modo que cada um é
incorporado em um evento único. Cada ciclo de incorporação de base é seguido por
uma etapa de imagem para identificar o nucleotídeo incorporado em cada grupo e
pôr um passo químico que remove o grupo fluorescente e desbloqueia a
extremidade 3 'para o próximo ciclo. A série de passos continua para um
determinado número de ciclos (definidos pelo usuário). No final do sequenciamento
um algoritmo atribui sequências e os valores de qualidade associados a cada read,
e uma verificação da qualidade avalia os dados de cada corrida, removendo
sequências de baixa qualidade. (MARDIS, 2008)
9
Em uma reação de sequenciamento por ligação, não temos a incorporação
de uma base nitrogenada, mas sim a hibridização de probes a seus complementos
reversos nas amostras previamente amplificadas nos beads em emulsão PCR.
Após a adição de DNA-ligase e remoção dos probes não hibridizados as amostras,
os grupamentos fluorescentes são excitados por laser, e a emissão luminosa é
detectada pelo sequênciador (TOMKINSON et al., 2006).
Assim como modelos animais são de grande importância no estudo da
epilepsia, as técnicas utilizadas para estudo da expressão gênica desta síndrome
têm papel fundamental. Enquanto as tecnologias baseadas em microarray para a
obtenção de expressão gênica tem dominado a genômica, perfis de expressão
gênica baseadas em Next-Generation Sequencing, obtidas através do
sequenciamento de RNA (RNA-Seq), provavelmente venha substituir essa
tecnologia (ROY et al., 2011).
1.5 RNA-Seq
RNA-Seq é uma abordagem que utiliza tecnologia de sequenciamento de 2ª
geração para gerar o perfil do transcriptoma. Oferece diversas vantagens sobre as
tecnologias existentes. Em primeiro lugar, ao contrário de abordagens baseadas na
hibridação como o microarray, o RNA-Seq não está limitada à detecção de
transcritos que correspondem à sequência genômica existente nas sondas. Além
disso, o RNA-Seq também podem apresentar variações de sequência (por exemplo,
os SNPs) nas regiões transcritas (WANG et al., 2009)
RNA-Seq é um protocolo para sequenciamento de mRNA, gerando milhões
de fragmentos de sequências curtas em uma única corrida. Em resumo, uma
população de RNA é convertida em uma biblioteca de cDNA. Cada fragmento de
cDNA recebe adaptadores, e uma pequena sequência é obtida a partir de cada
cDNA utilizando tecnologia de sequenciamento de alto rendimento que gera
sequências curta. Estes fragmentos chamados de reads são alinhados com o
10
genoma ou transcriptoma de referência e serão usados para calcular níveis de
expressão e identificar splicing alternativo (Figura 3) (TRAPNELL et al., 2009).
RNA-Seq torna-se particularmente indicado para a análise quantitativa de
níveis de expressão de transcritos. Quase todos os estudos de RNA-Seq publicado
até hoje abordaram esta questão, e eles concordam que os dados gerados por esta
tecnologia são altamente quantitativos e fornecem medições confiáveis de níveis de
transcritos em uma ou mais condições. Outra característica dos dados de RNA-Seq
é a sua elevada sensibilidade, que permite a detecção da expressão de transcritos
de substancialmente mais de um determinado tipo celular (MARGUERAT; BÄHLER,
2010).
Figura 3 - Experiência típica de RNA-Seq. Fragmentos de RNA são convertidos em biblioteca de cDNA, na
sequência são ligados adaptadores em ambas as extremidades e feito o sequenciamento onde serão
gerados os reads, os reads serão alinhados a um genoma de referência e por fim feita a análise (Wang et al,
2009).
11
Embora RNA-Seq seja uma tecnologia em desenvolvimento ativo, oferece
várias vantagens sobre outras tecnologias existentes. A tabela 1 demostra algumas
das vantagens do uso desta tecnologia quando comparada com a técnica de
microarray.
Tabela 1 - Vantagens do uso da Tecnologia de RNA-Seq comparada aos outros métodos usados em
transcriptoma. Adaptado de (Wang et al., 2009).
Tecnologia Microarray RNA-Seq
Especificações da tecnologia
Princípio Hibridização Sequenciamento High-throughput
Resolução Variável, até 100 pb Única base Throughput (Vazão) Alta Alta Confiança em sequência genômica Sim Em alguns casos
Ruído de fundo Alto Baixo
Aplicação
Mapear regiões transcritas e expressão gênica simultaneamente
Sim Sim
Faixa dinâmica para quantificar o nível de expressão gênica.
Uns poucos, à 100 >8.000-vezes
Capacidade de distinguir diferentes isoformas
Limitado Sim
Capacidade de distinguir expressão de alelos
Limitado Sim
Questões práticas
Quantidade necessária de RNA Alta Baixo Custo para mapeamento de transcriptoma de grandes genomas
Alto Relativamente baixo
1.6 Controle de qualidade
O primeiro passo após o sequenciamento das amostras é fazer o controle de
qualidade dos reads e é um passo facultativo. No entanto, verificam-se erros nos
reads associados a cada uma das plataformas, mesmo após o controle de qualidade
aplicado pelos fabricantes. Os erros mais comuns são a baixa qualidade dos reads,
e a contaminação pelos adaptadores (DAI et al., 2010). Estes erros podem conduzir
a conclusões erradas, como por exemplo, no estudo de polimorfismos.
O objetivo do controle de qualidade é, portanto, fazer uma avaliação dos
reads, e em seguida, proceder com a correção, remoção e corte dos reads que não
12
respeitem os valores mínimos de qualidade pretendidos (PABINGER et al., 2014).
Alguns dos parâmetros a levar em consideração são o tamanho das sequências, a
qualidade de cada base e do read, dada pelos valores phred (Tabela 2), o número
de sequências repetidas e a distribuição das bases.
Com a análise do relatório de qualidade, é possível a utilização de programas
para corrigir tais problemas.
Já o controle de qualidade pós alinhamento é importante para que seja bem
sucedida a detecção da variante, nesta etapa, o controle de qualidade fornece
informações adicionais para a qualidade da amostra, e pode ajudar a identificar
amostras ruins que passaram nas verificações de controle de qualidade dos dados
brutos. (GUO et al., 2013).
Índices de qualidade Phred (Q), é uma escala logarítmica relacionada com
as probabilidades de erro de chamada de base (P).
Q=-10 log10 P
Tabela 2 - Índices de qualidade Phred
Score Phred Qualidade
Probabilidade de chamada de base
incorreta
Chamada Base de precisão
10 1 em 10 90%
20 1 em 100 99%
30 1 em 1000 99,90%
40 1 em cada 10.000 99,99% 50 1 em 100.000 100,00%
60 1: 1.000.000 100,00%
1.7 Alinhamento de Sequências
Uma das tarefas mais básicas de análise de RNA-Seq é o alinhamento de
reads para um transcriptoma ou genoma de referência. Alinhamento de reads é um
problema clássico em bioinformática (GARBER et al., 2011), podendo levar a
centenas ou milhares de unidade de processamento central (CPU) horas, utilizando
ferramentas de software convencionais, como BLAS. Atualmente uma nova geração
de programas de alinhamento capaz de mapear centenas de milhões de reads em
um único computador desktop. Alguns destes programas são de fonte livre e aberta
e usam uma estratégia computacional conhecido como "indexação" para acelerar
13
os seus algoritmos de mapeamento. Assim como o índice de um livro, um índice de
uma grande sequência de DNA permite que se possa encontrar rapidamente as
sequências mais curtas embutidas dentro dela.(COLE TRAPNELL AND STEVEN L
SALZBERG, 2010).
O fato de que o genoma humano é muitas vezes referida como o “Livro da
Vida” é uma descrição apropriada porque os ácidos nucleicos e proteínas são
muitas vezes representados e manipulados como arquivos de texto (KORF et al.,
2003). A maior parte da biologia computacional lida com a similaridade de
sequências, sejam eles fragmentos de DNA, RNA ou proteínas. Alinhamento de
sequências é o procedimento de comparar duas (alinhamento por pares) ou mais
sequências (alinhamento de sequências múltiplas) de DNA, RNA ou proteína
procurando por uma série de caracteres individuais ou padrões de caracteres que
estejam na mesma ordem nas sequências, é de grande utilidade para a descoberta
de informações funcionais, estruturais e evolutiva em sequências de DNA, RNA ou
proteínas (DAVID, 2001).
1.8 Quantificação da Expressão Gênica
O protocolo Tuxedo foi criado por (TRAPNELL et al., 2012a), o mesmo
criador de Tophat e Cufflinks, e foi desenvolvido para auxiliar na análise dos dados
de RNA-Seq, desde o alinhamento de reads, montagem de transcrição ou anotação
do genoma e quantificação de genes. O protocolo começa com dados brutos de
RNA-Seq e termina com a visualização da análise pronta para publicação.
Resumindo o protocolo, temos Tophat (http://tophat.cbcb.umd.edu/) que alinha os
reads ao genoma e descobre locais de junção de transcrição. Estes alinhamentos
são utilizados durante a análise a posterior de várias maneiras. Cufflinks
(http://cufflinks.cbcb.umd.edu/) usa este alinhamento contra o genoma para montar
os reads em transcrições. Cuffdiff, uma parte do pacote do Cufflinks, toma o read
alinhado a partir de duas ou mais condições e relata genes e transcritos que são
diferencialmente expressos utilizando uma análise estatística. CummeRbund
14
processa a saída Cuffdiff em números e gráficos prontos para publicação
(TRAPNELL et al., 2012a).
1.9 Bioinformática
O dogma central da biologia molecular é o DNA (Ácido Desoxirribonucleico)
presente no núcleo de cada célula de um organismo que é transcrito em RNA (Ácido
Ribonucleico), que por sua vez é traduzido em proteínas. O gene é a unidades
fundamental da hereditariedade e são formados por sequência específica de ácidos
nucleicos (DNA e RNA). Genes são estruturas moleculares complexas que causam
transformações durante toda a vida de um indivíduo, estes interagem com muitos
outros genes, proteínas, e são influenciados por muitos fatores ambientais. O
conhecimento desta complexidade biológica é um dos principais objetivos para a
área de bioinformática, que está preocupada com a aplicação e o desenvolvimento
dos métodos de armazenamento, análise, modelagem e descoberta de
conhecimento a partir de dados biológicos e médicos (KASABOV, 2007).
Bioinformática é muitas vezes descrita como sendo jovem, mas os
computadores surgiram como ferramentas importantes na biologia molecular
durante o início da década de 1960. Uma década antes de sequenciamento de DNA
(HAGEN, 2000).
A história bioinformática começou com um monge austríaco chamado Gregor
Mendel, conhecido como o "pai da genética". Mendel fertilizou cores diferentes das
mesmas espécies de flores. Ele manteve registros cuidadosos das cores das flores
que ele fertilizou, e a cor de flores que eles produziram. Mendel mostrou que a
herança de traços poderia ser mais facilmente explicada se fosse controlado por
fatores que passaram de geração em geração. Desde Mendel, bioinformática e
manutenção de registros genética já percorreu um longo caminho. O campo da
bioinformática e biologia computacional passou por uma série de transformações
nos últimos anos, estabelecendo-se como um componente-chave da nova biologia.
Este crescimento foi contestado por uma série de mudanças revolucionárias na
15
ciência e na tecnologia. A compreensão da genética tem avançado notavelmente
nos últimos, e a bioinformática tem crescido, talvez, a um ponto além do
reconhecimento (THAMPI, 2009; OUZOUNIS, 2012).
Em 1973, duas coisas importantes aconteceram no campo da genômica.
Joseph Sambrook liderou uma equipe que refinou eletroforese de DNA usando gel
de agarose, e Herbert Boyer e Stanely Cohen inventaram a clonagem de DNA. Por
volta de 1977, um método para sequenciamento de DNA foi descoberto e a primeira
empresa de engenharia genética, foi fundada. Em 1981, 579 genes humanos foram
mapeados. Marvin Carruthers e Leory Hood fizeram um enorme salto em
bioinformática, quando inventaram um método para sequenciamento automático.
Em 1988, a organização do Genoma Humano (HUGO) foi fundada, esta é uma
organização internacional de cientistas envolvidos no Projeto Genoma Humano. Em
1989, o primeiro mapa completo do genoma da bactéria Haemophilus influenza foi
publicado. No ano seguinte, o Projeto Genoma Humano foi iniciado, e por volta de
1991, um total de 1.879 genes humanos foram mapeados. Em 1993, um centro de
investigação do genoma humano da França fez um mapa físico do genoma humano,
e três anos depois, Genethon publicou a versão final do Mapa genético humano.
Isto conclui o fim da primeira fase do Projeto Genoma Humano. A bioinformática foi
impulsionada pela necessidade de criar enormes bancos de dados, tais como o
GenBank e EMBL, para armazenar e comparar os dados de sequência de DNA a
partir do projeto genoma humano e de outros projetos de sequenciamento de
genomas. Hoje, a bioinformática abrange análise de estruturas de proteínas, genes
e informações funcionais de proteínas, dados de pacientes, os testes pré-clínicos e
clínicos, bem como as vias metabólicas de numerosas espécies. É uma ciência
interdisciplinar que representa a convergência da genômica, biologia, matemática e
a informática, e abrange a análise e interpretação de dados, modelagem de
fenômenos biológicos, e desenvolvimento de algoritmos e estatísticas. Esta
disciplina aborda a necessidade de gerenciar e interpretar os dados que nos últimos
anos foi maciçamente gerado pela pesquisa genômica. Por ser uma disciplina ampla
e abrangente é difícil defini-la. É um campo próspero que está atualmente na
vanguarda da ciência e tecnologia. A ciência que se relaciona com bioinformática
16
tem muitos componentes. Geralmente, refere-se a moléculas biológicas portanto
requer o conhecimento nos campos da bioquímica, biologia molecular, evolução
molecular, a termodinâmica, biofísica, engenharia molecular e mecânica estatística,
para citar alguns. Requer o uso da ciência da computação, matemática e princípios
estatísticos. A bioinformática está no cruzamento da ciência experimental e teórica,
e não é apenas sobre a modelagem de dados ou “mineração”, trata-se de
compreender o mundo molecular que alimenta a vida a partir de perspectivas
evolutivas (THAMPI, 2009).
Estudos em bioinformática ajudam os cientistas a responderem perguntas
úteis e valiosas em muitos aspectos (BAINS, 1996)
17
2. Objetivos
Utilizar métodos de bioinformática para obter informações sobre
expressão gênica a partir de dados de RNA-Seq utilizando dados brutos gerados
experimentalmente, obtidos em dois modelos animais experimentais diferentes.
2.1 Objetivos específicos
1. Realizar comparação de métodos diferentes de quantificação de expressão
gênica e splicing alternativo;
2. Realizar contagem de genes por meio de análise estatística para obter o perfil
de expressão gênica;
3. Localizar regiões de splicing alternativo;
18
19
3 Métodos
Para melhor entendimento dos métodos, alguns resultados serão
apresentados em conjunto com a descrição dos métodos, porém estes serão
apresentados de maneira mais completa na sessão de resultados.
Essa sessão de métodos está dividida em três partes para facilitar o
entendimento do leitor: I) Softwares utilizados, II) Situações biológicas
analisadas, e III) Resumo dos procedimentos de preparo das amostras e do
sequenciamento.
3.1 Softwares utilizados
A tabela 3 classifica todos os softwares que foram utilizados neste estudo.
Tabela 3 - Listagem de softwares utilizados.
Software Finalidade Versão Endereço Eletrônico
1 FastQC
Controle de qualidade.
0.10.1
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
2 Trimmomatic
Trimagem (Remover adaptadores e qualidade baixa).
0.27
http://www.usadellab.org/cms/?page=trimmomatic
3 Tophat2
Mapeador de junções de splicing para dados de RNA-Seq.
2.0.8b
http://ccb.jhu.edu/software/tophat/index.shtml
4 Cufflinks
Montagem do transcriptoma e análise de expressão diferencial de RNA-Seq.
2.2.1
http://cole-trapnell-lab.github.io/cufflinks/
5 Cuffmerge
Fusão de diversas montagens geradas por Cufflinks.
1.0.0
http://cole-trapnell-lab.github.io/cufflinks/cuffmerge/
6 Cuffdiff
Encontra mudanças significativas na expressão do transcrito e splicing.
2.1.1
http://cole-trapnell-lab.github.io/cufflinks/cuffdiff/
7 CummeRbund
Análise estatística, manipulação e visualização de dados gerados por Cufflinks.
0.1.3
http://compbio.mit.edu/cummeRbund/
8 RNA-SeQC
Controle de qualidade para os dados de RNA-Seq, gerados após o alinhamento.
1.1.7
http://www.broadinstitute.org/cancer/cga/rna-seqc
9 MISO
Quantifica o nível de expressão dos genes de splicing alternativo, a partir de dados de RNA-Seq.
0.5.2
http://miso.readthedocs.org/en/fastmiso/
20
3.2 Controle de qualidade
Sequenciadores de alto rendimento podem gerar dezenas de milhões de
sequências em uma única corrida. Antes de analisar essas sequências é
recomendável realizar algum controle de qualidade para assegurar quão bom
estejam os dados brutos e garantir que não haja problemas ou vieses nos dados
que possam afetar as análises posteriores. A maioria dos sequenciadores gera um
relatório de qualidade, mas este é geralmente focado na identificação de problemas
que foram gerados pelo próprio sequenciador. FastQC proporciona um relatório de
controle de qualidade que pode detectar problemas que se originam ou no
sequenciador ou na biblioteca.
A ferramenta FastQC desenvolvido pelo grupo de bioinformática do Instituto
Babraham (ANDREWS, 2010), oferece alguns parâmetros de controle de qualidade.
FastQC pode ser utilizado com dados brutos apenas sequenciados (Fastq),
fornecendo uma visão de quão bom está o sequenciamento ou com dados
alinhados (BAM), para verificar a qualidade dos dados alinhados.
Desenvolvido em linguagem Java, seu pré-requisito é Java Runtime
Environment apropriado. FastQC pode ser executado em duas formas, em modo de
interface gráfica ou em linha de comando.
FastQC suporta arquivos nos seguintes formatos
Fastq: Formato utilizado para representar sequências geradas por
sequenciadores, onde as bases e os valores de qualidade são representados
no mesmo arquivo. Os valores de qualidades são codificados em caracteres
ASCII, o que torna mais eficiente e com menor tamanho.
Casava Fastq: O mesmo que fastq, exceto que os dados são geralmente
divididos em vários arquivos de uma única amostra.
Colorspace Fastq
GZip Fastq comprimido
SAM
21
BAM
A saída é fornecida em relatório interativo dentro de FastQC, com a opção
de salvar como relatório HTML ou em HTML apenas, quando utilizado em linha de
comando. Alguns dos relatórios gerados estão listados abaixo, com exemplos da
amostra do animal identificado por n2 da região CA1.
Estatísticas básicas (Basic Statistics): Neste modulo são disponíveis
algumas estatísticas de composição do arquivo analisado (tabela 4). Abaixo,
estão descritos os campos da tabela:
Nome do arquivo: Nome do arquivo original do arquivo que foi
analisada.
Codificação: Diz qual a codificação ASCII de valores de qualidade foi
encontrado neste arquivo.
Total de Sequências: Contagem do número total de sequências
processadas.
Comprimento da Sequência: Fornece o comprimento da sequência,
mais curto e mais longo. Se todas as sequências são do mesmo
comprimento apenas um valor mostrado. O comprimento das
sequências deste arquivo é de 101 pares de bases.
% GC: O total de porcentagem GC de todas as bases em todas as
sequências. O conteúdo GC são regiões que codificam um gene, por
sofrer ligação química forte, são regiões difíceis de sofrer mutação.
Tabela 4 - Estatísticas básicas geradas por FastQC
Medida Valor
Nome arquivo n2_ca1.R1.fastq Codificação Sanger / Illumina 1.9 Total Sequências 17406318 Comprimento Sequência 101 %GC 48
Qualidade da Sequência Por Base (Per Base Sequence Quality): É gerado
um gráfico de valores de qualidade em todas as bases em cada posição do
arquivo Fastq (figura 4). O arquivo analisado gerou bons resultados de
qualidade, pois todas as bases estão acima de 30 (escala phred), não tendo
22
nenhuma queda na qualidade. O eixo y no gráfico mostra os índices de
qualidade. Quanto maior a pontuação, melhor a chamada base. A cor de
fundo do gráfico divide o eixo y em chamadas de muito boa qualidade
(verde), chamadas de qualidade razoável (laranja), e chamadas de má
qualidade (vermelho). A qualidade da chamada na maioria das plataformas
irá degradar conforme o funcionamento prossegue, isso pode ser devido ai
desgaste do reagente que perde a força, de modo que é comum ver
chamadas de base que caem na área de laranja no final de uma leitura.
Os elementos do gráfico são:
A linha vermelha central é o valor da mediana
A caixa amarela representa o intervalo inter-quartil (25-75%)
Os traços superiores e inferiores representam os pontos 10% e 90%
A linha azul representa a qualidade média
Figura 4 – Exemplo de gráfico mostrando a Qualidade da Sequência Por Base gerada por FastQC. (Fonte: Elaborada pela autora).
23
Conteúdo da Sequência Por Base (Per Base Sequence Content): O gráfico
deste módulo (figura 5), mostra a proporção de cada posição da base, para
ver se cada uma das quatro bases nitrogenadas (A, T, C e G) foi chamada.
No início, o comportamento desequilibrado pode ser devido aos primers que
não são aleatórios, porém a partir da 15ª base, este comportamento tende a
se normalizar.
Figura 5 – Exemplo de gráfico mostrando o Conteúdo da Sequência Por Base gerado por FastQC. (Fonte: Elaborada pela autora).
Conteúdo GC Por Sequência (Per Sequence GC Content): Este gráfico mede o
teor de GC ao longo de todo o comprimento de cada sequência em um arquivo,
e compara com uma distribuição normal. Uma vez que não conhece o conteúdo
GC do genoma do conteúdo, o GC referente a esta modalidade é calculado a
24
partir dos dados observados e usado para construir uma distribuição de
referência. Mostrado na figura 6.
Figura 6 – Exemplo de gráfico contendo o Conteúdo GC Por Sequência gerado por FastQC. Em azul, é
mostrada a distribuição teórica e em vermelho, a contagem de GC por read. (Fonte: Elaborada pela autora).
3.3 Trimagem
A Trimagem é o processo de limpeza das sequências produzidas pelo
processo de sequenciamento. Ela é responsável pela remoção de regiões que
apresentem baixa qualidade ou que são indesejadas por causarem incidência de
erros nas análises dos dados.
Trimmomatic (BOLGER et al., 2014) é uma ferramenta de linha de comando
que pode ser usada para aparar e cortar dados Ilumina (FASTQ), bem como para
remover adaptadores. Esses adaptadores podem representar um problema real
25
dependendo da preparação da biblioteca e aplicação posterior. Inclui uma variedade
de passos de processamento para limpeza e filtragem de reads, mas as principais
inovações algorítmicas estão relacionadas com a identificação de sequências de
adaptador e de filtragem qualidade.
Existem dois principais modos: Paired-End (PE) e Single-End (SE). O modo
paired-end manterá a correspondência de pares de reads e também usará
informações adicionais contidas no read paired-end para melhor encontrar
fragmentos de adaptador ou PCR introduzidas pelo processo de preparação da
biblioteca. Arquivos compactados usando o "gzip" ou "bzip2" são suportados.
As atuais medidas de corte são:
ILLUMINACLIP: Este passo é usado para encontrar e remover adaptadores
Illumina.
LEADING: Remover bases de baixa qualidade a partir do início.
TRAILING: Remover bases de baixa qualidade a partir do final.
CROP: Corte a leitura para com comprimento especificado.
MinLen: Elimina o read se estiver abaixo de um determinado comprimento.
3.4 Tophat2
Mapeador de junções de Splicing
Um método que surgiu com o algoritmo desenvolvido por (KIM et al., 2013),
realiza o alinhamento de reads de Rna-Seq, identificando junções éxon-éxon, com
ou sem o genoma de referência, utilizando o programa Bowtie (LANGMEAD et al.,
2009) como alinhador. Tophat possui recursos para identificar novas junções de
splicing.
A princípio foi criado para trabalhar com reads produzidos por sequênciador
Illumina, mas existem relatos de usuários que tiveram êxito ao utilizar reads
provenientes de outras tecnologias.
26
Este método consiste basicamente em duas fases. Na primeira fase é feito o
mapeamento de todos os reads contra o genoma de referência, os reads que não
foram mapeados nesta fase são guardados, nesta fase serão identificados possíveis
éxons. A segunda fase consiste do mapeamento dos reads que inicialmente não
foram mapeados nas regiões de junção (splices) selecionadas, por padrão, Tophat
avalia somente íntrons maiores que 70 bp e menores que 20 000 bp e constrói uma
base de dados com todas as junções possíveis, em seguida é feito o mapeamento
com cada um dos reads com suas possíveis junções para confirmá-las (Figura 7).
27
Figura 7 – Representação da estratégia usada por Tophat2 (Kim et al., 2013).
Alguns sequenciadores produzem reads curtos, com tamanho de 100 pares
de base e alguns éxons são menores que isso, o que pode ser um problema porque
alguns éxons podem ser descartados no mapeamento inicial. Neste caso, Tophat2
28
fraciona todos os reads em fragmentos menores e faz o mapeamento de forma
independente, e por final, retorna a pegar estes fragmentos para produzir os
alinhamentos.
Três abordagens são utilizadas para gerar a base de dados. A primeira
consiste em emparelhamento de cobertura de ilhas, que estão localizados em
diferentes regiões da pilha de reads de alocação inicial. As “ilhas” vizinhas, são
colocadas juntas no transcriptoma, assim Tophat2 procura maneira de junta-las com
íntron. A segunda abordagem é usada apenas quando os dados de entrada são
paired-end. Quando um par é lido a partir de diferentes éxons de um transcrito, é
geralmente atribuído a regiões distantes no genoma. Em situações desse tipo,
TopHat2 tenta "fechar" a distância entre eles, encontrando subsequências do
genoma que tenha um comprimento semelhante a esperada entre os pares. Como
resultado, os íntrons dessa subsequência são adicionados à base de dados. A
terceira abordagem ocorre na identificação de um ponto de junção que acontece
quando dois segmentos do mesmo read são mapeados longe um do outro, ou
quando um segmento interno falha no mapeamento.
Tophat2 pode ser executado em sistemas Linux e MAC e como pré-requisito,
devem ser instalados:
Bowtie2: Responsável pelo alinhamento (http://bowtie-
bio.sourceforge.net/index.shtml), e seus pacotes, -align, -inspect e -build.
SAMTools (http://samtools.sourceforge.net/): Responsável por realizar
manipulações nos arquivos de mapeamento de sequências (SAM).
Python versão 2.6 ou superior, pois algumas etapas de Tophat são escritas
nesta linguagem de programação.
Neste trabalho foi utilizada a versão 2.0.12 do Tophat. Esta versão é descrita
por (KIM et al., 2013). TopHat2 contém melhorias significativas, como o alinhamento
de reads de vários comprimentos que foram gerados pelas tecnologias de
sequenciamento mais recentes, alinhamento ao transcriptoma, e também
permitindo indels de comprimento variável em relação ao genoma de referência.
29
Parâmetros padrão.
Parâmetro Função
-o/--output-dir Diretório de saída dos dados.
-G/--GTF Arquivo de anotação com as
coordenadas do transcriptoma.
-p Número de processadores. Padrão 1.
genome Arquivos de índice gerados pelo
Bowtie-build.
Descrição de alguns parâmetros padrão utilizado internamente por Tophat2.
-N/--read-mismatches Número de mismatches permitidos.
Utilizado o padrão 2.
-I/--max-íntron-length Tamanho máximo do íntron.
Utilizado o default é 500.000 pb.
-a/--min-anchor-length <int> Serão relatadas junções abrangidas
pelo read com pelo menos esta
quantidade de bases em cada lado
da junção. O valor padrão é 8.
-m/--splice-mismatches <int> Número máximo de mismatches que
possam surgir na “ancora” de uma
região de alinhamentos
emendados(spliced). Padrão 0
--library-type Escolher o tipo de sequênciador
utilizado. Utilizado padrão (fr-
unstranded). Padrão Illumina
A opção --read-mismatches possibilita controlar o número de bases trocadas
do alinhamento, junto a este parâmetro são fornecidos outros dois, --read-gap-
length que controla a quantidade de inserção/deleção do alinhamento, e --read-edit-
dist. Por padrão, Tophat2 utiliza o valor 2 a estes três parâmetros, o que torna o
alinhamento com no máximo 2 mismatches de base e 2 gaps de comprimento.
Nossa intenção em manter os valores default foi utilizar o número mínimo de
mismatches para que fosse possível obter um alinhamento melhor com mais
chances de conseguir bases corretas.
30
O parâmetro --libray-type especifica para Tophat2 como a biblioteca foi
preparada. A escolha exata da biblioteca aumenta a probabilidade dos reads se
alinharem corretamente. São três tipos de bibliotecas (exemplificadas na figura 8).
fr-unstranded: É utilizado como padrão por Tophat2 (padrão Illumina),
esta opção pode ser utilizada, por exemplo, em experimentos em que o kit
de preparação de amostras utilizado foi o TruSeq RNA. Os reads do início
(parte mais à esquerda) do fragmento se alinham no sentido normal da fita.
Os reads finais (parte mais à direita) na fita oposta.
fr-firststrand: Igual a opção fr-unstranded, porém deve se cumprir a
regra de que o final (mais à direita) do fragmento deve ser o primeiro a ser
sequênciado. Métodos que podem ser utilizados com este parâmetro são:
dUTP, NSR, NNSR, assim como experimentos que utilizaram o kit de
preparação TruSeq Stranded.
fr-secondstrand: Padrão SOLiD: Igual a opção acima, porém deve se
cumprir a regra de que o final (mais à esquerda) do fragmento deve ser o
primeiro a ser sequenciado.
Figura 1 - Demonstração do parâmetro --library type
/2 /1
/2
/1
/2
/2
/2 /1
/2
/1
/2
/2
5’ RNA 3’
Fr - Firststrand
Fr - Secondstrand
Fr - Unstrand
Figura 8 - Demonstração do parâmetro --library type.
31
As saídas geradas por Tophat2 são armazenadas em uma pasta
especificada na execução do programa ou caso não tenha sido informado será
gravado no diretório padrão.
Dentre os diversos arquivos gerados utilizamos o arquivo
accepted_hits.bam que é a lista de reads alinhados contra o genoma de
referência, em formato SAM para a análise de quantificação do transcriptoma.
3.5 Controle de Qualidade
Pós alinhamento
Nesta etapa, foram comparados dois softwares, FastQC e RNA-SeQC,
ambos realizam análise de qualidade após o alinhamento de sequências. O objetivo,
foi verificar quais informações eram fornecidas, e a facilidade de uso.
3.5.1 FastQC
Já descrito anteriormente. Versão utilizada 0.10.1.
3.5.2 RNA-SeQC
RNA-SeQC (DELUCA et al., 2012) é um software que fornece medidas de
qualidade em dados de RNA-Seq, dentre as medidas disponíveis, estão incluídas,
alinhamento e taxa de duplicação; Viés GC, conteúdo rRNA (RNA ribossomal),
regiões de alinhamento (éxon, íntron e intergênica), a continuidade da cobertura,
viés 3'/5' e contagem de transcritos detectáveis, entre outros. RNA-SeQC é
implementado em Java, e independente de plataforma, alguns de seus pacotes
utilizam recursos do software GATK (MCKENNA et al., 2010), é um pacote de
software desenvolvido pelo Broad Institute para analisar dados de sequenciamento.
Sua execução pode ser feita on-line usando o GenePattern (plataforma de análise
genômica), ou também pode ser baixado e executado localmente, a exceção é que
32
requer uma instalação do BWA (pacote de software para o mapeamento de
sequências). Antes de ser executado é necessário que seja feito uma lista de
verificação para que os dados sejam rodados corretamente.
Os nomes dos contigs são consistentes entre o arquivo Bam, a
referência e o arquivo gtf?
O arquivo bam foi indexado? (samtools index).
As referências estão indexadas? (samtools faidx).
A referência possui um dicionário (arquivo dict) criada com a
ferramenta CreateSequenceDictionary.jar.
Como arquivos de entrada padrão são necessários o arquivo BAM, o índice
para esse arquivo BAM (.BAI), uma sequência de referência em formato FASTA, o
índice para a sequência de referência (.FAI), estes índices são gerados utilizando a
ferramenta samtools (LI et al., 2009), que é um conjunto de ferramentas que
manipulam alinhamentos no formato BAM, e um dicionário para a sequência de
referência (.DICT), mas também existem alguns arquivos de entradas opcionais.
O resultado é gerado em um relatório de saída em formato HTML que contém
métricas informando o número total de reads, a profundidade de cobertura, entre
outras informações. O relatório também tem links para arquivos de métricas
específicas. O arquivo contém uma série de outros arquivos contendo mais detalhes
sobre as métricas e estatísticas.
RNA-SeQC oferece três tipos de medidas de controle de qualidade que são
fornecidos em HTML e também em arquivo txt: Contagem de reads (Read Counts),
Cobertura (Coverage) e Correlação (Correlation).
Contagem de Reads (Read Counts): Os resultados desta análise, são
gerados por contagem de reads com características particulares. Taxas
também são fornecidas, e são calculados com total de reads ou por reads
alinhados. Obtemos como resultados: Reads total, único e duplicados, reads
mapeados e mapeamentos únicos, perfil de expressão, transcritos
expressos, entre outros.
33
Cobertura (Coverage): Os seguintes resultados são baseados na cobertura.
O número de reads que cobre uma dada posição do genoma. A quantificação
é feita pela uniformidade de cobertura com várias medidas diferentes. Para
refletir o efeito do nível de expressão nessa medida, os genes são utilizados
em três categorias: baixa, média e alta expressão de genes, também
descrevem a média dessas medidas para cada conjunto de genes. Algumas
informações nas saídas, são descritas: média da cobertura, média do
coeficiente de variação, viés GC, gráfico de cobertura.
Correlação: RNA-SeQC fornece estimativa dos níveis de expressão baseada
em RPKM. Quando executado com várias amostras, cria-se uma matriz de
correlações entre todas as combinações, relatando os coeficientes de
correlação, Spearman (baseado em classificação) e Pearson (baseado em
quantidade).
Uma limitação, é a falta de informação da quantidade de nucleotídeos (A, T,
C, G) presente, e a quantidade GC.
3.6 Cufflinks
Montagem do transcriptoma
Cufflinks é um programa que reúne transcrições, estima suas abundâncias e
realiza testes de expressão diferencial em amostras de RNA-Seq. Desenvolvido
pelos mesmos autores de Tophat e Bowtie, faz parte do pipeline Tuxedo
(TRAPNELL et al., 2012a), que também utiliza seus pacotes Cuffdiff para encontrar
genes e transcritos diferencialmente expressos e splicing alternativo, Cuffmerge
utilizado para mesclar dois ou mais conjuntos de transcritos, e CummeRbund, um
pacote do software R projetado para analisar e gerar gráficos com a saída gerada
por Cuffdiff . Cufflinks pode ser executado em Linus e OS X.
Cufflinks recebe um arquivo de alinhamentos em SAM ou BAM (o equivalente
binário do SAM) como entrada. Qualquer mapeador que gere alinhamentos em
formato SAM/BAM pode ser utilizado, porém o autor recomenda o uso de Tophat.
34
Um arquivo de anotação do genoma de referência em formato GTF (Gene Transfer
Format) pode ser opcionalmente submetido como parâmetro de entrada. Tendo este
parâmetro o programa usa este arquivo para estimar a expressão da isoforma e não
irá montar novas transcrições, o programa vai ignorar os alinhamentos que não são
estruturalmente compatíveis com a referência.
Em experimentos de RNA-Seq, fragmentos de cDNA são classificados e
distribuídos a genes e de preferência a transcrições individuais. De acordo com a
normalização adequada, cada fragmento de RNA pode ser utilizado como uma
medida da abundância de transcritos, e Cufflinks mede a abundância da transcrição
em FPKM (Fragments per kilobase of éxon per million fragments mapped) que utiliza
o conceito de RPKM (Reads per kilobase per million mapped reads) para
normalização dos dados, uma vez que, transcritos maiores geram mais reads que
transcritos menores, a diferença é que na contagem FPKM, são considerados os
fragmentos e não os reads.
O método conhecido como Maximum Likelihood, permite o cálculo de reads
que mapeiam em éxons compartilhados, decorrentes de genes que sofreram
splicing alternativo, e com isso produziram múltiplas isoformas na mesma amostra,
para calcular com precisão a contagem, este modelo estatístico linear observa reads
com maior semelhança.
Em experimentos de RNA-Seq paired-end, Cufflinks trata cada par de
fragmentos de read como um único alinhamento. O algoritmo monta 'pacotes'
sobrepostos de fragmentos alinhados separadamente, reduzindo o tempo de
funcionamento e uso de memória, porque normalmente cada pacote contém os
fragmentos de não mais do que alguns genes. Em seguida, o algoritmo estima as
abundâncias das transcrições montadas.
Na figura 9 abaixo fica mais clara a compreensão de cada passo. O primeiro
passo na montagem de fragmentos é para identificar pares de fragmentos
“incompatíveis” que deve ter originado a partir de diferente splicing de isoforma de
mRNA (b). Os fragmentos são ligados em um “grafo de sobreposição” quando eles
são consistentes e seus alinhamentos sobrepõem no genoma. Cada fragmento tem
35
um nó no gráfico, e uma borda, dirigido da esquerda para a direita ao longo do
genoma, é colocado entre cada par de fragmentos compatíveis. Neste exemplo, os
fragmentos em amarelo, azul e vermelho devem ter se originado a partir de
isoformas distintas, mas qualquer outro fragmento poderia ter vindo do mesmo
transcrito. As isoformas são, em seguida, montadas a partir do gráfico de
sobreposição (c). Caminhos através do gráfico correspondem a conjuntos de
fragmentos mutuamente compatíveis que podem ser incorporadas a isoformas
completas. O gráfico de sobreposição aqui pode ser minimamente "coberto" por três
caminhos (amarelo, azul e vermelho), cada um representando uma isoforma
diferente. O teorema de Dilworth afirma que o número de reads mutuamente
incompatíveis é o mesmo que o número mínimo de transcritos necessários para
“explicar”, todos os fragmentos. Cufflinks implementa uma prova do teorema de
Dilworth, que produz um conjunto mínimo de caminhos que cobrem todos os
fragmentos do gráfico de sobreposição por encontrar o maior conjunto de reads com
a propriedade de que não poderia ter dois originados da mesma isoforma. Em
seguida, a abundância da transcrição é estimada (d). Os fragmentos são
combinados (denotado aqui usando a cor) para as transcrições de onde poderia ter
se originado. O fragmento de cor violeta poderia ter se originado a partir da isoforma
azul ou vermelho. Fragmentos em cinza poderia ter vindo de qualquer um dos três
mostrados. Cufflinks estima abundância de transcritos utilizando um modelo
estatístico em que a probabilidade de observar cada fragmento é uma função linear
das abundâncias das transcrições a partir do qual poderia ter se originado. Uma vez
que apenas as extremidades de cada fragmento são sequênciadas, o comprimento
de cada um pode ser desconhecido. A atribuição de um fragmento de diferentes
isoformas muitas vezes implica um comprimento diferente para ele. Cufflinks pode
incorporar a distribuição de comprimentos de fragmentos para ajudar a atribuir os
fragmentos para isoformas. Por exemplo, o fragmento em violeta seria muito mais
longo, e muito improvável de acordo com o modelo de Cufflinks, se fosse para vir a
partir da isoforma vermelha em vez da isoforma de azul. Por último, o programa
numericamente maximiza uma função que atribui uma probabilidade de todos os
conjuntos possíveis de abundância relativa das isoformas em amarelo, vermelho e
36
azul (γ1, γ2, γ3) (e), produzindo as abundâncias que melhor explicam os fragmentos
observados, mostrados como um gráfico de pizza.
Figura 9 - Visão geral da ferramenta Cufflinks (Trapnell et al., 2010).
37
Parâmetros padrão.
Onde:
Parâmetro Função
-o/--output-dir Diretório de saída dos dados.
-p Número de processadores. Padrão 1.
<Arquivo de alinhamento (sam/bam)> Arquivo gerado por Tophat
As saídas geradas por Cufflinks são armazenadas em uma pasta
especificada na execução do programa contendo sua extensão _clout.
Os arquivos gerados, são descritos abaixo:
genes.fpkm_tracking= Valor de FPKM para os genes.
isoforms.fpkm_tracking= Valor de FPKM para as isoformas.
skipped.gtf= Arquivo de transcritos não utilizados.
transcripts.gtf= Transcritos montados de uma determinada biblioteca.
Posteriormente, este arquivo será utilizado por Cuffmerge.
3.7 Cuffmerge
Fusão de arquivos
É um script que está incluído em Cufflinks que é utilizado para mesclar vários
conjuntos de transcritos gerados por Cufflinks. O principal objetivo deste script é
criar um arquivo de montagem em formato gtf adequado para o uso com Cuffdiff.
Um arquivo de referência em formato gtf, pode ser fornecido como entrada, de modo
a mesclar novas isoformas, assim como isoformas conhecidas, também
maximizando a qualidade da montagem. Cuffmerge leva vários arquivos de
montagem em formato gtf a partir de Cufflinks, estes arquivos devem conter o
caminho dos arquivos de montagem e estar listados em um arquivo chamado
“assemblies.txt”, por orientação do autor.
38
Figura 10 - Cuffmerge: Mesclando os conjuntos de amostras com uma anotação da referência do
transcriptoma (Trapnell et al., 2012).
Os genes com baixa expressão poderão receber profundidade de
sequenciamento insuficiente para permitir a reconstrução completa em cada réplica.
No entanto, a fusão das montagens com Cuffmerge muitas vezes recupera o gene
completo. A figura 10 demonstra um exemplo de como Cuffmerge faz a fusão dos
conjuntos de amostras. Isoformas recentemente descobertas também estão
integradas com as conhecidas nesta fase, em modelos de genes mais completos.
Parâmetros padrão.
Parâmetro Função
<assembly_list.txt> Arquivo de texto com uma lista (um
por linha) dos arquivos GTF que se
fundem em um único arquivo GTF.
-g /--ref-gtf Uma "referência" em formato GTF
opcional. Os conjuntos de entrada
são mesclados com o GTF referência
e incluídos no resultado final.
-p Número de processadores. Padrão 1.
39
-s /--ref-sequence
<seq_dir>/<seq_fasta>
Este argumento deverá apontar para
as sequências genômicas de DNA
para a referência.
Como saída será gerado um arquivo chamado merged.gtf, que será utilizado
posteriormente com Cuffdiff.
3.8 Cuffdiff
Análise diferencial
Cuffdiff encontra alterações significativas na expressão de transcritos,
splicing, e o uso do promotor. O módulo Cuffdiff, que faz parte do pacote Cufflinks,
recebe um arquivo GTF de transcritos como entrada, juntamente com dois ou mais
arquivos SAM ou BAM contendo os alinhamentos de fragmentos para a duas ou
mais amostras. Seus arquivos de saída podem ser visualizados em qualquer
planilha eletrônica (como Microsoft Excel). O modelo estatístico utilizado para
avaliar alterações, assume que o número de reads produzidos por cada transcrito é
proporcional à sua abundância, mas oscila devido a variabilidade técnica durante a
preparação da biblioteca e o sequenciamento, e por causa da variabilidade biológica
entre repetições do mesmo experimento.
O algoritmo identifica genes que são diferencialmente regulados no nível
transcricional ou pós-transcricional. O mesmo gera inúmeros arquivos de saída em
formato texto, contendo os resultados da análise diferencial das amostras. Esses
arquivos contêm as estatísticas, como a alterações de vezes (em escala log2), os
valores de P, tanto brutos como corrigidos para múltiplos testes por FDR e gene e
atributos relacionados a transcrição como nome e local comum no genoma. O
critério de FDR (False Discovery Rate) que foi proposto por Benjamini & Hochberg
(BENJAMINI; HOCHBERG, 1995) é a representação da dimensão esperada de
hipóteses nulas rejeitadas erroneamente.
Como mostrado na figura 11, a variabilidade em contagem para cada fragmento do
gene através de repetições é modelada (1). A contagem de fragmento para cada
40
isoforma é estimada em cada réplica (2), juntamente com uma medida de incerteza
nessa estimativa decorrente da forma ambígua de reads mapeados, que são
extremamente prevalentes em transcriptomas de splicing alternativo (3). O
algoritmo combina estimativas de incerteza e variabilidade inter-repetição sob um
modelo de binomial negativa beta da variabilidade da contagem de fragmentos para
estimar variâncias de contagem para cada transcrito em cada biblioteca (4). Estas
variâncias de estimativas são usadas durante o teste estatístico para relatar genes
e transcrições significativamente expressos diferencialmente (5) (figura 11).
41
Figura 11 – Etapas da abordagem Cuffdiff para análise diferencial em nível de isoformas em dados de RNA-
Seq. (Trapnell et al., 2013).
42
Parâmetros:
Parâmetro Geral Função
-o/--output-dir Diretório de saída dos dados.
-b/--frag-bias-correct <genome.fa> Executa detecção de viés e
algoritmo de correção que pode
melhorar a precisão das
estimativas de abundância da
transcrição.
-p Número de processadores. Padrão
1.
-L/--labels <label1,label2,...,labelN> Especificar um rótulo para cada
conjunto de amostra, que será
incluído nos arquivos de saída.
-u/--multi-read-correct Executa procedimento de
estimativa inicial para mais
precisão do peso de mapeamento
de reads para vários locais no
genoma.
--library-norm-method Métodos de biblioteca para
normalização. Ver descrição
--library-type Tipos de biblioteca. Ver
descrição
--dispersion-method Métodos de estimativa de
dispersão. Ver descrição.
43
Métodos de biblioteca para normalização (--library-norm-method)
Pode controlar como o tamanho das bibliotecas são normalizados, ou seja, a
profundidade do sequenciamento. Cuffdiff tem 3 métodos que requerem várias
bibliotecas para trabalhar. É utilizado um tipo de biblioteca de cada vez.
geometric: Este método é padrão para Cuffdiff, e por isso a opção em utiliza-
lo. As contagens de fragmentos são dimensionadas através da mediana das
médias geométricas de contagens de fragmentos através de todas as
bibliotecas.
Tipos de biblioteca (--library-type)
fr-firststrand: Exerce a regra de que o final (mais à direita) do fragmento
deve ser o primeiro a ser sequênciado. Esta opção foi utilizada, já que o
sequenciamento foi realizado utilizando esta origem de vertente.
Métodos de estimativa de dispersão (--dispersion-method)
Cuffdiff trabalha com a modelagem da variação nas contagens de repetições
do fragmento, através de uma função. O modelo de dispersão, onde a variância
presente em um grupo de amostras é além daquilo que se espera de um simples
modelo de Poisson de RNA-Seq. São 4 métodos:
Blind: Todas as amostras são tratadas como repetições de uma única
"condição" global, e utilizado para construir um modelo.
Como saída, são gerados vários arquivos, dentre eles arquivos de testes
de expressão diferencial.
44
3.9 CummeRbund
Análise de arquivos Cufflinks
CummeRbund é um pacote R/Bioconductor para visualização dos dados de
sequenciamento de alto rendimento, produzidos a partir de uma análise da
expressão diferencial por Cufflinks/Cuffdiff em experimentos de RNA-Seq. Os
resultados desta análise são tipicamente um grande número de arquivos inter-
relacionados que não são muito intuitivos para se entender. CummeRBund ajuda a
gerar uma rápida análise de dados de RNA-Seq por agregação, indexação e permite
fácil visualização.
Seu trabalho começa reorganizando arquivos de saída de uma análise com
Cuffdiff e armazena os dados em um local de base de dados SQLite. CummeRbund
indexa os dados para acelerar o acesso aos dados de recursos específicos, e
conserva as várias relações entre estas características. O acesso a elementos de
dados é gerenciado por meio de pacote RSQLite e os dados são apresentados
devidamente estruturados com várias funções de conveniência projetado para
otimizar o fluxo de trabalho. Este armazenamento de dados persistente significa que
os valores de expressão inter-conectadas são rapidamente acessíveis e
rapidamente pesquisáveis em análises futuras.
Foi projetado para fornecer análise e visualização de dados de RNA-Seq.
Neste sentido, vários gráficos são fornecidos para a visualização, como, dados de
qualidade e estatísticas globais, e rotinas para traçar os níveis de expressão. Dentre
os gráficos gerados por CummeRbund, estão, Densidade, Volcano, Scatter, Box
plot, Dispersão, Dendrograma, entre outros.
Exemplo:
>library(cummeRbund)
>cuff_data <- readCufflinks(‘caminho para arquivo de saída cuffdiff’)
Alguns requisitos são solicitados para seu desempenho:
Cufflinks ≥ v2.0.0
SQLite
45
R ≥ v2.7.0
Pacotes: RSQLite ggplot2 v0.9.2 reshape2 plyr fastcluster rtracklayer Gviz BiocGenerics (>=0.3.2)
3.10 MISO – Mixture of Isoforms
Splicing alternativo
Através de splicing alternativo, a maioria dos genes humanos expressam
múltiplas isoformas que muitas vezes diferem em função. MISO (KATZ et al., 2010)
é um modelo estatístico que estima expressão de éxons e isoformas de splicing
alternativo. MISO está disponível como um pacote Python, listado como misopy em
pypi (Python Package Index). MISO vem com um utilitário embutido chamado
Sashimi_plot (KATZ et al., 2013), para a plotagem da sua saída (figura 12).
Figura 12 - Exemplo do gráfico Sashimi_plot gerado pela ferramenta MISO. Amostras de RNA-Seq,
codificados por cores pela condição (Katz et al., 2013).
46
Como requisitos de instalação MISO requer alguns módulos Python e o
software samtools para acessar arquivos SAM/BAM. Os módulos Python
necessários são:
Python 2.6 ou superior
Numpy e scipy. (Nota: MISO requer a versão numpy> 1,5)
Pysam: Uma biblioteca Python para trabalhar com arquivos SAM / BAM
através de samtools (Nota: MISO requer pysam versão 0.6 ou superior)
matplotlib: Somente necessário para traçar sashimi_plot.
Além destes, MISO requer outros softwares:
samtools para acessar arquivos SAM / BAM
bedtools: opcional, usado para calcular sobreposições e intersecções
Para facilitar a instalação, é recomendado pelos desenvolvedores de MISO
que o mesmo seja instalado usando um gerenciador de pacotes Python, assim, os
módulos Python necessários serão instalados e gerenciados automaticamente.
Para detectar splicing alternativo utilizando dados de RNA-seq, MISO usa
reads alinhados. No tipo mais comum de splicing alternativo em mamíferos, éxons
são incluídos ou excluídos para gerar o mRNA maduro; “Percent spliced In' (PSI ou
Ψ) indica a fração de mRNA que representam a inclusão de uma isoforma. Read
alinhando ao éxon alternativo ou para seus cruzamentos com éxons constitutivos
adjacentes fornece suporte para a inclusão da isoforma, enquanto o read alinhado
para a junção entre os éxons constitutivos adjacentes apoia a exclusão da isoforma;
a densidade de reads relativo destes dois conjuntos forma o padrão de estimativa
Ψ. Uma breve descrição de como utilizar MISO é mostrada abaixo (figura 13). A
primeira fase é destinada a execução de MISO. A segunda fase é feita a análise
das saídas geradas, e a última fase é a visualização.
47
Figura 13 - Visão geral da ferramenta MISO (Katz et al., 2010)
Para executar MISO, um conjunto de anotações das isoformas de eventos
alternativos em formato GFF (General Feature Format) versão 3 devem ser
fornecidos, e os arquivos com dados de RNA-Seq, no formato SAM. MISO
disponibiliza três tipos de anotações no formato apropriado para execução, humano
(hg18, hg19), camundongo (mm9) e Drosophila melanogaster. Qualquer anotação
que está no formato GFF3 pode ser usado (RefSeq, Ensembl ou UCSC) ou outros
bancos de dados. Deve-se observar que Ensembl e UCSC têm convenções de
48
nomenclatura distintas, por exemplo, cromossomos UCSC começam com chr, já os
Ensembl não. É possível colocar anotações de outros organismos, e estas
anotações podem ser convertidas do formato GTF em GFF3, para isso MISO
fornece um script. MISO fornece vários tipos de eventos cobertos por estas
anotações, porém o evento utilizado neste trabalho foi Skipped éxons (SE), por ser
o tipo mais comum de splicing alternativo.
Os arquivos SAM devem ser ordenados e indexados para o formato BAM
(versão binária do SAM) antes que possam ser usados com MISO.
MISO realiza dois tipos de análises, e em ambas podem ser utilizados dados
de RNA-Seq single ou paired-end:
Análise "Éxon-Centric". Estima o nível de expressão de éxons,
Análise "Isoform-Centric". Estima o nível de expressão de transcrições
inteiras.
Análise éxon-centric é recomendado para splicing alternativo ao nível de
eventos de splicing individuais, por exemplo, os níveis de inclusão de um
determinado éxon ignorado, ou a utilização de um local de splicing alternativo
específico. Na análise isoform-centric o nível de expressão de isoformas inteiras
por genes são estimados (ou seja, a expressão de cada uma das isoformas de
um gene individual é avaliada). Cada uma destas analises têm vantagens e
desvantagens. Por exemplo, análises Éxon-centric são tipicamente mais fáceis
de interpretar e validar experimentalmente, mas nem sempre captam a
complexidade de um conjunto relacionado a eventos de splicing dentro de um
gene. Já a análise isoform-centric captura esta complexidade, mas é limitado
pelo comprimento tipicamente curto de reads de RNA-Seq.
Exemplo da saída MISO é ilustrado na figura 14.
49
Figura 14 - Exemplo de saída MISO para a contagem de reads para um éxon ignorado (Katz et al., 2010).
Classe (1,0) são reads consistentes com a primeira isoforma na anotação
mas com a segunda, classe (0,1) são reads consistentes com a segunda isoforma,
mas não com a primeira, classe (1,1) são consistentes com as duas isoformas, e
classe (1,1) são compatíveis com as duas isoformas.
Como parâmetro para a execução do MISO, é necessário a informação de
distribuição do comprimento da inserção e desvio padrão. A distribuição do
comprimento de inserção de uma amostra é calculada através do alinhamento dos
pares de reads para longos éxons constitutivos e depois medindo o comprimento
de inserção de cada par. O conjunto de comprimentos de inserção obtidos desta
maneira formam uma distribuição, e as estatísticas de resumo dessa distribuição
(média e desvio padrão) são usados pelo MISO para atribuir pares de reads para
as isoformas. Estas informações são obtidas a partir de dois utilitários
disponibilizados por MISO éxon_utils e pe_utils. O primeiro é usado para se
obter um conjunto de longos éxons constitutivos para mapear pares de reads, e o
segundo calcula a distribuição do comprimento de inserção e suas estatísticas.
50
51
4 Situações biológicas analisadas
4.1 Tecido Normal: Hipocampo sub-regiões CA1, CA2 e CA3 e Giro Denteado
Neste experimento, foram utilizados animais normais, sem nenhum
procedimento experimental adicional, com o objetivo de descobrir e anotar novos
transcritos, e detectar possível presença de variantes de splicing alternativo Após
os animais serem sacrificados, seus cérebros foram removidos, congelados e
microdissecados. Foram utilizados quatro ratos adultos de 3 meses, onde foram
microdissecadas as regiões do hipocampo CA1, CA2 e CA3 e o giro denteado.
A análise bioinformática, foi feita avaliando a região do giro denteado contra
as regiões do hipocampo CA1, CA2 e CA3 (figura 15).
Figura 15 - Regiões Analisadas do giro denteado versus o hipocampo sub-regiões CA1, CA2 e CA3.
Para este estudo, foi proposto o pipeline de análise bioinformática mostrado
na figura 16.
DG
CA1
CA2CA3
52
Figura 16 - Pipeline Experimento regiões do Hipocampo CA1, CA2 e CA3 e Giro Denteado. Protocolo Tuxedo
am azul (TRAPNELL et al., 2012b)
Neste pipeline foi feita a análise dos arquivos antes da trimagem dos dados
e depois da trimagem. O objetivo é descobrir até que ponto o passo de trimagem
deve ser considerado util, já que atualmente os softwares utilizados para a análise
posterior, corrige possiveis viéses, como qualidade baixa.
Depois que foi feito o controle de qualidade e a trimagem, o passo seguinte
foi realizar o alinhamento das sequências.
O genoma de referência usado neste trabalho corresponde ao
Rattus_norvegicus versão 5.0.71.
Tophat2
Para análise de Tophat2, utilizamos seus valores padrão. O comando
utilizado neste trabalho foi:
tophat2 -p 2 –G
/home/bioinfo/data/PRONEX/Rattus_norvegicus.Rnor_5.0.71.gtf -o
/home/bioinfo/data/PRONEX/rnaseq_brainRegions/raw/Project_rnaseq1/T
ophat/n2_ca1_thout /home/bioinfo/data/PRONEX/index
/home/bioinfo/data/PRONEX/rnaseq_brainRegions/raw/Project_rnaseq1/S
Controle Qualidade
Tophat2
Cufflinks Cuffmerge CummeRbund
Dados brutos Arquivos FASTQ
Trimagem
MISO
Splicing alternativo
53
ample_n2_ca1/n2_ca1.R1.fastq
/home/bioinfo/data/PRONEX/rnaseq_brainRegions/raw/Project_rnaseq1/S
ample_n2_ca1/n2_ca1.R2.fastq
Cufflinks
Neste trabalho foi utilizada a versão 2.2.1, e o comando utilizado para cada
amostra foi:
/home/bioinfo/data/PRONEX/rnaseq_brainRegions/raw/Project_rnaseq1/T
ophat/n2_ca1_clout
/home/bioinfo/data/PRONEX/rnaseq_brainRegions/raw/Project_rnaseq1/T
ophat/n2_ca1_thout/accepted_hits.bam
Cuffmerge
O comando utilizado neste trabalho, foi:
cuffmerge -g
/home/bioinfo/data/PRONEX/Rattus_norvegicus.Rnor_5.0.71.gtf -s
/home/bioinfo/data/PRONEX/index.fa -p 12 assembly.txt
Cuffdiff
Linha de comando:
cuffdiff [options]* <transcripts.gtf>
<sample1_replicate1.sam[,...,sample1_replicateM.sam]>
<sample2_replicate1.sam[,...,sample2_replicateM.sam]>...
[sampleN.sam_replicate1.sam[,...,sample2_replicateM.sam]]
Neste trabalho utilizamos os seguintes comandos:
O comando –L (-- labels), serve para separar os grupos que serão
analisados, e ficou dividido da seguinte forma:
54
CA1 - /home/katia/ArquivosBrainRegions/n2_ca1/accepted_hits.bam,/home/kat
ia/ArquivosBrainRegions/n3_ca1/accepted_hits.bam,/home/katia/Arquiv
osBrainRegions/n4_ca1/accepted_hits.bam,/home/katia/ArquivosBrainRe
gions/n5_ca1/accepted_hits.bam
CA2 - /home/katia/ArquivosBrainRegions/n2_ca2/accepted_hits.bam,/home/kat
ia/ArquivosBrainRegions/n4_ca2/accepted_hits.bam,/home/katia/Arquiv
osBrainRegions/n5_ca2/accepted_hits.bam
CA3 - /home/katia/ArquivosBrainRegions/n2_ca3/accepted_hits.bam,/home/kat
ia/ArquivosBrainRegions/n3_ca3/accepted_hits.bam,/home/katia/Arquiv
osBrainRegions/n4_ca3/accepted_hits.bam,/home/katia/ArquivosBrainRe
gions/n5_ca3/accepted_hits.bam
DG - /home/katia/ArquivosBrainRegions/n2_dg/accepted_hits.bam,/home/kati
a/ArquivosBrainRegions/n3_dg/accepted_hits.bam,/home/katia/Arquivos
BrainRegions/n4_dg/accepted_hits.bam,/home/katia/ArquivosBrainRegio
ns/n5_dg/accepted_hits.bam
Uma limitação encontrada na utilização de Cuffdiff, é que o software não tem
nenhum parâmetro especifico para trabalhar com réplica técnica, e neste estudo, no
grupo CA2 existe replicata técnica. Por conta desta limitação, e considerando que
o uso das duas replicatas poderia interferir na quantificação da expressão
diferencial, pois poderia influenciar no poder estatístico, foram verificadas as
possibilidades para realizar a análise, e foi decidido retirar deste grupo uma das
replicatas técnicas. A escolha de qual replicata seria removida, foi feita com base
na contagem das sequências do arquivo bruto (FASTQ), aquela que teve a
contagem mais diferente do grupo, foi removida. Esta decisão também foi tomada,
já que em análise feita com o gráfico de PCA, foi detectado que ambas as replicatas
estavam sobrepostas, indicando que o sequenciamento foi feito de maneira correta.
Como nossas amostras possuem uma variabilidade grande no número de
fragmentos, Cuffdiff foi rodado 3 vezes para testar sua normalização, em cada
tentativa foi acrescentado um tipo de parâmetro.
55
Tabela 5 - Quantidade de fragmentos por regiões. R1 e R2 refere-se a fita forward e reverse,
respectivamente. Fragmentos marcados em cinza, representam replicata técnica. Contagem marcada em
vermelho, demostra amostra retirada da análise.
RegiãoCA1 Região CA2 Região CA3 Região DG
R1 R2 R1 R2 R1 R2 R1 R2
amostra n2 17406318 17406318 11116001 11116001 14027260 14027260 10109764 10109764
amostra n3 23186853 23186853 9286076 9286076 21714019 21714019 22693023 22693023
amostra n4 18502636 18502636 20961297 20961297 20811090 20811090 17416689 17416689
amostra n5 7327272 7327272 12084930 12084930 13283185 13283185 13415500 13415500
Opção 1:
cuffdiff -o /home/katia/ArquivosBrainRegions/diff_out/ -b
/home/bioinfo/data/PRONEX/index.fa -p 10 -L CA1,CA2,CA3,DG -u
/home/katia/ArquivosBrainRegions/merged_asm/merged.gtf
A opção 1 é utilizado os parâmetros padrão de Cuffdiff, sem o acréscimo de
nenhum parâmetro adicional.
Opção 2:
cuffdiff -o /home/katia/ArquivosBrainRegions/diff_out2/ -b
/home/bioinfo/data/PRONEX/index.fa -p 10 -L CA1,CA2,CA3,DG -u
/home/katia/ArquivosBrainRegions/merged_asm/merged.gtf --library-
norm-method geometric
Nesta linha de comando foi utilizado a opção --library-norm-method
geometric (método de normalização da biblioteca, o tipo geometric é utilizado por
padrão por Cuffdiff.
Opção 3:
cuffdiff -o /home/katia/ArquivosBrainRegions/diff_out3/ -b
/home/bioinfo/data/PRONEX/index.fa -p 10 -L CA1,CA2,CA3,DG -u
/home/katia/ArquivosBrainRegions/merged_asm/merged.gtf --library-
norm-method geometric --library-type fr-firststrand --dispersion-
method blind
56
Acrescentado a opção --library-type fr-firststrand (sentido da fita) e --
dispersion-method blind (método de dispersão, o tipo blind considera todas as
amostras como repetições de uma única condição global).
CummeRbund
Exemplo de entrada:
>library(cummeRbund)
>cuff_data <- readCufflinks(‘caminho para arquivo de saída cuffdiff’)
MISO
O script éxon_utils foi utilizado para obter éxons constitutivos para
mapear pares de reads. A sua saída foi utilizada para calcular a distribuição do
comprimento da inserção.
Abaixo, segue o pipeline utilizado neste trabalho para a análise com MISO.
Levando em consideração que o arquivo miso_settings.txt já está configurado com
os valores padrão.
Para a nossa análise, o seguinte comando foi utilizado:
Preparando a anotação.
Convertendo gtf para gff3
É possivel utilizar outros arquivos de anotação em formato gtf, além dos
arquivos pré-definidos disponíveis em MISO, como feito neste trabalho. Porém, é
necessário que faça a conversão de gtf para gff3.
perl gtf2gff3.pl
/home/katia/Rattus_norvegicus/Rattus_norvegicus.Rnor_5.0.71.gtf >
Rattus_norvegicus.Rnor_5.0.71.gff3
57
Criando o Index
index_gff.py --index Rattus_norvegicus.Rnor_5.0.71.gff3
Rattus_norvegicus.Rnor_5.0.71
Calculando a distribuição do comprimento de inserção e suas estatísticas.
éxon_utils --get-const-éxons
/home/katia/Rattus_norvegicus/Rattus_norvegicus.Rnor_5.0.71.gff3 --
min-éxon-size 1000 --output-dir éxons/
O script pe_utils foi usado para o cálculo de média e desvio padrão, este
cálculo foi realizado para as 16 amostras deste trabalho. A linha de comando padrão
é descrita abaixo.
pe_utils --compute-insert-len <arquivo .bam> <arquivo gff>
.min_1000.const_éxons.gff --output-dir insert-dist/
Estes resultados foram incluídos para executar MISO.
Rodando MISO
O primeiro passo foi calcular os valores de Ψ PSI (Percent Spliced In), para
cada amostra.
Cada parâmetro é descrito abaixo:
--run: Comando para executar MISO. Fornecendo como parâmetro de
entrada o arquivo BAM. Seguido do diretório para armazenamento da saída.
--read-len: Comprimento do read.
--paired-end: Utilizado para dados paired-end. Seguido dos valores de
média e desvio padrão.
--event-type: Tipo de evento alternativo analisado. Em nossa análise,
utilizamos o tipo Skipped éxons, pois é o tipo mais comum de splicing
alternativo.
A linha de comando padrão é descrita abaixo.
miso --run <arquivo .bam> <caminho pasta de saída> --read-len 101 -
-paired-end <média> <desvio padrão> --event-type=SE
58
Nesta etapa são geradas pastas para cada cromossomo, onde estão
armazenados os dados computados por MISO. A próxima etapa é responsável por
resumir estes dados a um único arquivo, para então, seguir com a análise
subsequente.
A linha de comando padrão é descrita abaixo.
summarize_miso --summarize-samples <caminho pasta gerada etapa
anterior> <caminho pasta de saída>
Por fim, foi realizada a comparações entre as amostras.
Região CA1 Região CA2
Região CA3 Região DG
Região CA2 Região CA3 Região DG
Região CA3 Região DG
59
4.2 Resumo dos procedimentos envolvidos no preparo das amostras e sequenciamento dos espécimes teciduais do modelo de epilepsia induzido por injeção de pilocarpina sem a presença de status epilepticus.
Os dados utilizados no modelo de pilocarpina, foram obtidos através do
projeto “Investigando os mecanismos moleculares da epileptogênese pela análise
de expressão gênica em larga escala”. O material obtido de ratos Wistar em modelo
animal de epilepsia de lobo temporal mesial (ELTM) que foram induzidos por
pilocarpina, sem porém atingirem status epilepticus. Foram utilizados 6 animais,
sendo 3 para o grupo controle e 3 para o grupo tratado com pilocarpina. Resumindo,
os animais foram pré-tratados com metilescopolamina (1mg/kg; subcutâneo; Sigma
Co) para limitar os efeitos colinérgicos periféricos. Trinta minutos após, eles
receberam uma injeção sistêmica de pilocarpina (320 mg/kg; intraperitoneal;
Merck). Foram utilizados os animais que não entraram em status epilepticus após a
dosagem inicial. Os animais foram sacrificados com menos de 24 horas após o
aparecimento da primeira crise espontânea. Este tempo garante que o processo de
epileptogênese esteja instalado, mas não ocorreram alterações
crônicos/degenerativas, este intervalo de 24 horas sem crise também minimiza
outro efeito confundidor, que é o efeito que as crises provocam na expressão
gênica.
Na sequência foi realizado o processamento tecidual e microdissecção das
regiões de interesse a serem estudadas nos espécimes teciduais. Esses foram
utilizados para a construção das bibliotecas de cDNA dupla fita utilizando o kit
TruqSeq mRNA Sample Preparation kit Set a (Illumina). Em resumo,
aproximadamente 100 ng das amostras de RNA total, o RNAm foi purificado
utilizando-se seleção de poly A com beads magnéticas e, posteriormente,
fragmentado quimicamente. O RNA fragmentado foi submetido a síntese de cDNA
simples fita utilizando hexâmetros randômicos e a enzima transcriptase reversa.
Posteriormente foi sintetizada a segunda fita do cDNA com a utilização de DNA
polymerase, RNase H e DNA ligase. O cDNA dupla-fita purificado foi utilizado como
template para a construção das bibliotecas subsequentes.
60
Em seguida foi realizado o sequenciamento high-throughput utilizando o
sistema Illumina (HiSeq 2500), com o kit TruSeq Paired-end Cluster Kit v2-cBot-HS
(Illumina). Resumidamente, o cDNA dupla-fita foi tratado com T4 DNA polimerase,
T4 polinucleotídeo quinase e fragmento de Klenow para reparo das “pontas” e
síntese de um cDNA dupla-fita blunt-end. Uma base A foi adicionada às “pontas” de
cada fita, preparando o cDNA dupla-fita para a ligação de sequências adaptadoras
para o sequenciamento paired-end. Cada adaptador continha uma base “T”
overhang na extremidade 3´, promovendo a complementaridade necessária a
região para ligação dos adaptadores a base “A” do cDNA dupla-fita. Os adaptadores
adicionados possuíam sequências complementares para hibridização dos primers
para o sequenciamento paired-end. A seleção de tamanho para construção das
bibliotecas foi realizada utilizando gel de agarose 2%. As amostras foram
desnaturadas, amplificadas, clusterizadas e purificadas. As bibliotecas enriquecidas
após amplificação foram diluídas. A corrida de cada biblioteca foi feita na
concentração adequada para o sistema HiSeq 2500 (Illumina).
Pipeline proposto para análise dos dados neste modelo é descrito na figura 17.
61
Figura 17 - Pipeline proposto para o modelo Pilocarpina. Ferramentas descritas no quadrado azul, refere-se
ao protocolo Tuxedo.
Tophat2
Para análise de Tophat2, utilizamos seus valores padrão.
Foi usado um script para cada amostra, para exemplificar, segue script para
a amostra “Controle 01 - IC01”. O comando utilizado neste trabalho foi:
Tophat2 -p 8 -G
/home/bioinfo/data/PRONEX/Rattus_norvegicus.Rnor_5.0.71.gtf -o
/home/katia/Mestrado/Sample_IC01/Tophat
/home/bioinfo/data/PRONEX/index
/home/bioinfo/data/PRONEX/Sample_IC01/IC01_GCCAAT_L001_R1.trimmed.f
astq
/home/bioinfo/data/PRONEX/Sample_IC01/IC01_GCCAAT_L001_R2.trimmed.f
astq
Controle
Qualidade
(pós sequenciamento)
Trimagem Tophat2
Controle
Qualidade
(pós alinhamento)
Cufflinks Cuffmerge
Cuffdiff CummeRbund
Dados brutos Arquivos FASTQ
62
Controle de Qualidade – Pós alinhamento
Os parâmetros utilizados em cada um dos passos a seguir, foram
realizados em todas as amostras deste experimento, porém como forma de
simplificar, serão demostrados os scripts utilizados na amostra 01 do grupo
Controle – IC01.
FastQC
Foi utilizado em linha de comando, sendo preciso apenas a informação do
arquivo bam. Versão utilizada 0.10.1.
fastqc IC01_GCCAAT_L001_trimmed.sort.bam
RNA-SeQC
Neste trabalho foi utilizada a versão v1.1.7 do RNA-SeQC, em modo linha de
comando, utilizando os seguintes parâmetros obrigatórios, para todas as amostras,
abaixo exemplo do comando para a amostra “Controle 01 – IC01”:
java - jar RNA-SeQC_v1.1.7.jar -n 1000 -s
"Sample_IC01|/home/katia/Mestrado/Sample_IC01/IC01_GCCAAT_L001_trim
med.sort.RG.bam|IC01_GCCAAT_L001" -t
/home/bioinfo/data/PRONEX/Rattus_norvegicus.Rnor_5.0.71.gtf -r
/home/bioinfo/data/PRONEX/index.fa -o
/home/katia/Mestrado/Sample_IC01/Rna-Seqc2
Onde:
-n: Número máximo de transcritos para usar. O padrão é 1000.
-s: Arquivo BAM.
-t: Arquivo em formato GTF com os transcritos.
-r: Arquivo com o genoma de referência em formato Fasta.
-o: Caminho para o diretório de saída.
63
Cufflinks
Foi utilizada a versão 2.2.1. Os parâmetros utilizados para cada amostra foi:
cufflinks -p 8 -o /home/katia/Mestrado/Sample_IC01/Cufflinks
/home/katia/Mestrado/Sample_IC01/Tophat/accepted_hits.bam
Cuffmerge
O comando utilizado neste trabalho, foi:
cuffmerge -g
/home/bioinfo/data/PRONEX/Rattus_norvegicus.Rnor_5.0.71.gtf -s
/home/bioinfo/data/PRONEX/index.fa -p 12 assembly.txt
Cuffdiff
Linha de comando utilizada:
cuffdiff -o /home/katia/Mestrado/diff_out2 -b
/home/bioinfo/data/PRONEX/index.fa -p 8 -L IC,PILO -u
/home/katia/Mestrado/merged_asm/merged.gtf
/home/katia/Mestrado/Sample_IC01/Tophat/accepted_hits.bam,/home/kat
ia/Mestrado/Sample_IC04/Tophat/accepted_hits.bam,/home/katia/Mestra
do/Sample_IC05/Tophat/accepted_hits.bam
/home/katia/Mestrado/Sample_PILO01/Tophat/accepted_hits.bam,/home/k
atia/Mestrado/Sample_PILO02/Tophat/accepted_hits.bam,/home/katia/Me
strado/Sample_PILO03/Tophat/accepted_hits.bam
CummeRbund
Exemplo de entrada:
>library(cummeRbund)
>cuff_data <- readCufflinks(‘caminho para arquivo de saída cuffdiff’)
64
65
5 Resultados
Com o objetivo de investigar qual a importância da etapa de trimagem dos
dados, iniciamos nossa análise pela comparação dos resultados gerados pela
aplicação dos pipelines de alinhamento com e sem essa etapa. Esse passo foi
realizado apenas no experimento com tecido normal, investigando as diferentes
regiões do hipocampo CA1, CA2 e CA3 e giro denteado. Os dados de
sequenciamento desses experimentos foram obtidos em dois momentos diferentes,
e tendo em mãos a análise dos dados brutos do experimento das regiões, foi
possível verificar que o valor da qualidade das sequências estava acima de 30 em
ambas as corridas. Nossos resultados mostram que os dados que passaram pela
trimagem, tiveram mais reads alinhados que os dados que não foram trimados. O
que indica que a trimagem evita que as bases com leituras errôneas prejudiquem o
alinhamento.
Essa comparação não foi realizada no modelo pilocarpina, pois nesse
modelo foi necessário realizar a trimagem, já que nos dados brutos havia uma
queda considerável na qualidade.
5.1 Análise de Qualidade
Resultados Hipocampo regiões CA1, CA2 e CA3 e Giro Denteado
Os resultados serão apresentados com os dados obtidos com a amostra do
animal n2 de giro denteado.
66
FastQC
Qualidade da Sequência Por Base
Na figura 18, é possível visualizar a qualidade das sequências ao longo das
bases. No eixo x, temos a posição em pares de bases(pb), e no eixo y, o valor da
qualidade na escala Phred. Quanto maior a pontuação, melhor a chamada base. A
cor de fundo do gráfico divide o eixo y em chamadas de muito boa qualidade (verde),
chamadas de qualidade razoável (laranja), e chamadas de má qualidade
(vermelho). A qualidade do kit na maioria das plataformas irá degradar, de modo
que é comum ver chamadas de base que caem na área de laranja no final de um
read.
Figura 18 - Qualidade da Sequência por base (Experimento Hipocampo e Giro Denteado). Possível notar que
o resultado está com boa qualidade, já que todas as bases estão acima de 30 (cor de fundo verde)
67
Estatísticas Básicas
A tabela 5 demostra os resultados da comparação entre alinhamento pré e
pós trimagem. Através deste resultado, verificamos que os dados que tiveram
trimagem apresentaram um total de sequências maior (26286411) que os dados
que não tiveram trimagem (25394124), significando que os dados trimados foram
mais alinhados que os dados que não foram trimados. O comprimento da sequência
nos dados pré-trimagem indica que todas as sequências possuem o mesmo
comprimento (101), enquanto nos dados pós-trimagem o comprimento do read varia
entre a mais curta (50) e a mais longa (101).
Tabela 6 - Comparação entre arquivos pré e pós alinhamento (Hipocampo e Giro Denteado).
Pré-trimagem Pós-trimagem
Nome arquivo n2_dg.accepted_hits.bam n2_dg.accepted_hits.bam
Codificação Sanger / Illumina 1.9 Sanger / Illumina 1.9
Total Sequências 25394124 26286411
Comprimento Sequência 101 50-101
%GC 50 50
Resultados Modelo Pilocarpina
Controle de qualidade – Pré-trimagem
Obtivemos o seguinte resultado da análise dos dados brutos, utilizando o
software FastQC. O resultado mostrado na tabela 6, foi gerado através da análise
da amostra Controle 01.
Tabela 7 - Estatísticas básicas FastQC (modelo Pilocarpina).
Nome arquivo IC01
Codificação Sanger / Illumina 1.9
Total Sequências 82657651
Comprimento Sequências 100
%GC 52
68
Qualidade da Sequência Por Base
A figura 19, representa a análise de qualidade com os dados brutos da
amostra Controle 01.
Figura 19 - Qualidade da sequência por base (Modelo Pilocarpina). Nota-se a queda na qualidade no final
das bases.
Com este resultado, foi possível detectar que há uma queda considerável no
final das bases, por este motivo o passo de trimagem foi necessário. Para ser
corrigido este viés, foram retirados os adaptadores e o corte da qualidade, segundo
a escala phred, foi feito em 30.
Após a realização da trimagem foi feita a análise da qualidade, para conferir
se os dados estavam corretos para seguir com a análise posterior. A tabela 7 mostra
os resultados obtidos com os dados trimados da amostra Controle 01, e é possível
verificar que ouve uma diminuição no total de sequências, devido ao corte das bases
com qualidade ruim e também a remoção dos adaptadores. O comprimento dos
reads agora varia entre 50 e 100.
69
Tabela 8 - Estatística básica FastQC arquivo trimado (modelo pilocarpina).
Nome arquivo IC01
Codificação Sanger / Illumina 1.9
Total Sequências 78684638
Comprimento Sequências 50-100
%GC 52
Pela figura 20 representando a Qualidade da Sequência Por Base, verificou-
se que após a trimagem, as bases que estavam com baixa qualidade foram
removidas, fazendo com que apenas as bases com qualidade acima de 30 fossem
mantidas, o que é considerado um bom resultado. Segundo a tabela phred, há uma
probabilidade de 1 em 1000 chances da base estar incorreta, tornando os dados
aceitáveis para seguir com a análise.
Figura 20 - Qualidade das sequências Por Base, após a trimagem (Modelo Pilocarpina). Constata-se que a
queda da qualidade foi corrigida.
70
Com os dados brutos analisados e corrigidos, seguindo o pipeline sugerido
para o experimento do modelo pilocarpina, o passo após a análise do controle de
qualidade, é realizar o alinhamento das sequências. O Tophat2 fornece os arquivos
alinhados em formato .BAM (binário do SAM). Com estes arquivos, foram feitas as
análises de qualidade pós-alinhamento, não é um passo obrigatório, já que os
softwares que serão utilizados posteriormente, tratam este tipo de viés, mas pode
ajudar a identificar amostras ruins que passaram nas verificações de controle de
qualidade dos dados brutos.
Controle de Qualidade – Pós Alinhamento
Neste experimento o alinhamento foi feito apenas com os dados trimados,
diferente do realizado no experimento das regiões do hipocampo e giro denteado.
Isso ocorreu devido ao fato dos dados do modelo de pilocarpina estarem com o
valor de qualidade ruim, fazendo necessário o passo da trimagem para remoção
das bases com baixa qualidade.
O FastQC, que além de analisar a qualidade do sequenciamento, também
faz a análise de qualidade do alinhamento e foi utilizado para comparar com RNA-
SeQC, que é uma ferramenta que realiza o controle de qualidade apenas de dados
de alinhamento. O objetivo foi descobrir quais as diferenças seriam encontradas nos
resultados apresentados.
Aqui é descrito o resultado realizado com a amostra Controle 01, e na tabela
8 é possível verificar os resultados gerados pelo FastQC. Foram obtidas um total de
13037223 sequências alinhadas.
Tabela 9 - Estatística basica FastQC "Pós Alinhamento".
Nome arquivo IC01.bam
Codificação Sanger / Illumina 1.9
Total Sequências 13037223
Comprimento Sequências 75-100
71
RNA-SeQC
O software RNA-SeQC, forneceu várias métricas de qualidade pós-
alinhamento, como segue abaixo na tabela 9, estes resultados são referentes a
medidas de controle de qualidade Read Counts.
Total de Reads
Tabela 10 - RNA-SeQC Total Reads.
Sample Total Purity Filtered Reads Sequenced
Failed Vendor QC Check
Read Length
Sample_IC01 13,037,223 NA 100
Total Purity Filtered Reads Sequenced: Reads que foram alinhados.
Failed Vendor QC Check: Verifica se existe reads que tenham sido
designadas como falha pelo sequênciador.
Read Length: É o comprimento máximo encontrado para todos os reads.
Comparando os resultados deste módulo com os gerados pelo FastQC,
verificamos que os dados referentes aos reads alinhados e o comprimento dos
reads estão iguais em ambas ferramentas.
Reads Mapeados
Nesta tabela (tabela 10), são calculadas métricas de qualidade referente aos
reads que foram mapeados.
Tabela 11 - RNA-SeQC Mapped Reads.
Sample Mapped Mapping Rate
Mapped Unique
Sample_IC01 11,845,863 0.909 11,845,863
Mapped: Reads que foram alinhadas.
Mapping Rate: Taxa de mapeamento, por total de reads.
Mapped Unique: Ambos estão alinhados, bem como reads não duplicado.
72
Reads associado a transcrito
Todos os valores da tabela 11 foram calculados por reads mapeados.
Tabela 12 - RNA-SeQC Transcript-associated Reads.
Sample Intragenic Rate
Éxonic Rate
Íntronic Rate
Intergenic Rate
Sample_IC01 0.639 0.347 0.292 0.361
Intragenic Rate: Refere-se à fração do read que mapeia dentro dos genes
(dentro de intrões ou éxons).
Éxonic Rate: É a fração do mapeamento dentro éxons.
Íntronic Rate: É a fração do mapeamento dentro íntrons.
Intergenic Rate: É a fração de mapeamento genômico no espaço entre os
genes.
Seus gráficos de qualidade, são calculados entre os transcritos que foram
determinados a ter os níveis mais elevados de expressão.
É importante notar que estes valores estão restritos aos, baixo/médio/alto
1000 transcritos expressos. 5 ' e 3 ' são valores de cobertura por base média de
todos os transcritos de topo.
RNA-SeQC fornece três tipos de gráfico de qualidade, que estão descritos
abaixo:
Métricas de cobertura inferior as 1000 Transcrições Expressas
A tabela 12 mostra os valores calculado com base na média dos 1000
transcritos que foram considerados ter nível baixo de expressão. O seu gráfico
é demostrado na figura 21.
73
Figura 21 - Gráfico gerado por RNA-SeQC (Cobertura baixa). Valor da média de cobertura por base
dos transcritos considerados com baixa cobertura é de 1,89.
Tabela 13 - RNA-SeQC (Cobertura baixa).
Sample_IC01
Mean Per Base Cov. 1,89 Mean CV 1,05 No. Covered 5' 362 No. Covered 3' 617
Métricas de cobertura média das 1000 Transcrições Expressas.
A tabela 13 mostra os valores calculado com base na média dos 1000
transcritos que foram considerados ter nível médio de expressão. A
representação gráfica é mostrada na figura 22.
74
Figura 22 - Gráfico gerado por RNA-SeQC (Cobertura média). A média de cobertura por base é de 7,94.
Tabela 14 - RNA-SeQC (Cobertura média).
Sample_IC01
Mean Per Base Cov. 7.94 Mean CV 0.80 No. Covered 5' 683 No. Covered 3' 879
Métricas de cobertura alta das 1000 Transcrições Expressas.
A tabela 14 mostra os valores calculado com base na média dos 1000
transcritos que foram considerados ter nível alto de expressão. A figura 23
mostra o gráfico gerado com a média de cobertura considerado a ter o nível mais
alto de expressão.
75
Figura 23 - Gráfico gerado por RNA-SeQC (Cobertura alta). Média de cobertura por base no valor de
228,68, dos 1000 transcritos considerados a ter alta cobertura.
Tabela 15 - RNA-SeQC (Cobertura alta).
Sample_IC01
Mean Per Base Cov. 228.68 Mean CV 0.66 No. Covered 5' 916 No. Covered 3' 942
76
5.2 Quantificação Expressão Gênica
Após a cumprimento de todos os procedimentos realizados utilizando o
pipeline definido para a análise, ou seja, realizado o controle de qualidade, feito o
alinhamento dos dados, e seguindo com a montagem das transcrições é possível
chegar ao resultado final gerado por Cuffdiff.
Resultados Hipocampo e Giro Denteado
Contagem de genes para as 3 opções utilizados em Cuffdiff. Giro denteado
e hipocampo total.
Opção 1:
cuffdiff -o /home/katia/ArquivosBrainRegions/diff_out/ -b
/home/bioinfo/data/PRONEX/index.fa -p 10 -L CA1,CA2,CA3,DG -u
/home/katia/ArquivosBrainRegions/merged_asm/merged.gtf
A opção 1 é utilizado os parâmetros padrão de Cuffdiff, sem o acréscimo de
nenhum parâmetro adicional, seus resultados estão demostrados na tabela 15.
Tabela 16 - Opção 1 usado em Cuffdiff.
Genes diferencialmente
expressos
Isoformas expressas
diferencialmente
Splicing
Dif.Significativa 27821 19537 220
Nao houve dif. 237305 499851 358089
Opção 2:
cuffdiff -o /home/katia/ArquivosBrainRegions/diff_out2/ -b
/home/bioinfo/data/PRONEX/index.fa -p 10 -L CA1,CA2,CA3,DG -u
/home/katia/ArquivosBrainRegions/merged_asm/merged.gtf --library-
norm-method geometric
Nesta linha de comando foi utilizado a opção --library-norm-method
geometric (método de normalização da biblioteca, o tipo geometric é utilizado por
77
padrão por Cuffdiff. Os resultados adquiridos com esta opção, estão demostrados
na tabela 16.
Tabela 17 - Opção 2 usado em Cuffdiff.
Genes diferencialmente
expressos
Isoformas expressas
diferencialmente
Splicing
Dif.Significativa 27015 18714 254
Nao houve dif. 238108 500675 358059
Opção 3:
cuffdiff -o /home/katia/ArquivosBrainRegions/diff_out3/ -b
/home/bioinfo/data/PRONEX/index.fa -p 10 -L CA1,CA2,CA3,DG -u
/home/katia/ArquivosBrainRegions/merged_asm/merged.gtf --library-
norm-method geometric --library-type fr-firststrand --dispersion-
method blind
Acrescentado a opção --library-type fr-firststrand (sentido da fita) e --
dispersion-method blind (método de dispersão, o tipo blind considera todas as
amostras como repetições de uma única condição global). A tabela 17 contém os
resultados obtidos com a opção 3.
Tabela 18 - Opção 3 usado em Cuffdiff.
Genes diferencialmente
expressos
Isoformas expressas
diferencialmente
Splicing
Dif.Significativa 5574 2819 0
Nao houve dif. 259506 516545 358308
Foi utilizado os resultados obtidos com a opção 3 para a análise, já que em
nossos dados temos uma variabilidade grande no número de fragmentos, esta
opção foi a que representou ter uma confiabilidade maior que as demais opções.
Tanto a quantidade de transcritos diferencialmente expressos, quanto a quantidade
de isoformas diferencialmente expressas foram reduzidas significantemente, o que
torna a taxa de descoberta de falsos positivos, possivelmente menor.
78
Utilizando os mesmos parâmetros da opção 3, com os arquivos trimados,
obtivemos o seguinte resultado mostrado na tabela 18:
Tabela 19 - Opção 3 usado em Cuffdiff, com arquivos que foram trimados.
Genes diferencialmente
expressos
Isoformas expressas
diferencialmente
Splicing
Dif.Significativa 5741 2921 0
Nao houve dif. 264280 513521 360834
Volcano plot
Utiliza o teste-t que é paramétrico, e organiza os genes em dimensões de
significância biológica e estatística. O primeiro eixo (horizontal) é o fold change
entre os grupos em escala logarítmica, assim genes regulados positiva ou
negativamente parecem simétricos. O segundo eixo (vertical) representa o p-
valor para um teste-t em uma escala logarítmica negativa, assim quanto menor
o p-valor, mais alto no gráfico ele irá aparecer. Este gráfico é usado para
identificar mudanças em grandes conjuntos de dados, já que organiza genes ao
longo das dimensões de importância biológica e estatística (LI, 2012).
As figuras 24, 25 e 26 representam o resultado do gráfico vulcão contendo
os transcritos diferencialmente expressos (em azul) da análise comparativa entre
a região de giro denteado contra as regiões do hipocampo CA1, CA2 e CA3. No
eixo y é traçado o logaritmo negativo de p_valor (base 10), gerando resultados
que tem p_valor baixo altamente significativo e que aparecem no topo do gráfico
(em azul). O eixo x é o log2 fold change entre as duas condições analisadas e é
usado para que as alterações em ambas as direções (para cima ou para baixo)
apareçam equidistantes do centro. Desta forma são traçados os pontos em duas
regiões de interesse. Os pontos que são encontrados mais ao topo, quer do lado
esquerdo ou direito, representam os valores que exibem grandes mudanças em
log2 fold change, bem como os transcritos com alta significância estatística, são
verificados ao topo do gráfico.
79
Figura 24 - Volcano plot CA1 x DG
Figura 25 - Volcano plot CA2 x DG
Figura 26 - Volcano plot CA3 x DG
80
PCA
Principal component analysis ou análise de componentes principais é um
algoritmo matemático que permite reduzir a dimensionalidade dos dados, mantendo
a maior parte da variação no conjunto de dados. As amostras podem então ser
representados graficamente, tornando possível avaliar visualmente semelhanças e
diferenças entre amostras e determinar se as amostras podem ser agrupadas. O
objetivo do uso do PCA é explorar conjuntos de dados de alta dimensão (RINGNÉR,
2008).
Através do gráfico de PCA (figura 27) observa-se claramente a formação
de quatro grupos distintos entre as amostras. Também é possível verificar que
os grupos CA2 e CA3 são os mais semelhantes, isso pode ser devido a sua
proximidade histológica e portanto ter havido uma contaminação devido a
dificuldade de separação na microdissecção.
81
Figura 27 - PCA por amostra, referente a análise do tecido normal do hipocampo e giro denteado.
A figura 28 mostra o gráfico de PCA com as amostras agrupadas,
demonstrando o mesmo comportamento verificado no gráfico por amostras.
82
Figura 28 - PCA agrupado, referente a análise do tecido normal do hipocampo e giro denteado.
83
Dendrograma
Representa as relações de similaridade entre os grupos. O gráfico permite
determinar o número correto de grupos que se formaram entre as amostras.
Os resultados indicaram (figura 29) a formação de 4 grupos, que estão
separados pela região do giro denteado, que apareceu mais distante das demais
regiões. As regiões CA2 e CA3 se mostraram mais similares, conforme foi mostrado
no gráfico de PCA.
Tanto o dendrograma quanto o gráfico de PCA mostram a proximidade entre
os grupos CA2 e CA3 (figura 30).
Figura 29 - Dendrograma por amostra referente a análise do tecido normal do hipocampo e giro denteado.
Percebe-se a formação de 4 grupos distintos.
84
Figura 30- Dendrograma agrupado referente a análise do tecido normal do hipocampo e giro denteado.
85
Resultados Modelo Pilocarpina
A tabela 19 contém todos os resultados com valores significativos para
expressão diferencial do experimento pilocarpina. Transcritos representados com “-
“ são aqueles que não contém anotação.
Tabela 20 - Tabela de saída do pipeline utilizando Cuffdiff no modelo pilocarpina.
Transcrito status Controle Pilo log2FC p_value q_value Significant
Sv2b OK 1,29 7,33 2,51 5,00E-005 0,0381 Yes
ENSRNOG00000030548 OK 26,12 11,29 -1,21 5,00E-005 0,0381 Yes
- OK 11,15 3,34 -1,74 5,00E-005 0,0381 Yes
ENSRNOG00000032825 OK 0,00 33,95 inf 5,00E-005 0,0381 Yes
- OK 1,69 0,00 -inf 5,00E-005 0,0381 Yes
Amz1 OK 4,23 13,70 1,70 5,00E-005 0,0381 Yes
- OK 2,21 0,00 -inf 5,00E-005 0,0381 Yes
- OK 0,00 3,36 inf 5,00E-005 0,0381 Yes
Rpl9 OK 669,42 329,74 -1,02 5,00E-005 0,0381 Yes
Camk4 OK 5,94 11,29 0,93 5,00E-005 0,0381 Yes
Gypc OK 2,00 5,21 1,38 5,00E-005 0,0381 Yes
Cartpt OK 19,62 7,85 -1,32 5,00E-005 0,0381 Yes
RT1-M6-1,RT1-M6-2 OK 5,55 0,76 -2,86 5,00E-005 0,0381 Yes
Nnat OK 27,49 56,04 1,03 5,00E-005 0,0381 Yes
Neurod6 OK 0,30 4,43 3,89 5,00E-005 0,0381 Yes
- OK 9,90 19,01 0,94 5,00E-005 0,0381 Yes
Itga7 OK 8,23 2,08 -1,99 5,00E-005 0,0381 Yes
- OK 0,00 4,16 inf 5,00E-005 0,0381 Yes
- OK 1,39 0,45 -1,62 5,00E-005 0,0381 Yes
Por meio dos parâmetros utilizados nos passos anteriores, foram
encontrados 19 transcritos que foram considerados significativamente expressos.
Cuffdiff estima esta significância, se o valor de p é < 0.05. Destes, 7 que estão
listados na tabela com “-“, podem ser novos transcritos, já que não tem identificação,
porém devem ser investigados para confirmação.
Campos da tabela com os genes diferencialmente expressos:
Transcrito: O nome do Transcrito;
Status: Ok – Teste bem sucedido;
Controle/Pilo: Valores FPKM para o gene, dentro desta amostra;
Log2FC: Valor da mudança na base 2 (Pilo/Controle);
P_value: O valor de p não corrigido;
86
Q_value: O valor de p corrigido em FDR;
Significant: Se valor de p é menor do que 0.05.
Volcano Plot
O primeiro eixo (horizontal) é o fold change entre os grupos em escala
logarítmica. O segundo eixo (vertical) representa o p-valor para um teste-t em uma
escala logarítmica negativa assim, quanto menor o p-valor, mais alto no gráfico ele
irá aparecer.
A figura 31 representa o resultado obtido no modelo pilocarpina. É possível
verificar que existem 2 isoformas para os transcritos Nnat e Rpl9, sendo que em
uma destas isoformas o valor é zero (0) em Nnat, em ambas as amostras Controle
e Pilo, já Rpl9 possui uma outra isoforma expressa nas duas amostras, mas sem
diferença significativa, tendo o p_valor muito próximo de 1, o que faz com que
apareça dois transcritos Nnat e Rpl9 no Volcano Plot na região que representa os
valores não significativos.
87
Figura 31 - Volcano Plot contendo os genes diferencialmente expressos no modelo pilocarpina (Pontos em
azul no topo).
5.3 Resultados Splicing Alternativo Resultados Hipocampo e Giro Denteado
Tendo definido a opção 3 como a mais adequada a essa análise, não foram
encontrados resultados de splicing alternativo com Cuffdiff. Portanto foi feita a opção
em utiliza a ferramenta MISO para a análise de splicing alternativo. Este algoritmo
foi desenvolvido para quantificar o nível de transcritos provenientes de splicing
alternativo obtido em dados de RNA-Seq, e destina-se a estimar o percentual de
inclusão para todos os eventos de splicing documentados em uma amostra. Com
isso serão mostrados apenas os dados obtidos com a análise de MISO.
88
Com o software MISO, foi descoberto 6 transcritos em comum nas regiões
do hipocampo (CA1, CA2 e CA3), que tem alta expressão em giro denteado,
levando em consideração que foi feito um filtro no valor de Bayes Factor de >10.
Diagrama de Venn
Mostra todas as correlações entre os conjuntos de dados. A figura 32 mostra
o número de genes em comum que foram encontrados na análise do giro denteado
em comparação com as regiões do hipocampo (CA1, CA2 e CA3). Ao centro do
diagrama temos a quantidade de transcritos em comum que neste experimento
foram encontrados 6. Em cada círculo em separado estão a quantidade de
transcritos únicos para aquela região. A região CA1 possui 4 transcritos. Sete
transcritos foram encontrados na região CA2 e está região possui 1 transcrito em
comum com a região CA3. Na região CA3 existe 4 transcritos. Abaixo do gráfico, é
fornecida a informação do tamanho de cada lista, cada caixa que representa uma
determinada região possui a mesma cor da circunferência do gráfico de Venn.
89
Figura 32 - Gráfico de Venn com os transcritos encontrados por MISO. Interseção demostra transcritos em
comum.
Os seis transcritos encontrados em comum são: Arpp21, Gria1, Gria2,
Nrxn1, Dclk1 e Rtn1.
O total de transcritos encontrados estão descritos na tabela 20.
Tabela 21 - Total de transcritos encontrados com MISO.
CA1 CA2 CA3
Arpp21 Arpp21 Arpp21 Gria1 Gria1 Gria1 Slc4a4 Nptn Nptn Gria2 Gria2 Gria2 Nrxn1 Nrxn1 Nrxn1 Dclk1 Dclk1 Dclk1 Ankib1 Pfn2 Hsd11b1 Nrxn3 LOC10091204 Ppp3r1 Rtn1 Rtn1 Rtn1 Arhgef17 LOC257642 Rtn3 Hnrnpk AABR06010086.2 Cxcl12 Snca Trio
90
Resultados Modelo Pilocarpina
Cuffdiff também realiza teste de splicing diferencial, somente transcritos
primários a partir do qual duas ou mais isoformas são emendados estão listados
neste arquivo (tabela 21). Na comparação entre animais tratados com pilocarpina e
animais controle foram encontrados 22 transcritos.
Tabela 22 - Listagem de Splicing obtidos por Cuffdiff no modelo pilocarpina.
Transcritos Controle Pilo status p_value q_value significant
Sh2b3 IC PILO OK 5,00E-005 0,012415 yes
Lrch4 IC PILO OK 5,00E-005 0,012415 yes
Fam120a IC PILO OK 5,00E-005 0,012415 yes
Fam53c IC PILO OK 0,0002 0,0451455 yes
Zfp1 IC PILO OK 5,00E-005 0,012415 yes
Mon1b,Syce1l IC PILO OK 5,00E-005 0,012415 yes
Sufu IC PILO OK 5,00E-005 0,012415 yes
Nhlrc2 IC PILO OK 5,00E-005 0,012415 yes
Phtf2 IC PILO OK 5,00E-005 0,012415 yes
Clasrp IC PILO OK 5,00E-005 0,012415 yes
Ltbp4 IC PILO OK 5,00E-005 0,012415 yes
Mum1 IC PILO OK 5,00E-005 0,012415 yes
Rspo2 IC PILO OK 5,00E-005 0,012415 yes
Nfrkb IC PILO OK 5,00E-005 0,012415 yes
Xrn1 IC PILO OK 5,00E-005 0,012415 yes
Safb2 IC PILO OK 5,00E-005 0,012415 yes
Armc9 IC PILO OK 5,00E-005 0,012415 yes
Slitrk2 IC PILO OK 0,00015 0,0354714 yes
Mgea5 IC PILO OK 5,00E-005 0,012415 yes
Rhbdf1 IC PILO OK 5,00E-005 0,012415 yes
Zfp18 IC PILO OK 5,00E-005 0,012415 yes
Mis12 IC PILO OK 5,00E-005 0,012415 yes
91
6 Discussão
Ferramentas de bioinformática surgem a cada dia, com isso um aumento em
novos métodos mais eficientes. O pipeline proposto foi utilizado em análises de dois
experimentos diferentes. Um experimento onde a análise comparativa foi feita da
região do hipocampo e giro denteado, utilizando animais normais, o outro
experimento foi utilizado animais controle e animais que foram tratados com
pilocarpina.
Verificar a qualidade dos dados que serão analisados, é um passo muito
importante antes de seguir com a análise posterior. Este passo pode revelar
informações valiosas dos dados que estão sendo utilizados, cada ferramenta tem
uma característica, e ambas podem fornecer dados complementares as outras.
Apesar das ferramentas de alinhamentos atualmente já efetuarem este tipo de
controle de qualidade.
A etapa de trimagem, hoje gera opiniões diferenciadas quanto a sua
necessidade. Por meio deste trabalho, foram analisados os dados brutos e também
trimados, para comparar os resultados gerados. Percebeu-se que a etapa de
trimagem é um passo muito importante quando se tem dados com baixa qualidade,
já que com a remoção das qualidades ruins, os reads tendem a se alinhar mais. Em
contra partida, quando trabalhamos com dados que já tem uma qualidade boa, por
exemplo, acima de 30 (escala phred), a trimagem pode ser um passo
desnecessário, se levarmos em consideração o tempo que seria gasto com esse
passo. A pesar disso, percebeu-se que a quantidade de reads alinhados foi maior.
A análise de expressão genica utilizando o pipeline proposto, demonstrou
que a combinação de parâmetros podem gerar em aumento ou diminuição dos
resultados significativos, inclusive na detecção de transcritos com funções
desconhecidas.
92
Na análise dos dois experimentos, foram encontrados três genes em comum
que tem diferença na expressão. No experimento de pilocarpina os genes Nnat,
Sv2b e Neurod6 tem alta expressão nos animais que foram tratados com
pilocarpina, ambos genes tem envolvimento no sistema nervoso central.
Controle vs Pilo
A tabela 22 mostra a alta expressão dos genes Nnat, Sv2b e Neurod6 nos
animais que foram tratados com pilocarpina, quando comparado com os animais
controle.
Tabela 23 - Controle vs Pilo
Transcrito Controle Pilo logFC
Nnat 27,487 56,0432 1,02779
Sv2b 1,29046 7,33418 2,50675
Neurod6 0,298818 4,42508 3,88837
Por meio do gráfico Volcano (figura 33) é possível visualizar todos os
transcritos considerados significativos no experimento pilocarpina, inclusive os três
transcritos descritos na tabela 22 que tem aumento de expressão no grupo que foi
tratado com pilocarpina.
93
Figura 33 - Volcano plot: Controle X Pilocarpina. Transcritos significativos em azul ao topo.
Análise comparativa das regiões do hipocampo CA1, CA2 e CA3 com o giro
denteado.
No experimento das regiões do hipocampo e giro denteado, os mesmos três
transcritos que aparecem no experimento pilocarpina, têm baixa expressão em giro
denteado (tabelas 23, 24 e 25).
94
CA1 vs DG
A tabela 23 mostra a baixa expressão dos genes Nnat, Sv2b e Neurod6 no
giro denteado, quando comparado a região do hipocampo CA1.
Tabela 24 - CA1 vs DG
Transcrito DG CA1 logFC
Nnat 32,9963 151,755 -2,20137
Sv2b 5,48933 401,226 -6,19164
Neurod6 1,64038 164,205 -6,64533
As isoformas dos transcritos Nnat e Rpl9, também podem ser vistas no
Volcano plot deste experimento, porém apenas uma isoforma do transcrito Nnat,
está com valor significativo (figuras 34, 35 e 36).
Na figura 34 é mostrado os transcritos Nnat, Sv2b e Neurod6 que possuem
maior expressão na região do hipocampo CA1 quando comparado ao giro denteado.
O transcrito Nnat tem duas isoformas, uma que tem diferença significativa na
expressão, e outra isoforma sem diferença significativa. Já o transcrito Rpl9 também
possui 2 isoformas, porém ambas sem valores significativos em sua expressão.
95
Figura 34 - Volcano plot: Região CA1 X DG. Transcritos grifados aparecem em comum nas demais regiões.
CA2 vs DG
A tabela 24 mostra os valores dos transcritos Nnat, Sv2b e Neurod6. Os três
transcritos possuem alta expressão na região do hipocampo CA2 quando
comparado ao giro denteado. No volcano plot (figura 35), visualizamos estes
transcritos no topo do gráfico ao lado esquerdo. A mesma situação vista na figura
34 com os transcritos Nnat e Rpl9, são visualizadas nesta comparação.
96
Tabela 25 - CA2 vs DG
Transcrito DG CA2 logFC
Nnat 32,9963 444,985 -3,75338
Sv2b 5,48933 524,856 -6,57915
Neurod6 1,64038 148,186 -6,49724
Figura 35 - Volcano plot: Região CA2 X DG.
97
CA3 vs DG
Na tabela 25 contém os valores dos transcritos Nnat, Sv2b e Neurod6 da
análise comparativa da região do hipocampo CA3 contra o giro denteado. Percebe-
se que os três transcritos têm alta expressão na região CA3. A figura 36 representa
graficamente os resultados da tabela, e podemos visualizar os transcritos na área
azul no topo do gráfico. Nesta comparação também é possível visualizar que o
transcrito Nnat tem duas isoformas, uma com diferença significativa na expressão,
e outra isoforma sem diferença significativa. O transcrito Rpl9 possui 2 isoformas,
sem valores significativos em sua expressão.
Tabela 26 - CA3 vs DG
Transcrito DG CA3 logFC
Nnat 32,9963 850,462 -4,68787
Sv2b 5,48933 542,429 -6,62666
Neurod6 1,64038 191,819 -6,86958
98
Figura 36 - Volcano plot: Região CA3 X DG.
Quanto a análise de splicing alternativo, percebemos que a ferramenta MISO
comparado ao pipeline utilizado em Cuffdiff, gera resultados mais detalhados, pois
também realiza a quantificação dos transcritos.
99
7 Conclusões
A quantidade de transcritos diferencialmente expressos foi reduzida
significantemente, quando comparamos diferentes métodos na quantificação
de expressão gênica, sugerindo que a taxa de falsos positivos seja
provavelmente menor.
Quando comparamos arquivos trimados e não trimados, percebemos
que dados trimados tiveram mais reads alinhados que os dados que não
foram trimados, sugerindo que a trimagem evita que as bases com leituras
errôneas prejudiquem o alinhamento.
Utilizando o parâmetro escolhido para a análise do experimento das
regiões, os dados analisados sem o passo da trimagem foram encontrados
5574 transcritos diferencialmente expressos, já com a trimagem o número
aumentou para 5741 transcritos. No modelo pilocarpina, foram encontrados
19 transcritos considerados significativamente expressos.
Na análise de splicing alternativo, a ferramenta MISO comparado ao
pipeline utilizado em Cuffdiff, gerou resultado melhor e mais detalhado, já que
a ferramenta também realiza a quantificação dos transcritos. Com o software
MISO, foram descobertos 6 transcritos em comum nas regiões do
hipocampo, que tem alta expressão em giro denteado. Os transcritos
encontrados em comum foram: Arpp21, Gria1, Gria2, Nrxn1, Dclk1 e Rtn1.
Quando feita a análise com Cuffdiff utilizando o parâmetro escolhido, não
foram encontrados resultados de splicing alternativo. Nos resultados do
modelo pilocarpina, a análise realizada com Cuffdiff encontrou 22 transcritos.
O crescente volume de dados e processos em bioinformática abre
portas para descoberta de novas informações biológicas. As ferramentas de
100
bioinformática são de grande utilidade para a análise de expressão
diferencial e detecção de splicing alternativo. Neste sentido, o aprimoramento
dos métodos de bioinformática podem auxiliar na eficácia e agilidade das
inúmeras análises que podem ser feitas.
101
8 Referências
AE GUTTMACHER AND FS COLLINS. Genomic Medicine — A Primer. The New England Journal of Medicine, v. 347, n. 19, 2002.
ANDREWS, S. FastQC A Quality Control tool for High Throughput Sequence Data. ,2010. Disponível em: <http://www.bioinformatics.babraham.ac.uk/projects/fastqc/>
BAINS, W. Company strategies for using bioinformatics. Trends in Biotechnology, v. 14, n. 8, p. 312–317, 1996.
BENJAMINI, Y.; HOCHBERG, Y. Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the Royal Statisitical Society, Series B, v. 57, p. 289–300, 1995.
BLÜMCKE, I.; THOM, M.; ARONICA, E.; et al. International consensus classification of hippocampal sclerosis in temporal lobe epilepsy: a Task Force report from the ILAE Commission on Diagnostic Methods. Epilepsia, v. 54, n. 7, p. 1315–29, 2013.
BOLGER, A. M.; LOHSE, M.; USADEL, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics (Oxford, England), p. 1–7, 2014.
BRAY, A.; JOHNSON, H.; RAFF, L.; WALTER, R. Essential cell biology. 3rd ed. 2009.
BROWN, D. D. Gene Expression in Eukaryotes. , v. 211, n. 8, 1981.
COLE TRAPNELL AND STEVEN L SALZBERG. How to map billions of short reads onto genomes. , v. 27, n. 5, p. 455–457, 2010.
DAI, M.; THOMPSON, R. C.; MAHER, C.; et al. NGSQC: cross-platform quality analysis pipeline for deep sequencing data. BMC genomics, v. 11 Suppl 4, n. Suppl 4, p. S7, 2010.
DAVID, W. Bioinformatics: sequence and genome analysis. ,2001.
DELUCA, D. S.; LEVIN, J. Z.; SIVACHENKO, A.; et al. RNA-SeQC: RNA-seq metrics for quality control and process optimization. Bioinformatics (Oxford, England), v. 28, n. 11, p. 1530–2, 2012.
DEMBOWSKI, J. A; AN, P.; SCOULOS-HANSON, M.; et al. Alternative Splicing of a Novel Inducible Exon Diversifies the CASK Guanylate Kinase Domain. Journal of nucleic acids, v. 2012, p. 816237, 2012.
DIJK, E. L. VAN; AUGER, H.; JASZCZYSZYN, Y.; THERMES, C. Ten years of next-generation sequencing technology. Trends in Genetics, p. 1–9, 2014.
102
ENGEL, J. Mesial Temporal Lobe Epilepsy: What Have We Learned? The Neuroscientist, v. 7, n. 4, p. 340–352, 2001.
FISHER, R. S.; BOAS, W. V. E.; BLUME, W.; et al. Epileptic Seizures and Epilepsy : Definitions Proposed by the International League Against Epilepsy ( ILAE ) and the International Bureau for Epilepsy ( IBE ). , v. 46, n. 4, p. 470–472, 2005.
FLOREA, L. Bioinformatics of alternative splicing and its regulation. Briefings in Bioinformatics, v. 7, n. 1, p. 55–69, 2006.
GARBER, M.; GRABHERR, M. G.; GUTTMAN, M.; TRAPNELL, C. Computational methods for transcriptome annotation and quantification using RNA-seq. Nature methods, v. 8, n. 6, p. 469–77, 2011. Nature Publishing Group.
GRABOWSKI, P. J.; BLACK, D. L. Alternative RNA splicing in the nervous system. Progress in neurobiology, v. 65, n. 3, p. 289–308, 2001.
GRADA, A.; WEINBRECHT, K. Next-generation sequencing: methodology and application. The Journal of investigative dermatology, v. 133, n. 8, p. e11, 2013. Nature Publishing Group.
GUO, Y.; YE, F.; SHENG, Q.; CLARK, T.; SAMUELS, D. C. Three-stage quality control strategies for DNA re-sequencing data. Briefings in bioinformatics, 2013.
HAGEN, J. B. The origins of bioinformatics. Nature reviews. Genetics, v. 1, n. 3, p. 231–6, 2000.
KASABOV, N. Global, local and personalised modeling and pattern discovery in bioinformatics: An integrated approach. Pattern Recognition Letters, v. 28, n. 6, p. 673–685, 2007.
KATZ, Y.; WANG, E. T.; AIROLDI, E. M.; BURGE, C. B. Analysis and design of RNA sequencing experiments for identifying isoform regulation. Nature methods, v. 7, n. 12, p. 1009–15, 2010.
KATZ, Y.; WANG, E. T.; SILTERRA, J.; et al. Sashimi plots : Quantitative visualization of alternative isoform expression from RNA-seq data. , , n. 1, 2013.
KIM, D.; PERTEA, G.; TRAPNELL, C.; et al. TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. Genome biology, v. 14, n. 4, p. R36, 2013. BioMed Central Ltd.
KORF, I.; YANDELL, M.; BEDELL, J. An Essential Guide to the Basic Local Alignment Search Tool. 1a ed. 2003.
103
LANGMEAD, B.; TRAPNELL, C.; POP, M.; SALZBERG, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome biology, v. 10, n. 3, p. R25, 2009.
LEE, C.; WANG, Q. Bioinformatics analysis of alternative splicing. , v. 6, n. 1, p. 23–33, 2005.
LEVIN, B. Genes VIII. 2004.
LI, H.; HANDSAKER, B.; WYSOKER, A.; et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics (Oxford, England), v. 25, n. 16, p. 2078–9, 2009.
LI, W. Volcano plots in analyzing differential expressions with mRNA microarrays. Journal of bioinformatics and computational biology, v. 10, n. 6, p. 1231003, 2012.
MARDIS, E. R. The impact of next-generation sequencing technology on genetics. Trends in genetics : TIG, v. 24, n. 3, p. 133–41, 2008.
MARGUERAT, S.; BÄHLER, J. RNA-seq: from technology to biology. Cellular and molecular life sciences : CMLS, v. 67, n. 4, p. 569–79, 2010.
MCKENNA, A.; HANNA, M.; BANKS, E.; et al. The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data. Genome research, v. 20, n. 9, p. 1297–303, 2010.
O’CONNOR, C. M. & ADAMS, J. U. Essentials of Cell Biology. 2010.
OOI, L.; WOOD, I. C. Regulation of gene expression in the nervous system. The Biochemical journal, v. 414, n. 3, p. 327–41, 2008.
OUZOUNIS, C. A. Rise and demise of bioinformatics? Promise and progress. PLoS computational biology, v. 8, n. 4, p. e1002487, 2012.
PABINGER, S.; DANDER, A.; FISCHER, M.; et al. A survey of tools for variant analysis of next-generation genome sequencing data. Briefings in bioinformatics, v. 15, n. 2, p. 256–78, 2014.
PAVLOPOULOS, G. A; OULAS, A.; IACUCCI, E.; et al. Unraveling genomic variation from next generation sequencing data. BioData mining, v. 6, n. 1, p. 13, 2013. BioData Mining.
RAOL, Y. H.; BROOKS-KAYAL, A. R. Experimental models of seizures and epilepsies. 1st ed. Elsevier Inc., 2012.
RINGNÉR, M. What is principal component analysis? Nature biotechnology, v. 26, n. 3, p. 303–4, 2008.
104
ROMCY-PEREIRA, R. N.; GITAÍ, D. L. G.; GITAÍ, L. L. G.; et al. Genes e epilepsia II: expressão gênica diferencial. Revista da Associação Médica Brasileira, v. 54, n. 5, p. 461–466, 2008.
RONAGHI, M. DNA SEQUENCING:A Sequencing Method Based on Real-Time Pyrophosphate. Science, v. 281, n. 5375, p. 363–365, 1998.
ROY, N. C.; ALTERMANN, E.; PARK, Z. A; MCNABB, W. C. A comparison of analog and Next-Generation transcriptomic tools for mammalian studies. Briefings in functional genomics, v. 10, n. 3, p. 135–50, 2011.
TAZI, J.; BAKKOUR, N.; STAMM, S. Alternative splicing and disease. Biochimica et Biophysica Acta - Molecular Basis of Disease, 2009.
THAMPI, S. M. Introduction to Bioinformatics. arXiv preprint arXiv, 2009. Computational Engineering, Finance, and Science, .
TOMKINSON, A. E.; VIJAYAKUMAR, S.; PASCAL, J. M.; ELLENBERGER, T. DNA ligases: structure, reaction mechanism, and function. Chemical reviews, v. 106, n. 2, p. 687–99, 2006.
TRAPNELL, C.; PACHTER, L.; SALZBERG, S. L. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics (Oxford, England), v. 25, n. 9, p. 1105–11, 2009.
TRAPNELL, C.; ROBERTS, A.; GOFF, L.; et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nature protocols, v. 7, n. 3, p. 562–78, 2012a. Nature Publishing Group.
TRAPNELL, C.; ROBERTS, A.; GOFF, L.; et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nature protocols, v. 7, n. 3, p. 562–78, 2012b. Nature Publishing Group.
WANG, Z.; GERSTEIN, M.; SNYDER, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics, v. 10, n. 1, p. 57–63, 2009.