126
i KATIA CRISTIANE BRUMATTI GONÇALVES ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE EXPRESSÃO GÊNICA UTILIZANDO DADOS ORIUNDOS DE SEQUENCIAMENTO POR TECNOLOGIA DE NEXT-GENERATIONEM ANIMAIS CONTROLE E EM MODELOS DE EPILEPSIA DO LOBO TEMPORAL MESIAL. CAMPINAS 2015

ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

  • Upload
    donhi

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

i

KATIA CRISTIANE BRUMATTI GONÇALVES

ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE

EXPRESSÃO GÊNICA UTILIZANDO DADOS ORIUNDOS DE

SEQUENCIAMENTO POR TECNOLOGIA DE “NEXT-GENERATION”

EM ANIMAIS CONTROLE E EM MODELOS DE EPILEPSIA DO

LOBO TEMPORAL MESIAL.

CAMPINAS

2015

Page 2: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

ii

Page 3: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

iii

UNIVERSIDADE ESTADUAL DE CAMPINAS

Faculdade de Ciência Médicas

KATIA CRISTIANE BRUMATTI GONÇALVES

ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE

EXPRESSÃO GÊNICA UTILIZANDO DADOS ORIUNDOS DE

SEQUENCIAMENTO POR TECNOLOGIA DE “NEXT-GENERATION”

EM ANIMAIS CONTROLE E EM MODELOS DE EPILEPSIA DO

LOBO TEMPORAL MESIAL.

Dissertação apresentada à Faculdade de Ciências

Médicas da Universidade Estadual de Campinas como

parte dos requisitos exigidos para a obtenção do título

de Mestra em Ciências.

ORIENTADORA: PROFA DRA ISCIA TERESINHA LOPES CENDES

COORIENTADORA: DRA CRISTIANE DE SOUZA ROCHA

ESTE EXEMPLAR CORRESPONDE À VERSÃO

FINAL DA DISSERTAÇÃO DEFENDIDA PELA

ALUNA KATIA CRISTIANE BRUMATTI GONÇALVES, E ORIENTADA PELA

PROFA DRA ÍSCIA TERESINHA LOPES CENDES.

_______________________________

CAMPINAS

2015

Page 4: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

iv

Ficha catalográfica Universidade Estadual de Campinas

Biblioteca da Faculdade de Ciências Médicas Maristella Soares dos Santos - CRB 8/8402

Brumatti Gonçalves, Katia Cristiane, 1976- B834e Estudo de bioinformática aplicado à análise de

expressão gênica utilizando dados oriundos de sequenciamento por tecnologia de "Next-Generation" em animais controle e em modelos de epilepsia do lobo temporal mesial / Katia Cristiane Brumatti Gonçalves. -- Campinas, SP : [s.n.], 2015.

Orientador : Íscia Teresinha Lopes Cendes. Coorientador : Cristiane de Souza Rocha. Dissertação (Mestrado) - Universidade Estadual de Campinas, Faculdade de Ciências Médicas.

1. Biologia computacional. 2. Expressão gênica. 3.

Processamento alternativo. I. Lopes-Cendes, Íscia Teresinha,1964-. II. Rocha, Cristiane de Souza,1978-. III. Universidade Estadual de Campinas. Faculdade de Ciências Médicas. IV. Título.

Informações para Biblioteca Digital

Título em outro idioma: Bioinformatics study applied to gene expression analysis using

data from "Next-Generation" sequencing technology in control animals and in models of

epilepsy of mesial temporal lobe.

Palavras-chave em inglês:

Computational biology

Gene expression

Alternative Splicing

Área de concentração: Fisiopatologia Médica

Titulação: Mestra em Ciências Banca examinadora:

Íscia Teresinha Lopes Cendes [Orientador]

Claudia Vianna Maurer Morelli

Ana Lucia Brunialti Godard

Data de defesa: 20-02-2015

Programa de Pós-Graduação: Fisiopatologia Médica

Page 5: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

v

BANCA EXAMINADORA DA DEFESA DE MESTRADO

KATIA CRISTIANE BRUMATTI G O N Ç A L V E S

Orientador (a) PROF(A). DR(A). ISCIA TERESINHA LOPES CENDES

Coorientador (a) PROF(A). DR(A). CRISTIANE DE SOUZA ROCHA

MEMBROS:

1. PROF(A). DR(A). ISCIA TERESINHA LOPES CENDES

2. PROF(A). DR(A). ANA LUCIA BRUNIALTI GODARD

3. PROF(A). DR(A). CLAUDIA VIANNA MAURER MORELLI

Programa de Pós-Graduação em Fisiopatooga Médica da Faculdade de

Ciéncias Médicas da Universidade Estadual de Campinas

Data: 20 de fevereiro de 2015

Page 6: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

vi

Page 7: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

vii

Resumo

O campo da bioinformática associada à Next Generation Sequencing (NGS)

ainda está em estado imaturo. A técnica de microarray tem sido muito utilizada nas

últimas décadas em estudos de níveis de expressão de genes, porém essa técnica

possui limitações. Sequenciamento de RNA (RNA-Seq) tem vantagens sobre as

abordagens atuais, pois permite que o transcriptoma inteiro seja pesquisado com

alto rendimento, fazendo com que RNA-Seq seja útil para estudar transcriptomas

complexos, além disso, permite a análise de splicing alternativo. Muitas ferramentas

têm sido desenvolvidas para abordar diferentes aspectos da análise de dados em

RNA-Seq, e sua análise é um desafio constante. Nesse contexto, o objetivo deste

estudo foi utilizar métodos de bioinformática para a análise de expressão gênica

utilizando dados de RNA-Seq. Para isso, foram utilizados dados brutos obtidos em

dois experimentos diferentes: a) utilizando animais normais, na qual a análise

comparativa foi realizada das regiões do hipocampo CA1, CA2 e CA3 e giro

denteado, e b) utilizando animais tratados com pilocarpina e animais controle. Na

análise dos dois experimentos, foram encontrados 3 genes (Nnat, Sv2b e Neurod6)

em comum que tem diferença na expressão, ambos genes tem envolvimento no

sistema nervoso central. Na análise de splicing alternativo, a ferramenta MISO

(Mixture of Isoforms) comparado ao pipeline utilizado em Cuffdiff, gerou resultados

melhores e mais detalhados, já que a ferramenta também realiza a quantificação

dos transcritos, e com seus resultados foram descobertos 6 transcritos (Arpp21,

Gria1, Gria2, Nrxn1, Dclk1 e Rtn1) em comum nas regiões do hipocampo, que tem

alta expressão em giro denteado. Atualmente, existem diversos softwares em

ascensão para análise diferencial, porém, o pipeline utilizado neste trabalho é ainda

uma das principais ferramentas para análise de RNA-Seq, por usar algoritmos

confiáveis e permitir flexibilização das análises quando necessário. Este estudo

apresentou uma proposta de pipeline para a análise de expressão diferencial e

identificação de splicing alternativo, para dados obtidos através de tecnologia de

sequenciamento RNA-Seq. Foram identificados 5760 transcritos considerados

significativamente expressos, e sugere que 6 transcritos sejam decorrentes de

splicing alternativo.

Page 8: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

viii

Page 9: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

ix

Abstract

The field of bioinformatics associated with Next Generation Sequencing

(NGS) is still in an immature state. The microarray technique has been widely used

in recent decades in studies of gene expression levels, but this technique has

limitations. Sequencing RNA (RNA-Seq) has advantages over current approaches

because it allows the whole transcriptome is researched with high yield, making

RNA-Seq be useful for studying complex transcriptomes, moreover, allows the

analysis of alternative splicing. Many tools have been developed to aproach different

aspects of data analysis in RNA-Seq, and its analysis is a constant challenge. In this

context, the objective of this study was to use bioinformatics methods for gene

expression analysis using RNA-Seq data. For this, the raw data obtained in two

different experiments were used: a) using normal animalsin which was made a

comparative analysis of the hippocampus (CA1, CA2 and CA3) and dentate gyrus,

and b) using pilocarpine treated animals and animals control. In the analysis of two

experiments, were found three genes (NNAT, Sv2b and Neurod6) in common that

there is a difference in the expression, both of genes is involved in the central

nervous system. In alternative splicing analysis, MISO (Mixture of Isoforms) tool

compared to the pipeline used in Cuffdiff, gave better and more detailed results, as

the tool also performs the quantification of transcripts, and their results were found

6 transcripts (Arpp21, Gria1, Gria2, Nrxn1, Dclk1 and Rtn1) in common in the regions

of the hippocampus, which has high expression in the dentate gyrus. Currently, there

are various software on the rise for differential analysis, however, the pipeline used

in this work is still one of the main tools for RNA-Seq analysis, by using reliable

algorithms and allow flexibility of analyzes when necessary. This study showed a

pipeline proposed for the analysis of differential expression, and alternative splicing

of identification data obtained for RNA-Seq sequencing technology. 5760 transcripts

considered significantly expressed were identified, and suggests that 6 transcripts

are derived from alternative splicing.

Key words: Computational biology, Gene expression, Alternative Splicing.

Page 10: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

x

Page 11: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

xi

Sumário

Resumo ............................................................................................................. vii

Abstract .............................................................................................................. ix

Lista de Figuras ............................................................................................... xvii

Lista de tabelas ................................................................................................ xix

Lista de Abreviaturas ........................................................................................ xxi

1. Introdução ...................................................................................................... 1

1.1 Epilepsia ............................................................................................ 1

1.2 Expressão Gênica.............................................................................. 2

1.3 Splicing Alternativo ............................................................................ 4

1.4 Sequenciamento de Nova Geração ................................................... 7

1.5 RNA-Seq ............................................................................................ 9

1.6 Controle de qualidade ...................................................................... 11

1.7 Alinhamento de Sequências ............................................................ 12

1.8 Quantificação da Expressão Gênica ................................................ 13

1.9 Bioinformática .................................................................................. 14

2. Objetivos ...................................................................................................... 17

2.1 Objetivos específicos ....................................................................... 17

3 Métodos......................................................................................................... 19

3.1 Softwares utilizados ......................................................................... 19

3.2 Controle de qualidade ...................................................................... 20

3.3 Trimagem ......................................................................................... 24

3.4 Tophat2 ............................................................................................ 25

3.5 Controle de Qualidade ..................................................................... 31

3.5.1 FastQC ............................................................................... 31

3.5.2 RNA-SeQC ......................................................................... 31

3.6 Cufflinks ........................................................................................... 33

3.7 Cuffmerge ........................................................................................ 37

3.8 Cuffdiff ............................................................................................. 39

3.9 CummeRbund .................................................................................. 44

3.10 MISO – Mixture of Isoforms ........................................................... 45

4 Situações biológicas analisadas .................................................................... 51

Page 12: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

xii

4.1 Tecido Normal: Hipocampo sub-regiões CA1, CA2 e CA3 e Giro

Denteado ............................................................................................... 51

4.2 Resumo dos procedimentos envolvidos no preparo das amostras e

sequenciamento dos espécimes teciduais do modelo de epilepsia induzido

por injeção de pilocarpina sem a presença de status epilepticus. ......... 59

5 Resultados .................................................................................................... 65

5.1 Análise de Qualidade ....................................................................... 65

5.2 Quantificação Expressão Gênica ..................................................... 76

6 Discussão ...................................................................................................... 91

7 Conclusões .................................................................................................... 99

8 Referências ................................................................................................. 101

Page 13: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

xiii

Dedico essa dissertação à toda minha família.

"Esqueceram, principalmente, de nos contar alguns segredos realmente

úteis: felicidade não é ter, é ser...E por último: viver não é ser normal, é ser você, e

ser você é a única receita (quase mágica) para ser real e verdadeiramente feliz."

(Kamila Behling)

Page 14: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

xiv

Page 15: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

xv

Agradecimentos

Primeiramente a Deus pela saúde.

À minha orientadora Profa. Dra. Íscia Lopes Cendes e coorientadora Dra.

Cristiane de Souza Rocha, pela oportunidade, atenção, paciência, sugestões e

ensinamentos que foram a base deste estudo. Também agradeço ao Prof. François

Artiguenave, quem abriu as portas para que eu pudesse realizar esse trabalho.

Ao Prof. Dr. Benilton Carvalho, pelo auxílio na manipulação dos dados e nas

análises estatísticas, e principalmente pelo otimismo, que sempre mostrou em meu

trabalho. Ao colega Murilo Guimarães, por me receber no laboratório com muito

carinho, sendo sempre prestativo, bondoso e paciente, e pelos ensinamentos,

particularmente em Linux. Ao colega de laboratório Welliton Souza, pelos auxílios

prestados principalmente na parte de informática e pelos conselhos fornecidos. À

todos aqueles que estão e aqueles que já não estão no laboratório, e que sempre

formaram parte da minha lembrança.

À todos os meus amigos de Campinas e Londrina, por toda amizade, carinho,

cumplicidade e incentivo.

À CAPES pela bolsa de Mestrado.

Em especial, à minha família, sobretudo meu marido Ezequiel e minha filha

Manuela (que nasceu junto com esse estudo), que me acompanharam desde o

início, me dando suporte para seguir em frente, com seu carinho, paciência e

compreensão. A minha mãe e padrasto, que foram essenciais nessa reta final. A

minha irmã Kely, que mesmo estando longe sempre esteve presente com seu

incentivo e apoio. A Uly, que também é parte essencial da minha vida, mesmo não

se comunicando com palavras transmite um olhar cheio de carinho. Amo vocês para

todo sempre.

Page 16: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

xvi

Page 17: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

xvii

Lista de Figuras

Figura 1 – Visão geral do fluxo de informações a partir do DNA para a proteína em

uma célula eucariótica ........................................................................................ 3

Figura 2 - O splicing alternativo .......................................................................... 5

Figura 3 - Experiência típica de RNA-Seq ........................................................ 10

Figura 4 – Exemplo de gráfico mostrando a Qualidade da Sequência Por Base

gerada por FastQC. (Fonte: Elaborada pela autora). ....................................... 22

Figura 5 – Exemplo de gráfico mostrando o Conteúdo da Sequência Por Base

gerado por FastQC. (Fonte: Elaborada pela autora). ....................................... 23

Figura 6 – Exemplo de gráfico contendo o Conteúdo GC Por Sequência gerado por

FastQC. ............................................................................................................ 24

Figura 7 – Representação da estratégia usada por Tophat2 ........................... 27

Figura 8 - Demonstração do parâmetro --library type. ...................................... 30

Figura 9 - Visão geral da ferramenta Cufflinks ................................................. 36

Figura 10 - Cuffmerge ...................................................................................... 38

Figura 11 – Etapas da abordagem Cuffdiff para análise diferencial em nível de

isoformas em dados de RNA-Seq. ................................................................... 41

Figura 12 - Exemplo do gráfico Sashimi_plot gerado pela ferramenta MISO. .. 45

Figura 13 - Visão geral da ferramenta MISO .................................................... 47

Figura 14 - Exemplo de saída MISO para a contagem de reads para um éxon

ignorado ........................................................................................................... 49

Figura 15 - Regiões Analisadas do giro denteado versus o hipocampo sub-regiões

CA1, CA2 e CA3. ............................................................................................. 51

Figura 16 - Pipeline Experimento regiões do Hipocampo CA1, CA2 e CA3 e Giro

Denteado. ......................................................................................................... 52

Figura 17 - Pipeline proposto para o modelo Pilocarpina. ................................ 61

Figura 18 - Qualidade da Sequência por base (Experimento Hipocampo e Giro

Denteado)......................................................................................................... 66

Page 18: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

xviii

Figura 19 - Qualidade da sequência por base (Modelo Pilocarpina) ................ 68

Figura 20 - Qualidade das sequências Por Base, após a trimagem (Modelo

Pilocarpina) ...................................................................................................... 69

Figura 21 - Gráfico gerado por RNA-SeQC (Cobertura baixa) ......................... 73

Figura 22 - Gráfico gerado por RNA-SeQC (Cobertura média) ........................ 74

Figura 23 - Gráfico gerado por RNA-SeQC (Cobertura alta) ............................ 75

Figura 24 - Volcano plot CA1 x DG .................................................................. 79

Figura 25 - Volcano plot CA2 x DG .................................................................. 79

Figura 26 - Volcano plot CA3 x DG .................................................................. 79

Figura 27 - PCA por amostra, referente a análise do tecido normal do hipocampo e

giro denteado. .................................................................................................. 81

Figura 28 - PCA agrupado, referente a análise do tecido normal do hipocampo e

giro denteado. .................................................................................................. 82

Figura 29 - Dendrograma por amostra referente a análise do tecido normal do

hipocampo e giro denteado .............................................................................. 83

Figura 30- Dendrograma agrupado referente a análise do tecido normal do

hipocampo e giro denteado. ............................................................................. 84

Figura 31 - Volcano Plot contendo os genes diferencialmente expressos no modelo

pilocarpina ........................................................................................................ 87

Figura 32 - Gráfico de Venn com os transcritos encontrados por MISO .......... 89

Figura 33 - Volcano plot: Controle X Pilocarpina .............................................. 93

Figura 34 - Volcano plot: Região CA1 X DG .................................................... 95

Figura 35 - Volcano plot: Região CA2 X DG. ................................................... 96

Figura 36 - Volcano plot: Região CA3 X DG. ................................................... 98

Page 19: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

xix

Lista de tabelas

Tabela 1 - Vantagens do uso da Tecnologia de RNA-Seq comparada aos outros

métodos usados em transcriptoma. Adaptado de (Wang et al., 2009). ............ 11

Tabela 2 - Índices de qualidade Phred ............................................................. 12

Tabela 3 - Listagem de softwares utilizados..................................................... 19

Tabela 4 - Estatísticas básicas geradas por FastQC ....................................... 21

Tabela 5 - Quantidade de fragmentos por regiões ........................................... 55

Tabela 6 - Comparação entre arquivos pré e pós alinhamento (Hipocampo e Giro

Denteado)......................................................................................................... 67

Tabela 7 - Estatísticas básicas FastQC (modelo Pilocarpina). ......................... 67

Tabela 8 - Estatística básica FastQC arquivo trimado (modelo pilocarpina). ... 69

Tabela 9 - Estatística basica FastQC "Pós Alinhamento"................................. 70

Tabela 10 - RNA-SeQC Total Reads. .............................................................. 71

Tabela 11 - RNA-SeQC Mapped Reads. ......................................................... 71

Tabela 12 - RNA-SeQC Transcript-associated Reads. .................................... 72

Tabela 13 - RNA-SeQC (Cobertura baixa). ...................................................... 73

Tabela 14 - RNA-SeQC (Cobertura média). ..................................................... 74

Tabela 15 - RNA-SeQC (Cobertura alta). ......................................................... 75

Tabela 16 - Opção 1 usado em Cuffdiff. ........................................................... 76

Tabela 17 - Opção 2 usado em Cuffdiff. ........................................................... 77

Tabela 18 - Opção 3 usado em Cuffdiff. ........................................................... 77

Tabela 19 - Opção 3 usado em Cuffdiff, com arquivos que foram trimados. .... 78

Tabela 20 - Tabela de saída do pipeline utilizando Cuffdiff no modelo pilocarpina

......................................................................................................................... 85

Tabela 21 - Total de transcritos encontrados com MISO. ................................ 89

Tabela 22 - Listagem de Splicing obtidos por Cuffdiff no modelo pilocarpina. . 90

Tabela 23 - Controle vs Pilo ............................................................................. 92

Tabela 24 - CA1 vs DG .................................................................................... 94

Tabela 25 - CA2 vs DG .................................................................................... 96

Tabela 26 - CA3 vs DG .................................................................................... 97

Page 20: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

xx

Page 21: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

xxi

Lista de Abreviaturas

BAM: Binary Alignment Map.

SAM: Sequence Alignment Map.

cDNA: complementary DNA.

CDS: Coding DNA Sequences.

DNA: Deoxyribonucleic acid.

RNA: Ribonucleic acid.

mRNA: Messenger RNA.

GFF: Generic Feature Format.

GTF: General Transfer Format.

NGS: Next-Generation Sequencing.

PCR: Polymerase Chain Reaction.

PE: Paired End.

SE: Single End.

RPKM: Reads Per Kilobase per Milion mapped reads.

FPKM: Fragments per kilobase of éxon per million fragments mapped.

INDEL: Inserção/deleção.

FLOW CELL: Constituída por "canaletas" cuja superfície é recoberta por

oligonucleotídeos complementares às sequências adaptadoras adicionadas

aos fragmentos da biblioteca.

READ: fragmento sequenciado.

PROBES: sondas de sequenciamento.

BEADS: Pequenas esferas com a sequência complementar ao adaptador.

SNPs: Single Nucleotide Polymorphism.

CPU: Central Processing Unit.

BLAST: Basic Local Alignment Search Tool. Encontra regiões de semelhança

entre sequências biológicas.

FASTQ: formato utilizado para representar sequências geradas por

sequenciadores.

BP: Base pairs.

GAP: Região do genoma não capturada por nenhum read.

FDR: False discovery rate.

Page 22: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

xxii

Page 23: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

1

1. Introdução

1.1 Epilepsia

A epilepsia é um distúrbio cerebral caracterizada pela presença das crises

epilépticas, fenômeno recorrente e súbito de alteração do fluxo elétrico normal

presente na transmissão sináptica cerebral. A epilepsia não constitui uma entidade

singular, ou uma doença única, mas é um conjunto de doenças e distúrbios que

refletem uma disfunção cerebral subjacente e que podem resultar de muitas causas

diferentes (FISHER et al., 2005). A epilepsia do lobo temporal mesial é a forma mais

comum de epilepsia em adultos, e seu substrato fisiopatológico é mais comumente,

uma lesão anátomo-patológica, chamada, esclerose mesial temporal que acomete,

principalmente a estrutura do hipocampo. Esta é a lesão epileptogênica mais

comum encontrada em pacientes com epilepsia (ENGEL, 2001), principalmente

naqueles que tem epilepsia grave de difícil tratamento com

medicamentos(BLÜMCKE et al., 2013). Daí vem o interesse na literatura entre

médicos e pesquisadores no estudo dessa forma de epilepsia, na tentativa de

elucidar os mecanismos que levam a essa forma frequente e grave de epilepsia.

Para desenvolver uma estratégia terapêutica eficaz que pode interferir com

o processo de desenvolvimento de epilepsia (epileptogênese), é crucial estudar as

alterações que ocorrem no cérebro após uma lesão e antes da epilepsia se

desenvolver. Não é possível determinar essas alterações no tecido humano, por

razões éticas óbvias. Ao longo dos anos, os modelos experimentais de epilepsia

têm contribuído imensamente para melhorar a compreensão do mecanismo de

epileptogênese. Existem muitos modelos que se replicam, pelo menos, algumas das

características de epilepsia humana. Alguns dos modelos utilizados são: modelo

químico, modelo de estimulação elétrica, modelo genético e modelo de trauma. Um

típico modelo químico é o modelo de pilocarpina, este modelo é bastante utilizado

para estudar a epilepsia do lobo temporal (ELT). A pilocarpina é um agonista do

receptor de acetilcolina que ativa os receptores muscarínicos. Tem sido sugerido

Page 24: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

2

que os receptores muscarínicos estejam envolvidos no início das convulsões,

enquanto que receptores de glutamato estão envolvidos na manutenção de

convulsões. A duração do estado epiléptico no modelo de pilocarpina, pode ser

controlada por tratamento da benzodiazepina ou fenobarbital. Aproximadamente 45

minutos após a injeção de pilocarpina, os ratos desenvolvem convulsões que podem

durar várias horas. Após 1-2 semanas de período oculto, a maioria dos ratos adultos

tratados com pilocarpina desenvolvem crises espontâneas recorrentes. Outro

modelo utilizado é o modelo genético. A mutação em muitos genes pode causar

epilepsia. A disfunção dos canais iónicos, receptores, enzimas e transportadores

causadas por mutações nos genes tem sido relatado como causador de epilepsia.

Variações na gravidade das crises, a apresentação clínica das convulsões, e efeitos

a longo prazo da síndrome são observados em indivíduos com mesma mutação. A

hipótese da causa dessas variações, podem ser os modificadores genéticos ou

ambientais. As mutações em proteínas que estão envolvidos na migração dos

neurônios durante o desenvolvimento, também estão associados com a epilepsia

(RAOL; BROOKS-KAYAL, 2012).

1.2 Expressão Gênica

Expressão gênica é um processo multiestágios, e foi definida por Lewin como

um processo pelo qual a informação hereditária contida em um gene, é processada

em um produto gênico (Lewin, 2004). Os fluxos de informações que partem do DNA

para o RNA é um processo conhecido como transcrição. A partir do RNA para a

proteína, este processo chama-se tradução. Juntos, estes processos são

conhecidos como expressão gênica (BRAY et al., 2009) (Figura 1). A expressão

gênica, é o processo pelo qual a informação codificada no DNA é interpretada pela

célula para guiar a síntese de proteínas. Nos eucariotos ela é influenciada por uma

ampla variedade de mecanismos incluindo a perda, amplificação, e o rearranjo de

genes. (BROWN, 1981). Compreender os princípios e mecanismos que regem

esses programas complexos de expressão de genes é importante para a

compreensão de doenças. (MARGUERAT; BÄHLER, 2010)

Page 25: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

3

Figura 1 – Visão geral do fluxo de informações a partir do DNA para a proteína em uma célula eucariótica.

Primeiro, ambas as regiões codificantes e não codificantes de DNA são transcritos em mRNA. Algumas

regiões são removidas (íntrons) durante o processamento inicial mRNA. O restante (éxons) são unidas em

conjunto, e a molécula de mRNA emendada (vermelho) está preparado para a exportação para fora do

núcleo através da adição de uma esfera e uma cauda poliA. Uma vez no citoplasma, o mRNA pode ser usado

para construir uma proteína. (O’CONNOR, C. M. & ADAMS, 2010).

A expressão do gene é definida como a soma da expressão de todas as

suas isoformas (GARBER et al., 2011).

É bem estabelecido que as alterações na expressão de genes são

importantes na aprendizagem e na memória, e também que a regulação da

expressão do gene inadequado é uma causa de um grande número de doenças

neuronais. Os perfis de expressão gênica em cada neurônio são muito dinâmicos e

requintadamente sensível a atividade sináptica. Assim, cada neurônio dentro do

cérebro tem o potencial de possuir um conjunto único de modificações da cromatina

e perfil gene-expressão. Embora muitos mecanismos que controlam a expressão

de genes em neurônios têm sido descobertos, ainda há muito trabalho a ser feito

Page 26: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

4

antes de entender completamente como estes mecanismos individuais são

integrados em redes de genes neuronais para criar um órgão complexo que mantém

o controle homeostático de nossos corpos, nos permitindo interpretar o nosso

ambiente e tomar decisões complexas (OOI; WOOD, 2008).

Alteração na expressão gênica é uma das principais respostas do tecido

cerebral a insultos epileptogênicos. As abordagens de investigação baseiam-se na

análise individual da expressão de determinados genes ou na análise de expressão

de múltiplos genes simultaneamente. Outra abordagem é a análise em larga escala,

utilizando técnicas analíticas mais modernas, esta estratégia reduz o viés dos genes

avaliados possibilitando a descoberta de novos transcritos (ROMCY-PEREIRA et

al., 2008).

1.3 Splicing Alternativo

Em organismos eucarióticos, a organização gênica consiste em conjuntos de

éxons que são sequências codificantes, separadas por íntrons que são sequências

não-codificantes. O número de íntrons varia muito, e o tamanho de éxons e íntrons

também é bastante variável.

Os íntrons são removidos do pré-mRNA por meio de um mecanismo

denominado processamento de RNA (splicing). Este processo converte o pré-

mRNA em RNA mensageiro maduro (mRNA). Frequentemente, pré-mRNAs podem

ser processados de mais de um modo, originando mRNAs alternativos, pela

remoção de diferentes combinações de íntrons. Esse processo é denominado

splicing alternativo, dessa maneira, um gene pode dar origem a mais de um produto

polipeptídico (LEVIN, 2004) (Figura 2).

Page 27: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

5

Figura 2 - O splicing alternativo: Um único gene pode produzir várias proteínas relacionadas, ou isoformas,

por meio de splicing alternativo.(AE GUTTMACHER AND FS COLLINS, 2002)

O splicing alternativo é um elemento chave da expressão do gene eucariótico

que aumenta a capacidade de codificação do genoma humano e um número

crescente de exemplos ilustra que a seleção dos locais de splice errados podem

gerar doenças humanas (TAZI et al., 2009).

O fenômeno de splicing alternativo foi descoberto no final de 1970, e foi então

verificado experimentalmente na década de 1980, mas a verdadeira revolução em

splicing alternativo ocorreu na era do sequenciamento do genoma humano. Splicing

alternativo tem captado a atenção da comunidade genômica como um importante

mecanismo de regulação para modular o conteúdo gene e proteína na célula. A

descoberta de que muitos genes podem produzir múltiplas isoformas de mRNA e

proteína, através da seleção regulada de diferentes combinações de éxons, mudou

irreversivelmente a perspectiva de muitos problemas genômicos importantes

(FLOREA, 2006).

Page 28: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

6

Splicing alternativo do pré-mRNA gera diversidade de proteínas em todo o

transcriptoma, enquanto que os erros na sua regulação subjazem de uma variedade

de doenças humanas. Mecanismos de salto de éxon e inclusão, assim como a

seleção de sítio de splicing 5 e 3, são comumente usados para a produção de

múltiplas isoformas mRNA a partir de um único gene (DEMBOWSKI et al., 2012).

No sistema nervoso, milhares de mRNAs de splicing alternativo são

convertidas para os seus homólogos de proteínas onde as isoformas específicas

desempenham um papel na aprendizagem e na memória, o reconhecimento de

células neuronais, neurotransmissor, a função de canal iônico, e especificidade para

o receptor. A natureza essencial deste processo é sublinhada pela constatação de

que a sua desregulação é uma característica comum de doença humana. O splicing

alternativo afeta a função da proteína no sistema nervoso, em uma variedade

interessante. Eventos de splicing específicos para neurônios são controlados por

matrizes altamente complexas de elementos de RNA positivos e negativos. Estas

permitem respostas sutis espacial e temporal por exemplo, e para a plasticidade da

função celular que está associada com a aprendizagem e memória. Além de

abordagens genéticas e moleculares, inovadoras aplicações de genômica,

proteômica, e ferramentas computacionais para ajudar no problema de splicing

alternativo no sistema nervoso, oferecem perspectivas animadoras para a

descoberta (GRABOWSKI; BLACK, 2001).

Ao longo dos últimos anos, a análise do splicing alternativo usando

bioinformática tem emergido como um importante campo, e mudou

significativamente a nossa visão da função do genoma. Estudos indicam a presença

de formas de splicing alternativo em até 80 por cento dos genes humanos (LEE;

WANG, 2005).

Page 29: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

7

1.4 Sequenciamento de Nova Geração

O Projeto Genoma Humano foi realizado com a primeira geração de

sequenciamento, conhecida como sequenciamento Sanger (o método de

terminação de cadeia), desenvolvido em 1975 por Edward Sanger, que foi

considerado o padrão ouro para o sequenciamento de ácidos nucleicos. Desde a

conclusão da primeira sequência do genoma humano, a demanda por métodos de

sequenciamento mais baratos e mais rápidos aumentou muito. Esta demanda tem

impulsionado o desenvolvimento de métodos de sequenciamento de segunda

geração “Next Generation Sequencing” (NGS). Plataformas NGS executam

sequenciamento paralelo em massa, durante o qual milhões de fragmentos de DNA

a partir de uma única amostra são sequenciados em paralelo. (GRADA;

WEINBRECHT, 2013)

Como técnicas de sequenciamento de nova geração ou Next Generation

Sequencing (NGS) tornaram-se mais baratas e mais avançadas em rendimento ao

longo do tempo, grandes inovações e conclusões têm sido geradas em várias áreas

biológicas. Técnicas NGS trouxeram uma evidente revolução no campo da biologia

e outros campos intimamente relacionados, e moldaram uma nova tendência de

quão moderna a pesquisa biológica pode ser feita em um nível de grande escala.

Com os avanços destas técnicas, hoje em dia é possível fazer a varredura e

sequenciar um genoma inteiro ou exoma ao nível de pares de bases, a uma taxa de

erro baixa, em um intervalo de tempo aceitável e em um menor custo.

(PAVLOPOULOS et al., 2013). Um grande progresso ocorreu durante estes últimos

10 anos de existência das tecnologias de sequenciamento de nova geração (NGS).

Houve um avanço em termos de velocidade, comprimento dos reads, junto com

uma forte redução no custo por base. Todas as melhorias juntas acarretaram em

novas aplicações em NGS (DIJK, VAN et al., 2014).

Sequenciamento por síntese “Pirossequenciamento” (RONAGHI, 1998) é

uma técnica construída sobre um monitoramento em tempo real de 4 enzimas de

síntese de DNA por bioluminescência usando uma cascata que após a incorporação

de nucleotídeos termina em um sinal de luz que é detectável. O sistema de detecção

Page 30: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

8

é baseado na pirofosfato libertado quando um nucleotídeo é introduzido no DNA de

cadeia simples. Desse modo, o sinal pode ser quantitativamente ligado com o

número de bases adicionadas.

Sequenciamento por síntese, utilizado pela Illumina Genome Analyzer, inicia-

se com o DNA fragmentado aleatoriamente e, após a fragmentação, adaptadores

diferentes são ligados às extremidades dos fragmentos. Os fragmentos, em

seguida, são desnaturados, distribuídos e imobilizados em uma superfície sólida

(flow cell), a qual é revestida por uma camada de oligonucleotídeos complementares

aos dois tipos de adaptadores dos fragmentos. A flow cell permite que seja feito à

amplificação em ponte dos fragmentos sobre a sua superfície, e usa DNA

polimerase para produzir múltiplas cópias de DNAs, ou aglomerados (clusters),

onde cada um representa a molécula única que iniciou a amplificação do conjunto.

Uma biblioteca em separado podem ser adicionados a cada um dos oito canais da

flow cell, ou a mesma biblioteca pode ser utilizada em todos os oito, ou suas

combinações. Cada cluster contém aproximadamente um milhão cópias do

fragmento original, o que é suficiente para relatar bases incorporadas na intensidade

de sinal necessária para a detecção durante sequenciamento, em que todos os

quatro nucleotídeos são adicionados em simultâneo aos canais da flow cell,

juntamente com DNA polimerase, para incorporação no cluster estimulado com

fragmentos de oligo especificamente, os nucleotídeos carregam uma única base

fluorescente e o grupo 3´ é quimicamente bloqueado de modo que cada um é

incorporado em um evento único. Cada ciclo de incorporação de base é seguido por

uma etapa de imagem para identificar o nucleotídeo incorporado em cada grupo e

pôr um passo químico que remove o grupo fluorescente e desbloqueia a

extremidade 3 'para o próximo ciclo. A série de passos continua para um

determinado número de ciclos (definidos pelo usuário). No final do sequenciamento

um algoritmo atribui sequências e os valores de qualidade associados a cada read,

e uma verificação da qualidade avalia os dados de cada corrida, removendo

sequências de baixa qualidade. (MARDIS, 2008)

Page 31: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

9

Em uma reação de sequenciamento por ligação, não temos a incorporação

de uma base nitrogenada, mas sim a hibridização de probes a seus complementos

reversos nas amostras previamente amplificadas nos beads em emulsão PCR.

Após a adição de DNA-ligase e remoção dos probes não hibridizados as amostras,

os grupamentos fluorescentes são excitados por laser, e a emissão luminosa é

detectada pelo sequênciador (TOMKINSON et al., 2006).

Assim como modelos animais são de grande importância no estudo da

epilepsia, as técnicas utilizadas para estudo da expressão gênica desta síndrome

têm papel fundamental. Enquanto as tecnologias baseadas em microarray para a

obtenção de expressão gênica tem dominado a genômica, perfis de expressão

gênica baseadas em Next-Generation Sequencing, obtidas através do

sequenciamento de RNA (RNA-Seq), provavelmente venha substituir essa

tecnologia (ROY et al., 2011).

1.5 RNA-Seq

RNA-Seq é uma abordagem que utiliza tecnologia de sequenciamento de 2ª

geração para gerar o perfil do transcriptoma. Oferece diversas vantagens sobre as

tecnologias existentes. Em primeiro lugar, ao contrário de abordagens baseadas na

hibridação como o microarray, o RNA-Seq não está limitada à detecção de

transcritos que correspondem à sequência genômica existente nas sondas. Além

disso, o RNA-Seq também podem apresentar variações de sequência (por exemplo,

os SNPs) nas regiões transcritas (WANG et al., 2009)

RNA-Seq é um protocolo para sequenciamento de mRNA, gerando milhões

de fragmentos de sequências curtas em uma única corrida. Em resumo, uma

população de RNA é convertida em uma biblioteca de cDNA. Cada fragmento de

cDNA recebe adaptadores, e uma pequena sequência é obtida a partir de cada

cDNA utilizando tecnologia de sequenciamento de alto rendimento que gera

sequências curta. Estes fragmentos chamados de reads são alinhados com o

Page 32: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

10

genoma ou transcriptoma de referência e serão usados para calcular níveis de

expressão e identificar splicing alternativo (Figura 3) (TRAPNELL et al., 2009).

RNA-Seq torna-se particularmente indicado para a análise quantitativa de

níveis de expressão de transcritos. Quase todos os estudos de RNA-Seq publicado

até hoje abordaram esta questão, e eles concordam que os dados gerados por esta

tecnologia são altamente quantitativos e fornecem medições confiáveis de níveis de

transcritos em uma ou mais condições. Outra característica dos dados de RNA-Seq

é a sua elevada sensibilidade, que permite a detecção da expressão de transcritos

de substancialmente mais de um determinado tipo celular (MARGUERAT; BÄHLER,

2010).

Figura 3 - Experiência típica de RNA-Seq. Fragmentos de RNA são convertidos em biblioteca de cDNA, na

sequência são ligados adaptadores em ambas as extremidades e feito o sequenciamento onde serão

gerados os reads, os reads serão alinhados a um genoma de referência e por fim feita a análise (Wang et al,

2009).

Page 33: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

11

Embora RNA-Seq seja uma tecnologia em desenvolvimento ativo, oferece

várias vantagens sobre outras tecnologias existentes. A tabela 1 demostra algumas

das vantagens do uso desta tecnologia quando comparada com a técnica de

microarray.

Tabela 1 - Vantagens do uso da Tecnologia de RNA-Seq comparada aos outros métodos usados em

transcriptoma. Adaptado de (Wang et al., 2009).

Tecnologia Microarray RNA-Seq

Especificações da tecnologia

Princípio Hibridização Sequenciamento High-throughput

Resolução Variável, até 100 pb Única base Throughput (Vazão) Alta Alta Confiança em sequência genômica Sim Em alguns casos

Ruído de fundo Alto Baixo

Aplicação

Mapear regiões transcritas e expressão gênica simultaneamente

Sim Sim

Faixa dinâmica para quantificar o nível de expressão gênica.

Uns poucos, à 100 >8.000-vezes

Capacidade de distinguir diferentes isoformas

Limitado Sim

Capacidade de distinguir expressão de alelos

Limitado Sim

Questões práticas

Quantidade necessária de RNA Alta Baixo Custo para mapeamento de transcriptoma de grandes genomas

Alto Relativamente baixo

1.6 Controle de qualidade

O primeiro passo após o sequenciamento das amostras é fazer o controle de

qualidade dos reads e é um passo facultativo. No entanto, verificam-se erros nos

reads associados a cada uma das plataformas, mesmo após o controle de qualidade

aplicado pelos fabricantes. Os erros mais comuns são a baixa qualidade dos reads,

e a contaminação pelos adaptadores (DAI et al., 2010). Estes erros podem conduzir

a conclusões erradas, como por exemplo, no estudo de polimorfismos.

O objetivo do controle de qualidade é, portanto, fazer uma avaliação dos

reads, e em seguida, proceder com a correção, remoção e corte dos reads que não

Page 34: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

12

respeitem os valores mínimos de qualidade pretendidos (PABINGER et al., 2014).

Alguns dos parâmetros a levar em consideração são o tamanho das sequências, a

qualidade de cada base e do read, dada pelos valores phred (Tabela 2), o número

de sequências repetidas e a distribuição das bases.

Com a análise do relatório de qualidade, é possível a utilização de programas

para corrigir tais problemas.

Já o controle de qualidade pós alinhamento é importante para que seja bem

sucedida a detecção da variante, nesta etapa, o controle de qualidade fornece

informações adicionais para a qualidade da amostra, e pode ajudar a identificar

amostras ruins que passaram nas verificações de controle de qualidade dos dados

brutos. (GUO et al., 2013).

Índices de qualidade Phred (Q), é uma escala logarítmica relacionada com

as probabilidades de erro de chamada de base (P).

Q=-10 log10 P

Tabela 2 - Índices de qualidade Phred

Score Phred Qualidade

Probabilidade de chamada de base

incorreta

Chamada Base de precisão

10 1 em 10 90%

20 1 em 100 99%

30 1 em 1000 99,90%

40 1 em cada 10.000 99,99% 50 1 em 100.000 100,00%

60 1: 1.000.000 100,00%

1.7 Alinhamento de Sequências

Uma das tarefas mais básicas de análise de RNA-Seq é o alinhamento de

reads para um transcriptoma ou genoma de referência. Alinhamento de reads é um

problema clássico em bioinformática (GARBER et al., 2011), podendo levar a

centenas ou milhares de unidade de processamento central (CPU) horas, utilizando

ferramentas de software convencionais, como BLAS. Atualmente uma nova geração

de programas de alinhamento capaz de mapear centenas de milhões de reads em

um único computador desktop. Alguns destes programas são de fonte livre e aberta

e usam uma estratégia computacional conhecido como "indexação" para acelerar

Page 35: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

13

os seus algoritmos de mapeamento. Assim como o índice de um livro, um índice de

uma grande sequência de DNA permite que se possa encontrar rapidamente as

sequências mais curtas embutidas dentro dela.(COLE TRAPNELL AND STEVEN L

SALZBERG, 2010).

O fato de que o genoma humano é muitas vezes referida como o “Livro da

Vida” é uma descrição apropriada porque os ácidos nucleicos e proteínas são

muitas vezes representados e manipulados como arquivos de texto (KORF et al.,

2003). A maior parte da biologia computacional lida com a similaridade de

sequências, sejam eles fragmentos de DNA, RNA ou proteínas. Alinhamento de

sequências é o procedimento de comparar duas (alinhamento por pares) ou mais

sequências (alinhamento de sequências múltiplas) de DNA, RNA ou proteína

procurando por uma série de caracteres individuais ou padrões de caracteres que

estejam na mesma ordem nas sequências, é de grande utilidade para a descoberta

de informações funcionais, estruturais e evolutiva em sequências de DNA, RNA ou

proteínas (DAVID, 2001).

1.8 Quantificação da Expressão Gênica

O protocolo Tuxedo foi criado por (TRAPNELL et al., 2012a), o mesmo

criador de Tophat e Cufflinks, e foi desenvolvido para auxiliar na análise dos dados

de RNA-Seq, desde o alinhamento de reads, montagem de transcrição ou anotação

do genoma e quantificação de genes. O protocolo começa com dados brutos de

RNA-Seq e termina com a visualização da análise pronta para publicação.

Resumindo o protocolo, temos Tophat (http://tophat.cbcb.umd.edu/) que alinha os

reads ao genoma e descobre locais de junção de transcrição. Estes alinhamentos

são utilizados durante a análise a posterior de várias maneiras. Cufflinks

(http://cufflinks.cbcb.umd.edu/) usa este alinhamento contra o genoma para montar

os reads em transcrições. Cuffdiff, uma parte do pacote do Cufflinks, toma o read

alinhado a partir de duas ou mais condições e relata genes e transcritos que são

diferencialmente expressos utilizando uma análise estatística. CummeRbund

Page 36: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

14

processa a saída Cuffdiff em números e gráficos prontos para publicação

(TRAPNELL et al., 2012a).

1.9 Bioinformática

O dogma central da biologia molecular é o DNA (Ácido Desoxirribonucleico)

presente no núcleo de cada célula de um organismo que é transcrito em RNA (Ácido

Ribonucleico), que por sua vez é traduzido em proteínas. O gene é a unidades

fundamental da hereditariedade e são formados por sequência específica de ácidos

nucleicos (DNA e RNA). Genes são estruturas moleculares complexas que causam

transformações durante toda a vida de um indivíduo, estes interagem com muitos

outros genes, proteínas, e são influenciados por muitos fatores ambientais. O

conhecimento desta complexidade biológica é um dos principais objetivos para a

área de bioinformática, que está preocupada com a aplicação e o desenvolvimento

dos métodos de armazenamento, análise, modelagem e descoberta de

conhecimento a partir de dados biológicos e médicos (KASABOV, 2007).

Bioinformática é muitas vezes descrita como sendo jovem, mas os

computadores surgiram como ferramentas importantes na biologia molecular

durante o início da década de 1960. Uma década antes de sequenciamento de DNA

(HAGEN, 2000).

A história bioinformática começou com um monge austríaco chamado Gregor

Mendel, conhecido como o "pai da genética". Mendel fertilizou cores diferentes das

mesmas espécies de flores. Ele manteve registros cuidadosos das cores das flores

que ele fertilizou, e a cor de flores que eles produziram. Mendel mostrou que a

herança de traços poderia ser mais facilmente explicada se fosse controlado por

fatores que passaram de geração em geração. Desde Mendel, bioinformática e

manutenção de registros genética já percorreu um longo caminho. O campo da

bioinformática e biologia computacional passou por uma série de transformações

nos últimos anos, estabelecendo-se como um componente-chave da nova biologia.

Este crescimento foi contestado por uma série de mudanças revolucionárias na

Page 37: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

15

ciência e na tecnologia. A compreensão da genética tem avançado notavelmente

nos últimos, e a bioinformática tem crescido, talvez, a um ponto além do

reconhecimento (THAMPI, 2009; OUZOUNIS, 2012).

Em 1973, duas coisas importantes aconteceram no campo da genômica.

Joseph Sambrook liderou uma equipe que refinou eletroforese de DNA usando gel

de agarose, e Herbert Boyer e Stanely Cohen inventaram a clonagem de DNA. Por

volta de 1977, um método para sequenciamento de DNA foi descoberto e a primeira

empresa de engenharia genética, foi fundada. Em 1981, 579 genes humanos foram

mapeados. Marvin Carruthers e Leory Hood fizeram um enorme salto em

bioinformática, quando inventaram um método para sequenciamento automático.

Em 1988, a organização do Genoma Humano (HUGO) foi fundada, esta é uma

organização internacional de cientistas envolvidos no Projeto Genoma Humano. Em

1989, o primeiro mapa completo do genoma da bactéria Haemophilus influenza foi

publicado. No ano seguinte, o Projeto Genoma Humano foi iniciado, e por volta de

1991, um total de 1.879 genes humanos foram mapeados. Em 1993, um centro de

investigação do genoma humano da França fez um mapa físico do genoma humano,

e três anos depois, Genethon publicou a versão final do Mapa genético humano.

Isto conclui o fim da primeira fase do Projeto Genoma Humano. A bioinformática foi

impulsionada pela necessidade de criar enormes bancos de dados, tais como o

GenBank e EMBL, para armazenar e comparar os dados de sequência de DNA a

partir do projeto genoma humano e de outros projetos de sequenciamento de

genomas. Hoje, a bioinformática abrange análise de estruturas de proteínas, genes

e informações funcionais de proteínas, dados de pacientes, os testes pré-clínicos e

clínicos, bem como as vias metabólicas de numerosas espécies. É uma ciência

interdisciplinar que representa a convergência da genômica, biologia, matemática e

a informática, e abrange a análise e interpretação de dados, modelagem de

fenômenos biológicos, e desenvolvimento de algoritmos e estatísticas. Esta

disciplina aborda a necessidade de gerenciar e interpretar os dados que nos últimos

anos foi maciçamente gerado pela pesquisa genômica. Por ser uma disciplina ampla

e abrangente é difícil defini-la. É um campo próspero que está atualmente na

vanguarda da ciência e tecnologia. A ciência que se relaciona com bioinformática

Page 38: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

16

tem muitos componentes. Geralmente, refere-se a moléculas biológicas portanto

requer o conhecimento nos campos da bioquímica, biologia molecular, evolução

molecular, a termodinâmica, biofísica, engenharia molecular e mecânica estatística,

para citar alguns. Requer o uso da ciência da computação, matemática e princípios

estatísticos. A bioinformática está no cruzamento da ciência experimental e teórica,

e não é apenas sobre a modelagem de dados ou “mineração”, trata-se de

compreender o mundo molecular que alimenta a vida a partir de perspectivas

evolutivas (THAMPI, 2009).

Estudos em bioinformática ajudam os cientistas a responderem perguntas

úteis e valiosas em muitos aspectos (BAINS, 1996)

Page 39: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

17

2. Objetivos

Utilizar métodos de bioinformática para obter informações sobre

expressão gênica a partir de dados de RNA-Seq utilizando dados brutos gerados

experimentalmente, obtidos em dois modelos animais experimentais diferentes.

2.1 Objetivos específicos

1. Realizar comparação de métodos diferentes de quantificação de expressão

gênica e splicing alternativo;

2. Realizar contagem de genes por meio de análise estatística para obter o perfil

de expressão gênica;

3. Localizar regiões de splicing alternativo;

Page 40: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

18

Page 41: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

19

3 Métodos

Para melhor entendimento dos métodos, alguns resultados serão

apresentados em conjunto com a descrição dos métodos, porém estes serão

apresentados de maneira mais completa na sessão de resultados.

Essa sessão de métodos está dividida em três partes para facilitar o

entendimento do leitor: I) Softwares utilizados, II) Situações biológicas

analisadas, e III) Resumo dos procedimentos de preparo das amostras e do

sequenciamento.

3.1 Softwares utilizados

A tabela 3 classifica todos os softwares que foram utilizados neste estudo.

Tabela 3 - Listagem de softwares utilizados.

Software Finalidade Versão Endereço Eletrônico

1 FastQC

Controle de qualidade.

0.10.1

http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

2 Trimmomatic

Trimagem (Remover adaptadores e qualidade baixa).

0.27

http://www.usadellab.org/cms/?page=trimmomatic

3 Tophat2

Mapeador de junções de splicing para dados de RNA-Seq.

2.0.8b

http://ccb.jhu.edu/software/tophat/index.shtml

4 Cufflinks

Montagem do transcriptoma e análise de expressão diferencial de RNA-Seq.

2.2.1

http://cole-trapnell-lab.github.io/cufflinks/

5 Cuffmerge

Fusão de diversas montagens geradas por Cufflinks.

1.0.0

http://cole-trapnell-lab.github.io/cufflinks/cuffmerge/

6 Cuffdiff

Encontra mudanças significativas na expressão do transcrito e splicing.

2.1.1

http://cole-trapnell-lab.github.io/cufflinks/cuffdiff/

7 CummeRbund

Análise estatística, manipulação e visualização de dados gerados por Cufflinks.

0.1.3

http://compbio.mit.edu/cummeRbund/

8 RNA-SeQC

Controle de qualidade para os dados de RNA-Seq, gerados após o alinhamento.

1.1.7

http://www.broadinstitute.org/cancer/cga/rna-seqc

9 MISO

Quantifica o nível de expressão dos genes de splicing alternativo, a partir de dados de RNA-Seq.

0.5.2

http://miso.readthedocs.org/en/fastmiso/

Page 42: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

20

3.2 Controle de qualidade

Sequenciadores de alto rendimento podem gerar dezenas de milhões de

sequências em uma única corrida. Antes de analisar essas sequências é

recomendável realizar algum controle de qualidade para assegurar quão bom

estejam os dados brutos e garantir que não haja problemas ou vieses nos dados

que possam afetar as análises posteriores. A maioria dos sequenciadores gera um

relatório de qualidade, mas este é geralmente focado na identificação de problemas

que foram gerados pelo próprio sequenciador. FastQC proporciona um relatório de

controle de qualidade que pode detectar problemas que se originam ou no

sequenciador ou na biblioteca.

A ferramenta FastQC desenvolvido pelo grupo de bioinformática do Instituto

Babraham (ANDREWS, 2010), oferece alguns parâmetros de controle de qualidade.

FastQC pode ser utilizado com dados brutos apenas sequenciados (Fastq),

fornecendo uma visão de quão bom está o sequenciamento ou com dados

alinhados (BAM), para verificar a qualidade dos dados alinhados.

Desenvolvido em linguagem Java, seu pré-requisito é Java Runtime

Environment apropriado. FastQC pode ser executado em duas formas, em modo de

interface gráfica ou em linha de comando.

FastQC suporta arquivos nos seguintes formatos

Fastq: Formato utilizado para representar sequências geradas por

sequenciadores, onde as bases e os valores de qualidade são representados

no mesmo arquivo. Os valores de qualidades são codificados em caracteres

ASCII, o que torna mais eficiente e com menor tamanho.

Casava Fastq: O mesmo que fastq, exceto que os dados são geralmente

divididos em vários arquivos de uma única amostra.

Colorspace Fastq

GZip Fastq comprimido

SAM

Page 43: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

21

BAM

A saída é fornecida em relatório interativo dentro de FastQC, com a opção

de salvar como relatório HTML ou em HTML apenas, quando utilizado em linha de

comando. Alguns dos relatórios gerados estão listados abaixo, com exemplos da

amostra do animal identificado por n2 da região CA1.

Estatísticas básicas (Basic Statistics): Neste modulo são disponíveis

algumas estatísticas de composição do arquivo analisado (tabela 4). Abaixo,

estão descritos os campos da tabela:

Nome do arquivo: Nome do arquivo original do arquivo que foi

analisada.

Codificação: Diz qual a codificação ASCII de valores de qualidade foi

encontrado neste arquivo.

Total de Sequências: Contagem do número total de sequências

processadas.

Comprimento da Sequência: Fornece o comprimento da sequência,

mais curto e mais longo. Se todas as sequências são do mesmo

comprimento apenas um valor mostrado. O comprimento das

sequências deste arquivo é de 101 pares de bases.

% GC: O total de porcentagem GC de todas as bases em todas as

sequências. O conteúdo GC são regiões que codificam um gene, por

sofrer ligação química forte, são regiões difíceis de sofrer mutação.

Tabela 4 - Estatísticas básicas geradas por FastQC

Medida Valor

Nome arquivo n2_ca1.R1.fastq Codificação Sanger / Illumina 1.9 Total Sequências 17406318 Comprimento Sequência 101 %GC 48

Qualidade da Sequência Por Base (Per Base Sequence Quality): É gerado

um gráfico de valores de qualidade em todas as bases em cada posição do

arquivo Fastq (figura 4). O arquivo analisado gerou bons resultados de

qualidade, pois todas as bases estão acima de 30 (escala phred), não tendo

Page 44: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

22

nenhuma queda na qualidade. O eixo y no gráfico mostra os índices de

qualidade. Quanto maior a pontuação, melhor a chamada base. A cor de

fundo do gráfico divide o eixo y em chamadas de muito boa qualidade

(verde), chamadas de qualidade razoável (laranja), e chamadas de má

qualidade (vermelho). A qualidade da chamada na maioria das plataformas

irá degradar conforme o funcionamento prossegue, isso pode ser devido ai

desgaste do reagente que perde a força, de modo que é comum ver

chamadas de base que caem na área de laranja no final de uma leitura.

Os elementos do gráfico são:

A linha vermelha central é o valor da mediana

A caixa amarela representa o intervalo inter-quartil (25-75%)

Os traços superiores e inferiores representam os pontos 10% e 90%

A linha azul representa a qualidade média

Figura 4 – Exemplo de gráfico mostrando a Qualidade da Sequência Por Base gerada por FastQC. (Fonte: Elaborada pela autora).

Page 45: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

23

Conteúdo da Sequência Por Base (Per Base Sequence Content): O gráfico

deste módulo (figura 5), mostra a proporção de cada posição da base, para

ver se cada uma das quatro bases nitrogenadas (A, T, C e G) foi chamada.

No início, o comportamento desequilibrado pode ser devido aos primers que

não são aleatórios, porém a partir da 15ª base, este comportamento tende a

se normalizar.

Figura 5 – Exemplo de gráfico mostrando o Conteúdo da Sequência Por Base gerado por FastQC. (Fonte: Elaborada pela autora).

Conteúdo GC Por Sequência (Per Sequence GC Content): Este gráfico mede o

teor de GC ao longo de todo o comprimento de cada sequência em um arquivo,

e compara com uma distribuição normal. Uma vez que não conhece o conteúdo

GC do genoma do conteúdo, o GC referente a esta modalidade é calculado a

Page 46: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

24

partir dos dados observados e usado para construir uma distribuição de

referência. Mostrado na figura 6.

Figura 6 – Exemplo de gráfico contendo o Conteúdo GC Por Sequência gerado por FastQC. Em azul, é

mostrada a distribuição teórica e em vermelho, a contagem de GC por read. (Fonte: Elaborada pela autora).

3.3 Trimagem

A Trimagem é o processo de limpeza das sequências produzidas pelo

processo de sequenciamento. Ela é responsável pela remoção de regiões que

apresentem baixa qualidade ou que são indesejadas por causarem incidência de

erros nas análises dos dados.

Trimmomatic (BOLGER et al., 2014) é uma ferramenta de linha de comando

que pode ser usada para aparar e cortar dados Ilumina (FASTQ), bem como para

remover adaptadores. Esses adaptadores podem representar um problema real

Page 47: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

25

dependendo da preparação da biblioteca e aplicação posterior. Inclui uma variedade

de passos de processamento para limpeza e filtragem de reads, mas as principais

inovações algorítmicas estão relacionadas com a identificação de sequências de

adaptador e de filtragem qualidade.

Existem dois principais modos: Paired-End (PE) e Single-End (SE). O modo

paired-end manterá a correspondência de pares de reads e também usará

informações adicionais contidas no read paired-end para melhor encontrar

fragmentos de adaptador ou PCR introduzidas pelo processo de preparação da

biblioteca. Arquivos compactados usando o "gzip" ou "bzip2" são suportados.

As atuais medidas de corte são:

ILLUMINACLIP: Este passo é usado para encontrar e remover adaptadores

Illumina.

LEADING: Remover bases de baixa qualidade a partir do início.

TRAILING: Remover bases de baixa qualidade a partir do final.

CROP: Corte a leitura para com comprimento especificado.

MinLen: Elimina o read se estiver abaixo de um determinado comprimento.

3.4 Tophat2

Mapeador de junções de Splicing

Um método que surgiu com o algoritmo desenvolvido por (KIM et al., 2013),

realiza o alinhamento de reads de Rna-Seq, identificando junções éxon-éxon, com

ou sem o genoma de referência, utilizando o programa Bowtie (LANGMEAD et al.,

2009) como alinhador. Tophat possui recursos para identificar novas junções de

splicing.

A princípio foi criado para trabalhar com reads produzidos por sequênciador

Illumina, mas existem relatos de usuários que tiveram êxito ao utilizar reads

provenientes de outras tecnologias.

Page 48: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

26

Este método consiste basicamente em duas fases. Na primeira fase é feito o

mapeamento de todos os reads contra o genoma de referência, os reads que não

foram mapeados nesta fase são guardados, nesta fase serão identificados possíveis

éxons. A segunda fase consiste do mapeamento dos reads que inicialmente não

foram mapeados nas regiões de junção (splices) selecionadas, por padrão, Tophat

avalia somente íntrons maiores que 70 bp e menores que 20 000 bp e constrói uma

base de dados com todas as junções possíveis, em seguida é feito o mapeamento

com cada um dos reads com suas possíveis junções para confirmá-las (Figura 7).

Page 49: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

27

Figura 7 – Representação da estratégia usada por Tophat2 (Kim et al., 2013).

Alguns sequenciadores produzem reads curtos, com tamanho de 100 pares

de base e alguns éxons são menores que isso, o que pode ser um problema porque

alguns éxons podem ser descartados no mapeamento inicial. Neste caso, Tophat2

Page 50: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

28

fraciona todos os reads em fragmentos menores e faz o mapeamento de forma

independente, e por final, retorna a pegar estes fragmentos para produzir os

alinhamentos.

Três abordagens são utilizadas para gerar a base de dados. A primeira

consiste em emparelhamento de cobertura de ilhas, que estão localizados em

diferentes regiões da pilha de reads de alocação inicial. As “ilhas” vizinhas, são

colocadas juntas no transcriptoma, assim Tophat2 procura maneira de junta-las com

íntron. A segunda abordagem é usada apenas quando os dados de entrada são

paired-end. Quando um par é lido a partir de diferentes éxons de um transcrito, é

geralmente atribuído a regiões distantes no genoma. Em situações desse tipo,

TopHat2 tenta "fechar" a distância entre eles, encontrando subsequências do

genoma que tenha um comprimento semelhante a esperada entre os pares. Como

resultado, os íntrons dessa subsequência são adicionados à base de dados. A

terceira abordagem ocorre na identificação de um ponto de junção que acontece

quando dois segmentos do mesmo read são mapeados longe um do outro, ou

quando um segmento interno falha no mapeamento.

Tophat2 pode ser executado em sistemas Linux e MAC e como pré-requisito,

devem ser instalados:

Bowtie2: Responsável pelo alinhamento (http://bowtie-

bio.sourceforge.net/index.shtml), e seus pacotes, -align, -inspect e -build.

SAMTools (http://samtools.sourceforge.net/): Responsável por realizar

manipulações nos arquivos de mapeamento de sequências (SAM).

Python versão 2.6 ou superior, pois algumas etapas de Tophat são escritas

nesta linguagem de programação.

Neste trabalho foi utilizada a versão 2.0.12 do Tophat. Esta versão é descrita

por (KIM et al., 2013). TopHat2 contém melhorias significativas, como o alinhamento

de reads de vários comprimentos que foram gerados pelas tecnologias de

sequenciamento mais recentes, alinhamento ao transcriptoma, e também

permitindo indels de comprimento variável em relação ao genoma de referência.

Page 51: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

29

Parâmetros padrão.

Parâmetro Função

-o/--output-dir Diretório de saída dos dados.

-G/--GTF Arquivo de anotação com as

coordenadas do transcriptoma.

-p Número de processadores. Padrão 1.

genome Arquivos de índice gerados pelo

Bowtie-build.

Descrição de alguns parâmetros padrão utilizado internamente por Tophat2.

-N/--read-mismatches Número de mismatches permitidos.

Utilizado o padrão 2.

-I/--max-íntron-length Tamanho máximo do íntron.

Utilizado o default é 500.000 pb.

-a/--min-anchor-length <int> Serão relatadas junções abrangidas

pelo read com pelo menos esta

quantidade de bases em cada lado

da junção. O valor padrão é 8.

-m/--splice-mismatches <int> Número máximo de mismatches que

possam surgir na “ancora” de uma

região de alinhamentos

emendados(spliced). Padrão 0

--library-type Escolher o tipo de sequênciador

utilizado. Utilizado padrão (fr-

unstranded). Padrão Illumina

A opção --read-mismatches possibilita controlar o número de bases trocadas

do alinhamento, junto a este parâmetro são fornecidos outros dois, --read-gap-

length que controla a quantidade de inserção/deleção do alinhamento, e --read-edit-

dist. Por padrão, Tophat2 utiliza o valor 2 a estes três parâmetros, o que torna o

alinhamento com no máximo 2 mismatches de base e 2 gaps de comprimento.

Nossa intenção em manter os valores default foi utilizar o número mínimo de

mismatches para que fosse possível obter um alinhamento melhor com mais

chances de conseguir bases corretas.

Page 52: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

30

O parâmetro --libray-type especifica para Tophat2 como a biblioteca foi

preparada. A escolha exata da biblioteca aumenta a probabilidade dos reads se

alinharem corretamente. São três tipos de bibliotecas (exemplificadas na figura 8).

fr-unstranded: É utilizado como padrão por Tophat2 (padrão Illumina),

esta opção pode ser utilizada, por exemplo, em experimentos em que o kit

de preparação de amostras utilizado foi o TruSeq RNA. Os reads do início

(parte mais à esquerda) do fragmento se alinham no sentido normal da fita.

Os reads finais (parte mais à direita) na fita oposta.

fr-firststrand: Igual a opção fr-unstranded, porém deve se cumprir a

regra de que o final (mais à direita) do fragmento deve ser o primeiro a ser

sequênciado. Métodos que podem ser utilizados com este parâmetro são:

dUTP, NSR, NNSR, assim como experimentos que utilizaram o kit de

preparação TruSeq Stranded.

fr-secondstrand: Padrão SOLiD: Igual a opção acima, porém deve se

cumprir a regra de que o final (mais à esquerda) do fragmento deve ser o

primeiro a ser sequenciado.

Figura 1 - Demonstração do parâmetro --library type

/2 /1

/2

/1

/2

/2

/2 /1

/2

/1

/2

/2

5’ RNA 3’

Fr - Firststrand

Fr - Secondstrand

Fr - Unstrand

Figura 8 - Demonstração do parâmetro --library type.

Page 53: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

31

As saídas geradas por Tophat2 são armazenadas em uma pasta

especificada na execução do programa ou caso não tenha sido informado será

gravado no diretório padrão.

Dentre os diversos arquivos gerados utilizamos o arquivo

accepted_hits.bam que é a lista de reads alinhados contra o genoma de

referência, em formato SAM para a análise de quantificação do transcriptoma.

3.5 Controle de Qualidade

Pós alinhamento

Nesta etapa, foram comparados dois softwares, FastQC e RNA-SeQC,

ambos realizam análise de qualidade após o alinhamento de sequências. O objetivo,

foi verificar quais informações eram fornecidas, e a facilidade de uso.

3.5.1 FastQC

Já descrito anteriormente. Versão utilizada 0.10.1.

3.5.2 RNA-SeQC

RNA-SeQC (DELUCA et al., 2012) é um software que fornece medidas de

qualidade em dados de RNA-Seq, dentre as medidas disponíveis, estão incluídas,

alinhamento e taxa de duplicação; Viés GC, conteúdo rRNA (RNA ribossomal),

regiões de alinhamento (éxon, íntron e intergênica), a continuidade da cobertura,

viés 3'/5' e contagem de transcritos detectáveis, entre outros. RNA-SeQC é

implementado em Java, e independente de plataforma, alguns de seus pacotes

utilizam recursos do software GATK (MCKENNA et al., 2010), é um pacote de

software desenvolvido pelo Broad Institute para analisar dados de sequenciamento.

Sua execução pode ser feita on-line usando o GenePattern (plataforma de análise

genômica), ou também pode ser baixado e executado localmente, a exceção é que

Page 54: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

32

requer uma instalação do BWA (pacote de software para o mapeamento de

sequências). Antes de ser executado é necessário que seja feito uma lista de

verificação para que os dados sejam rodados corretamente.

Os nomes dos contigs são consistentes entre o arquivo Bam, a

referência e o arquivo gtf?

O arquivo bam foi indexado? (samtools index).

As referências estão indexadas? (samtools faidx).

A referência possui um dicionário (arquivo dict) criada com a

ferramenta CreateSequenceDictionary.jar.

Como arquivos de entrada padrão são necessários o arquivo BAM, o índice

para esse arquivo BAM (.BAI), uma sequência de referência em formato FASTA, o

índice para a sequência de referência (.FAI), estes índices são gerados utilizando a

ferramenta samtools (LI et al., 2009), que é um conjunto de ferramentas que

manipulam alinhamentos no formato BAM, e um dicionário para a sequência de

referência (.DICT), mas também existem alguns arquivos de entradas opcionais.

O resultado é gerado em um relatório de saída em formato HTML que contém

métricas informando o número total de reads, a profundidade de cobertura, entre

outras informações. O relatório também tem links para arquivos de métricas

específicas. O arquivo contém uma série de outros arquivos contendo mais detalhes

sobre as métricas e estatísticas.

RNA-SeQC oferece três tipos de medidas de controle de qualidade que são

fornecidos em HTML e também em arquivo txt: Contagem de reads (Read Counts),

Cobertura (Coverage) e Correlação (Correlation).

Contagem de Reads (Read Counts): Os resultados desta análise, são

gerados por contagem de reads com características particulares. Taxas

também são fornecidas, e são calculados com total de reads ou por reads

alinhados. Obtemos como resultados: Reads total, único e duplicados, reads

mapeados e mapeamentos únicos, perfil de expressão, transcritos

expressos, entre outros.

Page 55: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

33

Cobertura (Coverage): Os seguintes resultados são baseados na cobertura.

O número de reads que cobre uma dada posição do genoma. A quantificação

é feita pela uniformidade de cobertura com várias medidas diferentes. Para

refletir o efeito do nível de expressão nessa medida, os genes são utilizados

em três categorias: baixa, média e alta expressão de genes, também

descrevem a média dessas medidas para cada conjunto de genes. Algumas

informações nas saídas, são descritas: média da cobertura, média do

coeficiente de variação, viés GC, gráfico de cobertura.

Correlação: RNA-SeQC fornece estimativa dos níveis de expressão baseada

em RPKM. Quando executado com várias amostras, cria-se uma matriz de

correlações entre todas as combinações, relatando os coeficientes de

correlação, Spearman (baseado em classificação) e Pearson (baseado em

quantidade).

Uma limitação, é a falta de informação da quantidade de nucleotídeos (A, T,

C, G) presente, e a quantidade GC.

3.6 Cufflinks

Montagem do transcriptoma

Cufflinks é um programa que reúne transcrições, estima suas abundâncias e

realiza testes de expressão diferencial em amostras de RNA-Seq. Desenvolvido

pelos mesmos autores de Tophat e Bowtie, faz parte do pipeline Tuxedo

(TRAPNELL et al., 2012a), que também utiliza seus pacotes Cuffdiff para encontrar

genes e transcritos diferencialmente expressos e splicing alternativo, Cuffmerge

utilizado para mesclar dois ou mais conjuntos de transcritos, e CummeRbund, um

pacote do software R projetado para analisar e gerar gráficos com a saída gerada

por Cuffdiff . Cufflinks pode ser executado em Linus e OS X.

Cufflinks recebe um arquivo de alinhamentos em SAM ou BAM (o equivalente

binário do SAM) como entrada. Qualquer mapeador que gere alinhamentos em

formato SAM/BAM pode ser utilizado, porém o autor recomenda o uso de Tophat.

Page 56: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

34

Um arquivo de anotação do genoma de referência em formato GTF (Gene Transfer

Format) pode ser opcionalmente submetido como parâmetro de entrada. Tendo este

parâmetro o programa usa este arquivo para estimar a expressão da isoforma e não

irá montar novas transcrições, o programa vai ignorar os alinhamentos que não são

estruturalmente compatíveis com a referência.

Em experimentos de RNA-Seq, fragmentos de cDNA são classificados e

distribuídos a genes e de preferência a transcrições individuais. De acordo com a

normalização adequada, cada fragmento de RNA pode ser utilizado como uma

medida da abundância de transcritos, e Cufflinks mede a abundância da transcrição

em FPKM (Fragments per kilobase of éxon per million fragments mapped) que utiliza

o conceito de RPKM (Reads per kilobase per million mapped reads) para

normalização dos dados, uma vez que, transcritos maiores geram mais reads que

transcritos menores, a diferença é que na contagem FPKM, são considerados os

fragmentos e não os reads.

O método conhecido como Maximum Likelihood, permite o cálculo de reads

que mapeiam em éxons compartilhados, decorrentes de genes que sofreram

splicing alternativo, e com isso produziram múltiplas isoformas na mesma amostra,

para calcular com precisão a contagem, este modelo estatístico linear observa reads

com maior semelhança.

Em experimentos de RNA-Seq paired-end, Cufflinks trata cada par de

fragmentos de read como um único alinhamento. O algoritmo monta 'pacotes'

sobrepostos de fragmentos alinhados separadamente, reduzindo o tempo de

funcionamento e uso de memória, porque normalmente cada pacote contém os

fragmentos de não mais do que alguns genes. Em seguida, o algoritmo estima as

abundâncias das transcrições montadas.

Na figura 9 abaixo fica mais clara a compreensão de cada passo. O primeiro

passo na montagem de fragmentos é para identificar pares de fragmentos

“incompatíveis” que deve ter originado a partir de diferente splicing de isoforma de

mRNA (b). Os fragmentos são ligados em um “grafo de sobreposição” quando eles

são consistentes e seus alinhamentos sobrepõem no genoma. Cada fragmento tem

Page 57: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

35

um nó no gráfico, e uma borda, dirigido da esquerda para a direita ao longo do

genoma, é colocado entre cada par de fragmentos compatíveis. Neste exemplo, os

fragmentos em amarelo, azul e vermelho devem ter se originado a partir de

isoformas distintas, mas qualquer outro fragmento poderia ter vindo do mesmo

transcrito. As isoformas são, em seguida, montadas a partir do gráfico de

sobreposição (c). Caminhos através do gráfico correspondem a conjuntos de

fragmentos mutuamente compatíveis que podem ser incorporadas a isoformas

completas. O gráfico de sobreposição aqui pode ser minimamente "coberto" por três

caminhos (amarelo, azul e vermelho), cada um representando uma isoforma

diferente. O teorema de Dilworth afirma que o número de reads mutuamente

incompatíveis é o mesmo que o número mínimo de transcritos necessários para

“explicar”, todos os fragmentos. Cufflinks implementa uma prova do teorema de

Dilworth, que produz um conjunto mínimo de caminhos que cobrem todos os

fragmentos do gráfico de sobreposição por encontrar o maior conjunto de reads com

a propriedade de que não poderia ter dois originados da mesma isoforma. Em

seguida, a abundância da transcrição é estimada (d). Os fragmentos são

combinados (denotado aqui usando a cor) para as transcrições de onde poderia ter

se originado. O fragmento de cor violeta poderia ter se originado a partir da isoforma

azul ou vermelho. Fragmentos em cinza poderia ter vindo de qualquer um dos três

mostrados. Cufflinks estima abundância de transcritos utilizando um modelo

estatístico em que a probabilidade de observar cada fragmento é uma função linear

das abundâncias das transcrições a partir do qual poderia ter se originado. Uma vez

que apenas as extremidades de cada fragmento são sequênciadas, o comprimento

de cada um pode ser desconhecido. A atribuição de um fragmento de diferentes

isoformas muitas vezes implica um comprimento diferente para ele. Cufflinks pode

incorporar a distribuição de comprimentos de fragmentos para ajudar a atribuir os

fragmentos para isoformas. Por exemplo, o fragmento em violeta seria muito mais

longo, e muito improvável de acordo com o modelo de Cufflinks, se fosse para vir a

partir da isoforma vermelha em vez da isoforma de azul. Por último, o programa

numericamente maximiza uma função que atribui uma probabilidade de todos os

conjuntos possíveis de abundância relativa das isoformas em amarelo, vermelho e

Page 58: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

36

azul (γ1, γ2, γ3) (e), produzindo as abundâncias que melhor explicam os fragmentos

observados, mostrados como um gráfico de pizza.

Figura 9 - Visão geral da ferramenta Cufflinks (Trapnell et al., 2010).

Page 59: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

37

Parâmetros padrão.

Onde:

Parâmetro Função

-o/--output-dir Diretório de saída dos dados.

-p Número de processadores. Padrão 1.

<Arquivo de alinhamento (sam/bam)> Arquivo gerado por Tophat

As saídas geradas por Cufflinks são armazenadas em uma pasta

especificada na execução do programa contendo sua extensão _clout.

Os arquivos gerados, são descritos abaixo:

genes.fpkm_tracking= Valor de FPKM para os genes.

isoforms.fpkm_tracking= Valor de FPKM para as isoformas.

skipped.gtf= Arquivo de transcritos não utilizados.

transcripts.gtf= Transcritos montados de uma determinada biblioteca.

Posteriormente, este arquivo será utilizado por Cuffmerge.

3.7 Cuffmerge

Fusão de arquivos

É um script que está incluído em Cufflinks que é utilizado para mesclar vários

conjuntos de transcritos gerados por Cufflinks. O principal objetivo deste script é

criar um arquivo de montagem em formato gtf adequado para o uso com Cuffdiff.

Um arquivo de referência em formato gtf, pode ser fornecido como entrada, de modo

a mesclar novas isoformas, assim como isoformas conhecidas, também

maximizando a qualidade da montagem. Cuffmerge leva vários arquivos de

montagem em formato gtf a partir de Cufflinks, estes arquivos devem conter o

caminho dos arquivos de montagem e estar listados em um arquivo chamado

“assemblies.txt”, por orientação do autor.

Page 60: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

38

Figura 10 - Cuffmerge: Mesclando os conjuntos de amostras com uma anotação da referência do

transcriptoma (Trapnell et al., 2012).

Os genes com baixa expressão poderão receber profundidade de

sequenciamento insuficiente para permitir a reconstrução completa em cada réplica.

No entanto, a fusão das montagens com Cuffmerge muitas vezes recupera o gene

completo. A figura 10 demonstra um exemplo de como Cuffmerge faz a fusão dos

conjuntos de amostras. Isoformas recentemente descobertas também estão

integradas com as conhecidas nesta fase, em modelos de genes mais completos.

Parâmetros padrão.

Parâmetro Função

<assembly_list.txt> Arquivo de texto com uma lista (um

por linha) dos arquivos GTF que se

fundem em um único arquivo GTF.

-g /--ref-gtf Uma "referência" em formato GTF

opcional. Os conjuntos de entrada

são mesclados com o GTF referência

e incluídos no resultado final.

-p Número de processadores. Padrão 1.

Page 61: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

39

-s /--ref-sequence

<seq_dir>/<seq_fasta>

Este argumento deverá apontar para

as sequências genômicas de DNA

para a referência.

Como saída será gerado um arquivo chamado merged.gtf, que será utilizado

posteriormente com Cuffdiff.

3.8 Cuffdiff

Análise diferencial

Cuffdiff encontra alterações significativas na expressão de transcritos,

splicing, e o uso do promotor. O módulo Cuffdiff, que faz parte do pacote Cufflinks,

recebe um arquivo GTF de transcritos como entrada, juntamente com dois ou mais

arquivos SAM ou BAM contendo os alinhamentos de fragmentos para a duas ou

mais amostras. Seus arquivos de saída podem ser visualizados em qualquer

planilha eletrônica (como Microsoft Excel). O modelo estatístico utilizado para

avaliar alterações, assume que o número de reads produzidos por cada transcrito é

proporcional à sua abundância, mas oscila devido a variabilidade técnica durante a

preparação da biblioteca e o sequenciamento, e por causa da variabilidade biológica

entre repetições do mesmo experimento.

O algoritmo identifica genes que são diferencialmente regulados no nível

transcricional ou pós-transcricional. O mesmo gera inúmeros arquivos de saída em

formato texto, contendo os resultados da análise diferencial das amostras. Esses

arquivos contêm as estatísticas, como a alterações de vezes (em escala log2), os

valores de P, tanto brutos como corrigidos para múltiplos testes por FDR e gene e

atributos relacionados a transcrição como nome e local comum no genoma. O

critério de FDR (False Discovery Rate) que foi proposto por Benjamini & Hochberg

(BENJAMINI; HOCHBERG, 1995) é a representação da dimensão esperada de

hipóteses nulas rejeitadas erroneamente.

Como mostrado na figura 11, a variabilidade em contagem para cada fragmento do

gene através de repetições é modelada (1). A contagem de fragmento para cada

Page 62: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

40

isoforma é estimada em cada réplica (2), juntamente com uma medida de incerteza

nessa estimativa decorrente da forma ambígua de reads mapeados, que são

extremamente prevalentes em transcriptomas de splicing alternativo (3). O

algoritmo combina estimativas de incerteza e variabilidade inter-repetição sob um

modelo de binomial negativa beta da variabilidade da contagem de fragmentos para

estimar variâncias de contagem para cada transcrito em cada biblioteca (4). Estas

variâncias de estimativas são usadas durante o teste estatístico para relatar genes

e transcrições significativamente expressos diferencialmente (5) (figura 11).

Page 63: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

41

Figura 11 – Etapas da abordagem Cuffdiff para análise diferencial em nível de isoformas em dados de RNA-

Seq. (Trapnell et al., 2013).

Page 64: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

42

Parâmetros:

Parâmetro Geral Função

-o/--output-dir Diretório de saída dos dados.

-b/--frag-bias-correct <genome.fa> Executa detecção de viés e

algoritmo de correção que pode

melhorar a precisão das

estimativas de abundância da

transcrição.

-p Número de processadores. Padrão

1.

-L/--labels <label1,label2,...,labelN> Especificar um rótulo para cada

conjunto de amostra, que será

incluído nos arquivos de saída.

-u/--multi-read-correct Executa procedimento de

estimativa inicial para mais

precisão do peso de mapeamento

de reads para vários locais no

genoma.

--library-norm-method Métodos de biblioteca para

normalização. Ver descrição

--library-type Tipos de biblioteca. Ver

descrição

--dispersion-method Métodos de estimativa de

dispersão. Ver descrição.

Page 65: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

43

Métodos de biblioteca para normalização (--library-norm-method)

Pode controlar como o tamanho das bibliotecas são normalizados, ou seja, a

profundidade do sequenciamento. Cuffdiff tem 3 métodos que requerem várias

bibliotecas para trabalhar. É utilizado um tipo de biblioteca de cada vez.

geometric: Este método é padrão para Cuffdiff, e por isso a opção em utiliza-

lo. As contagens de fragmentos são dimensionadas através da mediana das

médias geométricas de contagens de fragmentos através de todas as

bibliotecas.

Tipos de biblioteca (--library-type)

fr-firststrand: Exerce a regra de que o final (mais à direita) do fragmento

deve ser o primeiro a ser sequênciado. Esta opção foi utilizada, já que o

sequenciamento foi realizado utilizando esta origem de vertente.

Métodos de estimativa de dispersão (--dispersion-method)

Cuffdiff trabalha com a modelagem da variação nas contagens de repetições

do fragmento, através de uma função. O modelo de dispersão, onde a variância

presente em um grupo de amostras é além daquilo que se espera de um simples

modelo de Poisson de RNA-Seq. São 4 métodos:

Blind: Todas as amostras são tratadas como repetições de uma única

"condição" global, e utilizado para construir um modelo.

Como saída, são gerados vários arquivos, dentre eles arquivos de testes

de expressão diferencial.

Page 66: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

44

3.9 CummeRbund

Análise de arquivos Cufflinks

CummeRbund é um pacote R/Bioconductor para visualização dos dados de

sequenciamento de alto rendimento, produzidos a partir de uma análise da

expressão diferencial por Cufflinks/Cuffdiff em experimentos de RNA-Seq. Os

resultados desta análise são tipicamente um grande número de arquivos inter-

relacionados que não são muito intuitivos para se entender. CummeRBund ajuda a

gerar uma rápida análise de dados de RNA-Seq por agregação, indexação e permite

fácil visualização.

Seu trabalho começa reorganizando arquivos de saída de uma análise com

Cuffdiff e armazena os dados em um local de base de dados SQLite. CummeRbund

indexa os dados para acelerar o acesso aos dados de recursos específicos, e

conserva as várias relações entre estas características. O acesso a elementos de

dados é gerenciado por meio de pacote RSQLite e os dados são apresentados

devidamente estruturados com várias funções de conveniência projetado para

otimizar o fluxo de trabalho. Este armazenamento de dados persistente significa que

os valores de expressão inter-conectadas são rapidamente acessíveis e

rapidamente pesquisáveis em análises futuras.

Foi projetado para fornecer análise e visualização de dados de RNA-Seq.

Neste sentido, vários gráficos são fornecidos para a visualização, como, dados de

qualidade e estatísticas globais, e rotinas para traçar os níveis de expressão. Dentre

os gráficos gerados por CummeRbund, estão, Densidade, Volcano, Scatter, Box

plot, Dispersão, Dendrograma, entre outros.

Exemplo:

>library(cummeRbund)

>cuff_data <- readCufflinks(‘caminho para arquivo de saída cuffdiff’)

Alguns requisitos são solicitados para seu desempenho:

Cufflinks ≥ v2.0.0

SQLite

Page 67: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

45

R ≥ v2.7.0

Pacotes: RSQLite ggplot2 v0.9.2 reshape2 plyr fastcluster rtracklayer Gviz BiocGenerics (>=0.3.2)

3.10 MISO – Mixture of Isoforms

Splicing alternativo

Através de splicing alternativo, a maioria dos genes humanos expressam

múltiplas isoformas que muitas vezes diferem em função. MISO (KATZ et al., 2010)

é um modelo estatístico que estima expressão de éxons e isoformas de splicing

alternativo. MISO está disponível como um pacote Python, listado como misopy em

pypi (Python Package Index). MISO vem com um utilitário embutido chamado

Sashimi_plot (KATZ et al., 2013), para a plotagem da sua saída (figura 12).

Figura 12 - Exemplo do gráfico Sashimi_plot gerado pela ferramenta MISO. Amostras de RNA-Seq,

codificados por cores pela condição (Katz et al., 2013).

Page 68: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

46

Como requisitos de instalação MISO requer alguns módulos Python e o

software samtools para acessar arquivos SAM/BAM. Os módulos Python

necessários são:

Python 2.6 ou superior

Numpy e scipy. (Nota: MISO requer a versão numpy> 1,5)

Pysam: Uma biblioteca Python para trabalhar com arquivos SAM / BAM

através de samtools (Nota: MISO requer pysam versão 0.6 ou superior)

matplotlib: Somente necessário para traçar sashimi_plot.

Além destes, MISO requer outros softwares:

samtools para acessar arquivos SAM / BAM

bedtools: opcional, usado para calcular sobreposições e intersecções

Para facilitar a instalação, é recomendado pelos desenvolvedores de MISO

que o mesmo seja instalado usando um gerenciador de pacotes Python, assim, os

módulos Python necessários serão instalados e gerenciados automaticamente.

Para detectar splicing alternativo utilizando dados de RNA-seq, MISO usa

reads alinhados. No tipo mais comum de splicing alternativo em mamíferos, éxons

são incluídos ou excluídos para gerar o mRNA maduro; “Percent spliced In' (PSI ou

Ψ) indica a fração de mRNA que representam a inclusão de uma isoforma. Read

alinhando ao éxon alternativo ou para seus cruzamentos com éxons constitutivos

adjacentes fornece suporte para a inclusão da isoforma, enquanto o read alinhado

para a junção entre os éxons constitutivos adjacentes apoia a exclusão da isoforma;

a densidade de reads relativo destes dois conjuntos forma o padrão de estimativa

Ψ. Uma breve descrição de como utilizar MISO é mostrada abaixo (figura 13). A

primeira fase é destinada a execução de MISO. A segunda fase é feita a análise

das saídas geradas, e a última fase é a visualização.

Page 69: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

47

Figura 13 - Visão geral da ferramenta MISO (Katz et al., 2010)

Para executar MISO, um conjunto de anotações das isoformas de eventos

alternativos em formato GFF (General Feature Format) versão 3 devem ser

fornecidos, e os arquivos com dados de RNA-Seq, no formato SAM. MISO

disponibiliza três tipos de anotações no formato apropriado para execução, humano

(hg18, hg19), camundongo (mm9) e Drosophila melanogaster. Qualquer anotação

que está no formato GFF3 pode ser usado (RefSeq, Ensembl ou UCSC) ou outros

bancos de dados. Deve-se observar que Ensembl e UCSC têm convenções de

Page 70: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

48

nomenclatura distintas, por exemplo, cromossomos UCSC começam com chr, já os

Ensembl não. É possível colocar anotações de outros organismos, e estas

anotações podem ser convertidas do formato GTF em GFF3, para isso MISO

fornece um script. MISO fornece vários tipos de eventos cobertos por estas

anotações, porém o evento utilizado neste trabalho foi Skipped éxons (SE), por ser

o tipo mais comum de splicing alternativo.

Os arquivos SAM devem ser ordenados e indexados para o formato BAM

(versão binária do SAM) antes que possam ser usados com MISO.

MISO realiza dois tipos de análises, e em ambas podem ser utilizados dados

de RNA-Seq single ou paired-end:

Análise "Éxon-Centric". Estima o nível de expressão de éxons,

Análise "Isoform-Centric". Estima o nível de expressão de transcrições

inteiras.

Análise éxon-centric é recomendado para splicing alternativo ao nível de

eventos de splicing individuais, por exemplo, os níveis de inclusão de um

determinado éxon ignorado, ou a utilização de um local de splicing alternativo

específico. Na análise isoform-centric o nível de expressão de isoformas inteiras

por genes são estimados (ou seja, a expressão de cada uma das isoformas de

um gene individual é avaliada). Cada uma destas analises têm vantagens e

desvantagens. Por exemplo, análises Éxon-centric são tipicamente mais fáceis

de interpretar e validar experimentalmente, mas nem sempre captam a

complexidade de um conjunto relacionado a eventos de splicing dentro de um

gene. Já a análise isoform-centric captura esta complexidade, mas é limitado

pelo comprimento tipicamente curto de reads de RNA-Seq.

Exemplo da saída MISO é ilustrado na figura 14.

Page 71: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

49

Figura 14 - Exemplo de saída MISO para a contagem de reads para um éxon ignorado (Katz et al., 2010).

Classe (1,0) são reads consistentes com a primeira isoforma na anotação

mas com a segunda, classe (0,1) são reads consistentes com a segunda isoforma,

mas não com a primeira, classe (1,1) são consistentes com as duas isoformas, e

classe (1,1) são compatíveis com as duas isoformas.

Como parâmetro para a execução do MISO, é necessário a informação de

distribuição do comprimento da inserção e desvio padrão. A distribuição do

comprimento de inserção de uma amostra é calculada através do alinhamento dos

pares de reads para longos éxons constitutivos e depois medindo o comprimento

de inserção de cada par. O conjunto de comprimentos de inserção obtidos desta

maneira formam uma distribuição, e as estatísticas de resumo dessa distribuição

(média e desvio padrão) são usados pelo MISO para atribuir pares de reads para

as isoformas. Estas informações são obtidas a partir de dois utilitários

disponibilizados por MISO éxon_utils e pe_utils. O primeiro é usado para se

obter um conjunto de longos éxons constitutivos para mapear pares de reads, e o

segundo calcula a distribuição do comprimento de inserção e suas estatísticas.

Page 72: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

50

Page 73: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

51

4 Situações biológicas analisadas

4.1 Tecido Normal: Hipocampo sub-regiões CA1, CA2 e CA3 e Giro Denteado

Neste experimento, foram utilizados animais normais, sem nenhum

procedimento experimental adicional, com o objetivo de descobrir e anotar novos

transcritos, e detectar possível presença de variantes de splicing alternativo Após

os animais serem sacrificados, seus cérebros foram removidos, congelados e

microdissecados. Foram utilizados quatro ratos adultos de 3 meses, onde foram

microdissecadas as regiões do hipocampo CA1, CA2 e CA3 e o giro denteado.

A análise bioinformática, foi feita avaliando a região do giro denteado contra

as regiões do hipocampo CA1, CA2 e CA3 (figura 15).

Figura 15 - Regiões Analisadas do giro denteado versus o hipocampo sub-regiões CA1, CA2 e CA3.

Para este estudo, foi proposto o pipeline de análise bioinformática mostrado

na figura 16.

DG

CA1

CA2CA3

Page 74: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

52

Figura 16 - Pipeline Experimento regiões do Hipocampo CA1, CA2 e CA3 e Giro Denteado. Protocolo Tuxedo

am azul (TRAPNELL et al., 2012b)

Neste pipeline foi feita a análise dos arquivos antes da trimagem dos dados

e depois da trimagem. O objetivo é descobrir até que ponto o passo de trimagem

deve ser considerado util, já que atualmente os softwares utilizados para a análise

posterior, corrige possiveis viéses, como qualidade baixa.

Depois que foi feito o controle de qualidade e a trimagem, o passo seguinte

foi realizar o alinhamento das sequências.

O genoma de referência usado neste trabalho corresponde ao

Rattus_norvegicus versão 5.0.71.

Tophat2

Para análise de Tophat2, utilizamos seus valores padrão. O comando

utilizado neste trabalho foi:

tophat2 -p 2 –G

/home/bioinfo/data/PRONEX/Rattus_norvegicus.Rnor_5.0.71.gtf -o

/home/bioinfo/data/PRONEX/rnaseq_brainRegions/raw/Project_rnaseq1/T

ophat/n2_ca1_thout /home/bioinfo/data/PRONEX/index

/home/bioinfo/data/PRONEX/rnaseq_brainRegions/raw/Project_rnaseq1/S

Controle Qualidade

Tophat2

Cufflinks Cuffmerge CummeRbund

Dados brutos Arquivos FASTQ

Trimagem

MISO

Splicing alternativo

Page 75: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

53

ample_n2_ca1/n2_ca1.R1.fastq

/home/bioinfo/data/PRONEX/rnaseq_brainRegions/raw/Project_rnaseq1/S

ample_n2_ca1/n2_ca1.R2.fastq

Cufflinks

Neste trabalho foi utilizada a versão 2.2.1, e o comando utilizado para cada

amostra foi:

/home/bioinfo/data/PRONEX/rnaseq_brainRegions/raw/Project_rnaseq1/T

ophat/n2_ca1_clout

/home/bioinfo/data/PRONEX/rnaseq_brainRegions/raw/Project_rnaseq1/T

ophat/n2_ca1_thout/accepted_hits.bam

Cuffmerge

O comando utilizado neste trabalho, foi:

cuffmerge -g

/home/bioinfo/data/PRONEX/Rattus_norvegicus.Rnor_5.0.71.gtf -s

/home/bioinfo/data/PRONEX/index.fa -p 12 assembly.txt

Cuffdiff

Linha de comando:

cuffdiff [options]* <transcripts.gtf>

<sample1_replicate1.sam[,...,sample1_replicateM.sam]>

<sample2_replicate1.sam[,...,sample2_replicateM.sam]>...

[sampleN.sam_replicate1.sam[,...,sample2_replicateM.sam]]

Neste trabalho utilizamos os seguintes comandos:

O comando –L (-- labels), serve para separar os grupos que serão

analisados, e ficou dividido da seguinte forma:

Page 76: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

54

CA1 - /home/katia/ArquivosBrainRegions/n2_ca1/accepted_hits.bam,/home/kat

ia/ArquivosBrainRegions/n3_ca1/accepted_hits.bam,/home/katia/Arquiv

osBrainRegions/n4_ca1/accepted_hits.bam,/home/katia/ArquivosBrainRe

gions/n5_ca1/accepted_hits.bam

CA2 - /home/katia/ArquivosBrainRegions/n2_ca2/accepted_hits.bam,/home/kat

ia/ArquivosBrainRegions/n4_ca2/accepted_hits.bam,/home/katia/Arquiv

osBrainRegions/n5_ca2/accepted_hits.bam

CA3 - /home/katia/ArquivosBrainRegions/n2_ca3/accepted_hits.bam,/home/kat

ia/ArquivosBrainRegions/n3_ca3/accepted_hits.bam,/home/katia/Arquiv

osBrainRegions/n4_ca3/accepted_hits.bam,/home/katia/ArquivosBrainRe

gions/n5_ca3/accepted_hits.bam

DG - /home/katia/ArquivosBrainRegions/n2_dg/accepted_hits.bam,/home/kati

a/ArquivosBrainRegions/n3_dg/accepted_hits.bam,/home/katia/Arquivos

BrainRegions/n4_dg/accepted_hits.bam,/home/katia/ArquivosBrainRegio

ns/n5_dg/accepted_hits.bam

Uma limitação encontrada na utilização de Cuffdiff, é que o software não tem

nenhum parâmetro especifico para trabalhar com réplica técnica, e neste estudo, no

grupo CA2 existe replicata técnica. Por conta desta limitação, e considerando que

o uso das duas replicatas poderia interferir na quantificação da expressão

diferencial, pois poderia influenciar no poder estatístico, foram verificadas as

possibilidades para realizar a análise, e foi decidido retirar deste grupo uma das

replicatas técnicas. A escolha de qual replicata seria removida, foi feita com base

na contagem das sequências do arquivo bruto (FASTQ), aquela que teve a

contagem mais diferente do grupo, foi removida. Esta decisão também foi tomada,

já que em análise feita com o gráfico de PCA, foi detectado que ambas as replicatas

estavam sobrepostas, indicando que o sequenciamento foi feito de maneira correta.

Como nossas amostras possuem uma variabilidade grande no número de

fragmentos, Cuffdiff foi rodado 3 vezes para testar sua normalização, em cada

tentativa foi acrescentado um tipo de parâmetro.

Page 77: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

55

Tabela 5 - Quantidade de fragmentos por regiões. R1 e R2 refere-se a fita forward e reverse,

respectivamente. Fragmentos marcados em cinza, representam replicata técnica. Contagem marcada em

vermelho, demostra amostra retirada da análise.

RegiãoCA1 Região CA2 Região CA3 Região DG

R1 R2 R1 R2 R1 R2 R1 R2

amostra n2 17406318 17406318 11116001 11116001 14027260 14027260 10109764 10109764

amostra n3 23186853 23186853 9286076 9286076 21714019 21714019 22693023 22693023

amostra n4 18502636 18502636 20961297 20961297 20811090 20811090 17416689 17416689

amostra n5 7327272 7327272 12084930 12084930 13283185 13283185 13415500 13415500

Opção 1:

cuffdiff -o /home/katia/ArquivosBrainRegions/diff_out/ -b

/home/bioinfo/data/PRONEX/index.fa -p 10 -L CA1,CA2,CA3,DG -u

/home/katia/ArquivosBrainRegions/merged_asm/merged.gtf

A opção 1 é utilizado os parâmetros padrão de Cuffdiff, sem o acréscimo de

nenhum parâmetro adicional.

Opção 2:

cuffdiff -o /home/katia/ArquivosBrainRegions/diff_out2/ -b

/home/bioinfo/data/PRONEX/index.fa -p 10 -L CA1,CA2,CA3,DG -u

/home/katia/ArquivosBrainRegions/merged_asm/merged.gtf --library-

norm-method geometric

Nesta linha de comando foi utilizado a opção --library-norm-method

geometric (método de normalização da biblioteca, o tipo geometric é utilizado por

padrão por Cuffdiff.

Opção 3:

cuffdiff -o /home/katia/ArquivosBrainRegions/diff_out3/ -b

/home/bioinfo/data/PRONEX/index.fa -p 10 -L CA1,CA2,CA3,DG -u

/home/katia/ArquivosBrainRegions/merged_asm/merged.gtf --library-

norm-method geometric --library-type fr-firststrand --dispersion-

method blind

Page 78: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

56

Acrescentado a opção --library-type fr-firststrand (sentido da fita) e --

dispersion-method blind (método de dispersão, o tipo blind considera todas as

amostras como repetições de uma única condição global).

CummeRbund

Exemplo de entrada:

>library(cummeRbund)

>cuff_data <- readCufflinks(‘caminho para arquivo de saída cuffdiff’)

MISO

O script éxon_utils foi utilizado para obter éxons constitutivos para

mapear pares de reads. A sua saída foi utilizada para calcular a distribuição do

comprimento da inserção.

Abaixo, segue o pipeline utilizado neste trabalho para a análise com MISO.

Levando em consideração que o arquivo miso_settings.txt já está configurado com

os valores padrão.

Para a nossa análise, o seguinte comando foi utilizado:

Preparando a anotação.

Convertendo gtf para gff3

É possivel utilizar outros arquivos de anotação em formato gtf, além dos

arquivos pré-definidos disponíveis em MISO, como feito neste trabalho. Porém, é

necessário que faça a conversão de gtf para gff3.

perl gtf2gff3.pl

/home/katia/Rattus_norvegicus/Rattus_norvegicus.Rnor_5.0.71.gtf >

Rattus_norvegicus.Rnor_5.0.71.gff3

Page 79: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

57

Criando o Index

index_gff.py --index Rattus_norvegicus.Rnor_5.0.71.gff3

Rattus_norvegicus.Rnor_5.0.71

Calculando a distribuição do comprimento de inserção e suas estatísticas.

éxon_utils --get-const-éxons

/home/katia/Rattus_norvegicus/Rattus_norvegicus.Rnor_5.0.71.gff3 --

min-éxon-size 1000 --output-dir éxons/

O script pe_utils foi usado para o cálculo de média e desvio padrão, este

cálculo foi realizado para as 16 amostras deste trabalho. A linha de comando padrão

é descrita abaixo.

pe_utils --compute-insert-len <arquivo .bam> <arquivo gff>

.min_1000.const_éxons.gff --output-dir insert-dist/

Estes resultados foram incluídos para executar MISO.

Rodando MISO

O primeiro passo foi calcular os valores de Ψ PSI (Percent Spliced In), para

cada amostra.

Cada parâmetro é descrito abaixo:

--run: Comando para executar MISO. Fornecendo como parâmetro de

entrada o arquivo BAM. Seguido do diretório para armazenamento da saída.

--read-len: Comprimento do read.

--paired-end: Utilizado para dados paired-end. Seguido dos valores de

média e desvio padrão.

--event-type: Tipo de evento alternativo analisado. Em nossa análise,

utilizamos o tipo Skipped éxons, pois é o tipo mais comum de splicing

alternativo.

A linha de comando padrão é descrita abaixo.

miso --run <arquivo .bam> <caminho pasta de saída> --read-len 101 -

-paired-end <média> <desvio padrão> --event-type=SE

Page 80: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

58

Nesta etapa são geradas pastas para cada cromossomo, onde estão

armazenados os dados computados por MISO. A próxima etapa é responsável por

resumir estes dados a um único arquivo, para então, seguir com a análise

subsequente.

A linha de comando padrão é descrita abaixo.

summarize_miso --summarize-samples <caminho pasta gerada etapa

anterior> <caminho pasta de saída>

Por fim, foi realizada a comparações entre as amostras.

Região CA1 Região CA2

Região CA3 Região DG

Região CA2 Região CA3 Região DG

Região CA3 Região DG

Page 81: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

59

4.2 Resumo dos procedimentos envolvidos no preparo das amostras e sequenciamento dos espécimes teciduais do modelo de epilepsia induzido por injeção de pilocarpina sem a presença de status epilepticus.

Os dados utilizados no modelo de pilocarpina, foram obtidos através do

projeto “Investigando os mecanismos moleculares da epileptogênese pela análise

de expressão gênica em larga escala”. O material obtido de ratos Wistar em modelo

animal de epilepsia de lobo temporal mesial (ELTM) que foram induzidos por

pilocarpina, sem porém atingirem status epilepticus. Foram utilizados 6 animais,

sendo 3 para o grupo controle e 3 para o grupo tratado com pilocarpina. Resumindo,

os animais foram pré-tratados com metilescopolamina (1mg/kg; subcutâneo; Sigma

Co) para limitar os efeitos colinérgicos periféricos. Trinta minutos após, eles

receberam uma injeção sistêmica de pilocarpina (320 mg/kg; intraperitoneal;

Merck). Foram utilizados os animais que não entraram em status epilepticus após a

dosagem inicial. Os animais foram sacrificados com menos de 24 horas após o

aparecimento da primeira crise espontânea. Este tempo garante que o processo de

epileptogênese esteja instalado, mas não ocorreram alterações

crônicos/degenerativas, este intervalo de 24 horas sem crise também minimiza

outro efeito confundidor, que é o efeito que as crises provocam na expressão

gênica.

Na sequência foi realizado o processamento tecidual e microdissecção das

regiões de interesse a serem estudadas nos espécimes teciduais. Esses foram

utilizados para a construção das bibliotecas de cDNA dupla fita utilizando o kit

TruqSeq mRNA Sample Preparation kit Set a (Illumina). Em resumo,

aproximadamente 100 ng das amostras de RNA total, o RNAm foi purificado

utilizando-se seleção de poly A com beads magnéticas e, posteriormente,

fragmentado quimicamente. O RNA fragmentado foi submetido a síntese de cDNA

simples fita utilizando hexâmetros randômicos e a enzima transcriptase reversa.

Posteriormente foi sintetizada a segunda fita do cDNA com a utilização de DNA

polymerase, RNase H e DNA ligase. O cDNA dupla-fita purificado foi utilizado como

template para a construção das bibliotecas subsequentes.

Page 82: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

60

Em seguida foi realizado o sequenciamento high-throughput utilizando o

sistema Illumina (HiSeq 2500), com o kit TruSeq Paired-end Cluster Kit v2-cBot-HS

(Illumina). Resumidamente, o cDNA dupla-fita foi tratado com T4 DNA polimerase,

T4 polinucleotídeo quinase e fragmento de Klenow para reparo das “pontas” e

síntese de um cDNA dupla-fita blunt-end. Uma base A foi adicionada às “pontas” de

cada fita, preparando o cDNA dupla-fita para a ligação de sequências adaptadoras

para o sequenciamento paired-end. Cada adaptador continha uma base “T”

overhang na extremidade 3´, promovendo a complementaridade necessária a

região para ligação dos adaptadores a base “A” do cDNA dupla-fita. Os adaptadores

adicionados possuíam sequências complementares para hibridização dos primers

para o sequenciamento paired-end. A seleção de tamanho para construção das

bibliotecas foi realizada utilizando gel de agarose 2%. As amostras foram

desnaturadas, amplificadas, clusterizadas e purificadas. As bibliotecas enriquecidas

após amplificação foram diluídas. A corrida de cada biblioteca foi feita na

concentração adequada para o sistema HiSeq 2500 (Illumina).

Pipeline proposto para análise dos dados neste modelo é descrito na figura 17.

Page 83: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

61

Figura 17 - Pipeline proposto para o modelo Pilocarpina. Ferramentas descritas no quadrado azul, refere-se

ao protocolo Tuxedo.

Tophat2

Para análise de Tophat2, utilizamos seus valores padrão.

Foi usado um script para cada amostra, para exemplificar, segue script para

a amostra “Controle 01 - IC01”. O comando utilizado neste trabalho foi:

Tophat2 -p 8 -G

/home/bioinfo/data/PRONEX/Rattus_norvegicus.Rnor_5.0.71.gtf -o

/home/katia/Mestrado/Sample_IC01/Tophat

/home/bioinfo/data/PRONEX/index

/home/bioinfo/data/PRONEX/Sample_IC01/IC01_GCCAAT_L001_R1.trimmed.f

astq

/home/bioinfo/data/PRONEX/Sample_IC01/IC01_GCCAAT_L001_R2.trimmed.f

astq

Controle

Qualidade

(pós sequenciamento)

Trimagem Tophat2

Controle

Qualidade

(pós alinhamento)

Cufflinks Cuffmerge

Cuffdiff CummeRbund

Dados brutos Arquivos FASTQ

Page 84: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

62

Controle de Qualidade – Pós alinhamento

Os parâmetros utilizados em cada um dos passos a seguir, foram

realizados em todas as amostras deste experimento, porém como forma de

simplificar, serão demostrados os scripts utilizados na amostra 01 do grupo

Controle – IC01.

FastQC

Foi utilizado em linha de comando, sendo preciso apenas a informação do

arquivo bam. Versão utilizada 0.10.1.

fastqc IC01_GCCAAT_L001_trimmed.sort.bam

RNA-SeQC

Neste trabalho foi utilizada a versão v1.1.7 do RNA-SeQC, em modo linha de

comando, utilizando os seguintes parâmetros obrigatórios, para todas as amostras,

abaixo exemplo do comando para a amostra “Controle 01 – IC01”:

java - jar RNA-SeQC_v1.1.7.jar -n 1000 -s

"Sample_IC01|/home/katia/Mestrado/Sample_IC01/IC01_GCCAAT_L001_trim

med.sort.RG.bam|IC01_GCCAAT_L001" -t

/home/bioinfo/data/PRONEX/Rattus_norvegicus.Rnor_5.0.71.gtf -r

/home/bioinfo/data/PRONEX/index.fa -o

/home/katia/Mestrado/Sample_IC01/Rna-Seqc2

Onde:

-n: Número máximo de transcritos para usar. O padrão é 1000.

-s: Arquivo BAM.

-t: Arquivo em formato GTF com os transcritos.

-r: Arquivo com o genoma de referência em formato Fasta.

-o: Caminho para o diretório de saída.

Page 85: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

63

Cufflinks

Foi utilizada a versão 2.2.1. Os parâmetros utilizados para cada amostra foi:

cufflinks -p 8 -o /home/katia/Mestrado/Sample_IC01/Cufflinks

/home/katia/Mestrado/Sample_IC01/Tophat/accepted_hits.bam

Cuffmerge

O comando utilizado neste trabalho, foi:

cuffmerge -g

/home/bioinfo/data/PRONEX/Rattus_norvegicus.Rnor_5.0.71.gtf -s

/home/bioinfo/data/PRONEX/index.fa -p 12 assembly.txt

Cuffdiff

Linha de comando utilizada:

cuffdiff -o /home/katia/Mestrado/diff_out2 -b

/home/bioinfo/data/PRONEX/index.fa -p 8 -L IC,PILO -u

/home/katia/Mestrado/merged_asm/merged.gtf

/home/katia/Mestrado/Sample_IC01/Tophat/accepted_hits.bam,/home/kat

ia/Mestrado/Sample_IC04/Tophat/accepted_hits.bam,/home/katia/Mestra

do/Sample_IC05/Tophat/accepted_hits.bam

/home/katia/Mestrado/Sample_PILO01/Tophat/accepted_hits.bam,/home/k

atia/Mestrado/Sample_PILO02/Tophat/accepted_hits.bam,/home/katia/Me

strado/Sample_PILO03/Tophat/accepted_hits.bam

CummeRbund

Exemplo de entrada:

>library(cummeRbund)

>cuff_data <- readCufflinks(‘caminho para arquivo de saída cuffdiff’)

Page 86: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

64

Page 87: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

65

5 Resultados

Com o objetivo de investigar qual a importância da etapa de trimagem dos

dados, iniciamos nossa análise pela comparação dos resultados gerados pela

aplicação dos pipelines de alinhamento com e sem essa etapa. Esse passo foi

realizado apenas no experimento com tecido normal, investigando as diferentes

regiões do hipocampo CA1, CA2 e CA3 e giro denteado. Os dados de

sequenciamento desses experimentos foram obtidos em dois momentos diferentes,

e tendo em mãos a análise dos dados brutos do experimento das regiões, foi

possível verificar que o valor da qualidade das sequências estava acima de 30 em

ambas as corridas. Nossos resultados mostram que os dados que passaram pela

trimagem, tiveram mais reads alinhados que os dados que não foram trimados. O

que indica que a trimagem evita que as bases com leituras errôneas prejudiquem o

alinhamento.

Essa comparação não foi realizada no modelo pilocarpina, pois nesse

modelo foi necessário realizar a trimagem, já que nos dados brutos havia uma

queda considerável na qualidade.

5.1 Análise de Qualidade

Resultados Hipocampo regiões CA1, CA2 e CA3 e Giro Denteado

Os resultados serão apresentados com os dados obtidos com a amostra do

animal n2 de giro denteado.

Page 88: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

66

FastQC

Qualidade da Sequência Por Base

Na figura 18, é possível visualizar a qualidade das sequências ao longo das

bases. No eixo x, temos a posição em pares de bases(pb), e no eixo y, o valor da

qualidade na escala Phred. Quanto maior a pontuação, melhor a chamada base. A

cor de fundo do gráfico divide o eixo y em chamadas de muito boa qualidade (verde),

chamadas de qualidade razoável (laranja), e chamadas de má qualidade

(vermelho). A qualidade do kit na maioria das plataformas irá degradar, de modo

que é comum ver chamadas de base que caem na área de laranja no final de um

read.

Figura 18 - Qualidade da Sequência por base (Experimento Hipocampo e Giro Denteado). Possível notar que

o resultado está com boa qualidade, já que todas as bases estão acima de 30 (cor de fundo verde)

Page 89: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

67

Estatísticas Básicas

A tabela 5 demostra os resultados da comparação entre alinhamento pré e

pós trimagem. Através deste resultado, verificamos que os dados que tiveram

trimagem apresentaram um total de sequências maior (26286411) que os dados

que não tiveram trimagem (25394124), significando que os dados trimados foram

mais alinhados que os dados que não foram trimados. O comprimento da sequência

nos dados pré-trimagem indica que todas as sequências possuem o mesmo

comprimento (101), enquanto nos dados pós-trimagem o comprimento do read varia

entre a mais curta (50) e a mais longa (101).

Tabela 6 - Comparação entre arquivos pré e pós alinhamento (Hipocampo e Giro Denteado).

Pré-trimagem Pós-trimagem

Nome arquivo n2_dg.accepted_hits.bam n2_dg.accepted_hits.bam

Codificação Sanger / Illumina 1.9 Sanger / Illumina 1.9

Total Sequências 25394124 26286411

Comprimento Sequência 101 50-101

%GC 50 50

Resultados Modelo Pilocarpina

Controle de qualidade – Pré-trimagem

Obtivemos o seguinte resultado da análise dos dados brutos, utilizando o

software FastQC. O resultado mostrado na tabela 6, foi gerado através da análise

da amostra Controle 01.

Tabela 7 - Estatísticas básicas FastQC (modelo Pilocarpina).

Nome arquivo IC01

Codificação Sanger / Illumina 1.9

Total Sequências 82657651

Comprimento Sequências 100

%GC 52

Page 90: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

68

Qualidade da Sequência Por Base

A figura 19, representa a análise de qualidade com os dados brutos da

amostra Controle 01.

Figura 19 - Qualidade da sequência por base (Modelo Pilocarpina). Nota-se a queda na qualidade no final

das bases.

Com este resultado, foi possível detectar que há uma queda considerável no

final das bases, por este motivo o passo de trimagem foi necessário. Para ser

corrigido este viés, foram retirados os adaptadores e o corte da qualidade, segundo

a escala phred, foi feito em 30.

Após a realização da trimagem foi feita a análise da qualidade, para conferir

se os dados estavam corretos para seguir com a análise posterior. A tabela 7 mostra

os resultados obtidos com os dados trimados da amostra Controle 01, e é possível

verificar que ouve uma diminuição no total de sequências, devido ao corte das bases

com qualidade ruim e também a remoção dos adaptadores. O comprimento dos

reads agora varia entre 50 e 100.

Page 91: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

69

Tabela 8 - Estatística básica FastQC arquivo trimado (modelo pilocarpina).

Nome arquivo IC01

Codificação Sanger / Illumina 1.9

Total Sequências 78684638

Comprimento Sequências 50-100

%GC 52

Pela figura 20 representando a Qualidade da Sequência Por Base, verificou-

se que após a trimagem, as bases que estavam com baixa qualidade foram

removidas, fazendo com que apenas as bases com qualidade acima de 30 fossem

mantidas, o que é considerado um bom resultado. Segundo a tabela phred, há uma

probabilidade de 1 em 1000 chances da base estar incorreta, tornando os dados

aceitáveis para seguir com a análise.

Figura 20 - Qualidade das sequências Por Base, após a trimagem (Modelo Pilocarpina). Constata-se que a

queda da qualidade foi corrigida.

Page 92: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

70

Com os dados brutos analisados e corrigidos, seguindo o pipeline sugerido

para o experimento do modelo pilocarpina, o passo após a análise do controle de

qualidade, é realizar o alinhamento das sequências. O Tophat2 fornece os arquivos

alinhados em formato .BAM (binário do SAM). Com estes arquivos, foram feitas as

análises de qualidade pós-alinhamento, não é um passo obrigatório, já que os

softwares que serão utilizados posteriormente, tratam este tipo de viés, mas pode

ajudar a identificar amostras ruins que passaram nas verificações de controle de

qualidade dos dados brutos.

Controle de Qualidade – Pós Alinhamento

Neste experimento o alinhamento foi feito apenas com os dados trimados,

diferente do realizado no experimento das regiões do hipocampo e giro denteado.

Isso ocorreu devido ao fato dos dados do modelo de pilocarpina estarem com o

valor de qualidade ruim, fazendo necessário o passo da trimagem para remoção

das bases com baixa qualidade.

O FastQC, que além de analisar a qualidade do sequenciamento, também

faz a análise de qualidade do alinhamento e foi utilizado para comparar com RNA-

SeQC, que é uma ferramenta que realiza o controle de qualidade apenas de dados

de alinhamento. O objetivo foi descobrir quais as diferenças seriam encontradas nos

resultados apresentados.

Aqui é descrito o resultado realizado com a amostra Controle 01, e na tabela

8 é possível verificar os resultados gerados pelo FastQC. Foram obtidas um total de

13037223 sequências alinhadas.

Tabela 9 - Estatística basica FastQC "Pós Alinhamento".

Nome arquivo IC01.bam

Codificação Sanger / Illumina 1.9

Total Sequências 13037223

Comprimento Sequências 75-100

Page 93: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

71

RNA-SeQC

O software RNA-SeQC, forneceu várias métricas de qualidade pós-

alinhamento, como segue abaixo na tabela 9, estes resultados são referentes a

medidas de controle de qualidade Read Counts.

Total de Reads

Tabela 10 - RNA-SeQC Total Reads.

Sample Total Purity Filtered Reads Sequenced

Failed Vendor QC Check

Read Length

Sample_IC01 13,037,223 NA 100

Total Purity Filtered Reads Sequenced: Reads que foram alinhados.

Failed Vendor QC Check: Verifica se existe reads que tenham sido

designadas como falha pelo sequênciador.

Read Length: É o comprimento máximo encontrado para todos os reads.

Comparando os resultados deste módulo com os gerados pelo FastQC,

verificamos que os dados referentes aos reads alinhados e o comprimento dos

reads estão iguais em ambas ferramentas.

Reads Mapeados

Nesta tabela (tabela 10), são calculadas métricas de qualidade referente aos

reads que foram mapeados.

Tabela 11 - RNA-SeQC Mapped Reads.

Sample Mapped Mapping Rate

Mapped Unique

Sample_IC01 11,845,863 0.909 11,845,863

Mapped: Reads que foram alinhadas.

Mapping Rate: Taxa de mapeamento, por total de reads.

Mapped Unique: Ambos estão alinhados, bem como reads não duplicado.

Page 94: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

72

Reads associado a transcrito

Todos os valores da tabela 11 foram calculados por reads mapeados.

Tabela 12 - RNA-SeQC Transcript-associated Reads.

Sample Intragenic Rate

Éxonic Rate

Íntronic Rate

Intergenic Rate

Sample_IC01 0.639 0.347 0.292 0.361

Intragenic Rate: Refere-se à fração do read que mapeia dentro dos genes

(dentro de intrões ou éxons).

Éxonic Rate: É a fração do mapeamento dentro éxons.

Íntronic Rate: É a fração do mapeamento dentro íntrons.

Intergenic Rate: É a fração de mapeamento genômico no espaço entre os

genes.

Seus gráficos de qualidade, são calculados entre os transcritos que foram

determinados a ter os níveis mais elevados de expressão.

É importante notar que estes valores estão restritos aos, baixo/médio/alto

1000 transcritos expressos. 5 ' e 3 ' são valores de cobertura por base média de

todos os transcritos de topo.

RNA-SeQC fornece três tipos de gráfico de qualidade, que estão descritos

abaixo:

Métricas de cobertura inferior as 1000 Transcrições Expressas

A tabela 12 mostra os valores calculado com base na média dos 1000

transcritos que foram considerados ter nível baixo de expressão. O seu gráfico

é demostrado na figura 21.

Page 95: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

73

Figura 21 - Gráfico gerado por RNA-SeQC (Cobertura baixa). Valor da média de cobertura por base

dos transcritos considerados com baixa cobertura é de 1,89.

Tabela 13 - RNA-SeQC (Cobertura baixa).

Sample_IC01

Mean Per Base Cov. 1,89 Mean CV 1,05 No. Covered 5' 362 No. Covered 3' 617

Métricas de cobertura média das 1000 Transcrições Expressas.

A tabela 13 mostra os valores calculado com base na média dos 1000

transcritos que foram considerados ter nível médio de expressão. A

representação gráfica é mostrada na figura 22.

Page 96: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

74

Figura 22 - Gráfico gerado por RNA-SeQC (Cobertura média). A média de cobertura por base é de 7,94.

Tabela 14 - RNA-SeQC (Cobertura média).

Sample_IC01

Mean Per Base Cov. 7.94 Mean CV 0.80 No. Covered 5' 683 No. Covered 3' 879

Métricas de cobertura alta das 1000 Transcrições Expressas.

A tabela 14 mostra os valores calculado com base na média dos 1000

transcritos que foram considerados ter nível alto de expressão. A figura 23

mostra o gráfico gerado com a média de cobertura considerado a ter o nível mais

alto de expressão.

Page 97: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

75

Figura 23 - Gráfico gerado por RNA-SeQC (Cobertura alta). Média de cobertura por base no valor de

228,68, dos 1000 transcritos considerados a ter alta cobertura.

Tabela 15 - RNA-SeQC (Cobertura alta).

Sample_IC01

Mean Per Base Cov. 228.68 Mean CV 0.66 No. Covered 5' 916 No. Covered 3' 942

Page 98: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

76

5.2 Quantificação Expressão Gênica

Após a cumprimento de todos os procedimentos realizados utilizando o

pipeline definido para a análise, ou seja, realizado o controle de qualidade, feito o

alinhamento dos dados, e seguindo com a montagem das transcrições é possível

chegar ao resultado final gerado por Cuffdiff.

Resultados Hipocampo e Giro Denteado

Contagem de genes para as 3 opções utilizados em Cuffdiff. Giro denteado

e hipocampo total.

Opção 1:

cuffdiff -o /home/katia/ArquivosBrainRegions/diff_out/ -b

/home/bioinfo/data/PRONEX/index.fa -p 10 -L CA1,CA2,CA3,DG -u

/home/katia/ArquivosBrainRegions/merged_asm/merged.gtf

A opção 1 é utilizado os parâmetros padrão de Cuffdiff, sem o acréscimo de

nenhum parâmetro adicional, seus resultados estão demostrados na tabela 15.

Tabela 16 - Opção 1 usado em Cuffdiff.

Genes diferencialmente

expressos

Isoformas expressas

diferencialmente

Splicing

Dif.Significativa 27821 19537 220

Nao houve dif. 237305 499851 358089

Opção 2:

cuffdiff -o /home/katia/ArquivosBrainRegions/diff_out2/ -b

/home/bioinfo/data/PRONEX/index.fa -p 10 -L CA1,CA2,CA3,DG -u

/home/katia/ArquivosBrainRegions/merged_asm/merged.gtf --library-

norm-method geometric

Nesta linha de comando foi utilizado a opção --library-norm-method

geometric (método de normalização da biblioteca, o tipo geometric é utilizado por

Page 99: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

77

padrão por Cuffdiff. Os resultados adquiridos com esta opção, estão demostrados

na tabela 16.

Tabela 17 - Opção 2 usado em Cuffdiff.

Genes diferencialmente

expressos

Isoformas expressas

diferencialmente

Splicing

Dif.Significativa 27015 18714 254

Nao houve dif. 238108 500675 358059

Opção 3:

cuffdiff -o /home/katia/ArquivosBrainRegions/diff_out3/ -b

/home/bioinfo/data/PRONEX/index.fa -p 10 -L CA1,CA2,CA3,DG -u

/home/katia/ArquivosBrainRegions/merged_asm/merged.gtf --library-

norm-method geometric --library-type fr-firststrand --dispersion-

method blind

Acrescentado a opção --library-type fr-firststrand (sentido da fita) e --

dispersion-method blind (método de dispersão, o tipo blind considera todas as

amostras como repetições de uma única condição global). A tabela 17 contém os

resultados obtidos com a opção 3.

Tabela 18 - Opção 3 usado em Cuffdiff.

Genes diferencialmente

expressos

Isoformas expressas

diferencialmente

Splicing

Dif.Significativa 5574 2819 0

Nao houve dif. 259506 516545 358308

Foi utilizado os resultados obtidos com a opção 3 para a análise, já que em

nossos dados temos uma variabilidade grande no número de fragmentos, esta

opção foi a que representou ter uma confiabilidade maior que as demais opções.

Tanto a quantidade de transcritos diferencialmente expressos, quanto a quantidade

de isoformas diferencialmente expressas foram reduzidas significantemente, o que

torna a taxa de descoberta de falsos positivos, possivelmente menor.

Page 100: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

78

Utilizando os mesmos parâmetros da opção 3, com os arquivos trimados,

obtivemos o seguinte resultado mostrado na tabela 18:

Tabela 19 - Opção 3 usado em Cuffdiff, com arquivos que foram trimados.

Genes diferencialmente

expressos

Isoformas expressas

diferencialmente

Splicing

Dif.Significativa 5741 2921 0

Nao houve dif. 264280 513521 360834

Volcano plot

Utiliza o teste-t que é paramétrico, e organiza os genes em dimensões de

significância biológica e estatística. O primeiro eixo (horizontal) é o fold change

entre os grupos em escala logarítmica, assim genes regulados positiva ou

negativamente parecem simétricos. O segundo eixo (vertical) representa o p-

valor para um teste-t em uma escala logarítmica negativa, assim quanto menor

o p-valor, mais alto no gráfico ele irá aparecer. Este gráfico é usado para

identificar mudanças em grandes conjuntos de dados, já que organiza genes ao

longo das dimensões de importância biológica e estatística (LI, 2012).

As figuras 24, 25 e 26 representam o resultado do gráfico vulcão contendo

os transcritos diferencialmente expressos (em azul) da análise comparativa entre

a região de giro denteado contra as regiões do hipocampo CA1, CA2 e CA3. No

eixo y é traçado o logaritmo negativo de p_valor (base 10), gerando resultados

que tem p_valor baixo altamente significativo e que aparecem no topo do gráfico

(em azul). O eixo x é o log2 fold change entre as duas condições analisadas e é

usado para que as alterações em ambas as direções (para cima ou para baixo)

apareçam equidistantes do centro. Desta forma são traçados os pontos em duas

regiões de interesse. Os pontos que são encontrados mais ao topo, quer do lado

esquerdo ou direito, representam os valores que exibem grandes mudanças em

log2 fold change, bem como os transcritos com alta significância estatística, são

verificados ao topo do gráfico.

Page 101: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

79

Figura 24 - Volcano plot CA1 x DG

Figura 25 - Volcano plot CA2 x DG

Figura 26 - Volcano plot CA3 x DG

Page 102: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

80

PCA

Principal component analysis ou análise de componentes principais é um

algoritmo matemático que permite reduzir a dimensionalidade dos dados, mantendo

a maior parte da variação no conjunto de dados. As amostras podem então ser

representados graficamente, tornando possível avaliar visualmente semelhanças e

diferenças entre amostras e determinar se as amostras podem ser agrupadas. O

objetivo do uso do PCA é explorar conjuntos de dados de alta dimensão (RINGNÉR,

2008).

Através do gráfico de PCA (figura 27) observa-se claramente a formação

de quatro grupos distintos entre as amostras. Também é possível verificar que

os grupos CA2 e CA3 são os mais semelhantes, isso pode ser devido a sua

proximidade histológica e portanto ter havido uma contaminação devido a

dificuldade de separação na microdissecção.

Page 103: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

81

Figura 27 - PCA por amostra, referente a análise do tecido normal do hipocampo e giro denteado.

A figura 28 mostra o gráfico de PCA com as amostras agrupadas,

demonstrando o mesmo comportamento verificado no gráfico por amostras.

Page 104: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

82

Figura 28 - PCA agrupado, referente a análise do tecido normal do hipocampo e giro denteado.

Page 105: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

83

Dendrograma

Representa as relações de similaridade entre os grupos. O gráfico permite

determinar o número correto de grupos que se formaram entre as amostras.

Os resultados indicaram (figura 29) a formação de 4 grupos, que estão

separados pela região do giro denteado, que apareceu mais distante das demais

regiões. As regiões CA2 e CA3 se mostraram mais similares, conforme foi mostrado

no gráfico de PCA.

Tanto o dendrograma quanto o gráfico de PCA mostram a proximidade entre

os grupos CA2 e CA3 (figura 30).

Figura 29 - Dendrograma por amostra referente a análise do tecido normal do hipocampo e giro denteado.

Percebe-se a formação de 4 grupos distintos.

Page 106: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

84

Figura 30- Dendrograma agrupado referente a análise do tecido normal do hipocampo e giro denteado.

Page 107: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

85

Resultados Modelo Pilocarpina

A tabela 19 contém todos os resultados com valores significativos para

expressão diferencial do experimento pilocarpina. Transcritos representados com “-

“ são aqueles que não contém anotação.

Tabela 20 - Tabela de saída do pipeline utilizando Cuffdiff no modelo pilocarpina.

Transcrito status Controle Pilo log2FC p_value q_value Significant

Sv2b OK 1,29 7,33 2,51 5,00E-005 0,0381 Yes

ENSRNOG00000030548 OK 26,12 11,29 -1,21 5,00E-005 0,0381 Yes

- OK 11,15 3,34 -1,74 5,00E-005 0,0381 Yes

ENSRNOG00000032825 OK 0,00 33,95 inf 5,00E-005 0,0381 Yes

- OK 1,69 0,00 -inf 5,00E-005 0,0381 Yes

Amz1 OK 4,23 13,70 1,70 5,00E-005 0,0381 Yes

- OK 2,21 0,00 -inf 5,00E-005 0,0381 Yes

- OK 0,00 3,36 inf 5,00E-005 0,0381 Yes

Rpl9 OK 669,42 329,74 -1,02 5,00E-005 0,0381 Yes

Camk4 OK 5,94 11,29 0,93 5,00E-005 0,0381 Yes

Gypc OK 2,00 5,21 1,38 5,00E-005 0,0381 Yes

Cartpt OK 19,62 7,85 -1,32 5,00E-005 0,0381 Yes

RT1-M6-1,RT1-M6-2 OK 5,55 0,76 -2,86 5,00E-005 0,0381 Yes

Nnat OK 27,49 56,04 1,03 5,00E-005 0,0381 Yes

Neurod6 OK 0,30 4,43 3,89 5,00E-005 0,0381 Yes

- OK 9,90 19,01 0,94 5,00E-005 0,0381 Yes

Itga7 OK 8,23 2,08 -1,99 5,00E-005 0,0381 Yes

- OK 0,00 4,16 inf 5,00E-005 0,0381 Yes

- OK 1,39 0,45 -1,62 5,00E-005 0,0381 Yes

Por meio dos parâmetros utilizados nos passos anteriores, foram

encontrados 19 transcritos que foram considerados significativamente expressos.

Cuffdiff estima esta significância, se o valor de p é < 0.05. Destes, 7 que estão

listados na tabela com “-“, podem ser novos transcritos, já que não tem identificação,

porém devem ser investigados para confirmação.

Campos da tabela com os genes diferencialmente expressos:

Transcrito: O nome do Transcrito;

Status: Ok – Teste bem sucedido;

Controle/Pilo: Valores FPKM para o gene, dentro desta amostra;

Log2FC: Valor da mudança na base 2 (Pilo/Controle);

P_value: O valor de p não corrigido;

Page 108: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

86

Q_value: O valor de p corrigido em FDR;

Significant: Se valor de p é menor do que 0.05.

Volcano Plot

O primeiro eixo (horizontal) é o fold change entre os grupos em escala

logarítmica. O segundo eixo (vertical) representa o p-valor para um teste-t em uma

escala logarítmica negativa assim, quanto menor o p-valor, mais alto no gráfico ele

irá aparecer.

A figura 31 representa o resultado obtido no modelo pilocarpina. É possível

verificar que existem 2 isoformas para os transcritos Nnat e Rpl9, sendo que em

uma destas isoformas o valor é zero (0) em Nnat, em ambas as amostras Controle

e Pilo, já Rpl9 possui uma outra isoforma expressa nas duas amostras, mas sem

diferença significativa, tendo o p_valor muito próximo de 1, o que faz com que

apareça dois transcritos Nnat e Rpl9 no Volcano Plot na região que representa os

valores não significativos.

Page 109: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

87

Figura 31 - Volcano Plot contendo os genes diferencialmente expressos no modelo pilocarpina (Pontos em

azul no topo).

5.3 Resultados Splicing Alternativo Resultados Hipocampo e Giro Denteado

Tendo definido a opção 3 como a mais adequada a essa análise, não foram

encontrados resultados de splicing alternativo com Cuffdiff. Portanto foi feita a opção

em utiliza a ferramenta MISO para a análise de splicing alternativo. Este algoritmo

foi desenvolvido para quantificar o nível de transcritos provenientes de splicing

alternativo obtido em dados de RNA-Seq, e destina-se a estimar o percentual de

inclusão para todos os eventos de splicing documentados em uma amostra. Com

isso serão mostrados apenas os dados obtidos com a análise de MISO.

Page 110: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

88

Com o software MISO, foi descoberto 6 transcritos em comum nas regiões

do hipocampo (CA1, CA2 e CA3), que tem alta expressão em giro denteado,

levando em consideração que foi feito um filtro no valor de Bayes Factor de >10.

Diagrama de Venn

Mostra todas as correlações entre os conjuntos de dados. A figura 32 mostra

o número de genes em comum que foram encontrados na análise do giro denteado

em comparação com as regiões do hipocampo (CA1, CA2 e CA3). Ao centro do

diagrama temos a quantidade de transcritos em comum que neste experimento

foram encontrados 6. Em cada círculo em separado estão a quantidade de

transcritos únicos para aquela região. A região CA1 possui 4 transcritos. Sete

transcritos foram encontrados na região CA2 e está região possui 1 transcrito em

comum com a região CA3. Na região CA3 existe 4 transcritos. Abaixo do gráfico, é

fornecida a informação do tamanho de cada lista, cada caixa que representa uma

determinada região possui a mesma cor da circunferência do gráfico de Venn.

Page 111: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

89

Figura 32 - Gráfico de Venn com os transcritos encontrados por MISO. Interseção demostra transcritos em

comum.

Os seis transcritos encontrados em comum são: Arpp21, Gria1, Gria2,

Nrxn1, Dclk1 e Rtn1.

O total de transcritos encontrados estão descritos na tabela 20.

Tabela 21 - Total de transcritos encontrados com MISO.

CA1 CA2 CA3

Arpp21 Arpp21 Arpp21 Gria1 Gria1 Gria1 Slc4a4 Nptn Nptn Gria2 Gria2 Gria2 Nrxn1 Nrxn1 Nrxn1 Dclk1 Dclk1 Dclk1 Ankib1 Pfn2 Hsd11b1 Nrxn3 LOC10091204 Ppp3r1 Rtn1 Rtn1 Rtn1 Arhgef17 LOC257642 Rtn3 Hnrnpk AABR06010086.2 Cxcl12 Snca Trio

Page 112: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

90

Resultados Modelo Pilocarpina

Cuffdiff também realiza teste de splicing diferencial, somente transcritos

primários a partir do qual duas ou mais isoformas são emendados estão listados

neste arquivo (tabela 21). Na comparação entre animais tratados com pilocarpina e

animais controle foram encontrados 22 transcritos.

Tabela 22 - Listagem de Splicing obtidos por Cuffdiff no modelo pilocarpina.

Transcritos Controle Pilo status p_value q_value significant

Sh2b3 IC PILO OK 5,00E-005 0,012415 yes

Lrch4 IC PILO OK 5,00E-005 0,012415 yes

Fam120a IC PILO OK 5,00E-005 0,012415 yes

Fam53c IC PILO OK 0,0002 0,0451455 yes

Zfp1 IC PILO OK 5,00E-005 0,012415 yes

Mon1b,Syce1l IC PILO OK 5,00E-005 0,012415 yes

Sufu IC PILO OK 5,00E-005 0,012415 yes

Nhlrc2 IC PILO OK 5,00E-005 0,012415 yes

Phtf2 IC PILO OK 5,00E-005 0,012415 yes

Clasrp IC PILO OK 5,00E-005 0,012415 yes

Ltbp4 IC PILO OK 5,00E-005 0,012415 yes

Mum1 IC PILO OK 5,00E-005 0,012415 yes

Rspo2 IC PILO OK 5,00E-005 0,012415 yes

Nfrkb IC PILO OK 5,00E-005 0,012415 yes

Xrn1 IC PILO OK 5,00E-005 0,012415 yes

Safb2 IC PILO OK 5,00E-005 0,012415 yes

Armc9 IC PILO OK 5,00E-005 0,012415 yes

Slitrk2 IC PILO OK 0,00015 0,0354714 yes

Mgea5 IC PILO OK 5,00E-005 0,012415 yes

Rhbdf1 IC PILO OK 5,00E-005 0,012415 yes

Zfp18 IC PILO OK 5,00E-005 0,012415 yes

Mis12 IC PILO OK 5,00E-005 0,012415 yes

Page 113: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

91

6 Discussão

Ferramentas de bioinformática surgem a cada dia, com isso um aumento em

novos métodos mais eficientes. O pipeline proposto foi utilizado em análises de dois

experimentos diferentes. Um experimento onde a análise comparativa foi feita da

região do hipocampo e giro denteado, utilizando animais normais, o outro

experimento foi utilizado animais controle e animais que foram tratados com

pilocarpina.

Verificar a qualidade dos dados que serão analisados, é um passo muito

importante antes de seguir com a análise posterior. Este passo pode revelar

informações valiosas dos dados que estão sendo utilizados, cada ferramenta tem

uma característica, e ambas podem fornecer dados complementares as outras.

Apesar das ferramentas de alinhamentos atualmente já efetuarem este tipo de

controle de qualidade.

A etapa de trimagem, hoje gera opiniões diferenciadas quanto a sua

necessidade. Por meio deste trabalho, foram analisados os dados brutos e também

trimados, para comparar os resultados gerados. Percebeu-se que a etapa de

trimagem é um passo muito importante quando se tem dados com baixa qualidade,

já que com a remoção das qualidades ruins, os reads tendem a se alinhar mais. Em

contra partida, quando trabalhamos com dados que já tem uma qualidade boa, por

exemplo, acima de 30 (escala phred), a trimagem pode ser um passo

desnecessário, se levarmos em consideração o tempo que seria gasto com esse

passo. A pesar disso, percebeu-se que a quantidade de reads alinhados foi maior.

A análise de expressão genica utilizando o pipeline proposto, demonstrou

que a combinação de parâmetros podem gerar em aumento ou diminuição dos

resultados significativos, inclusive na detecção de transcritos com funções

desconhecidas.

Page 114: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

92

Na análise dos dois experimentos, foram encontrados três genes em comum

que tem diferença na expressão. No experimento de pilocarpina os genes Nnat,

Sv2b e Neurod6 tem alta expressão nos animais que foram tratados com

pilocarpina, ambos genes tem envolvimento no sistema nervoso central.

Controle vs Pilo

A tabela 22 mostra a alta expressão dos genes Nnat, Sv2b e Neurod6 nos

animais que foram tratados com pilocarpina, quando comparado com os animais

controle.

Tabela 23 - Controle vs Pilo

Transcrito Controle Pilo logFC

Nnat 27,487 56,0432 1,02779

Sv2b 1,29046 7,33418 2,50675

Neurod6 0,298818 4,42508 3,88837

Por meio do gráfico Volcano (figura 33) é possível visualizar todos os

transcritos considerados significativos no experimento pilocarpina, inclusive os três

transcritos descritos na tabela 22 que tem aumento de expressão no grupo que foi

tratado com pilocarpina.

Page 115: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

93

Figura 33 - Volcano plot: Controle X Pilocarpina. Transcritos significativos em azul ao topo.

Análise comparativa das regiões do hipocampo CA1, CA2 e CA3 com o giro

denteado.

No experimento das regiões do hipocampo e giro denteado, os mesmos três

transcritos que aparecem no experimento pilocarpina, têm baixa expressão em giro

denteado (tabelas 23, 24 e 25).

Page 116: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

94

CA1 vs DG

A tabela 23 mostra a baixa expressão dos genes Nnat, Sv2b e Neurod6 no

giro denteado, quando comparado a região do hipocampo CA1.

Tabela 24 - CA1 vs DG

Transcrito DG CA1 logFC

Nnat 32,9963 151,755 -2,20137

Sv2b 5,48933 401,226 -6,19164

Neurod6 1,64038 164,205 -6,64533

As isoformas dos transcritos Nnat e Rpl9, também podem ser vistas no

Volcano plot deste experimento, porém apenas uma isoforma do transcrito Nnat,

está com valor significativo (figuras 34, 35 e 36).

Na figura 34 é mostrado os transcritos Nnat, Sv2b e Neurod6 que possuem

maior expressão na região do hipocampo CA1 quando comparado ao giro denteado.

O transcrito Nnat tem duas isoformas, uma que tem diferença significativa na

expressão, e outra isoforma sem diferença significativa. Já o transcrito Rpl9 também

possui 2 isoformas, porém ambas sem valores significativos em sua expressão.

Page 117: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

95

Figura 34 - Volcano plot: Região CA1 X DG. Transcritos grifados aparecem em comum nas demais regiões.

CA2 vs DG

A tabela 24 mostra os valores dos transcritos Nnat, Sv2b e Neurod6. Os três

transcritos possuem alta expressão na região do hipocampo CA2 quando

comparado ao giro denteado. No volcano plot (figura 35), visualizamos estes

transcritos no topo do gráfico ao lado esquerdo. A mesma situação vista na figura

34 com os transcritos Nnat e Rpl9, são visualizadas nesta comparação.

Page 118: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

96

Tabela 25 - CA2 vs DG

Transcrito DG CA2 logFC

Nnat 32,9963 444,985 -3,75338

Sv2b 5,48933 524,856 -6,57915

Neurod6 1,64038 148,186 -6,49724

Figura 35 - Volcano plot: Região CA2 X DG.

Page 119: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

97

CA3 vs DG

Na tabela 25 contém os valores dos transcritos Nnat, Sv2b e Neurod6 da

análise comparativa da região do hipocampo CA3 contra o giro denteado. Percebe-

se que os três transcritos têm alta expressão na região CA3. A figura 36 representa

graficamente os resultados da tabela, e podemos visualizar os transcritos na área

azul no topo do gráfico. Nesta comparação também é possível visualizar que o

transcrito Nnat tem duas isoformas, uma com diferença significativa na expressão,

e outra isoforma sem diferença significativa. O transcrito Rpl9 possui 2 isoformas,

sem valores significativos em sua expressão.

Tabela 26 - CA3 vs DG

Transcrito DG CA3 logFC

Nnat 32,9963 850,462 -4,68787

Sv2b 5,48933 542,429 -6,62666

Neurod6 1,64038 191,819 -6,86958

Page 120: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

98

Figura 36 - Volcano plot: Região CA3 X DG.

Quanto a análise de splicing alternativo, percebemos que a ferramenta MISO

comparado ao pipeline utilizado em Cuffdiff, gera resultados mais detalhados, pois

também realiza a quantificação dos transcritos.

Page 121: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

99

7 Conclusões

A quantidade de transcritos diferencialmente expressos foi reduzida

significantemente, quando comparamos diferentes métodos na quantificação

de expressão gênica, sugerindo que a taxa de falsos positivos seja

provavelmente menor.

Quando comparamos arquivos trimados e não trimados, percebemos

que dados trimados tiveram mais reads alinhados que os dados que não

foram trimados, sugerindo que a trimagem evita que as bases com leituras

errôneas prejudiquem o alinhamento.

Utilizando o parâmetro escolhido para a análise do experimento das

regiões, os dados analisados sem o passo da trimagem foram encontrados

5574 transcritos diferencialmente expressos, já com a trimagem o número

aumentou para 5741 transcritos. No modelo pilocarpina, foram encontrados

19 transcritos considerados significativamente expressos.

Na análise de splicing alternativo, a ferramenta MISO comparado ao

pipeline utilizado em Cuffdiff, gerou resultado melhor e mais detalhado, já que

a ferramenta também realiza a quantificação dos transcritos. Com o software

MISO, foram descobertos 6 transcritos em comum nas regiões do

hipocampo, que tem alta expressão em giro denteado. Os transcritos

encontrados em comum foram: Arpp21, Gria1, Gria2, Nrxn1, Dclk1 e Rtn1.

Quando feita a análise com Cuffdiff utilizando o parâmetro escolhido, não

foram encontrados resultados de splicing alternativo. Nos resultados do

modelo pilocarpina, a análise realizada com Cuffdiff encontrou 22 transcritos.

O crescente volume de dados e processos em bioinformática abre

portas para descoberta de novas informações biológicas. As ferramentas de

Page 122: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

100

bioinformática são de grande utilidade para a análise de expressão

diferencial e detecção de splicing alternativo. Neste sentido, o aprimoramento

dos métodos de bioinformática podem auxiliar na eficácia e agilidade das

inúmeras análises que podem ser feitas.

Page 123: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

101

8 Referências

AE GUTTMACHER AND FS COLLINS. Genomic Medicine — A Primer. The New England Journal of Medicine, v. 347, n. 19, 2002.

ANDREWS, S. FastQC A Quality Control tool for High Throughput Sequence Data. ,2010. Disponível em: <http://www.bioinformatics.babraham.ac.uk/projects/fastqc/>

BAINS, W. Company strategies for using bioinformatics. Trends in Biotechnology, v. 14, n. 8, p. 312–317, 1996.

BENJAMINI, Y.; HOCHBERG, Y. Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the Royal Statisitical Society, Series B, v. 57, p. 289–300, 1995.

BLÜMCKE, I.; THOM, M.; ARONICA, E.; et al. International consensus classification of hippocampal sclerosis in temporal lobe epilepsy: a Task Force report from the ILAE Commission on Diagnostic Methods. Epilepsia, v. 54, n. 7, p. 1315–29, 2013.

BOLGER, A. M.; LOHSE, M.; USADEL, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics (Oxford, England), p. 1–7, 2014.

BRAY, A.; JOHNSON, H.; RAFF, L.; WALTER, R. Essential cell biology. 3rd ed. 2009.

BROWN, D. D. Gene Expression in Eukaryotes. , v. 211, n. 8, 1981.

COLE TRAPNELL AND STEVEN L SALZBERG. How to map billions of short reads onto genomes. , v. 27, n. 5, p. 455–457, 2010.

DAI, M.; THOMPSON, R. C.; MAHER, C.; et al. NGSQC: cross-platform quality analysis pipeline for deep sequencing data. BMC genomics, v. 11 Suppl 4, n. Suppl 4, p. S7, 2010.

DAVID, W. Bioinformatics: sequence and genome analysis. ,2001.

DELUCA, D. S.; LEVIN, J. Z.; SIVACHENKO, A.; et al. RNA-SeQC: RNA-seq metrics for quality control and process optimization. Bioinformatics (Oxford, England), v. 28, n. 11, p. 1530–2, 2012.

DEMBOWSKI, J. A; AN, P.; SCOULOS-HANSON, M.; et al. Alternative Splicing of a Novel Inducible Exon Diversifies the CASK Guanylate Kinase Domain. Journal of nucleic acids, v. 2012, p. 816237, 2012.

DIJK, E. L. VAN; AUGER, H.; JASZCZYSZYN, Y.; THERMES, C. Ten years of next-generation sequencing technology. Trends in Genetics, p. 1–9, 2014.

Page 124: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

102

ENGEL, J. Mesial Temporal Lobe Epilepsy: What Have We Learned? The Neuroscientist, v. 7, n. 4, p. 340–352, 2001.

FISHER, R. S.; BOAS, W. V. E.; BLUME, W.; et al. Epileptic Seizures and Epilepsy : Definitions Proposed by the International League Against Epilepsy ( ILAE ) and the International Bureau for Epilepsy ( IBE ). , v. 46, n. 4, p. 470–472, 2005.

FLOREA, L. Bioinformatics of alternative splicing and its regulation. Briefings in Bioinformatics, v. 7, n. 1, p. 55–69, 2006.

GARBER, M.; GRABHERR, M. G.; GUTTMAN, M.; TRAPNELL, C. Computational methods for transcriptome annotation and quantification using RNA-seq. Nature methods, v. 8, n. 6, p. 469–77, 2011. Nature Publishing Group.

GRABOWSKI, P. J.; BLACK, D. L. Alternative RNA splicing in the nervous system. Progress in neurobiology, v. 65, n. 3, p. 289–308, 2001.

GRADA, A.; WEINBRECHT, K. Next-generation sequencing: methodology and application. The Journal of investigative dermatology, v. 133, n. 8, p. e11, 2013. Nature Publishing Group.

GUO, Y.; YE, F.; SHENG, Q.; CLARK, T.; SAMUELS, D. C. Three-stage quality control strategies for DNA re-sequencing data. Briefings in bioinformatics, 2013.

HAGEN, J. B. The origins of bioinformatics. Nature reviews. Genetics, v. 1, n. 3, p. 231–6, 2000.

KASABOV, N. Global, local and personalised modeling and pattern discovery in bioinformatics: An integrated approach. Pattern Recognition Letters, v. 28, n. 6, p. 673–685, 2007.

KATZ, Y.; WANG, E. T.; AIROLDI, E. M.; BURGE, C. B. Analysis and design of RNA sequencing experiments for identifying isoform regulation. Nature methods, v. 7, n. 12, p. 1009–15, 2010.

KATZ, Y.; WANG, E. T.; SILTERRA, J.; et al. Sashimi plots : Quantitative visualization of alternative isoform expression from RNA-seq data. , , n. 1, 2013.

KIM, D.; PERTEA, G.; TRAPNELL, C.; et al. TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. Genome biology, v. 14, n. 4, p. R36, 2013. BioMed Central Ltd.

KORF, I.; YANDELL, M.; BEDELL, J. An Essential Guide to the Basic Local Alignment Search Tool. 1a ed. 2003.

Page 125: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

103

LANGMEAD, B.; TRAPNELL, C.; POP, M.; SALZBERG, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome biology, v. 10, n. 3, p. R25, 2009.

LEE, C.; WANG, Q. Bioinformatics analysis of alternative splicing. , v. 6, n. 1, p. 23–33, 2005.

LEVIN, B. Genes VIII. 2004.

LI, H.; HANDSAKER, B.; WYSOKER, A.; et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics (Oxford, England), v. 25, n. 16, p. 2078–9, 2009.

LI, W. Volcano plots in analyzing differential expressions with mRNA microarrays. Journal of bioinformatics and computational biology, v. 10, n. 6, p. 1231003, 2012.

MARDIS, E. R. The impact of next-generation sequencing technology on genetics. Trends in genetics : TIG, v. 24, n. 3, p. 133–41, 2008.

MARGUERAT, S.; BÄHLER, J. RNA-seq: from technology to biology. Cellular and molecular life sciences : CMLS, v. 67, n. 4, p. 569–79, 2010.

MCKENNA, A.; HANNA, M.; BANKS, E.; et al. The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data. Genome research, v. 20, n. 9, p. 1297–303, 2010.

O’CONNOR, C. M. & ADAMS, J. U. Essentials of Cell Biology. 2010.

OOI, L.; WOOD, I. C. Regulation of gene expression in the nervous system. The Biochemical journal, v. 414, n. 3, p. 327–41, 2008.

OUZOUNIS, C. A. Rise and demise of bioinformatics? Promise and progress. PLoS computational biology, v. 8, n. 4, p. e1002487, 2012.

PABINGER, S.; DANDER, A.; FISCHER, M.; et al. A survey of tools for variant analysis of next-generation genome sequencing data. Briefings in bioinformatics, v. 15, n. 2, p. 256–78, 2014.

PAVLOPOULOS, G. A; OULAS, A.; IACUCCI, E.; et al. Unraveling genomic variation from next generation sequencing data. BioData mining, v. 6, n. 1, p. 13, 2013. BioData Mining.

RAOL, Y. H.; BROOKS-KAYAL, A. R. Experimental models of seizures and epilepsies. 1st ed. Elsevier Inc., 2012.

RINGNÉR, M. What is principal component analysis? Nature biotechnology, v. 26, n. 3, p. 303–4, 2008.

Page 126: ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE …repositorio.unicamp.br/bitstream/REPOSIP/312727/1/BrumattiGoncalves... · iii universidade estadual de campinas faculdade de ciência

104

ROMCY-PEREIRA, R. N.; GITAÍ, D. L. G.; GITAÍ, L. L. G.; et al. Genes e epilepsia II: expressão gênica diferencial. Revista da Associação Médica Brasileira, v. 54, n. 5, p. 461–466, 2008.

RONAGHI, M. DNA SEQUENCING:A Sequencing Method Based on Real-Time Pyrophosphate. Science, v. 281, n. 5375, p. 363–365, 1998.

ROY, N. C.; ALTERMANN, E.; PARK, Z. A; MCNABB, W. C. A comparison of analog and Next-Generation transcriptomic tools for mammalian studies. Briefings in functional genomics, v. 10, n. 3, p. 135–50, 2011.

TAZI, J.; BAKKOUR, N.; STAMM, S. Alternative splicing and disease. Biochimica et Biophysica Acta - Molecular Basis of Disease, 2009.

THAMPI, S. M. Introduction to Bioinformatics. arXiv preprint arXiv, 2009. Computational Engineering, Finance, and Science, .

TOMKINSON, A. E.; VIJAYAKUMAR, S.; PASCAL, J. M.; ELLENBERGER, T. DNA ligases: structure, reaction mechanism, and function. Chemical reviews, v. 106, n. 2, p. 687–99, 2006.

TRAPNELL, C.; PACHTER, L.; SALZBERG, S. L. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics (Oxford, England), v. 25, n. 9, p. 1105–11, 2009.

TRAPNELL, C.; ROBERTS, A.; GOFF, L.; et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nature protocols, v. 7, n. 3, p. 562–78, 2012a. Nature Publishing Group.

TRAPNELL, C.; ROBERTS, A.; GOFF, L.; et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nature protocols, v. 7, n. 3, p. 562–78, 2012b. Nature Publishing Group.

WANG, Z.; GERSTEIN, M.; SNYDER, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics, v. 10, n. 1, p. 57–63, 2009.