63
UNIVERSIDADE TECN ´ OLOGICA FEDERAL DO PARAN ´ A DACOM - DEPARTAMENTO ACAD ˆ EMICO DE COMPUTA¸ C ˜ AO P ´ OS GRADUA¸ C ˜ AO EM BIOINFORM ´ ATICA JULIANA COSTA SILVA AN ´ ALISE DE EXPRESS ˜ AO DIFERENCIAL PARA DADOS DE RNA-SEQ: UMA REVIS ˜ AO ESTENDIDA DISSERTA¸ C ˜ AO CORN ´ ELIO PROC ´ OPIO 2017

ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

  • Upload
    ngotu

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

UNIVERSIDADE TECNOLOGICA FEDERAL DO PARANADACOM - DEPARTAMENTO ACADEMICO DE COMPUTACAO

POS GRADUACAO EM BIOINFORMATICA

JULIANA COSTA SILVA

ANALISE DE EXPRESSAO DIFERENCIAL PARA DADOS DE

RNA-SEQ: UMA REVISAO ESTENDIDA

DISSERTACAO

CORNELIO PROCOPIO2017

Page 2: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

JULIANA COSTA SILVA

ANALISE DE EXPRESSAO DIFERENCIAL PARA DADOS DE

RNA-SEQ: UMA REVISAO ESTENDIDA

Dissertacao apresentada ao Programa dePos-graduacao em Bioinformatica da UniversidadeTecnologica Federal do Parana , para obtencao dotıtulo de Mestre.

Area de concentracao: Ciencias Biologicas I

Linha de pesquisa: Biologia Computacional e Sistemica

Orientador: Fabrıcio Martins LopesUniversidade Tecnologica Federal do Parana

Coorientador: Douglas Silva DominguesUniversidade Estadual de Sao Paulo

CORNELIO PROCOPIO2017

Page 3: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Dedico este trabalho a Deus. Aos meus fami-

liares e amigos, pelo apoio neste perıodo de

ausencias. E a todos que participaram, direta e

indiretamente, desta empreitada.

Page 4: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

AGRADECIMENTOS

Agradeco a agencia de fomento CAPES, pelo auxılio financeiro a este trabalho. Aos

orientadores que me acompanharam com atencao e disponibilidade durante este perıodo.

Agradeco tambem aos companheiros de turma e, laboratorio.

Page 5: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

RESUMO

COSTA-SILVA, Juliana. Analise de expressao diferencial para dados de RNA-Seq: uma revisaoestendida. 2017. 50 f. Dissertacao aAS Pos Graduacao em Bioinformatica, Universidade Tecno-logica Federal do Parana . Cornelio Procopio, 2017.

A identificacao de genes diferencialmente expressos entre condicoes especıficas e uma partefundamental no entendimento da variacao fenotıpica. O sequenciamento de alto rendimentoRNA-Seq, vem se tornando a principal opcao para este tipo de estudo. O numero de softwarespara a analise de expressao diferencial em dados de RNA-Seq tambem aumentou rapidamente.Entretanto nao existe um consenso sobre qual seria o pipeline ou protocolo mais apropriadopara identificacao de genes diferencialmente expressos em dados de RNA-Seq.Nos conduzimos uma comparacao de tres metodos de mapeamento de reads (BWA (LI;DURBIN, 2009), Bowtie (LANGMEAD et al., 2009; LANGMEAD; SALZBERG, 2012) eTopHat (TRAPNELL; PACHTER; SALZBERG, 2009)), tres metodologias de normalizacao e,sete softwares de analise de expressao diferencial em dados de RNA-Seq. Todos os metodospossuem licenca de uso livre. Nos avaliamos os metodos baseados em dados reais de RNA-Seq, utilizando como referencia dados de qRT-PCR. Como parte dos resultados, geramosum software que executa os sete softwares de analises de expressao avaliadas nesse artigo deforma integrada e apresenta o resultado do consenso, que esta disponıvel para download em:https://github.com/costasilvati/consexpression.Foi possıvel identificar que existe um consenso entre as tres metodologias de normalizacao.A metodologia TMM apresentou melhores resultados com os mapeadores adotados nestetrabalho. A metodologia RPKM nao identificou genes diferencialmente expressos que nao fossemidentificados pelas outras metodologias. Em contrapartida a metodologia TPM associada aomapeador TopHat identificou dois genes diferencialmente expressos nao identificados pelasoutras metodologias. Foi identificado tambem que o metodo de mapeamento utilizado temimpacto mınimo sobre o resultado final das analises, em dados com genoma de referenciaanotado. Para o modelo experimental utilizado, os softwares para analise de expressao diferencialque possuem resultados mais condizentes com os do qRT-PCR sao limma+voom e NOIseq.Ainda para o modelo experimental utilizado, o consenso entre quatro metodos garante umalistagem de genes diferencialmente expressos com grande acuracia, indicando que a combinacaodos resultados de metodos e uma opcao que gera resultados mais adequados e robustos. Comisso, essa opcao esta disponıvel para uso no software disponibilizado.Palavras-chave: Expressao de genes, Bioinformatica, expressao diferencial.

Page 6: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

ABSTRACT

COSTA-SILVA, Juliana. Differential expression analysis of RNA-Seq data: an extended review.2017. 50 f. Dissertacao aAS Pos Graduacao em Bioinformatica, Universidade TecnologicaFederal do Parana . Cornelio Procopio, 2017.

Identification of differentially expressed genes between specific conditions is a key part inunderstanding phenotypic variation. High-throughput sequencing (RNA-Seq) has become themain option for this type of study. The number of software for differential expression analysisin RNA-Seq data also increased rapidly. However, there is no consensus as to what would bethe most appropriate pipeline or protocol for identifying differentially expressed genes in SeqRNA data.We conducted a comparison on three methods of read alignment and seven differential expressionanalysis software in RNA-Seq data. All methods are free use licensed. We evaluated methodsbased on wetlab RNA-Seq data, using as reference qRT-PCR data. As part of the results, wegenerated a software that runs the seven expression analysis software evaluated in this articlein an integrated way and presents consensus results, available for download at:https://github.com/costasilvati/consexpression.It was possible to identify that there is a consensus among the three normalization methodolo-gies. The TMM methodology presented better results with the mappers adopted in this work.The RPKM methodology did not identify differentially expressed genes that were not identifiedby the other methodologies. In contrast, the TPM methodology associated to the TopHatmapper identified two differentially expressed genes not identified by the other methodologies.It was also identified that the mapping method used has minimal impact on the final resultof the analyzes, in data with annotated reference genome. For the experimental model used,software for analysis of differential expression that have more consistent with those of theqRT-PCR are limma + voom and NOIseq. Also for the experimental model used, the consensusbetween four methods guarantees a list of differentially expressed genes with great accuracy,indicating that the combination of method results is an option that generates more appropriateresults, this option is available for use in the software available.

Keywords: Gene expression, Differential expression, RNA-seq.

Page 7: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

LISTA DE FIGURAS

Figura 1 – Pipeline padrao de analise de expressao diferencial para dados de RNA-Seq. 3

Figura 2 – Esquema de nıvel de limiar em uma curva de amplificacao qPCR. A linha

azul indica a curva de amplificacao da sequencia de interesse (Sample),

a linha tracejada em verde e o limiar dos ciclos da PCR (Ct), e a linha

vermelha indica o nıvel de fluorescencia do controle utilizado (No Template). 10

Figura 3 – Experimento tipico de RNA-Seq. Longos RNAs sao convertidos em frag-

mentos de cDNA. Sao adicionados adaptadores (azul) a cada fragmento de

cDNA, e sequencias curtas sao obtidas atraves do sequenciamento de cada

fragmento de cDNA utilizando tecnologias de alto rendimento. Os reads

resultantes do sequenciamento sao alinhados com o genoma de referencia

ou transcriptoma e, classificados em tres tipos: reads exonicos, reads de

juncao e, reads poli-A. Esses tres tipos de reads sao utilizados para gerar

um perfil de expressao para cada gene, como ilustrado no rodape; No ro-

dape apresentamos uma ORF (sequencia que tem potencial para gerar uma

proteına ou peptıdeo, do ingles Open Read Frame) de levedura com um

intron. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

Figura 4 – Estrategias de alinhamento com gaps para reads de RNA-Seq contra genoma.

Ilustracao de reads obtidos de uma regiao de dois exons. (a) Metodo exon-

first: mapeamento completo em regioes exonicas (sem juncoes), os reads

que nao obtiveram mapeamento sao quebrados em pequenas sequencias e

mapeados no genoma, entao estende as sequencias mapeadas permitindo

gaps para encontrar regioes candidatas a juncao. (b) Registra pequenas

sequencias (k-mers) de tamanho similar no genoma em uma estrutura de

dados muito eficiente para pesquisa, os reads sao quebrados em pequenas

sequencias, estas sao mapeados a estrutura de dados e estendidas em

grandes alinhamentos, que podem conter gaps. (c) Uma potencial limitacao

da metodologia exon-first, em casos de pseudogenes, com a associacao

de retrotransposons, reads exonicos podem mapear em um gene e um

pseudogene, e ser associado erroneamente. . . . . . . . . . . . . . . . . . 13

Page 8: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Figura 5 – Visao geral. As amostras biologicas utilizadas para gerar os dados de qRT-

PCR foram as mesmas utilizadas para gerar os dados de RNA-Seq. Os dados

de RNA-Seq foram mapeados ao genoma humano (versao hg19) pelos ma-

peadores BWA, TopHat e Bowtie. A tabela de contagem de cada mapeador

foi utilizada como entrada para as metodologias de identificacao de GDEs

(edgeR, DESeq, baySeq e NOISeq), os resultados foram comparados com os

resultados de qRTPCR, permitindo avaliar o mapeamento. As metodologias:

EBSeq, SAMSeq e limma-voom foram utilizadas para avaliacao individual

de deteccao de GDEs, utilizando somente os resultados de mapeamento do

mapeador TopHat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

Figura 6 – Comparacao entre metodologias de mapeamento. Contagem de genes com

mais de dez leituras (da biblioteca Brain) mapeadas. Cada cırculo representa

um mapeador, a quantidade de genes com mais de dez leituras mapeadas

e apresentada isoladamente (para cada mapeador) ou por mais de um

mapeador (sobreposicoes) . . . . . . . . . . . . . . . . . . . . . . . . . . 27

Figura 7 – Comparacao do numero de GDE identificados por diferentes metodolo-

gias de analise de expressao diferencial, associadas a diferentes metodos

de mapeamento em RNA-Seq, contra qRT-PCR. (A) Diagrama de venn

de comparacao dos GDE identificados pela metodologia baySeq com ma-

peadores BWA, TopHat, Bowtie e qRT-PCR. (B) Diagrama de venn de

comparacao dos GDE identificados pela metodologia edgeR com mapeadores

BWA, TopHat, Bowtie e qRT-PCR. (C) Diagrama de venn de comparacao

dos GDE identificados pela metodologia NOIseq com mapeadores BWA,

TopHat, Bowtie e qRT-PCR. (D) Diagrama de venn de comparacao dos

GDE identificados pela metodologia DESeq com mapeadores BWA, TopHat,

Bowtie e qRT-PCR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Figura 8 – Comparacao entre metodologias de identificacao de genes diferencialmente

expressos. Relacao de genes que apresentaram logFoldChabge ≥ 2.a) Resul-

tados gerados a partir das saıdas de mapeamento do mapeador Bowtie2. b)

Resultados gerados a partir das saıdas de mapeamento do mapeador TopHat. 30

Figura 9 – Histograma de identificacao de GDE, a barra vermelha indica que o transcrito

foi indicado como DE pelo qRT-PCR, a barra azul indica a quantidade de

genes identificados como diferencialmente expressos. A ausencia de barras

indica que o transcrito nao foi indicado como DE em nenhum dos casos.

Ao final de cada linha estao os valores de desempenho de cada conjunto de

identificacao, para a linha sete, nao existem valores de desempenho, visto

que nao houve identificacao. . . . . . . . . . . . . . . . . . . . . . . . . . 32

Page 9: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Figura 10 – Curva ROC de identificacao de GDE. Consenso entre metodos de identifica-

cao de GDE, cada ponto indica o desempenho do consenso na indicacao de

x metodologias, em relacao aos resultados de qRT-PCR. . . . . . . . . . . 34

Figura 11 – Projecao de valores de TVP e SPC. O eixo X apresenta o consenso entre

metodologias de deteccao de GDEs, o eixo Y apresenta a evolucao dos

valores de TVP e SPC relacionados aos resultados dos conjuntos de um a

sete metodologias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

Figura 12 – Histograma de relacao entre extensao de transcritos (vermelho) e indicacoes

de metodologias (RNA-Seq). O numero de metodologias que apontaram

os transcritos como DE foi multiplicado por 10.000, para uma melhor

visualizacao da relacao entre extensao e indicacao. O eixo x apresenta as

indicacoes do qRT-PCR para os transcritos (DE e NE), os transcritos foram

agrupados atraves dessa indicacao. As barras (em azul) indicam a quantidade

de metodologias de analise de EDG apontaram o gene como DE. . . . . . 37

Figura 13 – Histograma extensao de transcritos (verde) nao identificados por metodolo-

gias de RNA-Seq e indicados como DE por qRT-PCR. . . . . . . . . . . . 38

Figura 14 – Comparacao entre metodologias de mapeamento. Contagem de genes com

mais de dez reads mapeados, com as 7 corridas da biblioteca Brain. Cada

cırculo representa a quantidade de genes com mais de dez reads mapeados

de uma ferramenta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

Figura 15 – Comparacao entre metodologias de identificacao de genes diferencialmente

expressos. Relacao de genes que apresentaram logFoldChabge ≥ 2. Resulta-

dos gerados a partir do mapeamento da ferramenta BWA. . . . . . . . . . 48

Page 10: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

LISTA DE TABELAS

Tabela 1 – Softwares de mapeamento . . . . . . . . . . . . . . . . . . . . . . . . . . 24

Tabela 2 – Softwares para deteccao de expressao diferencial . . . . . . . . . . . . . . 25

Tabela 3 – Desempenho das metodologias, comparacao com resultados de qRT-PCR.

Valores de desempenho: Taxa de Verdadeiros Poistivos (TVP), Especificidade

(SPC), Valor Preditivo Positivo (VPP), Acuracia (AC) e F1 Score. . . . . . 32

Tabela 4 – Desempenho na indicacao de GDE de grupos de metodologias. Os grupos

nao possuem uma selecao de metodologias especıficas, apenas a ocorrencia

do numero de indicacoes foi observado. Para os grupos tambem foi verificado

o valor da Taxa de Falso Positivo (TFP). . . . . . . . . . . . . . . . . . . 33

Tabela 5 – Relacao entre TP e grupos de metodologias. Dos 413 genes identificados

como DEs pelo qRT-PCR, agrupamos por numero de metodologias que

indicaram estes genes como DE. . . . . . . . . . . . . . . . . . . . . . . 35

Tabela 6 – Numero de indicacoes de GDEs dos grupos, por metodologia. . . . . . . . 36

Tabela 7 – Mediadas de desempenho NOISeq. . . . . . . . . . . . . . . . . . . . . . 49

Tabela 8 – Mediadas de desempenho DESeq. . . . . . . . . . . . . . . . . . . . . . . 49

Tabela 9 – Medidas de desempenho baySeq. . . . . . . . . . . . . . . . . . . . . . . 49

Tabela 10 – Medidas de desempenho edgeR. . . . . . . . . . . . . . . . . . . . . . . . 50

Page 11: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

LISTA DE ABREVIATURAS E SIGLAS

cDNA Acido Desoxirribonucleico Complementar (complementary Desoxyribonucleic

Acid

Ct Limiar de ciclos (Treshold Cycle)

DNA Acido Desoxirribonucleico (Desoxyribonucleic Acid)

mRNA Acido Ribonucleico Mensageiro (Messenger Ribonucleic Acid)

ORF Quadro de leitura aberta (Open Reading Frame)

PCR Reacao em Cadeia da Polimerase (Polymerase Chain Reaction)

qRT-PCR Reacao em Cadeia da Polimerase da Transcricao Reversa em Tempo Real

(Real-Time Reverse Transcription Polymerase Chain Reaction)

RPKM Leituras por quilobase por milhoes (Reads per Kilobase per Million)

SAGE Analise Serial da Expressao Genica (Serial Analysis of Gene Expression)

SNP Polimorfismo de Nucleotıdeo Unico (Single Nucleotide Polymorphism)

TMM Media aparada de valores M (Trimmed Mean of M-values)

TPM Transcritos por milhoes (Transcript per Million)

Page 12: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

SUMARIO

1 – Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2 Contribuicoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3 Organizacao do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 – Conceitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1 Expressao genica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1.1 Dados de expressao genica . . . . . . . . . . . . . . . . . . . . . . . 9

2.1.2 Reacao em cadeia da polimerase da transcricao reversa (quantitativa)

qRT-PCR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.1.3 RNA-Seq . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2 Mapeamento em dados de RNA-Seq . . . . . . . . . . . . . . . . . . . . . 12

2.3 Metodologias para analises de expressao genica . . . . . . . . . . . . . . . . 14

2.3.1 RPKM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.3.2 FPKM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.3.3 TPM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.3.4 TMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.3.5 Distribuicao de Poisson . . . . . . . . . . . . . . . . . . . . . . . . 17

2.3.6 Distribuicao Binomial Negativa . . . . . . . . . . . . . . . . . . . . 18

2.3.7 Metodo Bayesiano empırico . . . . . . . . . . . . . . . . . . . . . . 18

2.3.8 Regressao Local . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3 – Materiais e Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.1 Conjunto de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.2 Mapeamento e contagem . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.3 Quantificacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.4 Expressao diferencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4 – Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.1 Analise de Mapeamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.1.1 Avaliacao inicial de mapeadores . . . . . . . . . . . . . . . . . . . . 27

4.1.2 Avaliacao de mapeadores com dados validados . . . . . . . . . . . . 28

4.2 Analise de expressao genica . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.2.1 Avaliacao de normalizacoes . . . . . . . . . . . . . . . . . . . . . . 29

4.2.2 Avaliacao individual de metodos para deteccao de GDEs . . . . . . . 31

4.2.3 Juncao de metodos para deteccao de GDE . . . . . . . . . . . . . . 32

Page 13: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

5 – Conclusoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

6 – Resultados suplementares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

6.1 Resultados suplementares de mapeamento . . . . . . . . . . . . . . . . . . 47

6.2 Resultados suplementares de expressao diferencial . . . . . . . . . . . . . . 47

7 – Resultados suplementares mapeadores . . . . . . . . . . . . . . . . . . . . 49

Page 14: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

1

1 Introducao

Para compreender biologicamente um organismo vivo e necessario entender uma

complexa rede de reacoes bioquımicas e, os mecanismos que a regulam. Um dos principais

mecanismos de regulacao fisiologica dos seres vivos e mediado pelos RNAs, que sao utilizados

na transmissao e recepcao de sinais. Devido a sua participacao-chave em diversos processos

biologicos, estudos acerca dos nıveis de transcricao de RNAs e sua dinamica em series temporais

sao de especial interesse.

Um exemplo de indagacao seria: duas plantas infectadas por um mesmo patogeno,

podem ter repostas diferentes a infeccao? Sabe-se que, as adaptacoes que um organismo a

agentes ambientais sao reguladas atraves dos nıveis transicionais de muitos genes (SEKI et al.,

2002). E ao receber estımulos externos, ou internos, um organismo tende a alterar a producao

de certos compostos, para se defender ou adaptar a determinadas situacoes (ALBERTS et

al., 2009). A producao de RNAs (transcricao de um gene), com o objetivo de produzir uma

proteına em um organismo, e chamada de expressao do gene. Genes que possuem um nıvel

de transcricao muito alto, ou baixo em resposta a determinadas situacoes sao considerados

diferencialmente expressos.

Muitas tecnicas para analisar a expressao diferencial de genes foram desenvolvidas,

inicialmente foram criadas tecnicas que permitiam trabalhar com um numero pequeno de genes,

como: Northern Blot (KEVIL et al., 1997), Fluorescent in situ hybridization (FISH) (BAYANI;

SQUIRE, 2004) e Reverse transcription polymerase chain reaction (RT-PCR) (BUSTIN, 2000).

Analises em larga escala foram possıveis a partir do SAGE (Serial Analisys of Gene

Expression) (VELCULESCU et al., 1995), uma tecnica que utiliza bibliotecas de marcadores

(EST do ingles Expression Sequence Tags), que podem ser utilizados para detectar a transcricao,

com esta metodologia os nıveis de expressao de um transcrito podem ser detectados avaliando

quantas vezes cada marcador foi utilizado.

Concomitantemente outra tecnica foi desenvolvida para analise de genes diferenci-

almente expressos em larga escala, o Microarray (SCHENA et al., 1995), que consiste na

utilizacao de sondas (pequenas sequencias de DNA conhecidas) fluorescentes. Nele, as sondas

liberam fluorescencia quando sequencias complementares sao hibridizadas, assim e possıvel

atraves da analise de imagens de fluorescencia, avaliar qual sequencia foi produzida em maior

quantidade. Uma das necessidades da tecnica de Microarray e o conhecimento previo da

sequencia, para a criacao das sondas, o que pode ser considerado um problema para alguns

estudos (MANTIONE et al., 2014).

Avancos recentes resultaram em tecnicas de sequenciamento que geram uma grande

quantidade de sequencias curtas. Os aparelhos que executam esta tecnica de sequenciamento

sao chamados sequenciadores de nova geracao (NGS - do ingles: Next-Genereation Sequencing).

As tecnicas de sequenciamento NGS podem ser aplicadas em estudos para identificacao de genes

Page 15: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 1. Introducao 2

diferencialmente expressos (GDEs), nas quais sao sequenciados os mRNAs produzidos pelo

organismo em um determinado tecido. Em um protocolo tıpico os mRNAs sao convertidos em

cDNA (WANG; GERSTEIN; SNYDER, 2009), permitindo assim a aplicacao da tecnica chamada

de RNA-Seq (sequenciamento de mRNA em plataformas de nova geracao). O primeiro artigo

cientıfico com dados de RNA-Seq foi publicado em 2006, utilizando a tecnologia 454/Roche

(BAINBRIDGE et al., 2006).

Alguns anos depois a tecnologia de RNA-Seq comecou a se popularizar e, em 2008

um trio de artigos cientıficos marcou o inıcio da popularizacao (MORTAZAVI et al., 2008;

SULTAN et al., 2008; WILHELM et al., 2008). Desde entao, tecnologias de sequenciamentos

NGS, estao se tornando rapidamente a principal tecnica para avaliar nıveis de expressao de

RNA (RAPAPORT et al., 2013).

Comparada a tecnicas de Microarray, o RNA-Seq pode ser executado sem um conhe-

cimento previo da referencia ou da sequencia de interesse, e permite uma ampla variedade de

aplicacoes, inclusive montagem de novo (sem um genoma de referencia) (ROBERTSON et al.,

2010).

Algumas metodologias desenvolvidas para a identificacao de genes diferencialmente

expressos com dados de RNA-Seq, aplicam metodos estatısticos aos resultados de contagem

de reads mapeados, para avaliar a significancia destes resultados (ZHANG et al., 2014), com o

objetivo de identificar nıveis de expressao dos genes atraves dessa contagem.

Existem varias metodologias desenvolvidas para a quantificacao da significancia de

reads mapeados, mas nao existe um consenso sobre qual metodologia garante a validade dos

resultados em termos de robustez, precisao e reprodutibilidade (ZHANG et al., 2014).

Outro fator que exerce influencia sobre os resultados e a forma como os dados foram

obtidos. De modo geral, estudos de expressao diferencial de genes possuem amostras de um

organismo em condicao controle e, de um organismo tratado (sob condicoes diferentes, ou com

reacao diferente a algum estımulo). Alguns estudos utilizam mais de tres indivıduos para coleta

de amostras (replicatas biologicas), outros tres, dois ou, em casos extremos apenas um.

Geralmente sao necessarios cinco passos para analise de expressao diferencial de

genes com dados de RNA-Seq (OSHLACK; ROBINSON; YOUNG, 2010; WANG; GERSTEIN;

SNYDER, 2009):

1. Amostras de RNA sao fragmentadas em pequenas sequencias de DNA complementar

(cDNA) e, sequenciadas em uma plataforma de alto rendimento;

2. As pequenas sequencias geradas pelo sequenciamento sao mapeadas ao genoma ou

transcriptoma;

3. Sao estimados os nıveis de expressao para cada gene ou isoforma;

4. Os dados sao normalizados e, utilizando metodos estatısticos, aprendizado de maquina,

entre outros, sao identificados os genes diferencialmente expressos;

5. A relevancia dos dados produzidos e finalmente avaliada em um contexto biologico.

O pipeline padrao para analises de expressao diferencial e apresentado na Figura 1.

Page 16: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 1. Introducao 3

Figura 1 – Pipeline padrao de analise de expressao diferencial para dados de RNA-Seq.

Fonte: Adaptado de (ZHANG et al., 2014)

Com o aumento da popularidade da tecnologia RNA-Seq, foram desenvolvidos muitos

programas para analise de expressao diferencial de genes a partir destes dados. Os metodos

desenvolvidos podem ser agrupados em dois principais segmentos, parametricos e nao parame-

tricos. Os metodos parametricos capturam todas as informacoes sobre os dados dentro dos

parametros. Para predizer o valor de dados futuros a partir do estado atual do modelo, sao

necessarios apenas os seus parametros. Aplicados a expressao diferencial de genes, os metodos

parametricos assumem que: geralmente apos uma normalizacao, cada valor de contagem de

um dado gene em uma amostra e, um ponto de uma distribuicao em particular, como Poisson

(MARIONI et al., 2008; BULLARD et al., 2010; HARDCASTLE; KELLY, 2010) ou negativa

binomial (ANDERS; HUBER, 2010; ROBINSON; MCCARTHY; SMYTH, 2010; ROBINSON;

SMYTH, 2007). Todavia os metodos nao parametricos podem capturar aspectos mais sutis

dos dados. Ao permitir que mais informacoes sejam transmitidas do conjunto de dados do

modelo no estado atual, para poder predizer qualquer dado futuro. Isso por que modelos nao

parametricos assumem que a distribuicao dos dados nao pode ser definida, em termos de

Page 17: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 1. Introducao 4

conjuntos de parametros finitos. Sendo assim a quantidade de informacao sobre os dados

aumenta ao passo em que a quantidade de dados aumentam.

Em expressao diferencial por RNA-Seq, ferramentas como: edgeR (ROBINSON; MC-

CARTHY; SMYTH, 2010) e baySeq (HARDCASTLE; KELLY, 2010), utilizam o modelo

binomial negativo como abordagem principal, ja ferramentas como: NOIseq (TARAZONA et

al., 2015) e SAMseq (LI; TIBSHIRANI, 2013), utilizam metodos nao parametricos. Outros

metodos baseados em deteccao de transcritos, foram desenvolvidos com o objetivo de identificar

transcritos desconhecidos, ou isoformas e, tambem realizam a identificacao de genes GDEs,

como: EBSeq (LENG et al., 2013) e, Cuffdiff2 (TRAPNELL et al., 2013). Atualmente nao

existe um consenso sobre qual seria a metodologia de analise mais indicada, ou qual abordagem

garante a validade dos resultados em termos de robustez e reprodutibilidade, todavia a area

continua em desenvolvimento (ZHANG et al., 2014; GARBER et al., 2011; KVAM; LIU; SI,

2012).

Recentemente estudos avaliaram metodos estatısticos de normalizacao, deteccao de

GDE e, a influencia da preparacao das bibliotecas no resultado final da analise (BULLARD et

al., 2010). Outro estudo avaliou metodologias de analise de expressao diferencial com dados de

microrganismo, incluindo os metodos de mapeamento utilizados para as analises (NOOKAEW

et al., 2012). Tambem foram desenvolvidos estudos para a comparacao desses programas com

dados simulados (KVAM; LIU; SI, 2012; SONESON; DELORENZI, 2013). Rapaport et al.

(RAPAPORT et al., 2013) avaliou uma gama de programas para analise de expressao diferencial,

avaliando algumas caracterısticas da analise, como: acuracia, normalizacao, deteccao de GDEs

e condicoes sem expressao detectada, em conjuntos de dados reais. Zhang et al. (ZHANG et al.,

2014) avaliou a influencia do numero de replicatas, cobertura do sequenciamento e, comparacao

entre grupos. Este estudo avaliou tres programas. Guo et al. indicou que o ranqueamento entre

tres metodos de identificacao de GDE pode gerar uma identificacao mais apurada (GUO et

al., 2014). Li et al. (LI et al., 2015) avaliou metodos de normalizacao para deteccao de GDE,

indicando que a juncao de dois metodos de normalizacao apresenta os melhores resultados. Em

outro estudo de comparacao entre programas, Seyednasrollah et al. (SEYEDNASROLLAH;

LAIHO; ELO, 2013) apresentou uma comparacao com dados reais, avaliando oito metodos de

analise de expressao diferencial de genes. Germain et al. (GERMAIN et al., 2016) apresentou

um estudo sobre as etapas da analise de dados de RNA-Seq, comparando diferentes metodos

de mapeamento e quantificacao de transcritos. Apresentou tambem uma ferramenta online

para comparacao de metodos de analise.

Diferente destes trabalhos, nos avaliamos o impacto da metodologia de mapeamento

no resultado das analises de expressao diferencial de genes. Para avaliar a fase de mapeamento,

fizemos a comparacao entre os resultados de tres mapeadores comumente utilizados em estudos

de expressao diferencial. Essa comparacao permite identificar a importancia do mapeamento

na indicacao de GDEs. O desempenho de programas de identificacao de GDEs, foi avaliado

utilizando como referencia padrao, dados de qRT-PCR. Essa comparacao foi realizada com o

Page 18: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 1. Introducao 5

objetivo de indicar ferramentas que possuam alta confiabilidade de resultados. Outra avaliacao

realizada foi o consenso de metodos de identificacao de GDEs.

Neste estudo nos apresentamos uma revisao estendida sobre as metodologias de analise

de expressao diferencial de genes com dados de RNA-Seq. Foram utilizados os programas de

mapeamento:

• Bowtie2 (LANGMEAD; SALZBERG, 2012);

• TopHat (KIM et al., 2013);

• BWA (LI; DURBIN, 2009).

Os programas de analise de expressao diferencial avaliados sao:

• baySeq (HARDCASTLE; KELLY, 2010);

• DESeq (ANDERS; HUBER, 2010);

• EBSeq (LENG et al., 2013);

• edgeR (ROBINSON; MCCARTHY; SMYTH, 2010);

• limma-voom (LAW et al., 2014);

• NOIseq (TARAZONA et al., 2011; TARAZONA et al., 2015);

• SAMseq (LI; TIBSHIRANI, 2013).

Os resultados de mapeamento passaram por sete programas de analise de expressao

diferencial. Os resultados foram comparados a resultados de qRT-PCR (SHI et al., 2006), desse

modo, verificamos o desempenho de cada programa associado a diferentes mapeadores. Os

resultados indicam que o programa NOIseq (TARAZONA et al., 2011; TARAZONA et al.,

2015) e limma-voom (LAW et al., 2014) sao os mais equilibrados em precisao, acuracia e

sensibilidade. Tambem identificamos que um grupo de programas pode apontar resultados com

alta precisao e acuracia.

Nos avaliamos os resultados de forma individual e, integrada entre diferentes metodolo-

gias. Com o objetivo de apresentar uma solucao facilmente aplicavel a diferentes experimentos,

nos desenvolvemos um software para analise de expressao diferencial. Ele apresenta uma

execucao integrada com mapeamento, contagem de mapeamento e, quantificacao dos nıveis

de expressao. Este trabalho tambem aponta direcoes no sentido de caracterizar os metodos

adotados, com relacao as suas propriedades e, acuracia ao identificar GDE.

1.1 Objetivos

A necessidade de apontar, entre as muitas tecnicas aplicadas a identificacao de genes

diferencialmente expressos, qual melhor se aplica a determinados modelos de estudo e afirmada

em varios estudos (LI et al., 2015; RAPAPORT et al., 2013; ZHANG et al., 2014). Entretanto

o impacto dos principais passos da analise (mapeamento e quantificacao) tambem deve ser

levado em consideracao.

Nosso objetivo principal e realizar um levantamento das tecnicas de analise de expressao

diferencial de genes com dados de RNA-Seq. Indicar qual metodologia faz a melhor identificacao

dos nıveis de expressao genica. Indicar qual o impacto da escolha de mapeador no resultado final

Page 19: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 1. Introducao 6

de analise de expressao. Disponibilizar um pipeline que permita a replicacao da metodologia

deste estudo, permitindo que o leitor escolha o processo que melhor se aplica ao seu estudo,

ou utilize a metodologia aqui apresentada.

1.2 Contribuicoes

A analise de dados de RNA-Seq, para identificacao de genes diferencialmente expressos

e de grande interesse para a ciencia da vida. Atualmente essas analises impactam tambem na

area clinica (RAPAPORT et al., 2013). As tecnologias de sequenciamento de nova geracao

possuem custos cada vez menores, permitindo a geracao de dados de expressao entre outras

informacoes.

Entretanto, nao e possıvel observar um padrao, em estudos que envolvem a analise de

expressao diferencial. Em geral, os procedimentos possuem alguns passos essenciais: avaliacao de

qualidade, mapeamento e quantificacao. Cada ferramenta de quantificacao utiliza uma tecnica

para mensurar genes diferencialmente expressos, e possıvel encontrar estudos que utilizaram a

mesma ferramenta de mapeamento, e metricas diferentes para mensuracao (BHARGAVA et al.,

2013; GEHRING; MISSIRIAN; HENIKOFF, 2011).

A identificacao correta e precisa de genes diferencialmente expressos pode auxiliar

muitas areas de pesquisa, em especial medicina e producao de alimentos. Devido a grande

importancia desta atividade, a melhoria de tecnicas existentes e, o desenvolvimento de tecnicas

confiaveis e de suma importancia.

Outro fator importante em relacao aos programas existentes para analise de expressao

e usabilidade, considerado um requisito basico de todo sistema. As ferramentas existentes de

acesso livre, nao possuem uma interface amigavel, o que dificulta o uso e, a disseminacao das

tecnicas.

A identificacao das funcionalidades de um programa e, de como utiliza-las, deve ser

intuitiva e simples para o usuario. O caminho percorrido ate a execucao da tarefa a qual a

ferramenta se propoe deve ser claro e permitir interacao. A usabilidade e a caracterıstica que

determina se o manuseio de um produto e facil (FERREIRA; LEITE, 2003).

Neste contexto, o desenvolvimento de um programa que contemple, usabilidade

e precisao na identificacao de genes diferencialmente expressos e relevante e, necessario.

Como parte dos resultados, geramos um programa, que executa os sete metodos de analise

de expressao avaliadas nesse trabalho. O programa desenvolvido apresenta o resultado do

consenso, de forma integrada. A solucao desenvolvida esta disponıvel para download em:

<https://github.com/costasilvati/consexpression>.

1.3 Organizacao do Trabalho

No capıtulo 2 sao apresentados os estudos que dao embasamento teorico a este

trabalho e, definem conceitos necessarios para o entendimento completo do estudo. No capıtulo

Page 20: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 1. Introducao 7

3 sao apresentadas as fontes de dados, ferramentas e metodologias para o desenvolvimento

deste trabalho. Os resultados dessa analise sao apresentados no capıtulo 4. As conclusoes e

direcoes futuras sao apresentadas no capıtulo 5.

Page 21: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

8

2 Conceitos

Este capıtulo apresenta os conceitos aplicados a este trabalho e, tambem uma revisao

detalhada sobre metodologias de analise de expressao diferencial de genes.

2.1 Expressao genica

A sequencia de DNA completa de um organismo e chamada de genoma. A informacao

contida em um genoma e organizada em unidades chamadas cromossomos. Um cromossomo e

dividido em sequencias menores chamadas genes (SNUSTAD et al., 2000). Em organismos

procariotos (bacterias, entre outros) todas as sequencias de genes estao dentro do unico

cromossomo do organismo, em organismos eucariotos (humanos, plantas, entre outros) os genes

estao distribuıdos entre os varios cromossomos do organismo. Segundo (ZAHA; FERREIRA;

PASSAGLIA, 2014) um gene pode ser descrito como :

Do ponto de vista molecular um gene, seja ele de um procarioto ou de um eucarioto,

pode ser definido como toda a sequencia nucleotıdica necessaria e suficiente para

a sıntese de um polipeptıdeo ou de uma molecula de RNA estavel. De acordo

com essa definicao, cada gene possui uma regiao codificadora, constituıda pela

sequencia nucleotıdica a sequencia de aminoacidos de uma cadeia polipeptıdica

ou um RNA estavel (como um rRNA ou um tRNA, por exemplo), e todas as

sequencias nucleotıdicas reguladoras que determinam e controlam sua transcricao.

Transcriptoma e definido como o conjunto completo de mRNA gerado por uma celula,

ou por uma populacao de celulas (MCGETTIGAN, 2013). Este termo foi proposto por Charles

Auffray em 1996 (PIETU et al., 1999), e utilizado pela primeira vez em um artigo cientifico em

1997 (VELCULESCU et al., 1997).

As primeiras acoes para identificar perfil de transcricional em mamıferos comecaram

em 1991 (ADAMS et al., 1991) com a tecnologia de sequenciamento Sanger, que permite

metodos como SAGE (Analise em Serie de Expressao de Genes) (VELCULESCU et al., 1995).

Concomitantemente publicacoes utilizando a tecnica de Microarray emergiram (SCHENA et

al., 1995). A tecnica de Microarray entao, se tornou por anos a escolha mais popular entre

estudos de perfil de transcricao.

Avancos recentes resultaram em tecnicas de sequenciamento que geram reads curtos,

em grande quantidade, as plataformas que executam este tipo de sequenciamento sao chamadas

sequenciadores de alto rendimento. Em 2006 foi publicado o primeiro artigo cientifico com dados

de RNA-Seq (sequenciamento de mRNA em plataformas de alto rendimento) (BAINBRIDGE

et al., 2006), utilizando a tecnologia 454/Roche.

Page 22: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 2. Conceitos 9

Alguns anos depois a tecnologia de RNA-Seq comecou a se popularizar, em 2008 um

trio de artigos cientıficos demonstraram o inıcio da popularizacao (MORTAZAVI et al., 2008;

SULTAN et al., 2008; WILHELM et al., 2008).

Atualmente a tecnologia mais popular para RNA-Seq e o Illumina Genome Analyzer e

HiSeq (MCGETTIGAN, 2013), permitindo a producao de reads longos e paired-end. Dessa forma

RNA-Seq possibilita: mapeamentos de qualidade, identificacao precisa de splicing alternativo,

reconstrucao de transcritos, entre outros estudos.

2.1.1 Dados de expressao genica

A identificacao de genes diferencialmente expressos busca entender quais genes pos-

suem a atividade silenciada, ou aumentada em determinadas situacoes. Deste modo, os metodos

de identificacao de genes diferencialmente expressos, tem como objetivo quantificar a trans-

cricao mRNA. Existem varias metodologias de quantificacao para dados de RNA-Seq. Essas

metodologias buscam reduzir tendencias da tecnica de sequenciamento e, amenizar a influencia

de outros fatores. Para a verificacao da acuracia de metodologias de analise de expressao

diferencial, com dados de RNA-Seq, e necessario utilizar um conjunto de dados com nıveis

de expressao validados, para as comparacoes deste estudo foi escolhida a tecnica quantitativa

de Reacao em Cadeia da Polimerase (qPCR) como referencia, esta tecnica foi utilizada em

estudos previos (RAPAPORT et al., 2013; ZHANG et al., 2014) como padrao para comparacao

de analises.

Nas seccoes 2.1.2 e 2.1.3 sao descritas as tecnicas de qRT-PCR e RNA-Seq, utilizadas

para a geracao do conjunto de dados utilizado neste trabalho.

2.1.2 Reacao em cadeia da polimerase da transcricao reversa (quantitativa) qRT-PCR

A reacao em cadeia da polimerase (PCR), e uma tecnica para criacao de varias copias

de DNA (Acido Desoxirribonucleico) “in vitro” (que dispensa a utilizacao de um organismo

vivo). Esta tecnica foi desenvolvida por Kary Mullis, na decada de 80 (MULLIS; FALOONA,

1987), Mullis recebeu o premio nobel da quımica em 1993 (MULLIS, 1993) por essa criacao. A

PCR tem muitas aplicacoes, uma delas e o estudo de expressao diferencial de genes.

Uma variante da PCR muito utilizada para quantificacao da expressao genica e a

qRT-PCR: reacao em cadeia da polimerase da transcricao reversa em tempo real (do ingles

real-time reverse transcription polymerase chain reaction) (LADEIRA; ISAAC; FERREIRA,

2011).

A tecnica qRT-PCR utiliza transcricao reversa (RT), que e a sıntese para a formacao

de DNA fita dupla (DNA complementar ou cDNA) a partir de RNA mensageiro (mRNA). Isso e

possıvel atraves da utilizacao uma enzima que produz DNA a partir de uma fita molde de RNA

(BUSTIN, 2000). Dessa forma atraves da reacao em cadeia da polimerase (PCR), o cDNA

gerado e analisado conforme e produzido, por isso a tecnica e considerada “em tempo real”.

Para que a analise em tempo real possa ser realizada, a solucao colocada no aparelho recebe

Page 23: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 2. Conceitos 10

Figura 2 – Esquema de nıvel de limiar em uma curva de amplificacao qPCR. A linha azulindica a curva de amplificacao da sequencia de interesse (Sample), a linha tracejadaem verde e o limiar dos ciclos da PCR (Ct), e a linha vermelha indica o nıvel defluorescencia do controle utilizado (No Template).

Fonte: Adaptado de (PORTERFIELD, 2015).

um fluoroforo que emite fluorescencia mais intensa quando ligado ao DNA. Essa fluorescencia

permite que a analise em tempo real aconteca.

A analise em tempo real e feita por aparelhos que captam a luminosidade de cada

reacao (ciclo) e convertem essa informacao em grafico.

A Figura 2 exibe um exemplo simplificado do grafico gerado, que demonstra a relacao

da fluorescencia gerada (eixo y) e ciclos da PCR (eixo x). A curva de amplificacao da sequencia

e exibida em azul e, indica o quanto a emissao de fluorescencia de uma amostra aumentou a

cada ciclo. O nıvel de fluorescencia da sequencia controle (sequencia conhecida, reacao sem

DNA ou outra sequencia alvo) e exibido em vermelho, essa linha indica a fluorescencia no ponto

inicial, ou basal. A linha verde pontilhada exibe o limiar de ciclos, definido pela interseccao,

onde a linha de amplificacao cruza a linha de fluorescencia da sequencia controle (HEID et al.,

1996).

Atraves do limiar de ciclos (Ct) sao feitos calculos de normalizacao que definem a

quantidade de copias de uma sequencia. A interpretacao dos resultados, de forma simplificada

e: as amostras que cruzam a linha de base com uma menor quantidade de ciclos indicam mais

expressao da sequencia a que correspondem.

A tecnica qRT-PCR possui alta acuracia na quantificacao de transcritos (WANG;

BROWN, 1999), mas alguns pontos sao considerados limitantes para essa tecnica, como a

necessidade de iniciadores com sequencias conhecidas e a quantidade de analises restrita.

Existem tambem estudos que relatam problemas na reprodutibilidade dos experimentos (RIEU;

Page 24: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 2. Conceitos 11

POWERS, 2009).

2.1.3 RNA-Seq

Em 1977 Fred Sanger and Alan R. Coulson publicaram dois artigos com metodologias

para identificacao rapida de sequencias de DNA (SANGER et al., 1977; SANGER; NICKLEN;

COULSON, 1977). Essas metodologias transformaram a biologia por completo, permitindo a

identificacao de genes inteiros e posteriormente genomas completos (SCHUSTER, 2007).

Avancos nas metodologias para identificacao rapida de sequencias de DNA (sequenci-

amento), tornaram possıvel obter genomas completos, com custos menores e em um tempo

relativamente curto. Os avancos tambem trouxeram novos desafios, como entender o conjunto

completo de transcritos de uma celula, este conjunto recebe o nome de transcriptoma.

O transcriptoma permite quantificar os transcritos em um estagio especıfico de

desenvolvimento ou numa situacao especıfica. Desvendar e quantificar os transcritos de um

organismo pode revelar os constituintes moleculares de celulas, tecidos e, tambem auxiliar no

entendimento do desenvolvimento de doencas (WANG; GERSTEIN; SNYDER, 2009).

A metodologia RNA-Seq representou um salto a frente nas abordagens para analise

de expressao genica, o primeiro trabalho foi publicado em 2006 (BAINBRIDGE et al., 2006),

utilizando a tecnologia 454/Roche, os dados gerados foram 200.000 pequenas sequencias, com

tamanho de 110 pares de base (pb).

A metodologia de sequenciamento RNA-Seq apresentada na Figura 3 consiste em uma

populacao de RNA (inteira ou fracionada) convertida em uma biblioteca de fragmentos de

cDNA com adaptadores (sequencias conhecidas de 6 a 12 nucleotıdeos) ligados as extremidades

dos fragmentos, cada fragmento (amplificado ou nao) e sequenciado, obtendo-se pequenas

sequencias de uma extremidade (sequenciamento single-end) ou das duas extremidades (se-

quenciamento paired-end). As pequenas sequencias geradas (reads) possuem tipicamente entre

30 e 400 pares de base (nucleotıdeos identificados (pb)).

Os reads gerados pelo sequenciamento sao alinhados ao genoma de referencia ou ao

transcritos de referencia, ou ainda a montagem de novo dos transcritos (onde os reads gerados

sao utilizados para reconstrucao da sequencia dos transcritos). O resultado do alinhamento,

neste contexto chamado de mapeamento, e utilizado para estimar os nıveis de expressao de um

gene ou transcrito (na maioria das abordagens), sendo assim, as metodologias de mapeamento

tem grande influencia no resultado final de experimentos que avaliam expressao genica. Detalhes

sobre as metodologias de mapeamento sao apresentados na secao 2.2.

Embora o RNA-Seq seja uma metodologia relativamente nova, tambem e uma meto-

dologia que oferece muitas vantagens. Ao contrario das metodologias que utilizam hibridizacao,

RNA-Seq nao se limita a sequencias previamente conhecidas, o que pode ser um atrativo quando

nao se trabalha com organismo modelo. Outra vantagem e a possibilidade de identificacao sobre

como dois exons sao conectados, para sequenciamento com reads longos existe a possibilidade

de identificacao de conexao entre multiplos reads. RNA-Seq pode tambem revelar variacoes de

Page 25: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 2. Conceitos 12

Figura 3 – Experimento tipico de RNA-Seq. Longos RNAs sao convertidos em fragmentosde cDNA. Sao adicionados adaptadores (azul) a cada fragmento de cDNA, esequencias curtas sao obtidas atraves do sequenciamento de cada fragmento de cDNAutilizando tecnologias de alto rendimento. Os reads resultantes do sequenciamentosao alinhados com o genoma de referencia ou transcriptoma e, classificados em trestipos: reads exonicos, reads de juncao e, reads poli-A. Esses tres tipos de readssao utilizados para gerar um perfil de expressao para cada gene, como ilustrado norodape; No rodape apresentamos uma ORF (sequencia que tem potencial para geraruma proteına ou peptıdeo, do ingles Open Read Frame) de levedura com um intron.

Fonte: Adaptado de (WANG; GERSTEIN; SNYDER, 2009)

sequencias (SNPs) nas regioes transcritas.

2.2 Mapeamento em dados de RNA-Seq

Para analise de dados de RNA-Seq uma das tarefas basicas e o alinhamento de reads

a um genoma ou transcriptoma de referencia. O alinhamento e um problema classico da

Page 26: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 2. Conceitos 13

bioinformatica, com muitas solucoes (LOBO, 2008; KENT, 2002; WU; WATANABE, 2005)

que se aplicam especialmente a ESTs. No entanto para o mapeamento de dados de RNA-

Seq e necessario uma abordagem diferente, pois os reads sao pequenos (∼30-125 pares de

base), os ındices de erro sao consideraveis e, alguns reads podem ser oriundos de juncoes de

exons (GARBER et al., 2011). Outro fator a ser considerado e a quantidade de dados, alguns

experimentos podem chegar a centenas de milhoes de reads.

Existem dois principais algoritmos (metodos computacionais) para mapear reads com

uma referencia, uma das abordagens e chamada alinhador de reads com emendas (do ingles

spliced read aligner), pois leva em consideracao a possibilidade de um read ser uma juncoes

exonicas. A outra abordagem, chamada alinhador de reads sem emendas (do ingles unspliced

read aligner) e, nao leva em consideracao juncoes exonicas.

Figura 4 – Estrategias de alinhamento com gaps para reads de RNA-Seq contra genoma.Ilustracao de reads obtidos de uma regiao de dois exons. (a) Metodo exon-first:mapeamento completo em regioes exonicas (sem juncoes), os reads que nao obtive-ram mapeamento sao quebrados em pequenas sequencias e mapeados no genoma,entao estende as sequencias mapeadas permitindo gaps para encontrar regioescandidatas a juncao. (b) Registra pequenas sequencias (k-mers) de tamanho similarno genoma em uma estrutura de dados muito eficiente para pesquisa, os reads saoquebrados em pequenas sequencias, estas sao mapeados a estrutura de dados eestendidas em grandes alinhamentos, que podem conter gaps. (c) Uma potenciallimitacao da metodologia exon-first, em casos de pseudogenes, com a associacaode retrotransposons, reads exonicos podem mapear em um gene e um pseudogene,e ser associado erroneamente.

Fonte: Adaptado de (GARBER et al., 2011)

A abordagem spliced read aligner, pode ser dividida em duas grandes metodologias:

primeiro exon (do ingles exon-first) e, extensao de semente (do ingles seed and extend).

Page 27: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 2. Conceitos 14

A metodologia exon-first implementada em ferramentas como: TopHat (TRAPNELL;

PACHTER; SALZBERG, 2009) executa o processo de alinhamento em dois passos: primei-

ramente os reads sao alinhados a uma referencia utilizando a metodologia unspliced, como

exibido na Figura 4.a. No segundo passo, depois do alinhamento inicial os reads que nao

tiveram mapeamento sao cortados em segmentos curtos e alinhados de forma independente, as

regioes adjacentes aos segmentos de reads mapeados sao analisadas para possıveis juncoes

de exons. Esta metodologia e muito eficiente quando somente uma pequena porcao de reads

precisam ser processados no segundo passo (GARBER et al., 2011).

As metodologias seed-extend como a utilizada na ferramenta GSNAP (do ingles

Genomic Short Read Alignment Program) (WU; NACU, 2010), inicialmente quebram os reads

em pequenos pedacos (sementes), esses pedacos sao colocados no genoma para localizar

alinhamentos (Figura 4.b) as regioes candidatas (que possuem alinhamento) sao verificadas

com metodos mais sensıveis, como SmithWaterman (De Bona et al., 2008) e unidas as sementes

iniciais. Com o alinhamento inicial de sementes e, a extensao com metodos sensıveis e possıvel

determinar com mais exatidao o local da juncao para o read.

A abordagem unspliced read aligner, alinha reads sem permitir grandes extensoes de

discordancia (gaps), e geralmente se encaixa em ao menos uma, de duas categorias: metodo

semente e, transformada de Burrows-Wheeler.

O metodo semente encontra pequenas subsequencias que alinham perfeitamente com

a referencia chamadas ’sementes’, cada semente e utilizada para restringir as regioes onde

metodos mais sensıveis (como Smith-Waterman), podem tentar estender as sementes para um

alinhamento completo.

Em contrapartida os metodos que utilizam transformada de Burrows-Wheeler, como

BWA (Burrows-Wheeler Alignment)(LI; DURBIN, 2009) e Bowtie (LANGMEAD et al., 2009;

LANGMEAD; SALZBERG, 2012), compactam a referencia em ındice (de Burrows-Wheeler),

que e uma estrutura muito eficiente para busca de concordancias (match) perfeitos, mas ao

permitir discordancias (mismatches) a performance da tecnica diminui de forma exponencial

ao numero de mismatches (LI; DURBIN, 2009; LANGMEAD et al., 2009).

A abordagem unspliced e ideal para mapeamento de reads contra bancos de cDNA,

em casos de quantificacao (MORTAZAVI et al., 2008; GRIFFITH et al., 2010).

2.3 Metodologias para analises de expressao genica

A identificacao de genes diferencialmente expressos com dados de RNA-Seq nao e

uma tarefa simples, devido ao volume de dados produzido e, porque os resultados nao podem

ser diretamente interpretados (LI et al., 2015).

As metodologias de sequenciamento de nova geracao (NGS) geram saıdas que referem-

se a quantidade (ANDERS; HUBER, 2010), por isso a estimativa de gene diferencialmente

expresso (GDE) esta associada a abordagens estatısticas. Existem muitas abordagens estatısticas

criadas para analise de dados quantitativos de expressao diferencial de genes e, modelos

Page 28: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 2. Conceitos 15

estatısticos conhecidos aplicados a este problema. O objetivo central dessas abordagens e

fazer com que a contagem de reads mapeados nos genes seja realmente significante em

relacao a quantidade de mRNAs produzidos no organismo, alem de remover tendencias do

sequenciamento e alinhamento.

As proximas subsecoes apresentam alguns conceitos que fundamentam as abordagens

de analises de dados de expressao, gerados pela tecnologia RNA-Seq.

2.3.1 RPKM

A metodologia RPKM (do ingles Reads per Kilobase per Million), foi a primeira

metodologia proposta para uma quantificacao precisa de expressao de genes com dados de

RNA-Seq. Publicada em 2008 (MORTAZAVI et al., 2008), esta metodologia quantifica a

expressao de dados de RNA-Seq atraves da normalizacao do tamanho total do transcrito e do

numero de reads sequenciados.

Utilizando a quantidade de nucleotıdeos do genoma ou gene de referencia e, a

quantidade de reads mapeados para obter um valor de expressao, o que permite que genes ou

transcritos pequenos nao sejam penalizados, se comparados a sequencias maiores. RPKM pode

ser definido pela equacao 1:

RPKM =109 rgR flg

(1)

onde, g representa um gene, ou uma regiao especıfica da referencia rg e a quantidade de

reads mapeados em uma regiao particular (gene), R e o numero total de reads do experimento,

e flg e o total de nucleotıdeos contidos na referencia (gene, ou regiao) em pb (pares de base).

O RPKM e uma das metodologias mais utilizadas para quantificacao de expressao em

dados de RNA-Seq (LI et al., 2015), e foi inicialmente introduzida para facilitar a comparacao

entre genes em uma amostra e, entre amostras, pois reescala a contagem de genes para corrigir

diferencas de tamanho da biblioteca e do gene.

2.3.2 FPKM

A metodologia FPKM e analoga ao RPKM, mas suporta uma, duas ou mais (se

necessario em futuras tecnologias) sequencias da mesma fonte molecular (TRAPNELL et

al., 2010). Quando a tecnica de sequenciamento utilizada e paired-end a metodologia para

identificacao de genes diferencialmente expressos e um pouco diferente, e utiliza a palavra

fragmento ao inves de reads, pois nesse contexto e possıvel encontrar reads foward e reverse

(nos dois sentidos da dupla fita de DNA 5’- 3’ ou 3’ - 5’) mapeados em uma mesma regiao.

O FPKM pode ser definido como na equacao 2.

FPKM =N

(L/1000)/(R/106)(2)

Page 29: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 2. Conceitos 16

onde N representa o total de fragmentos do experimento, L o tamanho total do

transcrito (referencia) em Kilobase (/1000) e R representa o total de reads mapeados em

milhoes (/106).

A abordagem FPKM considera que fragmentos nem sempre sao representados por

um read, mas se referem a fragmentos gerados por um experimento de RNA-Seq, partindo da

afirmacao que, um sequenciamento paired-end gera mais reads do que fragmentos, ou seja,

se existe a a ocorrencia de dois reads mapeados em um mesmo local, mas um read e reverso

complementar do outro (representa o outro lado da fita de DNA). FPKM propoe para que

aquele read nao seja interpretado como mais uma sequencia expressa e que, dois reads nessa

condicao sejam considerados como um fragmento.

2.3.3 TPM

Outra abordagem de normalizacao foi proposta por (WAGNER; KIN; LYNCH, 2012),

onde os autores propoem a normalizacao TPM (transcritos por milhao). TPM e uma modificacao

da abordagem RPKM e, busca a remocao de tendencias do RPKM (WAGNER; KIN; LYNCH,

2012). O valor de TPM e calculado como na equacao 3, onde Ygk e o total de leituras mapeadas

para o gene g na biblioteca k, rl e a media de tamanho das leituras mapeadas, flg e o numero

nucleotıdeos do transcrito mapeavel e, Nk e a quantidade de leituras da biblioteca k:

TPM =Ygk × rl × 106

flg ×Nk

(3)

2.3.4 TMM

Ao buscar uma metrica apropriada de expressao de genes, que possa ser utilizada para

comparacao entre amostras, foi desenvolvida a metodologia Media Aparada por Valores M (do

ingles Trimmed Mean of M-values (TMM)) (ROBINSON; OSHLACK et al., 2010).

Uma metodologia para estimativa de expressao de genes, deve garantir que um gene

com nıvel de expressao igual em duas amostras nao seja detectado como diferencialmente

expresso. Para uma estimativa precisa de nıveis de expressao e necessario quantificar a producao

total de RNA, Sk, o que nao pode ser estimado diretamente. Entretanto a producao relativa de

RNA entre duas amostras pode ser mais facilmente determinada calculando a mudanca global

entre amostras (global fold-change) fk = Sk/Sk′.

O metodo TMM foi proposto como um caminho simples e robusto de estimar a

producao de RNA. A contagem observada para o gene g na biblioteca k e definida por Ygk

e, o total de leituras da biblioteca k e definido por Nk. O calculo de mudanca para um gene

conhecido e definido por:

Mg = log2Ygk/Nk

Ygk′/Nk′(4)

Page 30: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 2. Conceitos 17

O nıvel absoluto de expressao e definido, considerando a conjuncao (•) das amostras,

ou seja, considera o calculo de mudanca para o gene g na amostra (condicao) k e k′, para

todo gene que possui contagem em ambas as amostras Y g• diferente de 0, como definido por

(ROBINSON; OSHLACK et al., 2010) na equacao 5:

Ag =1

2log2(Ygk/Nk • Ygk′/Nk′) para Yg• 6= 0 (5)

O calculo e considerado apenas para genes com contagem de reads diferente de 0. O

metodo TMM e duplamente cortado, pelo calculo de mudanca (log-fold-change) M rgk (amostra

k em relacao a amostra r do gene g) e pela intensidade absoluta Ag.

Especificamente a normalizacao para a amostra k usando como referencia a amostra

r e calculado como:

log2(TMM(r)k ) =

∑g∈G∗

wrgkMrgk∑

g∈G∗wrgk

(6)

onde:

M rgk =

log2(Ygk/Nk)

log2(Ygr/Nr)e wrgk =

Nk − YgkNkYgk

+Nr − YgrNrYgr

; Ygk,Ygr > 0 (7)

Os casos em que Ygk ou Ygr = 0, sao excluıdos anteriormente aos calculos apresentados

nas equacoes 6 e 4, visto que a variacao nao pode ser calculada. G∗ representa o conjunto de

genes com valores de Mg e Ag validos.

A metodologia TMM e utilizada pelo pacote edgeR (ROBINSON; MCCARTHY;

SMYTH, 2010), na pratica muito semelhante a metodologia utilizada pelo pacote DESeq

(ANDERS; HUBER, 2010), os resultados tambem sao semelhantes em alguns pontos (LI et al.,

2015; SONESON; DELORENZI, 2013).

2.3.5 Distribuicao de Poisson

A distribuicao de Poisson e definida como: Curva matematica utilizada em estatıstica

e, em simulacoes de resultados. Utilizada para representar a probabilidade de que determinado

evento (valor) aconteca, quando a media de probabilidade e conhecida. Esta distribuicao foi

descrita por Simeon-Denis Poisson e publicada em 1838 (POISSON; SCHNUSE, 1841).

A distribuicao de Poisson possui algumas propriedades:

• A probabilidade de uma ocorrencia e a mesma para qualquer um dos intervalos de tempo,

ou seja, a distribuicao nao possui nenhuma regiao com maior probabilidade que outras

regioes;

• A probabilidade de acontecer mais de uma ocorrencia num mesmo ponto e quase nula,

ou se aproxima de zero;

Page 31: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 2. Conceitos 18

• Os eventos sao independentes, de modo que a ocorrencia de um evento nao interfere na

ocorrencia de outro.

A funcao de probabilidade de Poisson e apresentada na equacao 8, onde X e o numero

de ocorrencias em um intervalo, λ e a taxa (media) de ocorrencias do evento X (numero

esperado de ocorrencias), e e uma constante natural (e ≈ 2,71828):

P (x) =λX · e−λ

X!(8)

Por indicar a probabilidade de um evento ocorrer em um intervalo esperado, a dis-

tribuicao de Poisson e indicada como adequada a descrever dados de expressao genica. Em

estudos anteriores foi identificado que a distribuicao de contagem dos dados de RNA-Seq e

bem por uma distribuicao de Poisson (MARIONI et al., 2008).

2.3.6 Distribuicao Binomial Negativa

A distribuicao binomial negativa pode ser definida como: uma distribuicao que permite

identificarmos a probabilidade de, necessitarmos de X tentativas de Bernouli (experimentos

onde o resultado pode ser somente fracasso ou sucesso) para obtermos r sucessos. Esta

distribuicao foi definida pelo biologo e estatıstico Ronald A. Fisher (FISHER, 1941).

A distribuicao binomial negativa possui algumas propriedades:

• O experimento consiste em X eventos (tentativas/ testes) repetidas;

• Cada evento pode resultar em apenas dois resultados (sucesso ou fracasso);

• A probabilidade de sucesso (notacao: p) e a mesma para cada evento;

• Os eventos sao independentes, ou seja, um evento nao influi no resultado de outro;

• O experimento so termina quando sao observador r sucessos e, r e definido previamente.

A distribuicao binomial negativa e descrita na equacao 9, onde r e o numero de

sucessos pretendidos, p a probabilidade de sucesso na realizacao de um evento e, k o numero

de repeticoes necessarias para obter r sucessos.

Pr(X = k) =

(k − 1

r − 1

)= pr(1− p)k−r (9)

Desse modo, a ultima repeticao necessariamente deve ser bem sucedida e, os eventos

anteriores devem contabilizar r − 1 sucessos e k − 1 tentativas (MORETTIN; BUSSAB, 2000).

2.3.7 Metodo Bayesiano empırico

Algumas ferramentas de identificacao de GDEs utilizam o modelo Bayesiano empırico

(HARDCASTLE; KELLY, 2010; LENG et al., 2013; ROBINSON; MCCARTHY; SMYTH, 2010),

para um melhor entendimento sobre os metodos das ferramentas, e de suma importancia o

entendimento do conceito.

Thomas Bayes foi um reverendo presbiteriano, que publicou um unico livro de ma-

tematica, desenvolveu uma teoria que nao foi divulgada por ele, chamada “Ensaio tentando

Page 32: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 2. Conceitos 19

resolver um problema da doutrina das probabilidades” (do ingles “An essay towards solving a

problem in the doctrine of chances”) (BAYES; PRICE; CANTON, 1763). Este artigo foi escrito

por Bayes e encontrado dois anos apos seu falecimento por um amigo (Richard Price), que

levou o estudo a Real Sociedade.

A teoria desenvolvida por Bayes leva em consideracao a probabilidade a priori (a

probabilidade de um evento ocorrer aleatoriamente dado um espaco amostral). E trata como

probabilidade a posteriori, a probabilidade, dado alguma informacao adicional a respeito. A

probabilidade a posteriori e calculada utilizando a equacao 10, onde x e o evento e, Wj a

classe (DE ou NE):

P (Wj|x) =P (x|Wj)P (Wj)

P (x)(10)

Inferencia Bayesiana e classificada como: um tipo de inferencia estatıstica, que descreve

dados incertos (ou nao visıveis) de forma probabilıstica. Em experimentos onde ocorre a

observacao de novos dados periodicamente, as incertezas sao alteradas conforme as observacoes

ocorrem. Para ajustar as medidas de incerteza pode se utilizar a operacao Bayesiana, ou equacao

de Bayes, muitas vezes denominada “Teorema de Bayes”, apresentada na equacao 10.

2.3.8 Regressao Local

A ferramenta DESeq (ANDERS; HUBER, 2010), aplica regressao local no processo

de identificacao de GDEs. Nesta secao descrevemos a analise de regressao.

Regressao local e um metodo nao parametrico que estima curvas e superfıcies atraves

de suavizacao. Definida por William S. Cleveland e Susan J. Devlin (CLEVELAND; DEVLIN,

1988).

A analise de regressao local produz uma equacao que permite descrever a relacao

(estatıstica) de influencia de determinada(s) variavel(s) sobre outras. A relacao entre estas

variaveis pode ser analisada como um processo onde as variaveis x1, x2,..., xn sao chamadas de

variaveis de entrada, ou regressoras e, Y e chamado de variavel de saıda ou resposta. Nesse

metodo, a variavel dependente y e, a independente x tem a relacao descrita ao observarmos

um modelo simples, como na equacao 11:

yi = g(xi) + εi (11)

onde εi e um termo de erro, representando erros randomicos na observacao ou na

variabilidade dos dados, nao incluindo xi. A variavel dependente y e, a independente x sao

relacionadas pela funcao “g” na vizinhanca dos pontos de interesse de x = x0 (PARMIGIANI et

al., 2006). Para estimar uma funcao localmente, uma opcao relativamente simples e, considerar

a media ponderada das observacoes na vizinhanca do ponto de interesse x0, a extensao

(quantidade de vizinhos observada) e chamada banda, ou parametro de suavizacao (h).

Page 33: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 2. Conceitos 20

Para estimar a funcao localmente e necessario escolher o tamanho da vizinhanca do

ponto x0 que se deseja observar, h e, escolher uma funcao K para ponderar os h vizinhos

de x0. A funcao K e chamada de nucleo (do ingles: kernel), para este estudo foi utilizado o

nucleo Gaussiano (LOADER, 1999), definido pela equacao 12:

K(x) =1√2πσ

e−x2

2σ2 (12)

a equacao 13 e utilizada para estimar a media local ponderada por K.

g(x0) =

∑ni=1Kh(xi − x0)yi∑ni=1Kh(xi − x0)

(13)

Regressao local pode ser utilizada para estudar modelos com uma, ou mais variaveis

independentes, bem como para estimar derivadas. Alem disso, suas propriedades

estatısticas tem sido estudadas, permitindo que se realizem inferencias sobre os

resultados. Regressao local tem sido implementada em uma serie de softwares,

possibilitando o facil acesso dos pesquisadores a esta tecnica (MARQUETTI; VIALI,

2004).

Page 34: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

21

3 Materiais e Metodologia

Metodos computacionais tem sido utilizados para analisar grandes quantidades de

dados, gerados por varias tecnicas, como RNA-Seq. Identificar com precisao, genes diferencial-

mente expressos, a partir de dados de RNA-Seq, e um desafio para a bioinformatica. Foram

propostos varios metodos computacionais para este fim (ROBINSON; MCCARTHY; SMYTH,

2010; LI; DEWEY, 2011; TRAPNELL et al., 2012; WAGNER; KIN; LYNCH, 2012; MORTAZAVI

et al., 2008; HARDCASTLE; KELLY, 2010; ANDERS; HUBER, 2010). Entretanto, nao existe

um consenso sobre qual metodologia possui maior acuracia (ZHANG et al., 2014).

Existem alguns questionamentos acerca dos metodos: Qual metodo possui a menor taxa

de falso positivo e, maior taxa de verdadeiro positivo? Qual metodo e mais eficaz em estudos

com poucas replicatas? A metodologia de mapeamento tem influencia sobre os resultados

finais? Qual o impacto do metodo de mapeamento no resultado final?

Neste contexto, um problema crıtico e a validacao de metodologias em cada etapa da

analise, assim como, na relacao de genes diferencialmente expressos gerada.

Nos abordamos estas questoes, avaliando cada etapa do processamento de dados de

RNA-Seq. Especificamente para a analise de expressao genica. Foram analisados dois pontos

essenciais do processamento:

1. Mapeamento;

2. Identificacao de GDE (genes diferencialmente expressos).

O conjunto de dados utilizado no trabalho e apresentado na Secao 3.1. A descricao

da analise de mapeamento realizada e apresentada na Secao 3.2. A descricao da analise de

quantificacao e apresentada na Secao 3.4.

3.1 Conjunto de dados

Este trabalho considerou um conjunto de dados reais relacionado com o projeto de

controle de qualidade de Microarray (do ingles Mircroarray Quality Control - MAQC) (SHI

et al., 2006; BULLARD et al., 2010). O conjunto de dados foi obtido utilizando sistema de

sequenciamento em larga escala Illumina’s Genome Analyzer II. O experimento analisou duas

amostras biologicas: referencia Ambion cerebro humano RNA e Stratagene’s referencia humana

universal RNA. Chamaremos esses conjuntos de Brain e UHR respectivamente (BULLARD et

al., 2010). O experimento e composto de duas amostras, Brain e UHR, foram realizadas 7

corridas (sequenciamento) para cada amostra. O objetivo do experimento e analisar os efeitos

da preparacao das bibliotecas (material a ser sequenciado) e tambem a reprodutibilidade dos

experimentos. Nos utilizamos apenas as amostras Brain e UHR que utilizaram PhiX Control.

O conjunto de dados esta disponıvel no arquivo de sequencias curtas SRA (do ingles

Short-Read Archive) do centro nacional de informacao biotecnologica (NCBI do ingles National

Page 35: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 3. Materiais e Metodologia 22

Figura 5 – Visao geral. As amostras biologicas utilizadas para gerar os dados de qRT-PCRforam as mesmas utilizadas para gerar os dados de RNA-Seq. Os dados de RNA-Seqforam mapeados ao genoma humano (versao hg19) pelos mapeadores BWA, TopHate Bowtie. A tabela de contagem de cada mapeador foi utilizada como entrada paraas metodologias de identificacao de GDEs (edgeR, DESeq, baySeq e NOISeq), osresultados foram comparados com os resultados de qRTPCR, permitindo avaliar omapeamento. As metodologias: EBSeq, SAMSeq e limma-voom foram utilizadaspara avaliacao individual de deteccao de GDEs, utilizando somente os resultados demapeamento do mapeador TopHat.

Fonte: Autoria propria

Center for Biotechnology Information) atraves do acesso SRA010153. Os reads foram mapeados

contra o genoma humano, versao 19 (GRCh37.p13), o genoma e o arquivo de anotacao estao

disponıveis na pagina do projeto GENCODE (HARROW et al., 2012).

Como parte do projeto MAQC (do ingles Microarray Qualit Control) cerca de mil

genes foram analisados por RT-PCR (CANALES et al., 2006). Este experimento tambem

utilizou as amostras biologicas referencia Ambion cerebro humano e Stratagene referencia

humana universal. Os dados de qRT-PCR estao disponıveis no banco GEO (do ingles Gene

Expression Omnibus), atraves do acesso: GSE5350, plataforma GPL4097 (SHI et al., 2006).

Nos consideramos os dados de qRT-PCR como conjunto de dados com valores de expressao

validados.

A conversao entre a anotacao utilizada para os dados de RNA-Seq (ENSEMBL) e,

Page 36: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 3. Materiais e Metodologia 23

a anotacao dos dados de qRT-PCR foi executada atraves da ferramenta online bioDBnet

(MUDUNURI et al., 2009), que exclui identificacoes duplicadas ou sinonimos. A conversao

gerou uma lista com 997 genes unicos de qRT-PCR.

3.2 Mapeamento e contagem

As metodologias de mapeamento de leituras (reads) sao geralmente utilizadas em

analises de expressao genica com dados de RNA-Seq. O mapeamento e um processo essencial

para a quantificacao. As metodologias de mapeamento sao descritas de forma detalhada na

Secao 2.2.

Dentre os mapeadores que utilizam a abordagem sem juncao de exons (do in-

glesunspliced read aligner), existem os que aplicam a transformada de Burrows-Wheeler

para indexar a referencia. Para esta abordagem, nos utilizamos os mapeadores: BWA (LI;

DURBIN, 2009) e Bowtie2 (LANGMEAD; SALZBERG, 2012).

Dentre os mapeadores que utilizam a abordagem com juncao de exons (do ingles spliced

read aligner) existem os que aplicam o metodo exon-first. Onde o mapeamento e realizado

primeiramente de modo geral e, depois com as leituras que nao obtiveram mapeamento 1. Para

esta abordagem, nos utilizamos o mapeador TopHat (TRAPNELL; PACHTER; SALZBERG,

2009).

A identificacao de genes diferencialmente expressos esta diretamente relacionada a

contagem de leituras mapeadas a um gene (ou transcrito). Nos avaliamos as metodologias de

mapeamento citadas acima. A Tabela 1 apresenta um resumo dos mapeadores utilizados.

Para a avaliacao foi realizado o mapeamento de cada corrida das bibliotecas Brain

(SRX016359) e UHR (SRX016367). Dessa forma, para cada biblioteca foram obtidos sete

arquivos de mapeamento (SAM/BAM) de cada ferramenta (Bowtie2, BWA e TopHat). Os

mapeamentos foram realizados com os parametros padrao de cada mapeador.

O software HTSeq (v.0.6.0) (ANDERS; HUBER, 2010) foi utilizado para gerar a

matriz de contagem, com parametros padrao. O arquivo de anotacao utilizado para gerar a

matriz de contagem foi o mesmo utilizado no mapeamento. As tabelas de contagem de cada

corrida foram formatadas em uma unica tabela, onde cada linha representa um gene, e cada

coluna uma amostra.

Para avaliar o impacto da escolha do mapeador no resultado final das analises de

identificacao de GDEs (Genes Diferencialmente Expressos), as bibliotecas foram mapeadas

ao genoma utilizando os mapeadores citados anteriormente. A saıda dos mapeadores foram

utilizadas para gerar tabelas de contagens. As tabelas de contagem passaram por quatro pro-

gramas de identificacao de GDE, baySeq (HARDCASTLE; KELLY, 2010), edgeR (ROBINSON;

MCCARTHY; SMYTH, 2010), DESeq (ANDERS; HUBER, 2010) e NOIseq (TARAZONA

et al., 2011; TARAZONA et al., 2015). Os genes identificados como DE (Diferencialmente

1As leituras que nao obtiveram mapeamento sao quebrados e, utilizados como semente para extensao demapeamento.

Page 37: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 3. Materiais e Metodologia 24

Tabela 1 – Softwares de mapeamento

Nome Versao Metodologia

Bowtie 2.2.6 Burrows Wheeler - Sem juncao de exonBWA 0.7.12-r1039 Burrows Wheeler - Sem juncao de exon

TopHat 2.10 Com juncao de exon - Exon antes

Fonte: Autoria Propria

Expressos) pelo qRT-PCR foram utilizados como resultados padrao para o experimento. A

listagem de GDEs gerada por cada ferramenta foi reduzida aos 997 genes contidos no qRT-PCR.

Com este grupo foi verificado o desempenho de cada ferramenta associada a cada mapeador. Os

resultados de cada programa, associado a cada mapeador foram comparados. Dessa comparacao

obtivemos uma avaliacao do impacto da metodologia de mapeamento escolhida, no resultado

final das analises. Os resultados de impacto dos mapeadores sao apresentados no capıtulo 4.

A Figura 5 apresenta uma visao geral do estudo. O conjunto de dados de RNA-Seq

(indicado como “NCBI-SRA” na Figura 5) foi mapeado ao genoma humano (hg19), por tres

mapeadores. Com os arquivos de mapeamento foram obtidas tres matrizes de contagem. As

matrizes foram utilizadas como entrada para quatro programas de identificacao de GDEs. As

quatro metodologias de identificacao de GDEs utilizadas foram: edgeR, DESeq, baySeq e

NOIseq.

3.3 Quantificacao

Dentre as varias abordagens para de quantificacao de transcritos de RNA-Seq, foram

escolhidas para os testes iniciais deste trabalho as metodologias: RPKM (MORTAZAVI et al.,

2008), TPM (WAGNER; KIN; LYNCH, 2012) e, TMM (ROBINSON; OSHLACK et al., 2010).

Cada metodologia de quantificacao foi avaliada com tres arquivos de mapeamento. As saıdas

de mapeamento sao dos tres mapeadores apresentados na secao 2.2.

Os calculos da metodologia RPKM foram gerados conforme a equacao 1 apresentada na

secao 2.3.1. Os calculos foram realizados atraves de script em linguagem Perl. Para comparacao

entre amostras (UHR e Brain) foi calculado o logFoldChange do valor de RPKM para UHR em

relacao a Brain.

A metodologia TPM teve os calculos gerados conforme a equacao 3 apresentada na

secao 2.3.3. Os calculos foram realizados atraves de script em linguagem Perl. Para comparacao

entre amostras foi calculado o logFoldChange do valor de TPM para UHR em relacao a Brain.

A metodologia TMM foi aplicada utilizando-se a ferramenta edgeR (versao 3.10.5)

implementada em R. Como interface para o ambiente R, foi utilizada a ferramenta RStudio

(RACINE, 2012).

A indicacao padrao para a utilizacao da ferramenta TopHat e o pipeline apresentado

em 2012 (TRAPNELL et al., 2012). A utilizacao proposta em 2012 e:

Page 38: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 3. Materiais e Metodologia 25

1. TopHat para mapeamento;

2. Cufflinks para montagem;

3. Cuffmerge para refinamento da montagem;

4. Cuffdiff para quantificacao de transcritos.

Entretanto a ferramenta e um mapeador independente do pipeline indicado. Dessa

forma, TopHat tambem e indicado como padrao para analises de expressao diferencial, associado

a outras metodologias para quantificacao de transcritos (ZHANG et al., 2014).

Os resultados da aplicacao das metodologias de quantificacao sao apresentados no

capıtulo 4.

3.4 Expressao diferencial

Nos comparamos sete metodologias para identificacao de GDEs. Ao aplicar cada

software procuramos manter a abordagem mais utilizada. Deste modo, seguimos as orientacoes

disponıveis no manual, aplicando os parametros indicados para cada metodologia. Tambem foi

utilizada a normalizacao padrao de cada metodologia.

Para cada mapeador avaliado, foi gerada uma matriz de contagem com HTSeq. As

metodologias avaliadas foram executadas com a tabela de contagem de cada mapeador. A

Tabela 2 apresenta um resumo das metodologias utilizadas para deteccao de GDE.

Tabela 2 – Softwares para deteccao de expressao diferencial

Nome VersaobaySeq 2.4.1DESeq 1.22.1EBSeq 1.12.0edgeR 3.12.1

limma+voom 3.26.9NOIseq 2.14.1

SAMseq (samr) 2.0

Para melhor entendimento, foram elencados alguns pontos importantes de cada

metodologia:

• baySeq (HARDCASTLE; KELLY, 2010): utiliza a abordagem empırica Bayesiana para

estimar a probabilidade posterior de cada conjunto de modelos, que define padroes de

expressao diferencial para cada tupla.

• DESeq (ANDERS; HUBER, 2010): metodo similar ao edgeR, baseado em uma distribui-

cao binomial negativa, com variancia e media ligadas por regressao local.

• EBSeq (LENG et al., 2013): desenvolvido com o principal objetivo de identificar isoformas

DE, tambem e robusto na identificacao de GDE. Assim como baySeq (HARDCASTLE;

KELLY, 2010), utiliza a abordagem empırica Bayesiana.

Page 39: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 3. Materiais e Metodologia 26

• edgeR (ROBINSON; MCCARTHY; SMYTH, 2010): um modelo de Poisson superdisperso

e utilizado para contabilizar a variacao tecnica e biologica. Aplica o metodo empırico

Bayesiano para moderar o grau de superdispersao contra transcritos.

• limma-voom (LAW et al., 2014): baseado no modelo linear e, originalmente desenvolvido

para analisar dados de microarray mas, atualmente estendido para analise de RNA-Seq. O

guia do usuario limma recomenda a utilizacao da normalizacao TMM, do pacote edgeR,

associada a utilizacao da conversao “voom”, que essencialmente transforma as contagens

normalizadas para logaritmos base 2 e, estima a relacao media-variancia para determinar

o peso de cada observacao feita inicialmente pelo modelo linear (BIOINFORMATICS

DIVISION, THE WALTER AND ELIZA HALL INSTITUTE OF MEDICAL RESEARCH,

2016).

• NOIseq (TARAZONA et al., 2011; TARAZONA et al., 2015): adaptavel aos dados e nao

parametrico, modela empiricamente o ruido nos dados de contagem, e permite analise

de dados sem replicata.

• SAMseq: (LI; TIBSHIRANI, 2013): metodo nao parametrico com re-amostragem para

contagens de sequenciamentos com diferentes profundidades. Pode ser aplicado a dados

com resultados quantitativos, de duas classes ou de multiplas classes.

O entendimento das metodologias aplicadas por cada software de deteccao de GDE

permite uma analise mais clara dos resultados, assim como uma melhor escolha do software a

ser utilizado para cada tipo de experimento. Mais detalhes sobre as metodologias utilizadas por

cada software sao apresentados no o capıtulo 2.

Page 40: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

27

4 Resultados

Este capıtulo tem como objetivo apresentar os resultados experimentais obtidos durante

o desenvolvimento deste trabalho. Na Secao 4.1 sao apresentados os resultados dos testes com

os mapeadores. Uma visao geral dos mapeadores e apresentados na Secao 2.2.

Na Secao 4.2 sao apresentados os resultados das analises de expressao diferencial de

genes realizadas. As metodologias de quantificacao e identificacao de GDEs utilizadas sao

apresentadas na Secao 2.3.

4.1 Analise de Mapeamento

Nesta Secao sao apresentados os resultados das metodologias de mapeamento aplicadas

ao experimento SRA010153 do NCBI (Banco Nacional de Sequencias), deste, foram utilizadas

as bibliotecas Brain (SRX016359) e UHR (SRX016367). Duas metodologias de mapeamento

foram testadas: (1) com juncao de exon e, (2) sem juncao de exon.

4.1.1 Avaliacao inicial de mapeadores

Para a avaliacao da fase de mapeamento, foram comparadas as contagens de leituras

mapeadas. Para a biblioteca Brain, a contagem resultou no diagrama apresentado na Figura

6. A Figura 6 apresenta a quantidade de genes com leituras (10 ou mais) mapeadas em cada

mapeador. O consenso apresenta 11794 genes, em que as tres metodologias apontaram mais

de 10 leituras mapeadas.

Figura 6 – Comparacao entre metodologias de mapeamento. Contagem de genes com mais dedez leituras (da biblioteca Brain) mapeadas. Cada cırculo representa um mapeador, aquantidade de genes com mais de dez leituras mapeadas e apresentada isoladamente(para cada mapeador) ou por mais de um mapeador (sobreposicoes)

Fonte: Autoria Propria

Page 41: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 4. Resultados 28

O consenso apresentado na Figura 6 indica que, para analises de expressao diferencial,

o mapeador utilizado tera um baixo impacto sobre os resultados finais. Entretanto ao analisar

uma rede de interacao entre genes, os genes unicamente identificados (Bowtie2: 367, BWA: 152

e TopHat: 53) podem acrescentar informacoes valiosas ao estudo. A comparacao entre genes

com mais de 10 leituras mapeadas tambem foi realizada para a biblioteca UHR, os resultados

estao no apendıce 6 Figura 14.

Todavia, a fase de mapeamento e essencial para a definicao dos genes diferencialmente

expressos. Por isso grandes discrepancias entre as metodologias de mapeamento, podem

interferir diretamente na definicao dos genes diferencialmente expressos.

4.1.2 Avaliacao de mapeadores com dados validados

Para obter uma avaliacao precisa do impacto dos mapeadores nos resultados de analises

de expressao diferencial, foi avaliada a indicacao de GDEs com diferentes mapeadores. Essa

comparacao nos permite identificar, como metodos para identificacao de GDEs sao influenciados

pelo mapeador utilizado.

Essa avaliacao foi feita utilizado quatro metodologias de analise de expressao: 1)

baySeq, 2)DESeq, 3)edgeR e 4)NOIseq. Para validacao dos resultados, utilizamos dados de

qRT-PCR. Na Figura 7 e possıvel observar que o mapeador tem impacto mınimo na identificacao

de GDEs.

Para avaliar os softwares de mapeamento foi utilizado como referencia o genoma

humano descrito na Secao 3.1. Para avaliar o impacto da escolha do mapeador em analise

de GDEs foram executados os mapeadores com parametros padrao. A matriz de contagem

de cada mapeamento foi gerada pelo pacote HTSeq (ANDERS; HUBER, 2010). A funcao

htseq-count foi executada utilizando o arquivo de anotacao referente ao genoma e parametros

padrao. A matriz de contagem de cada mapeador foi utilizada como entrada para os metodos de

deteccao de GDEs. Nos dados de qRT-PCR os GDEs foram identificados atraves da ferramenta

GEO2R com o metodo padrao (Benjamini & Hochberg), e considerados como DE apenas os

que obtiveram log2FC >= 2 ou log2FC <= -2 e, P-value <= 0,05.

Nos comparamos os GDEs identificados em RNA-Seq contra os GDEa identificados

no qRT-PCR. Na Figura 7 e possıvel identificar que os GDEs se concentram nas interseccoes

entre os mapeadores. Essa concentracao mostra que os metodos mantem o comportamento

de identificacao mesmo com a mudanca do mapeador. Desse modo e possıvel observar que

o impacto dos mapeadores sobre o resultado final das analises e mınimo. Nas Figuras: 7A

e 7C, observa-se que o numero de GDEs identificados corretamente (em concordancia com

qRT-PCR), esta mais relacionada a metodologia de identificacao de GDEs que ao mapeador

escolhido. As metodologias baySeq e NOIseq obtiveram uma baixa quantidade de GDEs nao

identificados, e essa quantidade nao foi alterada com diferentes mapeadores. Para mais detalhes

sobre o desempenho de cada metodo com diferentes mapeadores consulte o Apendice 7.

Page 42: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 4. Resultados 29

Figura 7 – Comparacao do numero de GDE identificados por diferentes metodologias de analisede expressao diferencial, associadas a diferentes metodos de mapeamento em RNA-Seq, contra qRT-PCR. (A) Diagrama de venn de comparacao dos GDE identificadospela metodologia baySeq com mapeadores BWA, TopHat, Bowtie e qRT-PCR.(B) Diagrama de venn de comparacao dos GDE identificados pela metodologiaedgeR com mapeadores BWA, TopHat, Bowtie e qRT-PCR. (C) Diagrama de vennde comparacao dos GDE identificados pela metodologia NOIseq com mapeadoresBWA, TopHat, Bowtie e qRT-PCR. (D) Diagrama de venn de comparacao dos GDEidentificados pela metodologia DESeq com mapeadores BWA, TopHat, Bowtie eqRT-PCR.

Fonte: Autoria Propria

4.2 Analise de expressao genica

4.2.1 Avaliacao de normalizacoes

Nesta Secao sao apresentados os resultados da comparacao entre metodologias para

normalizacao de dados de contagem de RNA-Seq. As metodologias utilizadas para os testes

preliminares sao: RPKM (MORTAZAVI et al., 2008), TPM (TRAPNELL et al., 2010) e TMM

(ROBINSON; OSHLACK et al., 2010) (utilizada atraves da metodologia edgeR).

Para cada saıda de mapeamento, foram realizadas as tres analises de normalizacao

citadas anteriormente, uma visao mais detalhada sobre as analises e apresentada na Secao 2.3.

A convergencia entre os resultados das analises e apresentada nas Figuras ??. E possıvel

Page 43: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 4. Resultados 30

Fonte: Autoria Propria

Fonte: Autoria Propria

Figura 8 – Comparacao entre metodologias de identificacao de genes diferencialmente expressos.Relacao de genes que apresentaram logFoldChabge ≥ 2.a) Resultados gerados apartir das saıdas de mapeamento do mapeador Bowtie2. b) Resultados gerados apartir das saıdas de mapeamento do mapeador TopHat.

Fonte: Autoria Propria

observar que, a indicacao de GDEs entre as metodologias possui um consenso (sobreposicao

dos tres cırculos). As metodologias TPM e RPKM entretanto nao agregam informacao se

comparadas ao edgeR. E possıvel observar tambem, a influencia da metodologia de mapeamento

no resultado final da analise, tendo em vista que o total do consenso de genes diferencialmente

expressos aumenta em ' 147 quando e utilizada a metodologia que nao considera juncao

de exons (Figura 4.2.1). O mapeador BWA tambem e baseado na metodologia que nao

considera juncao de exons. Os resultados de expressao com o mapeador BWA foram similares

aos apresentados na figura 4.2.1, e seu diagrama esta disponıvel no apendice 6, Figura 15

Para a validacao dos resultados, sera utilizado o conjunto de dados de qRT-PCR

descrito na Secao 3.1. A comparacao com dados de qRT-PCR permite estimar os acertos e

erros de cada metodologia de analise de expressao.

Page 44: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 4. Resultados 31

4.2.2 Avaliacao individual de metodos para deteccao de GDEs

Como observado na Secao 4.1, o impacto dos mapeadores sobre o resultado das

analises de expressao e mınimo. Por isso as analises seguintes sao apresentados apenas os

resultados de mapeamento com o mapeador TopHat. Foram acrescentados, os resultados

das metodologias: limma+voom(LAW et al., 2014), EBSeq (LENG et al., 2013) e SAMseq

(TARAZONA et al., 2015), para mais detalhes sobre as metodologias avaliadas consulte a

Secao 3.4.

Nos realizamos a comparacao entre os GDEs indicados pelas 7 metodologias e, os

GDEs indicados pelo qRT-PCR. As analises foram executadas seguindo os passos do manual

de cada metodologia. Cada metodologia possui uma indicacao de analise para identificacao de

GDEs. Foram considerados GDE os genes elencados pelas metodologias, seguindo as indicacoes

do manual de cada metodologia. O desempenho das metodologias foi verificado com base na

correspondencia entre os resultados qRT-PCR e. os resultados indicado por elas.

Foram considerados Verdadeiros Positivos (VP), os genes indicados como DE pelo

qRT-PCR e pela metodologia. Falsos Positivos (FP) sao os genes indicados como DE pela

metodologia e nao indicados pelo qRT-PCR. Como Verdadeiros Negativos (VN), sao os genes

indicados como Nao Expresso (NE) pelo qRT-PCR e pela metodologia. Falso Negativos (FN),

sao os genes indicados como DE pelo qRT-PCR e como NE pela metodologia.

Na Tabela 3 e apresentado o resultado de desempenho de cada metodologia. Nota-se

que, as metodologias EBSeq, SAMseq e DESeq, apesar de utilizarem metodos diferentes para

identificacao de GDE, possuem comportamento semelhante. As tres metodologias (DESeq,

EBSeq e SAMseq) possuem baixo TVP (Taxa de Verdadeiros Positivos) e baixa AC (Acuracia).

O desempenho da metodologia DESeq, se da como descrito em (SONESON; DELORENZI,

2013), onde o autor indica que, DESeq obtem melhores resultados com amostras pequenas

(2 amostras por condicao). Os resultados da metodologia SAMseq sao influenciados pelo

tamanho das amostras e, numero de replicatas. Esta metodologia tambem apresenta um

bom ranqueamento (ordenacao de GDE mais relevantes), porem aponta muitos FP como DE

(SEYEDNASROLLAH; LAIHO; ELO, 2013; SONESON; DELORENZI, 2013). A metodologia

EBSeq tambem apresentou baixa precisao em estudos anteriores (SEYEDNASROLLAH; LAIHO;

ELO, 2013).

As metodologias NOIseq e limma+voom apresentaram um bom desempenho, com

taxas de TVP e AC altas. O metodo limma+voom ja havia sido apontado em estudos anteriores

como um dos melhores resultados no ranking de GDE e para analises com mais de duas amostras

(SONESON; DELORENZI, 2013). O metodo NOIseq mostrou resultados consistentes, o que

indica que o metodo pode ser uma boa escolha para experimentos com um grande numero de

amostras e, genoma anotado.

Page 45: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 4. Resultados 32

Tabela 3 – Desempenho das metodologias, comparacao com resultados de qRT-PCR. Valoresde desempenho: Taxa de Verdadeiros Poistivos (TVP), Especificidade (SPC), ValorPreditivo Positivo (VPP), Acuracia (AC) e F1 Score.

Metodologia TVP SPC VPP AC F1 ScoreedgeR 0.71 0.94 0.90 0.85 0.79baySeq 0.92 0.40 0.52 0.61 0.66DESeq 0.44 0.59 0.43 0.53 0.44NOIseq 0.80 0.95 0.92 0.89 0.86SAMseq 0.44 0.52 0.39 0.49 0.42

limma+voom 0.81 0.93 0.89 0.88 0.85EBSeq 0.68 0.55 0.52 0.60 0.59

4.2.3 Juncao de metodos para deteccao de GDE

A avaliacao individual de metodologias para identificacao de GDE deixa claro que,

os resultados sao fortemente influenciados pelo modelo do estudo, ja que algumas metodolo-

gias possuem resultados melhores com uma maior quantidade de amostras, enquanto outras

apresentam variacoes de resultados influenciadas por outras caracterısticas do estudo.

Figura 9 – Histograma de identificacao de GDE, a barra vermelha indica que o transcritofoi indicado como DE pelo qRT-PCR, a barra azul indica a quantidade de genesidentificados como diferencialmente expressos. A ausencia de barras indica que otranscrito nao foi indicado como DE em nenhum dos casos. Ao final de cada linhaestao os valores de desempenho de cada conjunto de identificacao, para a linha sete,nao existem valores de desempenho, visto que nao houve identificacao.

Fonte: Autoria Propria

Com o intuito de identificar possıveis ganhos em desempenho, nos avaliamos os

resultados integrando as metodologias adotadas neste trabalho. Nos avaliamos o desempenho

entre os resultados com a integracao de um a sete metodologias. Para cada gene indicado

como DE por x metodologias (onde x e o numero de metodologias de identificacao de GDE)

foi comparada com os dados validados em qRT-PCR.

Page 46: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 4. Resultados 33

Tabela 4 – Desempenho na indicacao de GDE de grupos de metodologias. Os grupos naopossuem uma selecao de metodologias especıficas, apenas a ocorrencia do numerode indicacoes foi observado. Para os grupos tambem foi verificado o valor da Taxade Falso Positivo (TFP).

Indicacoes TVP SPC VPP AC F1 Score TFP

6 0.45 0.98 0.94 0.76 0.61 0.005 0.76 0.96 0.93 0.88 0.84 0.024 0.83 0.86 0.81 0.85 0.82 0.043 0.89 0.44 0.53 0.63 0.66 0.142 0.93 0.38 0.51 0.60 0.66 0.561 0.94 0.26 0.47 0.54 0.63 0.74

Fonte: Autoria Propria

Para avaliar o desempenho da juncao de metodologias, nos verificamos qual a frequencia

de indicacao de GDE possui melhor desempenho. Na Figura 9, e possıvel observar que nao

houveram ocorrencias de sete metodologias indicando genes como DE simultaneamente.

Das sete metodologias avaliadas, a frequencia de seis indicacoes simultaneas ocorre

para 187 transcritos tambem indicados pelo qRT-PCR como DE. Entretanto, ao observar o

numero de GDE indicado pelo qRT-PCR, nota-se que o conjunto de seis metodologias deixa

de identificar uma grande quantidade de genes indicados pelo qRT-PCR.

Avaliamos o desempenho de indicacao de GDE para cada grupo de metodologias:

seis, cinco, quatro, tres, duas e uma indicacao, no intuito de identificar a combinacao de

metodologias que possui uma indicacao de GDE mais eficaz e, com a menor quantidade de

erros. Os resultados de desempenho de cada grupo sao apresentados na Tabela 4.

O desempenho de cada grupo indica que, a consideracao de varios metodos em conjunto

tende a alta precisao e, a baixos ındices de erro. Como relatado em estudos previos, para muitas

situacoes, o conhecimento coletivo e maior que o conhecimento individual (MARBACH et al.,

2012). Partindo desse princıpio, identificamos que o resultado de cinco metodologias pode

obter maior SPC e VPP que qualquer metodo isolado e, mantendo valores significativos de AC

e TVP.

Para identificar o melhor tamanho do conjunto de metodologias, que permitira resul-

tados com maior acuracia, utilizamos a curva ROC (HANLEY; MCNEIL, 1982), Na Figura

10 e possıvel observar que o consenso de quatro metodos apresenta uma das solucoes mais

eficientes, dentre as possibilidades e, permite uma leve melhoria em TVP, com um leve declınio

em TFP.

O consenso entre quatro metodologias apresenta o melhor resultado integrado com

ındices de SPC e TVP que permitem resultados com alta acuracia.

A Figura 11 apresenta a evolucao dos valores de TVP e SPC relacionada a inclusao

de metodologias de deteccao de GDEs. Podemos observar que a inclusao de metodologias traz

ganhos consideraveis em SPC, entretanto a partir de quatro metodologias o TVP passa por

Page 47: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 4. Resultados 34

Figura 10 – Curva ROC de identificacao de GDE. Consenso entre metodos de identificacao deGDE, cada ponto indica o desempenho do consenso na indicacao de x metodologias,em relacao aos resultados de qRT-PCR.

Fonte: Autoria Propria

um declınio consideravel, onde nota-se que a busca por alta SPC pode trazer percas em outros

sentidos.

Para a aplicacao dessa metodologia o usuario pode escolher entre executar a metodo-

logia com o consenso padrao (quatro metodologias) obtendo assim o melhor balanco entre

SPC e TVP. Outra possibilidade, para a aplicacao desta metodologia e alterar o numero de

metodologias que definem o consenso para a quantidade desejada, levando em consideracao o

custo da mudanca, para as outras medidas de desempenho.

Na Tabela 5 apresentamos um panorama, com os grupos de metodologias que acom-

panharam as indicacoes do qRT-PCR. Dos 413 genes identificados como DE pelo qRT-PCR,

26 nao foram apontados como DE por metodologias. E possıvel observar que, mesmo ao

considerar uma indicacao (aceitando qualquer metodologia) nao e possıvel alcancar os 413

genes indicados pelo qRT-PCR.

Para definir qual grupo de metodos que apresenta a melhor indicacao de consenso e

importante avaliar como cada metodo se comporta nos agrupamentos, em especial no grupo

de quatro indicacoes. Na Tabela 6 apresentamos o comportamento de cada metodologia

nos grupos do consenso. Se comparado aos resultados da Tabela 5, observamos que dos

343 GDEs apontados pelo grupo de quatro metodologias, os metodos que mais apontaram

Page 48: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 4. Resultados 35

Figura 11 – Projecao de valores de TVP e SPC. O eixo X apresenta o consenso entre metodo-logias de deteccao de GDEs, o eixo Y apresenta a evolucao dos valores de TVP eSPC relacionados aos resultados dos conjuntos de um a sete metodologias.

Fonte: Autoria Propria

Tabela 5 – Relacao entre TP e grupos de metodologias. Dos 413 genes identificados comoDEs pelo qRT-PCR, agrupamos por numero de metodologias que indicaram estesgenes como DE.

Metodologias VP DE

6 1875 3154 3433 3692 3841 3870 26

Fonte: Autoria Propria

corretamente (quase todas as indicacoes) foram baySeq (HARDCASTLE; KELLY, 2010),

NOISeq (TARAZONA et al., 2015; TARAZONA et al., 2011), limma-voom (LAW et al., 2014)

e edgeR (ROBINSON; MCCARTHY; SMYTH, 2010), respectivamente.

O metodo baySeq indica todos os GDEs do consenso, ja os metodos NOISeq e

limma-voom indicam 96,2%. O metodo edgeR indica 81,3% dos genes indicados como DE pelo

qRT-PCR.

Para as analises com baySeq, e necessaria a definicao de uma colecao de modelos,

onde cada modelo e uma subdivisao das amostras em grupos, as amostras no mesmo grupo

sao assumidas para compartilhar os mesmos parametros da distribuicao subjacente.

Page 49: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 4. Resultados 36

Tabela 6 – Numero de indicacoes de GDEs dos grupos, por metodologia.

Metodologias edgeR baySeq DESeq NOISeq SAMSeq limma-voom EBSeq

6 187 187 99 187 88 187 1875 261 315 158 315 157 305 2514 279 343 167 330 165 330 2603 283 369 180 330 176 335 2792 293 379 181 330 182 335 2821 294 379 183 330 182 335 282

Fonte: Autoria Propria

O metodo NOISeq considera que uma caracterıstica e diferencialmente expressa, se a

relacao de log2 entre duas condicoes (M) e o valor da diferenca entre as duas condicoes (D)

correspondentes sao provaveis de serem mais altas do que no ruıdo. A distribuicao de ruıdo e

obtida comparando todos os pares de repeticoes dentro da mesma condicao.

O metodo limma-voom, converte as contagens de leitura em log2 de contagens por

milhao (logCPM) e, a relacao de variancia media e modelada com pesos de precisao.

O metodo edgeR estima a dispersao, ajusta os modelos binomiais negativos e, entao

aplica o teste de razao de verossimilhanca (likelihood ratio test), os resultados podem ser

ordenados por, ordem de evidencia atraves do p-Value calculado para cada gene.

O metodo baySeq tende a um maior numeros de FP, como apresentado na Tabela 3, o

que justifica a indicacao de 100% dos GDEs do consenso. O compartilhamento de parametros

dos grupos de amostras dessa metodologia, ameniza a variacao dos genes do mesmo grupo, de

forma que, seja dado assim uma maior probabilidade de acerto para a metodologia, visto que

ela indica mais GDEs.

Ja os metodos NOISeq e limma-voom, funcionam de forma balanceada, em relacao ao

desempenho, permitindo uma alta confiabilidade dos resultados, o que justifica os 3,8% GDEs

nao identificados por eles e identificados pelo qRT-PCR. Nos resultados do metodo edgeR

podemos verificar que o TVP da metodologia indica uma confiabilidade menor dos resultados.

Justificando assim o percentual de identificacao correta dos GDEs indicados pelo qRT-PCR.

Foi analisada a extensao de cada transcrito (em pb: pares de base) e, observado que

a media de extensao dos transcritos DE identificados por qRT-PCR e pelas metodologias de

RNA-Seq e 13.130,05 pb e desvio padrao de 12.663,8. Ja os transcritos identificados pelo

qRT-PCR e nao identificados pelas metodologias de RNA-Seq possuem em media 6.615,69 pb

e desvio padrao de 11.930,98. A Figura 12 apresenta a relacao entre extensao de transcritos,

indicacao de GDE por metodologias de RNA-Seq e indicacoes do qRT-PCR. Na Figura 12 e

possıvel notar que os genes indicados como DE pelo qRT-PCR sem indicacao por metodos de

RNA-Seq possuem extensao geralmente menor (com algumas excessoes).

Na Figura 13 sao apresentados os genes nao identificados por metodologias de RNA-

Seq e, apontados por qRT-PCR como DE. Transcritos pequenos em extensao podem nao sao

Page 50: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 4. Resultados 37

Figura 12 – Histograma de relacao entre extensao de transcritos (vermelho) e indicacoes demetodologias (RNA-Seq). O numero de metodologias que apontaram os transcritoscomo DE foi multiplicado por 10.000, para uma melhor visualizacao da relacaoentre extensao e indicacao. O eixo x apresenta as indicacoes do qRT-PCR paraos transcritos (DE e NE), os transcritos foram agrupados atraves dessa indicacao.As barras (em azul) indicam a quantidade de metodologias de analise de EDGapontaram o gene como DE.

Fonte: Autoria Propria

bem identificados por metodologias de analise de GDE para RNA-Seq. Essa relacao ainda pode

ser melhor avaliada.

Page 51: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 4. Resultados 38

Figura 13 – Histograma extensao de transcritos (verde) nao identificados por metodologias deRNA-Seq e indicados como DE por qRT-PCR.

Fonte: Autoria Propria

Page 52: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

39

5 Conclusoes

As interacoes entre um organismo e, as condicoes em que vive sao, em grande parte,

influenciadas pelas cadeias de reacoes quımicas que ocorrem neste organismo. A regulacao

dessas reacoes e feita pelos RNAs. Entender a relacao entre quais RNAs sao produzidos em

determinadas situacoes e fundamental para solucionar problemas como: controle de patogenos

em plantas, cura de doencas, producao de vacinas e medicamentos.

Neste contexto, este trabalho iniciou um levantamento acerca das metodologias de

identificacao de genes diferencialmente expressos, a partir de dados de sequenciamento de nova

geracao. Embora existam alguns estudos que comparam as metodologias de identificacao de

genes diferencialmente expressos (LI et al., 2015; RAPAPORT et al., 2013; TRAPNELL et al.,

2013; BULLARD et al., 2010; ZHANG et al., 2014), nao existe um consenso sobre qual seria a

metodologia mais apropriada (ZHANG et al., 2014).

Este trabalho busca uma comparacao geral entre as metodologias, ja que cada um

dos trabalhos comparativos citados analisam um grupo de metodologias. Juntamente com a

comparacao geral, buscamos identificar as metodologias com menor taxa de indicacoes erroneas

para genes diferencialmente expressos.

As analises preliminares, apresentadas no capıtulo 4 indicam que existem diferencas

consideraveis entre as metodologias. Tambem e possıvel afirmar que metodologias diferentes

podem convergir no geral, mas ignorar informacoes potencialmente relevantes. Uma metodologia

que identifique a acuracia do consenso e uma das possıveis direcoes futuras deste trabalho.

Neste trabalho nos tambem avaliamos a influencia da metodologia de mapeamento,

resultados individuais de identificacao de GDEs por sete metodologias e, resultados integrados

entre essas metodologias para identificacao de GDE em dados de RNA-Seq, utilizando como

referencia resultados de qRT-PCR. Identificamos que o impacto da ferramenta de mapeamento

no resultado final das analises e mınimo e que, de modo geral o metodo de identificacao

de GDE e a principal escolha para analises de expressao diferencial em dados de RNA-Seq.

Nao identificamos entre as ferramentas avaliadas uma ferramenta que obtivesse resultados

otimos em todas as medidas de desempenho, para a condicao experimental avaliada. A

ferramenta limma+vomm e NOIseq apresentaram os melhores resultados na identificacao de

GDE individualmente, mantendo SPC, TPR altos. Na avaliacao de conjuntos identificamos que

a juncao de quatro metodos e a opcao de consenso mais equilibrada e, proporciona resultados

mais confiaveis. A relacao entre extensao (em pares de base) de transcritos e a identificacao

de expressao diferencial de genes e uma relacao que precisa ser melhor avaliada em trabalhos

futuros.

Page 53: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

40

Referencias

ADAMS, M. D. et al. Complementary DNA sequencing: expressed sequence tags and humangenome project. Science, American Association for the Advancement of Science, v. 252,n. 5013, p. 1651–1656, 1991. Citado na pA ↪agina 8.

ALBERTS, B. et al. Biologia Molecular da Celula. Artmed Editora, 2009. 444–453 p. ISBN9788536321707. Disponıvel em: <https://books.google.com.br/books?id=bGzbgGZ\ A9UC>.Citado na pA ↪agina 1.

ANDERS, S.; HUBER, W. Differential expression analysis for sequence count data. Genomebiol, v. 11, n. 10, p. R106, 2010. Citado 9 vezes nas pA ↪aginas 3, 5, 14, 17, 19, 21, 23, 25 e 28.

BAINBRIDGE, M. N. et al. Analysis of the prostate cancer cell line LNCaP transcriptome usinga sequencing-by-synthesis approach. BMC genomics, BioMed Central Ltd, v. 7, n. 1, p. 246,2006. Citado 3 vezes nas pA ↪aginas 2, 8 e 11.

BAYANI, J.; SQUIRE, J. A. Fluorescence in situ hybridization (FISH). Current Protocols inCell Biology, Wiley Online Library, p. 22–4, 2004. Citado na pA ↪agina 1.

BAYES, T.; PRICE, R.; CANTON, J. An essay towards solving a problem in the doctrineof chances. [S.l.]: C. Davis, Printer to the Royal Society of London, 1763. Citado na pA ↪agina19.

BHARGAVA, A. et al. Identification of cytokinin-responsive genes using microarray meta-analysisand RNA-Seq in Arabidopsis. Plant Physiology, Am Soc Plant Biol, v. 162, n. 1, p. 272–294,2013. Citado na pA ↪agina 6.

BIOINFORMATICS DIVISION, THE WALTER AND ELIZA HALL INSTITUTE OF MEDICALRESEARCH. limma: Linear Models for Microarray and RNA-Seq Data UseraAZsGuide. Melbourne, Australia, 2016. Citado na pA ↪agina 26.

BULLARD, J. H. et al. Evaluation of statistical methods for normalization and differentialexpression in mRNA-Seq experiments. BMC bioinformatics, BioMed Central Ltd, v. 11, n. 1,p. 94, 2010. Citado 4 vezes nas pA ↪aginas 3, 4, 21 e 39.

BUSTIN, S. A. Absolute quantification of mRNA using real-time reverse transcription polymerasechain reaction assays. Journal of molecular endocrinology, Soc Endocrinology, v. 25, n. 2,p. 169–193, 2000. Citado 2 vezes nas pA ↪aginas 1 e 9.

CANALES, R. D. et al. Evaluation of DNA microarray results with quantitative gene expressionplatforms. Nature biotechnology, Nature Publishing Group, v. 24, n. 9, p. 1115–1122, 2006.Citado na pA ↪agina 22.

CLEVELAND, W. S.; DEVLIN, S. J. Locally weighted regression: an approach to regressionanalysis by local fitting. Journal of the American statistical association, Taylor & FrancisGroup, v. 83, n. 403, p. 596–610, 1988. Citado na pA ↪agina 19.

De Bona, F. et al. Optimal spliced alignments of short sequence reads. Bioinformatics, v. 24,n. 16, p. i174–i180, 2008. Disponıvel em: <http://bioinformatics.oxfordjournals.org/content/24/16/i174.abstract>. Citado na pA ↪agina 14.

Page 54: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Referencias 41

FERREIRA, S. B. L.; LEITE, J. C. S. d. P. Avaliacao da usabilidade em sistemas de informacao:o caso do sistema submarino. Revista de Administracao Contemporanea, Scielo Brasil,v. 7, n. 2, p. 115–136, 2003. Citado na pA ↪agina 6.

FISHER, R. A. The negative binomial distribution. Annals of Human Genetics, Wiley OnlineLibrary, v. 11, n. 1, p. 182–187, 1941. Citado na pA ↪agina 18.

GARBER, M. et al. Computational methods for transcriptome annotation and quantificationusing RNA-seq. Nature methods, Nature Publishing Group, v. 8, n. 6, p. 469–477, 2011.Citado 3 vezes nas pA ↪aginas 4, 13 e 14.

GEHRING, M.; MISSIRIAN, V.; HENIKOFF, S. Genomic analysis of parent-of-origin allelicexpression in Arabidopsis thaliana seeds. PLoS One, Public Library of Science, v. 6, n. 8, p.e23687, 2011. Citado na pA ↪agina 6.

GERMAIN, P.-L. et al. RNAontheBENCH: computational and empirical resources for bench-marking RNAseq quantification and differential expression methods. Nucleic acids research,Oxford Univ Press, p. gkw448, 2016. Citado na pA ↪agina 4.

GRIFFITH, M. et al. Alternative expression analysis by RNA sequencing. Nature methods,Nature Publishing Group, v. 7, n. 10, p. 843–847, 2010. Citado na pA ↪agina 14.

GUO, Y. et al. MultiRankSeq: multiperspective approach for RNAseq differential expressionanalysis and quality control. BioMed research international, Hindawi Publishing Corporation,v. 2014, 2014. Citado na pA ↪agina 4.

HANLEY, J. A.; MCNEIL, B. J. The meaning and use of the area under a receiver operatingcharacteristic (ROC) curve. Radiology, v. 143, n. 1, p. 29–36, 1982. Citado na pA ↪agina 33.

HARDCASTLE, T. J.; KELLY, K. A. baySeq: empirical Bayesian methods for identifyingdifferential expression in sequence count data. BMC bioinformatics, BioMed Central Ltd,v. 11, n. 1, p. 422, 2010. Citado 8 vezes nas pA ↪aginas 3, 4, 5, 18, 21, 23, 25 e 35.

HARROW, J. et al. Gencode: the reference human genome annotation for the encode project.Genome research, Cold Spring Harbor Lab, v. 22, n. 9, p. 1760–1774, 2012. Citado napA ↪agina 22.

HEID, C. A. et al. Real time quantitative PCR. Genome research, Cold Spring Harbor Lab,v. 6, n. 10, p. 986–994, 1996. Citado na pA ↪agina 10.

KENT, W. J. BLAT—the BLAST-like alignment tool. Genome research, Cold Spring HarborLab, v. 12, n. 4, p. 656–664, 2002. Citado na pA ↪agina 13.

KEVIL, C. G. et al. An improved, rapid Northern protocol. Biochemical and biophysicalresearch communications, Elsevier, v. 238, n. 2, p. 277–279, 1997. Citado na pA ↪agina 1.

KIM, D. et al. TopHat2: accurate alignment of transcriptomes in the presence of insertions,deletions and gene fusions. Genome biology, BioMed Central, v. 14, n. 4, p. 1, 2013. Citadona pA ↪agina 5.

KVAM, V. M.; LIU, P.; SI, Y. A comparison of statistical methods for detecting differentiallyexpressed genes from RNA-seq data. American journal of botany, Botanical Soc America,v. 99, n. 2, p. 248–256, 2012. Citado na pA ↪agina 4.

Page 55: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Referencias 42

LADEIRA, P.; ISAAC, C.; FERREIRA, M. Reacao em cadeia da polimerase da transcricaoreversa em tempo real. Revista de Medicina, v. 90, n. 1, p. 47–51, 2011. Disponıvel em:<http://www.revistas.usp.br/revistadc/article/view/58883>. Citado na pA ↪agina 9.

LANGMEAD, B.; SALZBERG, S. L. Fast gapped-read alignment with Bowtie 2. Naturemethods, Nature Publishing Group, v. 9, n. 4, p. 357–359, 2012. Citado 4 vezes nas pA ↪aginas, 5, 14 e 23.

LANGMEAD, B. et al. Ultrafast and memory-efficient alignment of short DNA sequences tothe human genome. Genome biol, v. 10, n. 3, p. R25, 2009. Citado 2 vezes nas pA ↪aginase 14.

LAW, C. W. et al. Voom: precision weights unlock linear model analysis tools for RNA-seqread counts. Genome biology, BioMed Central, v. 15, n. 2, p. 1, 2014. Citado 4 vezes naspA ↪aginas 5, 26, 31 e 35.

LENG, N. et al. EBSeq: an empirical Bayes hierarchical model for inference in RNA-seqexperiments. Bioinformatics, Oxford Univ Press, v. 29, n. 8, p. 1035–1043, 2013. Citado 5vezes nas pA ↪aginas 4, 5, 18, 25 e 31.

LI, B.; DEWEY, C. N. RSEM: accurate transcript quantification from RNA-Seq data with orwithout a reference genome. BMC bioinformatics, BioMed Central Ltd, v. 12, n. 1, p. 323,2011. Citado na pA ↪agina 21.

LI, H.; DURBIN, R. Fast and accurate short read alignment with Burrows–Wheeler transform.Bioinformatics, Oxford Univ Press, v. 25, n. 14, p. 1754–1760, 2009. Citado 4 vezes naspA ↪aginas , 5, 14 e 23.

LI, J.; TIBSHIRANI, R. Finding consistent patterns: a nonparametric approach for identifyingdifferential expression in RNA-Seq data. Statistical methods in medical research, SagePublications, v. 22, n. 5, p. 519–536, 2013. Citado 3 vezes nas pA ↪aginas 4, 5 e 26.

LI, P. et al. Comparing the normalization methods for the differential analysis of Illuminahigh-throughput RNA-Seq data. BMC bioinformatics, BioMed Central Ltd, v. 16, n. 1, p. 347,2015. Citado 6 vezes nas pA ↪aginas 4, 5, 14, 15, 17 e 39.

LOADER, C. Local Regression and Likelihood. Nova York: Springer, 1999. ISBN 0-387-98775-4. Citado na pA ↪agina 20.

LOBO, I. Basic local alignment search tool (BLAST). Nature Education, v. 1, n. 1, p. 215,2008. Citado na pA ↪agina 13.

MANTIONE, K. J. et al. Comparing bioinformatic gene expression profiling methods: Microarrayand RNA-Seq. Medical science monitor basic research, International Scientific Literature,Inc., v. 20, p. 138, 2014. Citado na pA ↪agina 1.

MARBACH, D. et al. Wisdom of crowds for robust gene network inference. Nature methods,Nature Publishing Group, v. 9, n. 8, p. 796–804, 2012. Citado na pA ↪agina 33.

MARIONI, J. C. et al. RNA-seq: an assessment of technical reproducibility and comparison withgene expression arrays. Genome research, Cold Spring Harbor Lab, v. 18, n. 9, p. 1509–1517,2008. Citado 2 vezes nas pA ↪aginas 3 e 18.

Page 56: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Referencias 43

MARQUETTI, A.; VIALI, L. Princıpios e aplicacoes de regressao local. Analise Economica,v. 22, n. 42, 2004. Citado na pA ↪agina 20.

MCGETTIGAN, P. A. Transcriptomics in the RNA-seq era. Current opinion in chemicalbiology, Elsevier, v. 17, n. 1, p. 4–11, 2013. Citado 2 vezes nas pA ↪aginas 8 e 9.

MORETTIN, P. A.; BUSSAB, W. O. Estatıstica basica. [S.l.]: Editora Saraiva, 2000. Citadona pA ↪agina 18.

MORTAZAVI, A. et al. Mapping and quantifying mammalian transcriptomes by RNA-Seq.Nature methods, Nature Publishing Group, v. 5, n. 7, p. 621–628, 2008. Citado 7 vezes naspA ↪aginas 2, 9, 14, 15, 21, 24 e 29.

MUDUNURI, U. et al. bioDBnet: the biological database network. Bioinformatics, OxfordUniv Press, v. 25, n. 4, p. 555–556, 2009. Citado na pA ↪agina 23.

MULLIS, K. Nobel Lecture: The Polymerase Chain Reaction. Nobel Prize: Chemistry. TheRoyal Swedish Academy of Sciences, Sweden, v. 8, 1993. Citado na pA ↪agina 9.

MULLIS, K. B.; FALOONA, F. A. Specific synthesis of DNA in vitro via a polymerase-catalyzedchain reaction. Methods in enzymology, v. 155, p. 335, 1987. Citado na pA ↪agina 9.

NOOKAEW, I. et al. A comprehensive comparison of RNA-Seq-based transcriptome analysisfrom reads to differential gene expression and cross-comparison with microarrays: a case studyin Saccharomyces cerevisiae. Nucleic acids research, Oxford Univ Press, p. gks804, 2012.Citado na pA ↪agina 4.

OSHLACK, A.; ROBINSON, M. D.; YOUNG, M. D. From RNA-seq reads to differentialexpression results. Genome biology, BioMed Central, v. 11, n. 12, p. 1, 2010. Citado napA ↪agina 2.

PARMIGIANI, G. et al. The Analysis of Gene Expression Data: Methods and Software.Springer New York, 2006. (Statistics for Biology and Health). ISBN 9780387216799. Disponıvelem: <https://books.google.com.br/books?id=ROPlBwAAQBAJ>. Citado na pA ↪agina 19.

PIETU, G. et al. The Genexpress IMAGE knowledge base of the human brain transcriptome: Aprototype integrated resource for functional and computational genomics. Genome research,ColdSpring, v. 9, n. 2, p. 195–209, 1999. Citado na pA ↪agina 8.

POISSON, S. D.; SCHNUSE, C. H. Recherches sur la probabilite des jugements enmatiere criminelle et en matiere civile. [S.l.]: Meyer, 1841. Citado na pA ↪agina 17.

PORTERFIELD, A. What is a Ct value? 2015. Disponıvel em: <http://bitesizebio.com/24581/what-is-a-ct-value/>. Citado na pA ↪agina 10.

RACINE, J. S. RStudio: A Platform-Independent IDE for R and Sweave. Journal of AppliedEconometrics, Wiley Online Library, v. 27, n. 1, p. 167–172, 2012. Citado na pA ↪agina 24.

RAPAPORT, F. et al. Comprehensive evaluation of differential gene expression analysis methodsfor RNA-seq data. Genome Biol, v. 14, n. 9, p. R95, 2013. Citado 6 vezes nas pA ↪aginas 2, 4,5, 6, 9 e 39.

RIEU, I.; POWERS, S. J. Real-time quantitative RT-PCR: design, calculations, and statistics.The Plant Cell, Am Soc Plant Biol, v. 21, n. 4, p. 1031–1033, 2009. Citado na pA ↪agina 11.

Page 57: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Referencias 44

ROBERTSON, G. et al. De novo assembly and analysis of RNA-seq data. Nature methods,Nature Publishing Group, v. 7, n. 11, p. 909–912, 2010. Citado na pA ↪agina 2.

ROBINSON, M. D.; MCCARTHY, D. J.; SMYTH, G. K. edgeR: a Bioconductor package fordifferential expression analysis of digital gene expression data. Bioinformatics, Oxford UnivPress, v. 26, n. 1, p. 139–140, 2010. Citado 9 vezes nas pA ↪aginas 3, 4, 5, 17, 18, 21, 23, 26e 35.

ROBINSON, M. D.; OSHLACK, A. et al. A scaling normalization method for differentialexpression analysis of RNA-seq data. Genome Biol, v. 11, n. 3, p. R25, 2010. Citado 4 vezesnas pA ↪aginas 16, 17, 24 e 29.

ROBINSON, M. D.; SMYTH, G. K. Moderated statistical tests for assessing differences in tagabundance. Bioinformatics, Oxford Univ Press, v. 23, n. 21, p. 2881–2887, 2007. Citado napA ↪agina 3.

SANGER, F. et al. The nucleotide sequence of bacteriophage ϕX174. Nature, Nature PublishingGroup, v. 265, p. 687–695, 1977. Citado na pA ↪agina 11.

SANGER, F.; NICKLEN, S.; COULSON, A. R. DNA sequencing with chain-terminating inhibitors.Proceedings of the National Academy of Sciences, National Acad Sciences, v. 74, n. 12,p. 5463–5467, 1977. Citado na pA ↪agina 11.

SCHENA, M. et al. Quantitative monitoring of gene expression patterns with a complementaryDNA microarray. Science, American Association for the Advancement of Science, v. 270,n. 5235, p. 467–470, 1995. Citado 2 vezes nas pA ↪aginas 1 e 8.

SCHUSTER, S. C. Next-generation sequencing transforms today’s biology. Nature, v. 200,n. 8, p. 16–18, 2007. Citado na pA ↪agina 11.

SEKI, M. et al. Monitoring the expression profiles of 7000 Arabidopsis genes under drought,cold and high-salinity stresses using a full-length cDNA microarray. The Plant Journal, WileyOnline Library, v. 31, n. 3, p. 279–292, 2002. Citado na pA ↪agina 1.

SEYEDNASROLLAH, F.; LAIHO, A.; ELO, L. L. Comparison of software packages for detectingdifferential expression in RNA-seq studies. Briefings in bioinformatics, Oxford Univ Press,v. 16, n. 1, p. 59–70, 2013. Citado 2 vezes nas pA ↪aginas 4 e 31.

SHI, L. et al. The MicroArray Quality Control (MAQC) project shows inter-and intraplatformreproducibility of gene expression measurements. Nature biotechnology, Nature PublishingGroup, v. 24, n. 9, p. 1151–1161, 2006. Citado 3 vezes nas pA ↪aginas 5, 21 e 22.

SNUSTAD, D. P. et al. Principles of genetics. [S.l.]: John Wiley, 2000. 1–15 p. Citado napA ↪agina 8.

SONESON, C.; DELORENZI, M. A comparison of methods for differential expression analysisof RNA-seq data. BMC bioinformatics, BioMed Central Ltd, v. 14, n. 1, p. 91, 2013. Citado3 vezes nas pA ↪aginas 4, 17 e 31.

SULTAN, M. et al. A global view of gene activity and alternative splicing by deep sequencingof the human transcriptome. Science, American Association for the Advancement of Science,v. 321, n. 5891, p. 956–960, 2008. Citado 2 vezes nas pA ↪aginas 2 e 9.

Page 58: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Referencias 45

TARAZONA, S. et al. Data quality aware analysis of differential expression in RNA-seq withNOISeq R/Bioc package. Nucleic acids research, Oxford Univ Press, p. gkv711, 2015. Citado6 vezes nas pA ↪aginas 4, 5, 23, 26, 31 e 35.

TARAZONA, S. et al. Differential expression in RNA-seq: a matter of depth. Genome research,Cold Spring Harbor Lab, v. 21, n. 12, p. 2213–2223, 2011. Citado 4 vezes nas pA ↪aginas 5, 23,26 e 35.

TRAPNELL, C. et al. Differential analysis of gene regulation at transcript resolution withRNA-seq. Nature biotechnology, Nature Publishing Group, v. 31, n. 1, p. 46–53, 2013.Citado 2 vezes nas pA ↪aginas 4 e 39.

TRAPNELL, C.; PACHTER, L.; SALZBERG, S. L. TopHat: discovering splice junctions withRNA-Seq. Bioinformatics, Oxford Univ Press, v. 25, n. 9, p. 1105–1111, 2009. Citado 3 vezesnas pA ↪aginas , 14 e 23.

TRAPNELL, C. et al. Differential gene and transcript expression analysis of RNA-seq experimentswith TopHat and Cufflinks. Nature protocols, Nature Publishing Group, v. 7, n. 3, p. 562–578,2012. Citado 2 vezes nas pA ↪aginas 21 e 24.

TRAPNELL, C. et al. Transcript assembly and quantification by RNA-Seq reveals unannotatedtranscripts and isoform switching during cell differentiation. Nature biotechnology, NaturePublishing Group, v. 28, n. 5, p. 511–515, 2010. Citado 2 vezes nas pA ↪aginas 15 e 29.

VELCULESCU, V. E. et al. Serial analysis of gene expression. Science, American Associationfor the Advancement of Science, v. 270, n. 5235, p. 484–487, 1995. Citado 2 vezes naspA ↪aginas 1 e 8.

VELCULESCU, V. E. et al. Characterization of the yeast transcriptome. Cell, Elsevier, v. 88,n. 2, p. 243–251, 1997. Citado na pA ↪agina 8.

WAGNER, G. P.; KIN, K.; LYNCH, V. J. Measurement of mRNA abundance using RNA-seqdata: RPKM measure is inconsistent among samples. Theory in Biosciences, Springer, v. 131,n. 4, p. 281–285, 2012. Citado 3 vezes nas pA ↪aginas 16, 21 e 24.

WANG, T.; BROWN, M. J. mRNA quantification by real time TaqMan polymerase chainreaction: validation and comparison with RNase protection. Analytical biochemistry, Elsevier,v. 269, n. 1, p. 198–201, 1999. Citado na pA ↪agina 10.

WANG, Z.; GERSTEIN, M.; SNYDER, M. RNA-Seq: a revolutionary tool for transcriptomics.Nature Reviews Genetics, Nature Publishing Group, v. 10, n. 1, p. 57–63, 2009. Citado 3vezes nas pA ↪aginas 2, 11 e 12.

WILHELM, B. T. et al. Dynamic repertoire of a eukaryotic transcriptome surveyed at single-nucleotide resolution. Nature, Nature Publishing Group, v. 453, n. 7199, p. 1239–1243, 2008.Citado 2 vezes nas pA ↪aginas 2 e 9.

WU, T. D.; NACU, S. Fast and SNP-tolerant detection of complex variants and splicing inshort reads. Bioinformatics, Oxford Univ Press, v. 26, n. 7, p. 873–881, 2010. Citado napA ↪agina 14.

WU, T. D.; WATANABE, C. K. GMAP: a genomic mapping and alignment program for mRNAand EST sequences. Bioinformatics, Oxford Univ Press, v. 21, n. 9, p. 1859–1875, 2005.Citado na pA ↪agina 13.

Page 59: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Referencias 46

ZAHA, A.; FERREIRA, H. B.; PASSAGLIA, L. M. Biologia Molecular Basica-5. [S.l.]:Artmed Editora, 2014. Citado na pA ↪agina 8.

ZHANG, Z. H. et al. A comparative study of techniques for differential expression analysis onRNA-Seq data. PloS one, Public Library of Science, v. 9, n. 8, p. e103207, 2014. Citado 8vezes nas pA ↪aginas 2, 3, 4, 5, 9, 21, 25 e 39.

Page 60: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

47

6 Resultados suplementares

6.1 Resultados suplementares de mapeamento

Resultados do mapeamento contra o genoma humano, biblioteca Brain (SRX016367).

Figura 14 – Comparacao entre metodologias de mapeamento. Contagem de genes com mais dedez reads mapeados, com as 7 corridas da biblioteca Brain. Cada cırculo representaa quantidade de genes com mais de dez reads mapeados de uma ferramenta.

Fonte: Autoria Propria

6.2 Resultados suplementares de expressao diferencial

Resultados das analises de expressao genica com resultados de mapeamento da

ferramenta BWA.

Page 61: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 6. Resultados suplementares 48

Figura 15 – Comparacao entre metodologias de identificacao de genes diferencialmente expres-sos. Relacao de genes que apresentaram logFoldChabge ≥ 2. Resultados gerados apartir do mapeamento da ferramenta BWA.

Fonte: Autoria Propria

Page 62: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

49

7 Resultados suplementares mapeadores

Tabela 7 – Mediadas de desempenho NOISeq.

NOISeq

TPR SPC PPV ACC F-Score

BWA 0,80 0,94 0,91 0,88 0,85Tophat 0,80 0,95 0,92 0,89 0,86Bowtie 0,80 0,95 0,92 0,89 0,86

Fonte: Autoria PrAspria

Tabela 8 – Mediadas de desempenho DESeq.

DESeq

TVP SPC VPP AC F-Score

BWA 0,44 0,58 0,42 0,52 0,43Tophat 0,44 0,59 0,43 0,53 0,44Bowtie 0,44 0,59 0,43 0,53 0,44

Fonte: Autoria PrAspria

Tabela 9 – Medidas de desempenho baySeq.

baySeq

TVP SPC VPP AC F-Score

BWA 0,92 0,40 0,52 0,61 0,66Tophat 0,92 0,40 0,52 0,61 0,66Bowtie 0,92 0,39 0,52 0,61 0,66

Fonte: Autoria PrAspria

Page 63: ANALISE DE EXPRESS AO DIFERENCIAL PARA DADOS DE~ …paginapessoal.utfpr.edu.br/fabricio/fabricio-martins-lopes/... · de RNA-Seq foram mapeados ao genoma humano (vers~ao hg19) pelos

Capıtulo 7. Resultados suplementares mapeadores 50

Tabela 10 – Medidas de desempenho edgeR.

edgeR

TVP SPC VPP AC F-Score

BWA 0,72 0,94 0,89 0,85 0,79Tophat 0,71 0,94 0,90 0,85 0,79Bowtie 0,71 0,94 0,90 0,85 0,79

Fonte: Autoria PrAspria