Transcritômica - IQ USP · IQ/USP outubro de 2013 . Objetivo • Obter, analisar, e interpretar dados de expressão gênica ... •Reads per kilobase of transcript per million mapped

Transcritômica

João Carlos Setubal

IQ/USP

outubro de 2013

Objetivo

• Obter, analisar, e interpretar dados de expressão gênica

• mRNAs (que vão virar proteína)

• RNAs (que não vão virar proteína; ncRNAs)

• O gene é expresso ou não?

• Abundância

• Não esquecer que níveis de expressão de mRNAs nem sempre se correlacionam com níveis de expressão das proteínas correspondentes

• Condições de expressão

Expressão gênica

• Quase sempre estamos interessados na variação da expressão em diferentes condições (expressão diferencial)

• Exemplos

– Células normais (c1) e cancerosas (c2) de um determinado tecido (ex: fígado)

– Bactéria crescendo num meio de cultura X (c1) versus meio de cultura Y (c2)

Duas metodologias básicas

• Hibridização (microarrays)

• Sequenciamento

– Expressed Sequence Tags (EST)

– RNA-seq

Microarrays

• Tecnologia bem estabelecida (20 anos ou mais) • Depende de hibridização entre moléculas • É necessário criar o chip com moléculas pré-

determinadas • Quantificação da hibridização depende de análise

computacional de imagens • Sujeita a erros nas diversas etapas • Necessidade de normalização para capturar transcritos

pouco abundantes • Necessidade de replicatas biológicas e técnicas • barato

Sequenciamento: RNA-seq

• Uso de sequenciamento de alto desempenho (high throughput, next generation sequencing) para sequenciar RNA total (ou filtrado) de amostras

• Ainda caro quando comparado com microarrays • Também sujeito a erros • Potencialmente muito mais preciso do que microarrays

– Transcritos pouco abundantes

• Sem a limitação de moléculas pré-determinadas: transcritoma para valer!

• Também precisa – de replicatas técnicas e biológicas – Confirmação por RT-PCR para casos críticos

• Reads são curtos (50 a 200 bp)

Outros aspectos de RNA-seq

• Mapeamento de sequências de transcritos no respectivo genoma (quando disponível) – RNA-seq criou a necessidade de algoritmos capazes de

• lidar com grande volume de dados (mapeamento de milhões de reads)

• lidar com problemas tais como splice alternativo • PD, BLAST, MUMmer não servem!

– Diversos softwares específicos

• Reconstrução (ou montagem) de transcritos – Exons na ordem correta – Problema: splices alternativos (isoformas)

• Sequências de transcritos são muito úteis para ajudar na anotação do genoma (determinação de genes)

Garber et al. 2011

Reconstrução de mRNA

Normalização dos valores de expressão medidos pelo número de reads mapeados

• Fontes de variação

– Fragmentação de RNA na construção de bibliotecas faz com que transcritos mais longos gerem mais reads comparado com transcritos mais curtos com mesmos níveis de abundância, numa dada amostra

– Diferentes corridas de sequenciamento produzem diferentes números de reads

RPKM

• Reads per kilobase of transcript per million mapped reads

• Dado um trecho de 1 kbp de transcrito

• Se neste trecho houver 1 milhão de reads mapeados

• RPKM = 1

• Leva em conta o tamanho e o número de reads

• FKPM = fragments (paired-end reads)

Outros problemas

• Nem sempre é possível obter unicidade de mapeamento de reads – Múltiplas isoformas

– Parálogos

• Em geral queremos quantificar a expressão de genes e não de isoformas; como fazer? – Intersecção dos reads mapeados nos exons de um

dado gene

– União dos reads mapeados nos exons de um dado gene

Garber et al. 2011

Trapnell et al. 2012

Expressão diferencial

• Estatística é fundamental

• Objetivo: estabelecer que a expressão de um gene é significativamente maior (ou menor) em condição c1 do que em condição c2

• Z scores ou Standard scores

• 𝑧 =𝑥 −μ

σ

• x = score bruto

• μ = média (população)

• σ = desvio padrão (população)

• Uma forma de normalizar valores de amostras diferentes

Heat maps São matrizes de valores representados graficamente • em geral são valores comparativos • “fold values” : quantas vezes maior do que um valor de referência (ex: Z-score zero) • tons de verde representam valores acima do valor de referência • tons de vermelho representam valores abaixo do valor de referência • valores escuros representam valores próximos do valor de referência • Valores semelhantes podem ser agrupados nas linhas e/ou nas colunas: clusterização hierárquica • Exige noção de similaridade ou distância • A linguagem R permite gerar heat maps

http://en.wikipedia.org/wiki/File:Heatmap.png

Transcritômica e Redes

• Co-expressão de genes

• Construção de redes de expressão (interação) gênica

• Redes de interação proteína-proteína (PPI networks)

– Dependem de outras tecnologias

• Biologia de sistemas

Literatura

• Garber et al. 2011. Computational methods for transcriptome annotation and quantification using RNA-seq. Nature Methods 8(6): 469-477.

• Trapnell et al. 2012. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nature Protocols. 562, 7:3.

Garber et al. 2011

Documents

Transcritômica - IQ USP · IQ/USP outubro de 2013 . Objetivo • Obter, analisar, e interpretar dados de expressão gênica ... •Reads per kilobase of transcript per million mapped