19
Transcritômica João Carlos Setubal IQ/USP outubro de 2013

Transcritômica - IQ USP · IQ/USP outubro de 2013 . Objetivo • Obter, analisar, e interpretar dados de expressão gênica ... •Reads per kilobase of transcript per million mapped

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Transcritômica - IQ USP · IQ/USP outubro de 2013 . Objetivo • Obter, analisar, e interpretar dados de expressão gênica ... •Reads per kilobase of transcript per million mapped

Transcritômica

João Carlos Setubal

IQ/USP

outubro de 2013

Page 2: Transcritômica - IQ USP · IQ/USP outubro de 2013 . Objetivo • Obter, analisar, e interpretar dados de expressão gênica ... •Reads per kilobase of transcript per million mapped

Objetivo

• Obter, analisar, e interpretar dados de expressão gênica

• mRNAs (que vão virar proteína)

• RNAs (que não vão virar proteína; ncRNAs)

• O gene é expresso ou não?

• Abundância

• Não esquecer que níveis de expressão de mRNAs nem sempre se correlacionam com níveis de expressão das proteínas correspondentes

• Condições de expressão

Page 3: Transcritômica - IQ USP · IQ/USP outubro de 2013 . Objetivo • Obter, analisar, e interpretar dados de expressão gênica ... •Reads per kilobase of transcript per million mapped

Expressão gênica

• Quase sempre estamos interessados na variação da expressão em diferentes condições (expressão diferencial)

• Exemplos

– Células normais (c1) e cancerosas (c2) de um determinado tecido (ex: fígado)

– Bactéria crescendo num meio de cultura X (c1) versus meio de cultura Y (c2)

Page 4: Transcritômica - IQ USP · IQ/USP outubro de 2013 . Objetivo • Obter, analisar, e interpretar dados de expressão gênica ... •Reads per kilobase of transcript per million mapped

Duas metodologias básicas

• Hibridização (microarrays)

• Sequenciamento

– Expressed Sequence Tags (EST)

– RNA-seq

Page 5: Transcritômica - IQ USP · IQ/USP outubro de 2013 . Objetivo • Obter, analisar, e interpretar dados de expressão gênica ... •Reads per kilobase of transcript per million mapped

Microarrays

• Tecnologia bem estabelecida (20 anos ou mais) • Depende de hibridização entre moléculas • É necessário criar o chip com moléculas pré-

determinadas • Quantificação da hibridização depende de análise

computacional de imagens • Sujeita a erros nas diversas etapas • Necessidade de normalização para capturar transcritos

pouco abundantes • Necessidade de replicatas biológicas e técnicas • barato

Page 6: Transcritômica - IQ USP · IQ/USP outubro de 2013 . Objetivo • Obter, analisar, e interpretar dados de expressão gênica ... •Reads per kilobase of transcript per million mapped

Sequenciamento: RNA-seq

• Uso de sequenciamento de alto desempenho (high throughput, next generation sequencing) para sequenciar RNA total (ou filtrado) de amostras

• Ainda caro quando comparado com microarrays • Também sujeito a erros • Potencialmente muito mais preciso do que microarrays

– Transcritos pouco abundantes

• Sem a limitação de moléculas pré-determinadas: transcritoma para valer!

• Também precisa – de replicatas técnicas e biológicas – Confirmação por RT-PCR para casos críticos

• Reads são curtos (50 a 200 bp)

Page 7: Transcritômica - IQ USP · IQ/USP outubro de 2013 . Objetivo • Obter, analisar, e interpretar dados de expressão gênica ... •Reads per kilobase of transcript per million mapped

Outros aspectos de RNA-seq

• Mapeamento de sequências de transcritos no respectivo genoma (quando disponível) – RNA-seq criou a necessidade de algoritmos capazes de

• lidar com grande volume de dados (mapeamento de milhões de reads)

• lidar com problemas tais como splice alternativo • PD, BLAST, MUMmer não servem!

– Diversos softwares específicos

• Reconstrução (ou montagem) de transcritos – Exons na ordem correta – Problema: splices alternativos (isoformas)

• Sequências de transcritos são muito úteis para ajudar na anotação do genoma (determinação de genes)

Page 8: Transcritômica - IQ USP · IQ/USP outubro de 2013 . Objetivo • Obter, analisar, e interpretar dados de expressão gênica ... •Reads per kilobase of transcript per million mapped

Garber et al. 2011

Reconstrução de mRNA

Page 9: Transcritômica - IQ USP · IQ/USP outubro de 2013 . Objetivo • Obter, analisar, e interpretar dados de expressão gênica ... •Reads per kilobase of transcript per million mapped

Normalização dos valores de expressão medidos pelo número de reads mapeados

• Fontes de variação

– Fragmentação de RNA na construção de bibliotecas faz com que transcritos mais longos gerem mais reads comparado com transcritos mais curtos com mesmos níveis de abundância, numa dada amostra

– Diferentes corridas de sequenciamento produzem diferentes números de reads

Page 10: Transcritômica - IQ USP · IQ/USP outubro de 2013 . Objetivo • Obter, analisar, e interpretar dados de expressão gênica ... •Reads per kilobase of transcript per million mapped

RPKM

• Reads per kilobase of transcript per million mapped reads

• Dado um trecho de 1 kbp de transcrito

• Se neste trecho houver 1 milhão de reads mapeados

• RPKM = 1

• Leva em conta o tamanho e o número de reads

• FKPM = fragments (paired-end reads)

Page 11: Transcritômica - IQ USP · IQ/USP outubro de 2013 . Objetivo • Obter, analisar, e interpretar dados de expressão gênica ... •Reads per kilobase of transcript per million mapped

Outros problemas

• Nem sempre é possível obter unicidade de mapeamento de reads – Múltiplas isoformas

– Parálogos

• Em geral queremos quantificar a expressão de genes e não de isoformas; como fazer? – Intersecção dos reads mapeados nos exons de um

dado gene

– União dos reads mapeados nos exons de um dado gene

Page 12: Transcritômica - IQ USP · IQ/USP outubro de 2013 . Objetivo • Obter, analisar, e interpretar dados de expressão gênica ... •Reads per kilobase of transcript per million mapped

Garber et al. 2011

Page 13: Transcritômica - IQ USP · IQ/USP outubro de 2013 . Objetivo • Obter, analisar, e interpretar dados de expressão gênica ... •Reads per kilobase of transcript per million mapped

Trapnell et al. 2012

Page 14: Transcritômica - IQ USP · IQ/USP outubro de 2013 . Objetivo • Obter, analisar, e interpretar dados de expressão gênica ... •Reads per kilobase of transcript per million mapped

Expressão diferencial

• Estatística é fundamental

• Objetivo: estabelecer que a expressão de um gene é significativamente maior (ou menor) em condição c1 do que em condição c2

• Z scores ou Standard scores

• 𝑧 =𝑥 −μ

σ

• x = score bruto

• μ = média (população)

• σ = desvio padrão (população)

• Uma forma de normalizar valores de amostras diferentes

Page 15: Transcritômica - IQ USP · IQ/USP outubro de 2013 . Objetivo • Obter, analisar, e interpretar dados de expressão gênica ... •Reads per kilobase of transcript per million mapped

Heat maps São matrizes de valores representados graficamente • em geral são valores comparativos • “fold values” : quantas vezes maior do que um valor de referência (ex: Z-score zero) • tons de verde representam valores acima do valor de referência • tons de vermelho representam valores abaixo do valor de referência • valores escuros representam valores próximos do valor de referência • Valores semelhantes podem ser agrupados nas linhas e/ou nas colunas: clusterização hierárquica • Exige noção de similaridade ou distância • A linguagem R permite gerar heat maps

http://en.wikipedia.org/wiki/File:Heatmap.png

Page 16: Transcritômica - IQ USP · IQ/USP outubro de 2013 . Objetivo • Obter, analisar, e interpretar dados de expressão gênica ... •Reads per kilobase of transcript per million mapped

Transcritômica e Redes

• Co-expressão de genes

• Construção de redes de expressão (interação) gênica

• Redes de interação proteína-proteína (PPI networks)

– Dependem de outras tecnologias

• Biologia de sistemas

Page 17: Transcritômica - IQ USP · IQ/USP outubro de 2013 . Objetivo • Obter, analisar, e interpretar dados de expressão gênica ... •Reads per kilobase of transcript per million mapped
Page 18: Transcritômica - IQ USP · IQ/USP outubro de 2013 . Objetivo • Obter, analisar, e interpretar dados de expressão gênica ... •Reads per kilobase of transcript per million mapped

Literatura

• Garber et al. 2011. Computational methods for transcriptome annotation and quantification using RNA-seq. Nature Methods 8(6): 469-477.

• Trapnell et al. 2012. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nature Protocols. 562, 7:3.

Page 19: Transcritômica - IQ USP · IQ/USP outubro de 2013 . Objetivo • Obter, analisar, e interpretar dados de expressão gênica ... •Reads per kilobase of transcript per million mapped

Garber et al. 2011