Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Transcritômica
João Carlos Setubal
IQ/USP
outubro de 2013
Objetivo
• Obter, analisar, e interpretar dados de expressão gênica
• mRNAs (que vão virar proteína)
• RNAs (que não vão virar proteína; ncRNAs)
• O gene é expresso ou não?
• Abundância
• Não esquecer que níveis de expressão de mRNAs nem sempre se correlacionam com níveis de expressão das proteínas correspondentes
• Condições de expressão
Expressão gênica
• Quase sempre estamos interessados na variação da expressão em diferentes condições (expressão diferencial)
• Exemplos
– Células normais (c1) e cancerosas (c2) de um determinado tecido (ex: fígado)
– Bactéria crescendo num meio de cultura X (c1) versus meio de cultura Y (c2)
Duas metodologias básicas
• Hibridização (microarrays)
• Sequenciamento
– Expressed Sequence Tags (EST)
– RNA-seq
Microarrays
• Tecnologia bem estabelecida (20 anos ou mais) • Depende de hibridização entre moléculas • É necessário criar o chip com moléculas pré-
determinadas • Quantificação da hibridização depende de análise
computacional de imagens • Sujeita a erros nas diversas etapas • Necessidade de normalização para capturar transcritos
pouco abundantes • Necessidade de replicatas biológicas e técnicas • barato
Sequenciamento: RNA-seq
• Uso de sequenciamento de alto desempenho (high throughput, next generation sequencing) para sequenciar RNA total (ou filtrado) de amostras
• Ainda caro quando comparado com microarrays • Também sujeito a erros • Potencialmente muito mais preciso do que microarrays
– Transcritos pouco abundantes
• Sem a limitação de moléculas pré-determinadas: transcritoma para valer!
• Também precisa – de replicatas técnicas e biológicas – Confirmação por RT-PCR para casos críticos
• Reads são curtos (50 a 200 bp)
Outros aspectos de RNA-seq
• Mapeamento de sequências de transcritos no respectivo genoma (quando disponível) – RNA-seq criou a necessidade de algoritmos capazes de
• lidar com grande volume de dados (mapeamento de milhões de reads)
• lidar com problemas tais como splice alternativo • PD, BLAST, MUMmer não servem!
– Diversos softwares específicos
• Reconstrução (ou montagem) de transcritos – Exons na ordem correta – Problema: splices alternativos (isoformas)
• Sequências de transcritos são muito úteis para ajudar na anotação do genoma (determinação de genes)
Garber et al. 2011
Reconstrução de mRNA
Normalização dos valores de expressão medidos pelo número de reads mapeados
• Fontes de variação
– Fragmentação de RNA na construção de bibliotecas faz com que transcritos mais longos gerem mais reads comparado com transcritos mais curtos com mesmos níveis de abundância, numa dada amostra
– Diferentes corridas de sequenciamento produzem diferentes números de reads
RPKM
• Reads per kilobase of transcript per million mapped reads
• Dado um trecho de 1 kbp de transcrito
• Se neste trecho houver 1 milhão de reads mapeados
• RPKM = 1
• Leva em conta o tamanho e o número de reads
• FKPM = fragments (paired-end reads)
Outros problemas
• Nem sempre é possível obter unicidade de mapeamento de reads – Múltiplas isoformas
– Parálogos
• Em geral queremos quantificar a expressão de genes e não de isoformas; como fazer? – Intersecção dos reads mapeados nos exons de um
dado gene
– União dos reads mapeados nos exons de um dado gene
Garber et al. 2011
Trapnell et al. 2012
Expressão diferencial
• Estatística é fundamental
• Objetivo: estabelecer que a expressão de um gene é significativamente maior (ou menor) em condição c1 do que em condição c2
• Z scores ou Standard scores
• 𝑧 =𝑥 −μ
σ
• x = score bruto
• μ = média (população)
• σ = desvio padrão (população)
• Uma forma de normalizar valores de amostras diferentes
Heat maps São matrizes de valores representados graficamente • em geral são valores comparativos • “fold values” : quantas vezes maior do que um valor de referência (ex: Z-score zero) • tons de verde representam valores acima do valor de referência • tons de vermelho representam valores abaixo do valor de referência • valores escuros representam valores próximos do valor de referência • Valores semelhantes podem ser agrupados nas linhas e/ou nas colunas: clusterização hierárquica • Exige noção de similaridade ou distância • A linguagem R permite gerar heat maps
http://en.wikipedia.org/wiki/File:Heatmap.png
Transcritômica e Redes
• Co-expressão de genes
• Construção de redes de expressão (interação) gênica
• Redes de interação proteína-proteína (PPI networks)
– Dependem de outras tecnologias
• Biologia de sistemas
Literatura
• Garber et al. 2011. Computational methods for transcriptome annotation and quantification using RNA-seq. Nature Methods 8(6): 469-477.
• Trapnell et al. 2012. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nature Protocols. 562, 7:3.
Garber et al. 2011