ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA
DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA
Leandro Costa do NascimentoOrientador: Prof. Dr. Gonçalo A. G. Pereira
Co-orientador: Marcelo Falsarella Carazzolle
INTRODUÇÃO – A SOJA
• Origem no sudoeste asiático• Alto valor nutritivo• Uso em prevenção de doenças (Coward et al,
1993) • Genoma razoavelmente compleco com 1,1
Gbp e cerca de 60% de regiões repetitivas (Shoemaker et al, 1996)
A SOJA NO BRASIL
• Segundo maior produtor mundial• Liderança mundial de exportações a partir da
safra 2007/2008• 12% do total de exportações brasileiras• Produção concentrada no Centro-Oeste e
baseada no agronegócio• Atualmente, é a matéria-prima mais viável
para a produção do biodiesel
PROJETO GENOSOJA
• Consórcio nacional de pesquisa integrando diversos laboratórios
• Visa integrar dados do genoma da planta com dados de expressão de genes
• Enfâse em genes que comprometem a produção brasileira -> melhoramento genético
• Bancos de dados armazenados e administrados pelo LGE
OBJETIVO DO PROJETO
• Análise de bioinformática para o projeto GENOSOJA:
- Integração dos dados do projeto com dados disponíveis em bancos de dados públicos
- Geração de um perfil de expressão de genes para auxiliar a compreensão de como as diferenças de expressão gênica influenciam características de importância agronômica
RESUMO DOS DADOS
Dados públicos• Genoma (cultivar Williams 82)• Genes preditos (usando o genoma)• ESTs disponíveis no NCBI (diversos cultivares)
Dados gerados pelo GENOSOJA• Tags de SuperSAGE• Bibliotecas subtrativas de ESTs• Bibliotecas de MicroRNAs
ESTs NCBI (diversos
cultivares)
Montagem de ESTs
Gene Models Preditos
Genoma (cultivar
Williams 82)
Tags de SuperSAGE (Genosoja)
Expressão de genes
Bibliotecas subtrativas de
ESTs (Genosoja)
Bibliotecas de MicroRNas(Genosoja)
GENOMA DA SOJA
• Dados disponibilizados pelo JGI (Joint Genome Institute)
• 13 milhões de reads de shotgun• Cobertura: 7,23X• Cultivar Williams 82• 20 cromossomos• http://www.phytozome.net/soybean
PREDIÇÃO DE GENES
• Um preditor de genes é um programa que, dada um sequência genômica ele deve ser capaz de identificar onde começam e terminam os genes
AAA ATGTTAACGAGTGCAATCACGTAA CCCT
ATGTTAACGAGTGCAATCACGTAA
PREDITOR DE GENES
PREDIÇÃO DE GENES NO GENOMA DA SOJA
• Proteínas de diversas angiospermas e cerca de 1.600.000 ESTs de soja
• Proteínas foram alinhadas com o genoma para identificar possíveis regiões gênicas
• GenomeScan (Yeh et al, 2001) identificou os genes comparando as regiões gênicas com os ESTs
• 66.153 genes preditos
EXPRESSED SEQUENCE TAGS (ESTs)
• Sequências curtas geradas a partir de uma seleção aleatória de cDNA
• Dados altamente fragmentados, entre 200 e 800 bp
Algumas aplicações• Predição de genes• Descoberta de genes• Estudos de expressão gênica
ESTs
Exons
Introns5’ UTR 3’ UTRPromotor
RNA primário
DNA
RNA maduro (sem introns)AAAAAA
TTTTTT cDNA
EST
CTGATTCCAAGGACCTCATCCTTTTTTGACTAAGGTTCCTGGAGTAGGAAAAAA
AAAAAA
ESTs DE SOJA NO NCBI
• 1.276.813 ESTs de soja foram obtidos a partir do banco dbEST do NCBI
- 394.386 provenientes de sequenciamento Sanger (cerca de 600 bp) -> disponíveis desde o início do projeto
- 882.427 provenientes de sequenciamento 454 (cerca de 250 bp) -> disponíveis somente no início de 2009
ESTs
rRemoção de sequências ribossomais
Remoção de sequênciasde vetor
Remoção de Poly-A/T
Remoção de sequências curtas
Remoção de regiõesde baixa qualidade
Montagem
Separação dos ESTs por espécie e biblioteca
Anotação
MONTAGEM DE ESTs
• A montagem é realizada através da busca de sobreposição entre as sequências
• Diminui a quantidade de dados e exclui a redundância
• A sequência formada pela sobreposição de vários ESTs é chamada de contig
• As sequências sem sobreposição são chamadas de singlets
SEQ1: ATCGGTCCAASEQ2: ATGGGACCAAAASEQ3: TTGGGTCCAGA
SEQ4: GGTATTCCGGATSEQ5: GGTTTCCCGATA
ATCGGTCCAA ATGGGACCAAAA
TTGGGTCCAGACONTIG1: ATGGGTCCAAAA
SEQ6: CCCGCTAAA
GGTATTCCGGAT GGTTTCCCGAAT
CONTIG2: GGTATTCCGGAT
SEQ4 COM MAIS QUALIDADE
SINGLET
MONTAGEM DE ESTs
ERROS RESULTANTES DA MONTAGEM
Erro 1: Sequências relativas aomesmo gene são agrupadas emcontigs diferentes
EST1
EST2
EST3
EST4
Contig1Contig2Contig1
Gene 1 Gene 2
EST1
EST2
EST3
EST4
Erro 2: Sequências relativas agenes diferentes são agrupadas nomesmo contig
Gene 1
Contig1 Contig2Contig1
COMO DEFINIR A MELHOR MONTAGEM?
• Diferenciação entre os parâmetros do programa de montagem
• Tamanho da região de sobreposição (O)
• Porcentual de similaridade entre a região de sobreposição (P)
EST1
EST2 = O
• Dois tipos de montagem: • De novo: todos os ESTs agrupados em
conjunto• Ancoragem com o genoma da soja - BLASTN com e-value 1e-10 dos ESTs com as
sequências do genoma - Todas as sequências que alinhavam com a
mesma região do genoma eram agrupadas em conjunto
MONTAGEM DOS ESTs DE SOJA
EST2
EST6
Montagem 1 Montagem 2
Singlet
Cromossomo 1
EST1
EST3
EST4
EST5EST7
Montagem 1: 1 contig e 1 singletMontagem 2: 1 contig Montagem 3: 1 contigFinal: 3 contigs e 2 singlets
EST8
EST9
Montagem 3
MONTAGEM DOS ESTs DE SOJA
MONTAGEM DOS ESTs (SANGER)
Tam. da região de sobreposição (O)
Porcentual de similaridade Tipo Contigs Singlets
1 30 75 De novo 22.540 42.6882 100 85 De novo 24996 419793 100 90 De novo 27071 482844 100 95 De novo 30622 615805 30 75 Ancoragem 28625 389546 100 90 Ancoragem 29747 51558
• Conjunto verdade: Gene models preditos• Todos os ESTs utilizados na montagem foram
alinhados com os Gene Models do genoma através do BLASTN (e-value de corte 1e-10)
• Objetivo: avaliar o número de contigs das montagens que possuíam ESTs alinhando com Gene Models diferentes
• Erro permitido: 10%
COMO DEFINIR A MELHOR MONTAGEM?
Gene Model 1 Gene Model 2
EST1
EST2
EST3
EST4
EST5
EST6
EST7
EST8
Contig1
EST1
EST2
EST4
Contig2
EST5
EST6
EST3 Gene Model 1
IncorretoCorreto
Total de gene models preditos: 66.153
• Os parâmetros da melhor montagem de Sanger foram utilizados para montar todos os ESTs
• Ancorando com o genoma: 60.747 unigenes, 30.809 contigs e 29.938 singlets
• De novo: 200.735 unigenes, 28.501 contigs e 172.234 singlets
Ribossomais 86.742Vetor 83.716Poly A/T 90.193Curtas 88.085Utilizadas 1.101.986
MONTAGEM DOS ESTs
• Identificação de função para sequências biológicas
• Busca por similaridade com bancos de dados, como NR e Swiss-Prot
• Foram anotados os contigs e singlets da montagem e os genes preditos do genoma
• AutoFACT (Koski et al, 2005)
ANOTAÇÃO
ELETRONIC NORTHERN• Inferência de expressão gênica a partir de
uma montagem de ESTs• Somente para bibliotecas não subtrativas• Frequência de ESTs de cada biblioteca em
cada contig• As estatísticas devem levar em conta o
tamanho de cada biblioteca (normalização)
Folha
Contig1 Contig2Raiz - 100 ESTs
- 300 ESTs
Ordenação dos resultados Links para os Blasts NR eAutofact
Link para a interface deanotação
• Variação da técnica de Sage, gerando tags mais longas, com 26 bp
• Expressão de genes -> quantificação da abundância de transcritos em uma população de células
• Mas como são geradas as tags?
SuperSAGE
AAAAAA
TTTTTTGTACGTAC
TTTTTTGTAC
AAAAAACATG
CATG TAG com 26pb
cDNA – Fita simples
NlaIII
EcoP151
ANÁLISE DE TAGS DE SuperSAGE
~44 = 256bp
GTAC
CATG
UTR
~44 = 256bp
ANÁLISE DE TAGS DE SuperSAGE
• O número de repetições de uma determinada tag é a representação do transcrito referente a ela na amostra
TAG Biblioteca1 Biblioteca2CATGTCCCGGTAATGAAAGCGGATAC 112 6 Gene DownCATGTGCAAGATCTGCCTTGAACAAG 14 87 Gene Up
COMO IDENTIFICAR OS GENESCORRESPONDENTES???
ALINHAMENTO COM BANCOS DE DADOS
DE GENES CONHECIDOS
CATG
Banco de dados da Montagem
de ESTs
Banco de dadosde Gene Models
Banco de dadosde genoma
Programa de alinhamento
Melhores alinhamentos Anotação
Filtro baseado nos mismatches e no banco
de dados
Montagem - ESTs
Genemodels
Genoma
ANÁLISE DE TAGS DE SuperSAGE
• As tags foram geradas por sequenciamento Illumina Solexa
• Dados gerados pelo GENOSOJA
Biblioteca TagsSoja sadia PM3T 813.205
Soja infectada PI3T 885.439
Ferrugem Asiática
Biblioteca TagsSoja sadia BT0 1.092.374
Soja infectada BT1.6 509.465
Seca Cultivar BR16
Biblioteca TagsSoja sadia ET0 653.352
Soja infectada ET1.6 419.218
Seca Cultivar Embrapa48
21.388 TAGs não alinhadas 83.337 TAGs alinhadas
Biblioteca sadia
813.205 TAGs
Biblioteca infectada
885.439 TAGs
TAGs com Freq <=1 descartadas
104.725 TAGs únicasBancos de dados
- 20 cromossomos
- 66.153 gene models
- 60,747 clusters de ESTs
Mapeamento de TAGs com bancos de dados -> SOAP (2 mismatches)
Genes de Phakopsora pachyrhizi??? Genoma???
AC test (p < 0.05)
7,430 down-regulated 8,331 up-regulated
FERRUGEM ASIÁTICA
83.337 TAGs alinhadas
7.430 down-regulated 8.331 up-regulated
104.725 TAGs únicas
83.337 TAGs alinhadas
42.823 TAGS
19.572 Genes
Nº tags Bib. Sadia Nº tags Bib. Infectada Tags únicasFerrugem Asiática 813.205 885.439 104.725Seca cultivar BR16 1.092.374 509.465 89.205
Seca cultivar Embrapa48 653.352 419.218 74.833
Tags alinhadasTags alinhadas em ESTs/ Gene Models
Tags alinhadas em ESTs/ Gene Models c/
1 só alinhamentoFerrugem Asiática 83.337 42.823 35.893Seca cultivar BR16 75.233 40.330 32.336
Seca cultivar Embrapa48 63.083 33.322 28.188
Nº de genes Genes c/1 TAGFerrugem Asiática 19.572 11.209Seca cultivar BR16 21.763 13.300
Seca cultivar Embrapa48 17.821 11.101
Adaptors
Driver Driver and Tester
Tester
Driver Tester
No amplificated Exponential Amplification
Linear Amplification
EliminatedEliminated Enriched Tester
1-cDNA synthesis
2-cDNA digestion with 4 cutter enzyme
3-Adaptor ligation to tester sample
4-Tester/ driver hybridization
5-PCR with primers that anneal
specifically to adaptor previously
ligated to tester sample
6-Enrichment of cDNA library in genes
preferentially expressed in tester
sample
Control Treated RNA Pools
BIBLIOTECAS SUBTRATIVAS
BIBLIOTECAS SUBTRATIVAS - GENOSOJABiblioteca Cultivar Sequências Tamanho
L1 Seca - Folha BR16 - resist. 1.854.641 36 bpL2 Seca - Folha BR16 - resist. 519.031 36 bpL3 Seca - Folha BR16 - resist. 2.035.320 36 bpR1 Seca - Raiz BR16 - resist. 2.486.569 36 bpR2 Seca - Raiz BR16 - resist. 2.458.847 36 bpR3 Seca - Raiz BR16 - resist. 2.428.923 36 bp
GGW1 Ferrugem PI61356 - resist. 5.185.015 76 bpGGW2 Ferrugem PI61356 - resist. 5.000.616 76 bpGGW3 Ferrugem PI61356 - resist. 4.700.869 76 bpGGW4 Vírus CD206 - resist. 5.963.145 76 bpGGW5 Vírus BRSGO - susc. 5.345.985 76 bpGGW6 Nitrogênio MG/BR46 4.621.072 76 bpGGW7 Nitrogênio MG/BR46 5.343.969 76 bpGGW8 Seca - Folha Embrapa48 - susc. 5.144.645 76 bpGGW9 Seca - Folha Embrapa48 - susc. 5.644.473 76 bp
GGW10 Seca - Folha Embrapa48 - susc. 5.359.395 76 bpGGW11 Seca - Raiz Embrapa48 - susc. 3.095.694 76 bpGGW12 Seca - Raiz Embrapa48 - susc. 5.731.156 76 bpGGW13 Seca - Raiz Embrapa48 - susc. 5.545.375 76 bpGGW14 Ferrugem PI230970 - resist. 4.679.963 76 bpGGW15 Ferrugem PI230970 - resist. 4.878.530 76 bpGGW16 Ferrugem PI230970 - resist. 4.355.862 76 bp
Sequências IlluminaSolexa
Cultivares resistentese susceptível
Montagem dos reads domesmo cluster
Banco de dados da Montagem
de ESTs
Banco de dadosde Gene Models
Programa de alinhamento
Clusters (genes)
Contigs (> 100 bp)
Reads de Solexa (36 ou 76 bp)
Biblioteca GenesL1 1.560L2 2.009L3 3.124R1 258R2 600R3 657
GGw1 1.994GGw2 802GGw3 754GGw4 1.109GGw5 862
Biblioteca GenesGGw6 4.775GGw7 5.989GGw8 3.643GGw9 4.603
GGw10 3.109GGw11 1.313GGw12 1.364GGw13 1.775GGw14 490GGw15 447GGw16 2.097
Links para os Blasts NR eAutofact
Link para a interface deanotação
Contigs da montagemde solexa
MicroRNA analysis from leaf and root of resistant/susceptible genotypes submitted to drought stress and Asian Rust infection
Grouping in unique reads and low-frequency filter to eliminate low quality reads
Unique high quality microRNA candidates
Analysis of differentially expressed microRNA using AC test (p-value < 0,05)
Illumina/solexa sequencing
Unique high quality microRNA candidates
Public soybean data: - 20 chromosomes
Mapping reads against databases using
SOAP program (0 mismatches allowed)
Mapped chromosomes
Reading 300bp flanking
Possible pre-miRNA candidates
miRNA reverse complement
Smith-waterman alignment (2 gaps and 7
mismatches allowed)
Pre-miRNA candidatesPre-miRNAmiRNAmiRNA RC
50 bp 50 bp
Pre-miRNA
chrmiRNA
300 bp 300 bp
Pre-miRNA
Manual analysis of secondary structure
microRNAsTarget
identification
ANÁLISES CRUZADAS
Supersage - Seca
Raiz
Cultivar toler./susct.
Tempo 25, 50, 75, 100, 125 e 150 min
Subtrativa - Seca
Folha e raiz
Cultivar toler./susct.
Tempo 25 e 50 min
Tempo 75 e 100 min
Tempo 125 e 150 min
MicroRNA - Seca
Raiz
Cultivar toler./susct.
Tempo 125 e 150 min
Supersage - Ferrugem
Folha
Cultivar resistente
Tempo 12, 24 e 48 hrs
Subtrativa - Ferrugem
Folha
Cultivar resist./susct.
Tempo 12, 24 e 48 hrs
Tempo 72 e 96 hrs
Tempo 192 hrs
MicroRNA - Ferrugem
Folha
Cultivar resistente
Tempo ???
EXPRESSÃO GÊNICA COM SHORT READS
• RPKM (Reads por Kilobase por Milhão de reads) (Mortazavi et al, 2008)
RPKM = [(R * T)/1.000]/1.000.000
R – nº de reads que alinharam com o gene (normalização pelo
tamanho da biblioteca) T – tamanho do gene (em bp) (normalização pelo
tamanho do gene)
RPKM• Programa: Cufflinks (http://cufflinks.cbcb.umd.edu)
Alinhamento dos readscom clusters e Genes
preditos
Cufflinks
RPKM calculado considerando hits
repetidos
Conversão de formato
2 mismatches emúltiplos
alinhamentospor read
SuperSAGE
RPKM
Genes Up-Regulated
MicroRNA
RPKM
Nenhum ou poucosMicroRNA tendo o genecomo alvo
Expressão supersage vs subtrativa
-10
-8
-6
-4
-2
0
2
4
6
8
10
1 45 89 133 177 221 265 309 353 397 441 485 529 573 617 661
Gene subtrativa
Fold
cha
nge
supe
rsag
e
FERRUGEM ASIÁTICA – SuPERSAGE X SUBTRATIVA
Filtros para SuperSAGE• Tags com pelo menos 5 repetições em uma das bibliotecas• Tags alinhando com genes sem mismatches
Genes para validação
SECA – SuPERSAGE X SUBTRATIVA
Cultivar PI61356 - Resistente
Expressão supersage vs expressão microRNA
y = -0.0344x - 1.1083R2 = 0.1597
-15
-10
-5
0
5
10
15
-100 -50 0 50 100 150
Fold change microRNA
Fold
cha
nge
supe
rsag
e
MicroRNA X SuperSAGE
http://www.lge.ibi.unicamp.br/soja