54
ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira Co-orientador: Marcelo Falsarella Carazzolle

ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

Embed Size (px)

Citation preview

Page 1: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA

DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA

Leandro Costa do NascimentoOrientador: Prof. Dr. Gonçalo A. G. Pereira

Co-orientador: Marcelo Falsarella Carazzolle

Page 2: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

INTRODUÇÃO – A SOJA

• Origem no sudoeste asiático• Alto valor nutritivo• Uso em prevenção de doenças (Coward et al,

1993) • Genoma razoavelmente compleco com 1,1

Gbp e cerca de 60% de regiões repetitivas (Shoemaker et al, 1996)

Page 3: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

A SOJA NO BRASIL

• Segundo maior produtor mundial• Liderança mundial de exportações a partir da

safra 2007/2008• 12% do total de exportações brasileiras• Produção concentrada no Centro-Oeste e

baseada no agronegócio• Atualmente, é a matéria-prima mais viável

para a produção do biodiesel

Page 4: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

PROJETO GENOSOJA

• Consórcio nacional de pesquisa integrando diversos laboratórios

• Visa integrar dados do genoma da planta com dados de expressão de genes

• Enfâse em genes que comprometem a produção brasileira -> melhoramento genético

• Bancos de dados armazenados e administrados pelo LGE

Page 5: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

OBJETIVO DO PROJETO

• Análise de bioinformática para o projeto GENOSOJA:

- Integração dos dados do projeto com dados disponíveis em bancos de dados públicos

- Geração de um perfil de expressão de genes para auxiliar a compreensão de como as diferenças de expressão gênica influenciam características de importância agronômica

Page 6: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

RESUMO DOS DADOS

Dados públicos• Genoma (cultivar Williams 82)• Genes preditos (usando o genoma)• ESTs disponíveis no NCBI (diversos cultivares)

Dados gerados pelo GENOSOJA• Tags de SuperSAGE• Bibliotecas subtrativas de ESTs• Bibliotecas de MicroRNAs

Page 7: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

ESTs NCBI (diversos

cultivares)

Montagem de ESTs

Gene Models Preditos

Genoma (cultivar

Williams 82)

Tags de SuperSAGE (Genosoja)

Expressão de genes

Bibliotecas subtrativas de

ESTs (Genosoja)

Bibliotecas de MicroRNas(Genosoja)

Page 8: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

GENOMA DA SOJA

• Dados disponibilizados pelo JGI (Joint Genome Institute)

• 13 milhões de reads de shotgun• Cobertura: 7,23X• Cultivar Williams 82• 20 cromossomos• http://www.phytozome.net/soybean

Page 9: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

PREDIÇÃO DE GENES

• Um preditor de genes é um programa que, dada um sequência genômica ele deve ser capaz de identificar onde começam e terminam os genes

AAA ATGTTAACGAGTGCAATCACGTAA CCCT

ATGTTAACGAGTGCAATCACGTAA

PREDITOR DE GENES

Page 10: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

PREDIÇÃO DE GENES NO GENOMA DA SOJA

• Proteínas de diversas angiospermas e cerca de 1.600.000 ESTs de soja

• Proteínas foram alinhadas com o genoma para identificar possíveis regiões gênicas

• GenomeScan (Yeh et al, 2001) identificou os genes comparando as regiões gênicas com os ESTs

• 66.153 genes preditos

Page 11: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

EXPRESSED SEQUENCE TAGS (ESTs)

• Sequências curtas geradas a partir de uma seleção aleatória de cDNA

• Dados altamente fragmentados, entre 200 e 800 bp

Algumas aplicações• Predição de genes• Descoberta de genes• Estudos de expressão gênica

Page 12: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

ESTs

Exons

Introns5’ UTR 3’ UTRPromotor

RNA primário

DNA

RNA maduro (sem introns)AAAAAA

TTTTTT cDNA

EST

CTGATTCCAAGGACCTCATCCTTTTTTGACTAAGGTTCCTGGAGTAGGAAAAAA

AAAAAA

Page 13: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

ESTs DE SOJA NO NCBI

• 1.276.813 ESTs de soja foram obtidos a partir do banco dbEST do NCBI

- 394.386 provenientes de sequenciamento Sanger (cerca de 600 bp) -> disponíveis desde o início do projeto

- 882.427 provenientes de sequenciamento 454 (cerca de 250 bp) -> disponíveis somente no início de 2009

Page 14: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira
Page 15: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

ESTs

rRemoção de sequências ribossomais

Remoção de sequênciasde vetor

Remoção de Poly-A/T

Remoção de sequências curtas

Remoção de regiõesde baixa qualidade

Montagem

Separação dos ESTs por espécie e biblioteca

Anotação

Page 16: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

MONTAGEM DE ESTs

• A montagem é realizada através da busca de sobreposição entre as sequências

• Diminui a quantidade de dados e exclui a redundância

• A sequência formada pela sobreposição de vários ESTs é chamada de contig

• As sequências sem sobreposição são chamadas de singlets

Page 17: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

SEQ1: ATCGGTCCAASEQ2: ATGGGACCAAAASEQ3: TTGGGTCCAGA

SEQ4: GGTATTCCGGATSEQ5: GGTTTCCCGATA

ATCGGTCCAA ATGGGACCAAAA

TTGGGTCCAGACONTIG1: ATGGGTCCAAAA

SEQ6: CCCGCTAAA

GGTATTCCGGAT GGTTTCCCGAAT

CONTIG2: GGTATTCCGGAT

SEQ4 COM MAIS QUALIDADE

SINGLET

MONTAGEM DE ESTs

Page 18: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

ERROS RESULTANTES DA MONTAGEM

Erro 1: Sequências relativas aomesmo gene são agrupadas emcontigs diferentes

EST1

EST2

EST3

EST4

Contig1Contig2Contig1

Gene 1 Gene 2

EST1

EST2

EST3

EST4

Erro 2: Sequências relativas agenes diferentes são agrupadas nomesmo contig

Gene 1

Contig1 Contig2Contig1

Page 19: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

COMO DEFINIR A MELHOR MONTAGEM?

• Diferenciação entre os parâmetros do programa de montagem

• Tamanho da região de sobreposição (O)

• Porcentual de similaridade entre a região de sobreposição (P)

EST1

EST2 = O

Page 20: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

• Dois tipos de montagem: • De novo: todos os ESTs agrupados em

conjunto• Ancoragem com o genoma da soja - BLASTN com e-value 1e-10 dos ESTs com as

sequências do genoma - Todas as sequências que alinhavam com a

mesma região do genoma eram agrupadas em conjunto

MONTAGEM DOS ESTs DE SOJA

Page 21: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

EST2

EST6

Montagem 1 Montagem 2

Singlet

Cromossomo 1

EST1

EST3

EST4

EST5EST7

Montagem 1: 1 contig e 1 singletMontagem 2: 1 contig Montagem 3: 1 contigFinal: 3 contigs e 2 singlets

EST8

EST9

Montagem 3

MONTAGEM DOS ESTs DE SOJA

Page 22: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

MONTAGEM DOS ESTs (SANGER)

Tam. da região de sobreposição (O)

Porcentual de similaridade Tipo Contigs Singlets

1 30 75 De novo 22.540 42.6882 100 85 De novo 24996 419793 100 90 De novo 27071 482844 100 95 De novo 30622 615805 30 75 Ancoragem 28625 389546 100 90 Ancoragem 29747 51558

Page 23: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

• Conjunto verdade: Gene models preditos• Todos os ESTs utilizados na montagem foram

alinhados com os Gene Models do genoma através do BLASTN (e-value de corte 1e-10)

• Objetivo: avaliar o número de contigs das montagens que possuíam ESTs alinhando com Gene Models diferentes

• Erro permitido: 10%

COMO DEFINIR A MELHOR MONTAGEM?

Page 24: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

Gene Model 1 Gene Model 2

EST1

EST2

EST3

EST4

EST5

EST6

EST7

EST8

Contig1

EST1

EST2

EST4

Contig2

EST5

EST6

EST3 Gene Model 1

IncorretoCorreto

Page 25: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

Total de gene models preditos: 66.153

Page 26: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

• Os parâmetros da melhor montagem de Sanger foram utilizados para montar todos os ESTs

• Ancorando com o genoma: 60.747 unigenes, 30.809 contigs e 29.938 singlets

• De novo: 200.735 unigenes, 28.501 contigs e 172.234 singlets

Ribossomais 86.742Vetor 83.716Poly A/T 90.193Curtas 88.085Utilizadas 1.101.986

MONTAGEM DOS ESTs

Page 27: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

• Identificação de função para sequências biológicas

• Busca por similaridade com bancos de dados, como NR e Swiss-Prot

• Foram anotados os contigs e singlets da montagem e os genes preditos do genoma

• AutoFACT (Koski et al, 2005)

ANOTAÇÃO

Page 28: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira
Page 29: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira
Page 30: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

ELETRONIC NORTHERN• Inferência de expressão gênica a partir de

uma montagem de ESTs• Somente para bibliotecas não subtrativas• Frequência de ESTs de cada biblioteca em

cada contig• As estatísticas devem levar em conta o

tamanho de cada biblioteca (normalização)

Folha

Contig1 Contig2Raiz - 100 ESTs

- 300 ESTs

Page 31: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

Ordenação dos resultados Links para os Blasts NR eAutofact

Link para a interface deanotação

Page 32: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

• Variação da técnica de Sage, gerando tags mais longas, com 26 bp

• Expressão de genes -> quantificação da abundância de transcritos em uma população de células

• Mas como são geradas as tags?

SuperSAGE

Page 33: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

AAAAAA

TTTTTTGTACGTAC

TTTTTTGTAC

AAAAAACATG

CATG TAG com 26pb

cDNA – Fita simples

NlaIII

EcoP151

ANÁLISE DE TAGS DE SuperSAGE

~44 = 256bp

GTAC

CATG

UTR

~44 = 256bp

Page 34: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

ANÁLISE DE TAGS DE SuperSAGE

• O número de repetições de uma determinada tag é a representação do transcrito referente a ela na amostra

TAG Biblioteca1 Biblioteca2CATGTCCCGGTAATGAAAGCGGATAC 112 6 Gene DownCATGTGCAAGATCTGCCTTGAACAAG 14 87 Gene Up

COMO IDENTIFICAR OS GENESCORRESPONDENTES???

ALINHAMENTO COM BANCOS DE DADOS

DE GENES CONHECIDOS

Page 35: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

CATG

Banco de dados da Montagem

de ESTs

Banco de dadosde Gene Models

Banco de dadosde genoma

Programa de alinhamento

Melhores alinhamentos Anotação

Filtro baseado nos mismatches e no banco

de dados

Montagem - ESTs

Genemodels

Genoma

Page 36: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

ANÁLISE DE TAGS DE SuperSAGE

• As tags foram geradas por sequenciamento Illumina Solexa

• Dados gerados pelo GENOSOJA

Biblioteca TagsSoja sadia PM3T 813.205

Soja infectada PI3T 885.439

Ferrugem Asiática

Biblioteca TagsSoja sadia BT0 1.092.374

Soja infectada BT1.6 509.465

Seca Cultivar BR16

Biblioteca TagsSoja sadia ET0 653.352

Soja infectada ET1.6 419.218

Seca Cultivar Embrapa48

Page 37: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

21.388 TAGs não alinhadas 83.337 TAGs alinhadas

Biblioteca sadia

813.205 TAGs

Biblioteca infectada

885.439 TAGs

TAGs com Freq <=1 descartadas

104.725 TAGs únicasBancos de dados

- 20 cromossomos

- 66.153 gene models

- 60,747 clusters de ESTs

Mapeamento de TAGs com bancos de dados -> SOAP (2 mismatches)

Genes de Phakopsora pachyrhizi??? Genoma???

AC test (p < 0.05)

7,430 down-regulated 8,331 up-regulated

FERRUGEM ASIÁTICA

Page 38: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

83.337 TAGs alinhadas

7.430 down-regulated 8.331 up-regulated

104.725 TAGs únicas

Page 39: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

83.337 TAGs alinhadas

42.823 TAGS

19.572 Genes

Page 40: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

Nº tags Bib. Sadia Nº tags Bib. Infectada Tags únicasFerrugem Asiática 813.205 885.439 104.725Seca cultivar BR16 1.092.374 509.465 89.205

Seca cultivar Embrapa48 653.352 419.218 74.833

Tags alinhadasTags alinhadas em ESTs/ Gene Models

Tags alinhadas em ESTs/ Gene Models c/

1 só alinhamentoFerrugem Asiática 83.337 42.823 35.893Seca cultivar BR16 75.233 40.330 32.336

Seca cultivar Embrapa48 63.083 33.322 28.188

Nº de genes Genes c/1 TAGFerrugem Asiática 19.572 11.209Seca cultivar BR16 21.763 13.300

Seca cultivar Embrapa48 17.821 11.101

Page 41: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira
Page 42: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

Adaptors

Driver Driver and Tester

Tester

Driver Tester

No amplificated Exponential Amplification

Linear Amplification

EliminatedEliminated Enriched Tester

1-cDNA synthesis

2-cDNA digestion with 4 cutter enzyme

3-Adaptor ligation to tester sample

4-Tester/ driver hybridization

5-PCR with primers that anneal

specifically to adaptor previously

ligated to tester sample

6-Enrichment of cDNA library in genes

preferentially expressed in tester

sample

Control Treated RNA Pools

BIBLIOTECAS SUBTRATIVAS

Page 43: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

BIBLIOTECAS SUBTRATIVAS - GENOSOJABiblioteca Cultivar Sequências Tamanho

L1 Seca - Folha BR16 - resist. 1.854.641 36 bpL2 Seca - Folha BR16 - resist. 519.031 36 bpL3 Seca - Folha BR16 - resist. 2.035.320 36 bpR1 Seca - Raiz BR16 - resist. 2.486.569 36 bpR2 Seca - Raiz BR16 - resist. 2.458.847 36 bpR3 Seca - Raiz BR16 - resist. 2.428.923 36 bp

GGW1 Ferrugem PI61356 - resist. 5.185.015 76 bpGGW2 Ferrugem PI61356 - resist. 5.000.616 76 bpGGW3 Ferrugem PI61356 - resist. 4.700.869 76 bpGGW4 Vírus CD206 - resist. 5.963.145 76 bpGGW5 Vírus BRSGO - susc. 5.345.985 76 bpGGW6 Nitrogênio MG/BR46 4.621.072 76 bpGGW7 Nitrogênio MG/BR46 5.343.969 76 bpGGW8 Seca - Folha Embrapa48 - susc. 5.144.645 76 bpGGW9 Seca - Folha Embrapa48 - susc. 5.644.473 76 bp

GGW10 Seca - Folha Embrapa48 - susc. 5.359.395 76 bpGGW11 Seca - Raiz Embrapa48 - susc. 3.095.694 76 bpGGW12 Seca - Raiz Embrapa48 - susc. 5.731.156 76 bpGGW13 Seca - Raiz Embrapa48 - susc. 5.545.375 76 bpGGW14 Ferrugem PI230970 - resist. 4.679.963 76 bpGGW15 Ferrugem PI230970 - resist. 4.878.530 76 bpGGW16 Ferrugem PI230970 - resist. 4.355.862 76 bp

Sequências IlluminaSolexa

Cultivares resistentese susceptível

Page 44: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

Montagem dos reads domesmo cluster

Banco de dados da Montagem

de ESTs

Banco de dadosde Gene Models

Programa de alinhamento

Clusters (genes)

Contigs (> 100 bp)

Reads de Solexa (36 ou 76 bp)

Biblioteca GenesL1 1.560L2 2.009L3 3.124R1 258R2 600R3 657

GGw1 1.994GGw2 802GGw3 754GGw4 1.109GGw5 862

Biblioteca GenesGGw6 4.775GGw7 5.989GGw8 3.643GGw9 4.603

GGw10 3.109GGw11 1.313GGw12 1.364GGw13 1.775GGw14 490GGw15 447GGw16 2.097

Page 45: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

Links para os Blasts NR eAutofact

Link para a interface deanotação

Contigs da montagemde solexa

Page 46: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

MicroRNA analysis from leaf and root of resistant/susceptible genotypes submitted to drought stress and Asian Rust infection

Grouping in unique reads and low-frequency filter to eliminate low quality reads

Unique high quality microRNA candidates

Analysis of differentially expressed microRNA using AC test (p-value < 0,05)

Illumina/solexa sequencing

Page 47: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

Unique high quality microRNA candidates

Public soybean data: - 20 chromosomes

Mapping reads against databases using

SOAP program (0 mismatches allowed)

Mapped chromosomes

Reading 300bp flanking

Possible pre-miRNA candidates

miRNA reverse complement

Smith-waterman alignment (2 gaps and 7

mismatches allowed)

Pre-miRNA candidatesPre-miRNAmiRNAmiRNA RC

50 bp 50 bp

Pre-miRNA

chrmiRNA

300 bp 300 bp

Pre-miRNA

Manual analysis of secondary structure

microRNAsTarget

identification

Page 48: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

ANÁLISES CRUZADAS

Supersage - Seca

Raiz

Cultivar toler./susct.

Tempo 25, 50, 75, 100, 125 e 150 min

Subtrativa - Seca

Folha e raiz

Cultivar toler./susct.

Tempo 25 e 50 min

Tempo 75 e 100 min

Tempo 125 e 150 min

MicroRNA - Seca

Raiz

Cultivar toler./susct.

Tempo 125 e 150 min

Supersage - Ferrugem

Folha

Cultivar resistente

Tempo 12, 24 e 48 hrs

Subtrativa - Ferrugem

Folha

Cultivar resist./susct.

Tempo 12, 24 e 48 hrs

Tempo 72 e 96 hrs

Tempo 192 hrs

MicroRNA - Ferrugem

Folha

Cultivar resistente

Tempo ???

Page 49: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

EXPRESSÃO GÊNICA COM SHORT READS

• RPKM (Reads por Kilobase por Milhão de reads) (Mortazavi et al, 2008)

RPKM = [(R * T)/1.000]/1.000.000

R – nº de reads que alinharam com o gene (normalização pelo

tamanho da biblioteca) T – tamanho do gene (em bp) (normalização pelo

tamanho do gene)

Page 50: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

RPKM• Programa: Cufflinks (http://cufflinks.cbcb.umd.edu)

Alinhamento dos readscom clusters e Genes

preditos

Cufflinks

RPKM calculado considerando hits

repetidos

Conversão de formato

2 mismatches emúltiplos

alinhamentospor read

SuperSAGE

RPKM

Genes Up-Regulated

MicroRNA

RPKM

Nenhum ou poucosMicroRNA tendo o genecomo alvo

Page 51: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

Expressão supersage vs subtrativa

-10

-8

-6

-4

-2

0

2

4

6

8

10

1 45 89 133 177 221 265 309 353 397 441 485 529 573 617 661

Gene subtrativa

Fold

cha

nge

supe

rsag

e

FERRUGEM ASIÁTICA – SuPERSAGE X SUBTRATIVA

Filtros para SuperSAGE• Tags com pelo menos 5 repetições em uma das bibliotecas• Tags alinhando com genes sem mismatches

Genes para validação

Page 52: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

SECA – SuPERSAGE X SUBTRATIVA

Cultivar PI61356 - Resistente

Page 53: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

Expressão supersage vs expressão microRNA

y = -0.0344x - 1.1083R2 = 0.1597

-15

-10

-5

0

5

10

15

-100 -50 0 50 100 150

Fold change microRNA

Fold

cha

nge

supe

rsag

e

MicroRNA X SuperSAGE

Page 54: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE BIBLIOTECAS DE SOJA Leandro Costa do Nascimento Orientador: Prof. Dr. Gonçalo A. G. Pereira

http://www.lge.ibi.unicamp.br/soja