Computational Identification and Characterization of Novel Genes from Legumes Michelle A. Graham,...

Preview:

Citation preview

Computational Identification and Characterizationof Novel Genes from

Legumes

Michelle A. Graham, Kevin A.T. Silverstein, Steven B. Cannon, and Kathryn A. VandenBosch

Julho, 2004

Camilla MoreiraProf. Paulo Andrade

Introdução

• Importância das Leguminosas (Fabaceae)

• Disponibilidade de seqüências

• ESTs

• TCs – tentativas consenso

• Seqüências específicas

Objetivo

Utilizar seqüências disponíveis no banco de dados para identificar de forma rápida e eficiente seqüências de M. truncatula, L. japonicus e soja, que não têm homólogos em outros grupos de não-legumes, além de sugerir funções às seqüências-específicas encontradas

Materiais e Métodos

• Identificação das seqüências-específicasBLAST

• Caracterização BlastXInterProScan

Identificação

Foram usados algoritmos BLAST para comparar os unigenes (TCs) de Medicago truncatula, Lotus japonicus e Glycine soja e max, contra conjuntos de unigenes: NR e EST do GenBank, e sequências genômicas de arroz e Arabidopsis, além de seqüências nucleotídicas do TIGR

BLAST• Filtro nas seqüências (repetições, cauda

poliA)• 1º Round

MedicagoTCs Lotus Glycine

BlastNe

TBlastX

Milho

Tomate

Arroz

Arabidopsis

E-value > 10-4

10-4 10-4

TIGR

Próxima fase

BLAST• 2º Round

Medicago• TCs Lotus Glycine

BlastX Banco NR

E-value < 10-4

10-4 10-4 Espera-se que sejam específicas

BLAST

• 3º Round

TBlastX

(TIGR)

E-value > 10-4

10-4 10-4

AlgodãoAlfaceBatataCenteioCevadaGirassolPinusTrigoSorgo

BLAST

• 4º Round

TBlastX

E-value > 10-4

Genoma de Arroz e

Arabidopsis

BLAST

• 5º Round

TBlastX

E-value > 10-4

EST_Others

Seqüências específicas de Leguminosas

<<

Identificação Computacional de Genes Legume-específicos

InterProScan

• Banco de dados de proteínas, domínios e locais funcionais, no qual características identificáveis encontradas em proteínas conhecidas podem ser aplicadas à seqüências protéicas desconhecidas

• Busca por motivos protéicos

Caracterização

• Seq Específicas x GenBank (NR)20% com homologia

• 1ª Análise por Motivos Conservados de outras proteínas46 TCs contendo 55 motivos

conservados

•41 ricos em aa específicos

•14 – F-Box, inibidores de pectinesterase, zinc finger e nodulinas

Caracterização• 2ª Mineração de grupos de genes legume-

específicos com domínios comuns não caracterizados (geração de único domínio)

• Domínio gerado procurar entre proteínas para atribuir função

• 2.525 TCs + 50, 672 e 688 homólogos single

• 665 grupos de potenciais famílias gênicas

F-Box, Ricos em prolina e ricos em cisteína (CCPs)

Similaridade entre os Motivos de F-Box

Análise dos Motivos dos Grupos CCP

A. Regiões com similaridade (e<-10) a sequências do GenBank

1. retroelemento de Arabidopsis2. Proteína gag de pêra3, poliproteína Pol de Nicotiana tabacum4, Proteína de membrana associada a vesícula de

Arabidopsis5. Poliproteína de N. tabacum6. Albumin 1 de Medicago truncatula7, Proteína T31J12.4 de Arabidopsis8. Transposase Mariner de G. max9. Proteína expressa de Arabidopsis10. Fator de transcrição de Arabidopsis11. Elemento de transposição Tnp2 de Antirrhinum

majus

BAC Mth2-34P9

MR = mini-repeatsCCP = genes para proteínas ricas em

cisteínaR1, R2 e R3Setas verdes: início da tradução da CCPCores nos MR = similaridade entre si

pb

pb

Correlação “filogenética” entre os vários mini-repeats e quadro que mostra a provável composição de MR3-1 a partir de MR1-1 e MR1-2

MY

TE

AD

DR

A

MYTEADDRAMYT

Dot plot (esquema) Dot plot (resultado real)

Conclusões

• Origem de não-legumes

• Similaridade com motivos bem representados em diversas categorias

• Esses genes podem ser exemplos de rápida evolução (Blast não pode identificar)

• Genes novos – falha na detecção por domínios (ou não detectados, ou sem similaridade com proteínas conhecidas)

Conclusões

• Identificação de famílias gênicas tecido específica10 raiz e nódulos8 sementes4 folhas e flores7 situações de estresse e patógenos

• Genes candidatos à transformação ou silenciamento gênico em análise futuras de função gênica

Obrigada

Recommended