25
Gene Projects [email protected] Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Gene Projects [email protected] Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Embed Size (px)

Citation preview

Page 1: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Gene Projects

[email protected]

Marcelo Falsarella Carazzolle

Laboratório de Genômica e Proteômica

Unicamp

Page 2: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Motivação• Muitos dados são gerados num projeto genoma :

– Fungo Crinipellis Perniciosa :• 170.000 reads• 26000 contigs + singlets• 70% hits encontrados no NR

– Café• 200.000 reads• 35000 contigs + singlets• 80% hits encontrados NR

• Necessidade de explorar os dados no decorrer do sequenciamento

Page 3: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

• Estratégias mais eficientes para buscar genes :– Busca por palavras chaves em resultados de

blasts (Keyword Search)– Busca por sequências similares (Blast Search)– Busca por padrões de repetição (Pattern Search)

• Estratégia para eliminar redundância :– Clusterização

Page 4: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Introdução• Gene Projects é uma programa que permite :

– Realizar buscas por :• Palavra chave• Similaridade de sequências• Padrões

– Fazer clusterizações dos reads de interesse e analisar a qualidade da montagem

– Visualizar a sequência fasta e o resultado de blast dos reads e dos contigs formados

– Ampliar o contig na busca de genes inteiros– Burcas ORFs (ORFFinder)– Armazenar todos em resultados em projetos– Trabalhar via WEB

Page 5: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Uma visão geral

WWW Gene Projects

Banco de

Dados

Ferramentas de Buscas

Análise

Palavra chaveSequênciaPadrões

Visualizar sequências e

blasts

Clusterização

Visualizar sequências, blasts, montagens, ORFs e ...

Reads Contigs

Page 6: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Temáticas

Fluxograma: projeto genoma

Page 7: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Submissão

- Phred

- Cross_Match

Blastx/n contra nr/nt Relatório

Sequência Fasta

Qualidade das bases

Informação sobre vetores

Armazena os arquivos de Blasts

Alimenta o banco de dados com :

- Qualidade do read (qte bases > 20)

- Tamanho do read

- Resultado da blastagem (e-value,

score, cabeçalho)

- Vetores (qte bases com vetor)

Serviço de submissãoServiço de submissão

Page 8: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

>Unknown sequences #1

5 6 5 7 10 9 10 12 15 16 17 20 20 23 25 30 30 30 40 40 45 50 50 50 ...

Page 9: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Gene ProjectsGene Projects- Busca de seqüências por: - Palavra chave; - Blast Sequences; - Seqüências específicas. - Pattern search

- Filtros de qualidade de nucleotídeos.

- Visualização das seqüências selecionadas:

- “Clusterização” utilizando o software Phrap/Cap3

- Análise de contigs e singlets por : - Blast contra nr; - Blast contra reads; - ORFFinder.

- Ferramenta para fechamento de contigs através de Blast saturação.

Page 10: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Iniciando um projeto

• Cadastro de usuário

• Inclusão de projetos

Não usar espaços ou caracteres especiais para o usuário e nome do projeto

Page 11: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Ferramentas de busca

Page 12: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Ferramentas de busca

• Reads search

Page 13: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Ferramentas de busca

• Keyword search

Page 14: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Ferramentas de busca

• Blast search

Page 15: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Ferramentas de busca

• Pattern search

N - Qualquer nucleotídeo

N(3) - Uma sequência de três nucleotídeos

N(2,4) - Uma sequência de 2,3 ou 4 nucleotídeos

[AC] - pode ser um A ou um C

{AG} - não pode ser nem A e nem G

Ex :

[CG](5)TG{A}N(1,5)C

Page 16: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

• Interface de projetos

Page 17: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

>Contig1 xxxxxxxxxtgatgcacgtcgactctataggatcaatatcctagccagaaaacttctcggtcaaggtctgtatgacaaagtctcgcaagcatctgtagagctctactcggaag

CP01-S0-001-001-A01-UC.F

CP01-S0-001-001-A04-UC.F

Page 18: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

>Contig1 xxxxxxxxxtgatgcacgtcgactctataggatcaatatcctagccagaaaacttctcggtcaaggtctgtatgacaaagtctcgcaagcatctgtagagctctactcggaag

Blastn/reads

CP01-S0-001-001-A01-UC.F

CP01-S0-001-001-A04-UC.F

Blastando ...

Sequencias que produziram alinhamentos significantes :

CP01-S0-001-001-A01-UC.F       1419   0.0   -> Existente CP01-S0-001-001-A04-UC.F       1291   0.0   -> Existente CP02-PF-012-001-D08-UE.R       1263   0.0   -> Incluido CP02-S2-000-028-H06-UE.F       1261   0.0   -> Incluido

Se não existirem novas inclusões : FIM

Se existirem novas inclusões : Acrescenta os novos reads

Clusterizando novamente

>Contig1 xxxxxxxxxtgatgcacgtcgactctataggatcaatatcctagccagaaaacttctcggtcaaggtctgtatgacaaagtctcgcaagcatctgtagagctctactcggaagatatatatatatatatatat …

Se o tamanho do novo contig exceder o limite : FIM

Blast SaturaçãoBlast Saturação

Page 19: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Anotação automática de genesAnotação automática de genes

GERAÇÃO DE SEMENTES:

- Localização de uma ORF em um contig;

- Comparação de ORFs novas com genes existentes;

- Anotação automática nos bancos nr e GO (Gene Ontology Consortium);

- Identificação de regiões promotora e codante;

- Atualização de genes existentes

INTERFACE DE ANOTAÇÃO:

- Resultado do GO;

- Resultados de Blast contra nr;

- Classificação baseada no GO : - Função molecular; - Processo biológico; - Componente celular.

- Ferramentas de busca em sites por: - Palavra chave; - Blast Sequences.

- Histórico de anotação;

- Consulta de genes anotados

Page 20: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

• ORFFinderAnálise dos clusters

Page 21: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Análise dos clustersAnálise dos clusters• Blastn contra a montagem geral

Page 22: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp
Page 23: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Interface de AnotaçãoInterface de Anotação

GeneProjects

Page 24: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

ConclusãoConclusão• Permite a mineração dos dados em qualquer

instante do projeto• Facilita a busca de genes específicos• Armazena todos os resultados em projetos• Possui ferramentas de ampliação e análise de

seqüências codantes• Faz a conexão do novo contig gerado com a

montagem geral• Disponibiliza todos os esses serviços via WEB

Page 25: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

FIMFIM