19
Splicing Graphs Splicing Graphs and and EST Assembly EST Assembly Problem Problem Steffen Heber, Max Alekseyev, Sing-Hoi Sze, Haixu Tang e Pavel A. Pevzner [Clayton J Pereira] [Leonilson Kiyoshi] [Prof. Dr. Vitor Leite]

Splicing Graphs and EST Assembly Problem Splicing Graphs and EST Assembly Problem Steffen Heber, Max Alekseyev, Sing-Hoi Sze, Haixu Tang e Pavel A. Pevzner

Embed Size (px)

Citation preview

Page 1: Splicing Graphs and EST Assembly Problem Splicing Graphs and EST Assembly Problem Steffen Heber, Max Alekseyev, Sing-Hoi Sze, Haixu Tang e Pavel A. Pevzner

Splicing GraphsSplicing Graphs and EST and EST Assembly ProblemAssembly ProblemSteffen Heber, Max Alekseyev, Sing-Hoi Sze, Haixu Tang e Pavel A. Pevzner

[Clayton J Pereira]

[Leonilson Kiyoshi]

[Prof. Dr. Vitor Leite]

Page 2: Splicing Graphs and EST Assembly Problem Splicing Graphs and EST Assembly Problem Steffen Heber, Max Alekseyev, Sing-Hoi Sze, Haixu Tang e Pavel A. Pevzner

IntroduçãoIntrodução O Splicing é um processo que remove os íntrons e junta

os éxons durante a transcrição do RNA.

Produção de mRNA maduro funcional

Page 3: Splicing Graphs and EST Assembly Problem Splicing Graphs and EST Assembly Problem Steffen Heber, Max Alekseyev, Sing-Hoi Sze, Haixu Tang e Pavel A. Pevzner

Splicing Alternativo:– O splicing alternativo permite que uma única

fita de mRNA recém-sintetizada sofra diversas possibilidades de processamento, aumentando consideravelmente o número total possível de proteínas.

Page 4: Splicing Graphs and EST Assembly Problem Splicing Graphs and EST Assembly Problem Steffen Heber, Max Alekseyev, Sing-Hoi Sze, Haixu Tang e Pavel A. Pevzner

Uma lista de transcritos é gerada devido ao splicing alternativo o que torna sua análise bastante difícil.

Estudos recentes mostram que a progressão de um câncer está relacionada à mudança no padrão do splicing de um gene.

Como saber se um transcrito do splicing alternativo está relacionado à formação do câncer?

Page 5: Splicing Graphs and EST Assembly Problem Splicing Graphs and EST Assembly Problem Steffen Heber, Max Alekseyev, Sing-Hoi Sze, Haixu Tang e Pavel A. Pevzner

Introdução à Teoria dos Grafos

Um grafo G(V,A) é definido pelo par de conjuntos V e A, onde:– V - conjunto não vazio: os vértices ou nodos do

grafo;

– A - conjunto de pares ordenados a=(v,w), as arestas

do grafo.

Page 6: Splicing Graphs and EST Assembly Problem Splicing Graphs and EST Assembly Problem Steffen Heber, Max Alekseyev, Sing-Hoi Sze, Haixu Tang e Pavel A. Pevzner

Um Digrafo é um grafo orientado.

Trajeto é uma seqüência alternada de vértices e arestas começando em vi e terminando em vk, sendo (vi ≠ vk), tal que não há repetições de arestas.

Caminho é um trajeto sem repetições de vértices.

Page 7: Splicing Graphs and EST Assembly Problem Splicing Graphs and EST Assembly Problem Steffen Heber, Max Alekseyev, Sing-Hoi Sze, Haixu Tang e Pavel A. Pevzner

O splicing alternativo pode ser representado através de um digrafo.

Splicing graphs são similares a modelos onde éxons são conectados por arestas se eles são consecutivos em um transcrito. No entanto, splicing graphs podem ser construídos unicamente de dados de transcrições sem qualquer conhecimento da seqüência genômica.

Page 8: Splicing Graphs and EST Assembly Problem Splicing Graphs and EST Assembly Problem Steffen Heber, Max Alekseyev, Sing-Hoi Sze, Haixu Tang e Pavel A. Pevzner

Informações sobre splicing alternativos são frequentemente obtidos de conjuntos expressed sequence tags (EST).

As EST são seqüências curtas de DNA geradas a partir do seqüenciamento aleatório de uma biblioteca de cDNA.

No entanto, quando um gene possui muitos variantes do splicing se torna inviável a análise dos conjuntos de EST. Um melhor método é associar os conjunto de EST aos splicing graphs.

Page 9: Splicing Graphs and EST Assembly Problem Splicing Graphs and EST Assembly Problem Steffen Heber, Max Alekseyev, Sing-Hoi Sze, Haixu Tang e Pavel A. Pevzner

EST assemblies

EST são importantes ferramentas para encontrar genes e éxons, para detecção de splicing alternativos assim como para investigação do proteoma.

EST são obtidos de banco de dados como: UniGene, TIGR Gene Index, GeneNest e STACK.

Page 10: Splicing Graphs and EST Assembly Problem Splicing Graphs and EST Assembly Problem Steffen Heber, Max Alekseyev, Sing-Hoi Sze, Haixu Tang e Pavel A. Pevzner

O splicing graphs combina partes de EST recorrentes em caminhos únicos e mostra as variações na seqüência e os splicing alternativos como bifurcações no grafo.

E como resultado, obtém-se um representação compacta dos dados de EST.

Page 11: Splicing Graphs and EST Assembly Problem Splicing Graphs and EST Assembly Problem Steffen Heber, Max Alekseyev, Sing-Hoi Sze, Haixu Tang e Pavel A. Pevzner

Splicing Graphs É uma maneira eficiente de representar uma estrutura

genética e as informações de splicing alternativo.

Um splicing graph é um grafo G tendo seus vértices representados por seqüência genômicas S. Seja S’ um caminho que liga o vértice V (sem arestas de entrada) ao vértice V’ (sem aresta de saída) em G. O alinhamento ótimo de S e G é o alinhamento de S e alguns caminhos de S’ que alcança o maior score.

Page 12: Splicing Graphs and EST Assembly Problem Splicing Graphs and EST Assembly Problem Steffen Heber, Max Alekseyev, Sing-Hoi Sze, Haixu Tang e Pavel A. Pevzner

Construção de um Splicing Graph a partir de EST’s

Page 13: Splicing Graphs and EST Assembly Problem Splicing Graphs and EST Assembly Problem Steffen Heber, Max Alekseyev, Sing-Hoi Sze, Haixu Tang e Pavel A. Pevzner

Correção de Erros

Erros de sequenciamento são um sério problema para a construção de um splicing graph. Eles tornam o grafo bastante confuso por adição de arestas erradas e/ou entrelaçadas dificultando o reconhecimento de alguma estrutura.

Este problema é superado pelo desenvolvimento de um diferente método de correção de erros baseado na avaliação da sobreposição de múltiplos alinhamentos.

Page 14: Splicing Graphs and EST Assembly Problem Splicing Graphs and EST Assembly Problem Steffen Heber, Max Alekseyev, Sing-Hoi Sze, Haixu Tang e Pavel A. Pevzner

Representação

O processo de correção de erros é muito eficiente, no entanto, deixa alguns erros não corrigidos. Tais erros geram bifurcações errôneas no splicing graph e precisam ser retiradas.

Page 15: Splicing Graphs and EST Assembly Problem Splicing Graphs and EST Assembly Problem Steffen Heber, Max Alekseyev, Sing-Hoi Sze, Haixu Tang e Pavel A. Pevzner

Refinamento: Geração de Supernodos

Definição: Uma sequência contínua de vértices com grau de entrada = grau de saída = 1, pode ser fundida em um único vértice que reúne todas as informações necessárias, denominado Supernodo.

A fusão dos vértices é feita da seguinte forma:– Se V possui grau de entrada = grau de saída = 1 ele é

fundido com o vértice subsequente;– Se V possui grau de saída > 1, então, um supernodo é

formado pela adição deste vértice e as arestas (bifurcações) que divergem de V dão origem a novos supernodos;

– Se V possui grau de entrada > 1, então, os vértices anteriores encerram novos supernodos e V inicia um novo supernodo;

– Se V possui grau de entrada > 1 e grau de saída > 1 não forma um supernodo.

Page 16: Splicing Graphs and EST Assembly Problem Splicing Graphs and EST Assembly Problem Steffen Heber, Max Alekseyev, Sing-Hoi Sze, Haixu Tang e Pavel A. Pevzner
Page 17: Splicing Graphs and EST Assembly Problem Splicing Graphs and EST Assembly Problem Steffen Heber, Max Alekseyev, Sing-Hoi Sze, Haixu Tang e Pavel A. Pevzner

Após o refinamento

Page 18: Splicing Graphs and EST Assembly Problem Splicing Graphs and EST Assembly Problem Steffen Heber, Max Alekseyev, Sing-Hoi Sze, Haixu Tang e Pavel A. Pevzner

Resultados

Exceto para as três primeira bases o resultado do alinhamento P1 obteve 99,9% de seqüências idênticas ao ADSL mRNA e P2 obteve 100% de seqüências idênticas a um dos splicing do ADSL mRNA.

* Dados comparativos retirados do GenBank

P2

P1

Page 19: Splicing Graphs and EST Assembly Problem Splicing Graphs and EST Assembly Problem Steffen Heber, Max Alekseyev, Sing-Hoi Sze, Haixu Tang e Pavel A. Pevzner

O algorítmo utilizado não reune os EST’s em uma seqüência linear, mas integra todos os dados em um splicing graph de forma precisa.

Através do splicing graphs é possível visualizar formas variantes dos splicing.

Os resultados de splicing graphs é um importante requisito para pesquisas subsequentes.

A complexidades de um splicing graph geralmente diminui com o aumento da qualidade de leitura dos EST’s.

Há uma inevitável situação entre redução de complexidade e o perigo de eliminar informações biologicamente importantes.

Resultados