Upload
internet
View
107
Download
1
Embed Size (px)
Citation preview
Splicing GraphsSplicing Graphs and EST and EST Assembly ProblemAssembly ProblemSteffen Heber, Max Alekseyev, Sing-Hoi Sze, Haixu Tang e Pavel A. Pevzner
[Clayton J Pereira]
[Leonilson Kiyoshi]
[Prof. Dr. Vitor Leite]
IntroduçãoIntrodução O Splicing é um processo que remove os íntrons e junta
os éxons durante a transcrição do RNA.
Produção de mRNA maduro funcional
Splicing Alternativo:– O splicing alternativo permite que uma única
fita de mRNA recém-sintetizada sofra diversas possibilidades de processamento, aumentando consideravelmente o número total possível de proteínas.
Uma lista de transcritos é gerada devido ao splicing alternativo o que torna sua análise bastante difícil.
Estudos recentes mostram que a progressão de um câncer está relacionada à mudança no padrão do splicing de um gene.
Como saber se um transcrito do splicing alternativo está relacionado à formação do câncer?
Introdução à Teoria dos Grafos
Um grafo G(V,A) é definido pelo par de conjuntos V e A, onde:– V - conjunto não vazio: os vértices ou nodos do
grafo;
– A - conjunto de pares ordenados a=(v,w), as arestas
do grafo.
Um Digrafo é um grafo orientado.
Trajeto é uma seqüência alternada de vértices e arestas começando em vi e terminando em vk, sendo (vi ≠ vk), tal que não há repetições de arestas.
Caminho é um trajeto sem repetições de vértices.
O splicing alternativo pode ser representado através de um digrafo.
Splicing graphs são similares a modelos onde éxons são conectados por arestas se eles são consecutivos em um transcrito. No entanto, splicing graphs podem ser construídos unicamente de dados de transcrições sem qualquer conhecimento da seqüência genômica.
Informações sobre splicing alternativos são frequentemente obtidos de conjuntos expressed sequence tags (EST).
As EST são seqüências curtas de DNA geradas a partir do seqüenciamento aleatório de uma biblioteca de cDNA.
No entanto, quando um gene possui muitos variantes do splicing se torna inviável a análise dos conjuntos de EST. Um melhor método é associar os conjunto de EST aos splicing graphs.
EST assemblies
EST são importantes ferramentas para encontrar genes e éxons, para detecção de splicing alternativos assim como para investigação do proteoma.
EST são obtidos de banco de dados como: UniGene, TIGR Gene Index, GeneNest e STACK.
O splicing graphs combina partes de EST recorrentes em caminhos únicos e mostra as variações na seqüência e os splicing alternativos como bifurcações no grafo.
E como resultado, obtém-se um representação compacta dos dados de EST.
Splicing Graphs É uma maneira eficiente de representar uma estrutura
genética e as informações de splicing alternativo.
Um splicing graph é um grafo G tendo seus vértices representados por seqüência genômicas S. Seja S’ um caminho que liga o vértice V (sem arestas de entrada) ao vértice V’ (sem aresta de saída) em G. O alinhamento ótimo de S e G é o alinhamento de S e alguns caminhos de S’ que alcança o maior score.
Construção de um Splicing Graph a partir de EST’s
Correção de Erros
Erros de sequenciamento são um sério problema para a construção de um splicing graph. Eles tornam o grafo bastante confuso por adição de arestas erradas e/ou entrelaçadas dificultando o reconhecimento de alguma estrutura.
Este problema é superado pelo desenvolvimento de um diferente método de correção de erros baseado na avaliação da sobreposição de múltiplos alinhamentos.
Representação
O processo de correção de erros é muito eficiente, no entanto, deixa alguns erros não corrigidos. Tais erros geram bifurcações errôneas no splicing graph e precisam ser retiradas.
Refinamento: Geração de Supernodos
Definição: Uma sequência contínua de vértices com grau de entrada = grau de saída = 1, pode ser fundida em um único vértice que reúne todas as informações necessárias, denominado Supernodo.
A fusão dos vértices é feita da seguinte forma:– Se V possui grau de entrada = grau de saída = 1 ele é
fundido com o vértice subsequente;– Se V possui grau de saída > 1, então, um supernodo é
formado pela adição deste vértice e as arestas (bifurcações) que divergem de V dão origem a novos supernodos;
– Se V possui grau de entrada > 1, então, os vértices anteriores encerram novos supernodos e V inicia um novo supernodo;
– Se V possui grau de entrada > 1 e grau de saída > 1 não forma um supernodo.
Após o refinamento
Resultados
Exceto para as três primeira bases o resultado do alinhamento P1 obteve 99,9% de seqüências idênticas ao ADSL mRNA e P2 obteve 100% de seqüências idênticas a um dos splicing do ADSL mRNA.
* Dados comparativos retirados do GenBank
P2
P1
O algorítmo utilizado não reune os EST’s em uma seqüência linear, mas integra todos os dados em um splicing graph de forma precisa.
Através do splicing graphs é possível visualizar formas variantes dos splicing.
Os resultados de splicing graphs é um importante requisito para pesquisas subsequentes.
A complexidades de um splicing graph geralmente diminui com o aumento da qualidade de leitura dos EST’s.
Há uma inevitável situação entre redução de complexidade e o perigo de eliminar informações biologicamente importantes.
Resultados