23
RepeatMask er Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

Embed Size (px)

Citation preview

Page 1: RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

RepeatMasker

• Aluno: Fred Ulisses maranhão

• Professora: Kátia S. Guimarães

• Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

Page 2: RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

Introdução

• http://repeatmasker.genome.washington.edu/cgi-bin/RepeatMasker/

• Função: Esconder repetições esparsas, regiões de baixa complexidade e repetições simples

• Desenvolvido e mantido por: Phil Green, University of Washington

Page 3: RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

Repetições

• Repetições esparsas

• Regiões de baixa complexidade (ex.: CT-rich)– Repetições simples (ex.: (TG)n )

Page 4: RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

O Problema

• Sequência de DNA com repetições são dificeis de montar e de pesquisar

• Mascar regiões repetitivas pode facilitar o trabalho de varias outras ferramentas computacionais– Ex.: PhredPhrap

Page 5: RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

O Algoritmo

• Busca de alinhamentos de melhor score

• Compara uma seqüência, com seqüências numa base de dados

• Procura alinhamentos locais

• Utiliza matrizes de similaridade

• Esconde com:– N para nucleotídeos– X para proteínas

Page 6: RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

O Algoritmo

• RepeatMasker

– cross_match + base de repetições

• swat

–Smith-Waterman Algorithm

Page 7: RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

Algoritmo de Smith-Waterman

• Programação dinâmica

• Matriz de alinhamentos

• Tempo: O(n*m); Espaço: O(n*m)

• Matriz de Dayhoff: matrizes PAM

Page 8: RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

e T A A C G G e 0 0 0 0 0 0 0 A 0 0 1 1 0 0 0 A 0 0 1 2 0 0 0 C 0 0 0 0 3 1 0 T 0 1 0 0 1 2 0

Matriz de alinhamentos

Page 9: RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

base de repetições

0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 1 2 0 0 0 0 0 0 0 3 1 0 0 1 0 0 1 2 0

Matriz de alinhamentosen

trad

a

Page 10: RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

Matriz PAM

A R N D ... Z X *A 2 -2 0 0 0 0 -8R -2 6 0 -1 ... 0 -1 -8N 0 0 2 2 1 0 -8D 0 -1 2 4 3 -1 -8. . . .. . . .. . . .Z 0 0 1 3 3 -1 -8X 0 -1 0 -1 ...-1 -1 -8* -8 -8 -8 -8 -8 -8 1

Page 11: RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

Entrada

• Seqüência– Formato Fasta – Modo de envio: html ou arquivo

• Opções

Page 12: RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

Opções

• Formato de retorno: html, arquivo tar ou links

• Modo de retorno: na própria janela ou por e-mail

• Velocidade/sensibilidade– Default– Slow: 3 vezes mais lento, 0 a 5% mais seqüências

encontradas– Quick: 3 a 6 vezes mais rápido. Ignora 5 a 10%

mais seqüências

Page 13: RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

Opções

• Origem do DNA:– Primatas, roedores (otimizados)– Outros mamíferos, Arabidopsis, Drosophila– Outros vertebrados, gramíneas (recentes)– http://www.girinst.org/~server/repbase.html

Page 14: RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

Opções

• Mostrar alinhamentos (arquivo de alinhamentos)

• Não esconde repetições simples e DNA de baixa complexidade

• Esconde apenas repetições simples e DNA de baixa complexidade

Page 15: RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

Opções

• Apenas esconde Alus (específico para primatas)

• Esconde com “X” para distinguir regiões escondidas de “N”s já existentes na seqüência de entrada

• Gera uma “annotation table” com tamanho fixo de colunas

Page 16: RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

Outras Opções

• Opções menos comuns podem ser digitadas:– div (limita a porcentagem máxima de divergências num

alinhamento)– inv (por default, alinhamentos são no sentido das

seqüências de entrada. Com esta opção, ficam no sentido das repetições da base)

– frag (define o tamanho dos fragmentos com os quais o programa vai trabalhar)

– xsmall (regiões repetitivas em minúsculas, o resto em maiúsculas)

– small (toda a seqüência em minúsculas)

Page 17: RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

Saída

• Arquivos:– Seqüência original com regiões escondidas (masked

sequence)– Annotation file– Resumo (summary table)– Alinhamentos (opcional)

Page 18: RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

Masked Sequence

• Arquivo idêntico ao arquivo de entrada. Exceto pelas regiões Escondidas

Page 19: RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

Annotation File• Um resumo do arquivo de alinhamentos• Para cada casamento (match) mostra informações da

seqüência de entrada e da base de dados– Score– Porcentagem de

• Substituições, Deleções, Inserções

– Nome da seqüência de entrada– Na seqüência de entrada, posições de

• início, fim, distância da extremidade direita

– Marca de complemento. “C” = complemento– Nome e tipo da repetição– Na repetição, posições de

• início, fim, distância da extremidade direita

Page 20: RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

Summary Table

• Auto-explicativo

• Visão global e estatísticas sobre o que foi feito

Page 21: RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

Alinhamentos (Opcional)

• Mostra em detalhes os alinhamentos

• Legenda:– i: transition (g – a, c - t)– t: transvertion– ?: alinhado com incógnita

Page 22: RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

Aplicações

• Busca em base de dados– Evita casamentos dispendiosos em regiões não

codificantes– Ex.: antes do blast

• Associado a programas de predição de genes– Comparar a saida de ambos os programas– Incorporar RepeatMasker aos programas existentes

Page 23: RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

Referências

– Página oficial http://repeatmasker.genome.washington.edu/cgi-bin/RepeatMasker/

– Base de repetições: Genetic Information Research Institute http://www.girinst.org/

– Notes on Interspersed Repeats: Um resumo dos principais tipos de repetições esparsas. http://globin.cse.psu.edu/globin/html/courses/spring2000/repeats.html

– National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov/