Upload
internet
View
113
Download
5
Embed Size (px)
Aplicações de Bioinformática(Epigenética)
Daniel Guariz Pinheiro
Tópicos
Abordagens Análise após sequenciamento com bissulfito Comparação de Genomas Análise de Expressão Gênica Diferencial Alelo
Específica Análise de Perfis de Metilação e Predição de
Classes Banco de Dados
MethDB
Análise após o sequenciamento com bissulfito
Tratamento com bissulfito - Conversão de Citosinas não metiladas para Uracila.
Análise dos dados : Manual x Automatizada
Ferramentas Computacionais :
MethTools
BIQ Analyzer Alinhamento Global : ClustalW
CGCCGCTGCCGCTCGGTGGCCGGGCCGGGCGCCTCCACCCCCCTCGCAGTCATGTGCCTGTGTTGTTGTTGTTTGGTGGTTGGGTTGGGCGTTTTTATTTTTTTTGTAGTTATGTGTTTG
MethTools
Coleção de ferramentas computacionais específicas para o processo de comparação que geram saídas gráficas que permitem:
Identificar padrões de metilação Analisar a densidade dos padrões de
metilação Identificar possíveis motivos para metilação Estimar os erros sistemáticos do experimento
http://genome.imb-jena.de/methtools/
Padrões de Metilação
• Lollipops
Densidade dos Padrões de Metilação
• Gráfico de Densidade
Motivos para Metilação
• Logos– O consenso geral das seqüências– A ordem de predominância de um resíduo em cada posição– A freqüência relativa de cada um dos resíduos em cada posição– A quantidade de informação em cada uma das posições na
seqüência– Localização significante
Estimativa de erros sistemáticosdo experimento
Estimativa feita a partir do número de trocas de bases diferentes das de C para T.
BIQ Analyzer
Programa interativo que automatiza o processo de análise de metilação por seqüênciamento com bissulfito.
O BIQ Analyzer pode auxiliar nos seguintes processos:
Importação dos dados do sequenciador Alinhamento das seqüências Identificação de seqüências críticas Gera estatísticas básicas Produz diagramas úteis
http://biq-analyzer.bioinf.mpi-inf.mpg.de/
Diagrama (BIQ Analyzer)
Controle de Qualidade (BIQ Analyzer)
Tipos de erros freqüentes e soluções:
Conversão incompleta No caso de vertebrados é utilizado o critério da taxa de
conversão.
Seqüências clones É utilizado um método heurístico para detecção de
clones.
Erros no sequenciamento Sugere a exclusão das seqüências com baixa identidade.
Comparação de Genomas
Domínios de Imprinting-- Região 11p15 (Hs) - Cromossomo 7 (Mm)
Regiões Conservadas (não exônicas)-- 74% Regiões ricas em GC ou -Ilhas CpG.
Genes Metilados- Associados a ilhas CpG (2 ou mais)
Certos padrões de regulação gênica e dos elementos regulatórios correspondentes estão freqüentemente conservados entre as espécies.
Envolve o alinhamento de regiões genômicas ortólogas.
Onyango, P. et al. (2000)
PipMaker
PIP (Percent Identity Plot ) - gráfico com a porcentagem de identidade entre as regiões ao longo das seqüências.
http://bio.cse.psu.edu/pipmaker/
Alinhamento Local- BLASTZIdentificação de Repeats- RepeatMaskerPredição Gênica- GenscanMapeamento de
Transcritos- Matches com ESTsMapeamento de Ilhas
CpG- Gardiner-Garden e
FrommerSchwartz et al. (2000)
Análise de Expressão Gênica Diferencial Alelo Específica
UniGene – ESTs (Expressed Sequence Tags) SNPs (Single Nucleotide Polymorphisms)
Biblioteca de EST ↔ Indivíduo
EST LibraryOnly allele A
was foundAlleles A and B
were foundOnly allele Bwas found
Individual genotyping
Population allele freq
Z-statistics
Baye’s inference
AA or AB AB BB or AB
QA = PAA + 0.5PAB ; QB = 1-QA ; QAB = 2QAQB
Cálculo da diferença entre PAB e QAB
PAB tende a ser menor que QAB para gene metilados
Estimados PAA, PAB e PBB para a população
Expressão Gênica Diferencial Alelo Específica
19312 SNPs 194 mais
significantes 4 genes conhecidos
com imprinting
Análise de Perfis de Metilação e Predição de Classes
Objetivo Extrair informação dos dados e identificar sua implicação
biológica em determinado fenótipo. Auxiliar no diagnóstico e/ou prognóstico de uma doença (AML e
ALL).
Estratégia Baseada em certos padrões de metilação do DNA que
estão correlacionados com determinados parâmetros fenotípicos.
Utilizar uma análise baseada em microarrays. Utilizar sistemas de Aprendizado de Máquina
SVM (Support Vector Machine)
Análise de Metilação Baseada em Microarrays
CGCG CGCGm
Bissulfito
UGUG CGCGm
PCR
TGTG CGCG
Sondas (oligonucleotídeos)
ACAC GCGC
ALL x AML
• AML – Leucemia Mielóide Aguda– 17 amostras (tecidos e linhagem
celulares)
• ALL – Leucemia Linfoblástica Aguda– 8 amostras (tecidos e linhagens
celulares)
• 81 sítios CpG (região promotora, exons ou introns)
• Genes : ELK1, CSNK2B, 1-myc, CD63, CDC25A, TUBB2, CD1A, CDK4, n-myc, AR e c-MOS
• Vetor de atributos para cada amostra:– Razão : log CG/TG para os 81 sítios
20 Sítios CpG para os genesELK1 e AR (cromossomo X)
Sistema de Aprendizado de Máquina Supervisionado
Vetor de atributos X = {xi : xi є Rn} , i = 1,...,n
Número de atributos n = 81
Vetor de classes Y = {yj : yj є {ALL,AML}}, j = 1,...,m Número de exemplos que serão treinados m
Conjunto de treinamento {X, Y}
Performance de Generalização Estimada a partir da quantidade de erros de
classificação na fase de testes
Support Vector Machine
• Objetivo: encontrar uma função discriminante (f) capaz de capturar as propriedades essenciais da distribuição dos dados e evitar o super ajustamento aos dados de treinamento.
• SVM - discriminante linear ( f : Rn →{ALL,AML}) – separar os dados do conjunto de treinamento– maximizar a distância da margem do hiperplano
Redução de Dimensionalidade
• Critérios avaliados – Fisher– Golub– t-test– PCA– Backward Elimination
• Método Avaliação– Cross-validation
(repetido 50 vezes)• 8 Partições
– 7 treinamento– 1 teste
SVM (ALL / AML)
• Critério de Fisher – CSNK2B CpG2
(eixo-x)– CDK4 CpG3
(eixo-y)
Banco de Dados (MethDB)
MethDB (setembro, 2002) 6667 experimentos
46 espécies, 160 tecidos e 72 fenótipos Tipos de dados
Descrições dos experimentos Padrões e perfis de metilação
Padrão de metilação : seqüência 5 mucleotídeos (incluindo a 5mC)
Perfil de metilação : representação da metilação ao longo das seqüências (lollipops)
Conteúdo de metilação total Quantidade de 5mC em uma amostra de DNA.
http://www.methdb.de/