23
Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

Embed Size (px)

Citation preview

Page 1: Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

Aplicações de Bioinformática(Epigenética)

Daniel Guariz Pinheiro

Page 2: Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

Tópicos

Abordagens Análise após sequenciamento com bissulfito Comparação de Genomas Análise de Expressão Gênica Diferencial Alelo

Específica Análise de Perfis de Metilação e Predição de

Classes Banco de Dados

MethDB

Page 3: Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

Análise após o sequenciamento com bissulfito

Tratamento com bissulfito - Conversão de Citosinas não metiladas para Uracila.

Análise dos dados : Manual x Automatizada

Ferramentas Computacionais :

MethTools

BIQ Analyzer Alinhamento Global : ClustalW

CGCCGCTGCCGCTCGGTGGCCGGGCCGGGCGCCTCCACCCCCCTCGCAGTCATGTGCCTGTGTTGTTGTTGTTTGGTGGTTGGGTTGGGCGTTTTTATTTTTTTTGTAGTTATGTGTTTG

Page 4: Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

MethTools

Coleção de ferramentas computacionais específicas para o processo de comparação que geram saídas gráficas que permitem:

Identificar padrões de metilação Analisar a densidade dos padrões de

metilação Identificar possíveis motivos para metilação Estimar os erros sistemáticos do experimento

http://genome.imb-jena.de/methtools/

Page 5: Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

Padrões de Metilação

• Lollipops

Page 6: Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

Densidade dos Padrões de Metilação

• Gráfico de Densidade

Page 7: Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

Motivos para Metilação

• Logos– O consenso geral das seqüências– A ordem de predominância de um resíduo em cada posição– A freqüência relativa de cada um dos resíduos em cada posição– A quantidade de informação em cada uma das posições na

seqüência– Localização significante

Page 8: Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

Estimativa de erros sistemáticosdo experimento

Estimativa feita a partir do número de trocas de bases diferentes das de C para T.

Page 9: Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

BIQ Analyzer

Programa interativo que automatiza o processo de análise de metilação por seqüênciamento com bissulfito.

O BIQ Analyzer pode auxiliar nos seguintes processos:

Importação dos dados do sequenciador Alinhamento das seqüências Identificação de seqüências críticas Gera estatísticas básicas Produz diagramas úteis

http://biq-analyzer.bioinf.mpi-inf.mpg.de/

Page 10: Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

Diagrama (BIQ Analyzer)

Page 11: Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

Controle de Qualidade (BIQ Analyzer)

Tipos de erros freqüentes e soluções:

Conversão incompleta No caso de vertebrados é utilizado o critério da taxa de

conversão.

Seqüências clones É utilizado um método heurístico para detecção de

clones.

Erros no sequenciamento Sugere a exclusão das seqüências com baixa identidade.

Page 12: Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

Comparação de Genomas

Domínios de Imprinting-- Região 11p15 (Hs) - Cromossomo 7 (Mm)

Regiões Conservadas (não exônicas)-- 74% Regiões ricas em GC ou -Ilhas CpG.

Genes Metilados- Associados a ilhas CpG (2 ou mais)

Certos padrões de regulação gênica e dos elementos regulatórios correspondentes estão freqüentemente conservados entre as espécies.

Envolve o alinhamento de regiões genômicas ortólogas.

Onyango, P. et al. (2000)

Page 13: Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

PipMaker

PIP (Percent Identity Plot ) - gráfico com a porcentagem de identidade entre as regiões ao longo das seqüências.

http://bio.cse.psu.edu/pipmaker/

Alinhamento Local- BLASTZIdentificação de Repeats- RepeatMaskerPredição Gênica- GenscanMapeamento de

Transcritos- Matches com ESTsMapeamento de Ilhas

CpG- Gardiner-Garden e

FrommerSchwartz et al. (2000)

Page 14: Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

Análise de Expressão Gênica Diferencial Alelo Específica

UniGene – ESTs (Expressed Sequence Tags) SNPs (Single Nucleotide Polymorphisms)

Biblioteca de EST  ↔ Indivíduo

EST LibraryOnly allele A

was foundAlleles A and B

were foundOnly allele Bwas found

Individual genotyping

Population allele freq

Z-statistics

Baye’s inference

AA or AB AB BB or AB

QA = PAA + 0.5PAB ; QB = 1-QA ; QAB = 2QAQB

Cálculo da diferença entre PAB e QAB

PAB tende a ser menor que QAB para gene metilados

Estimados PAA, PAB e PBB para a população

Page 15: Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

Expressão Gênica Diferencial Alelo Específica

19312 SNPs 194 mais

significantes 4 genes conhecidos

com imprinting

Page 16: Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

Análise de Perfis de Metilação e Predição de Classes

Objetivo Extrair informação dos dados e identificar sua implicação

biológica em determinado fenótipo. Auxiliar no diagnóstico e/ou prognóstico de uma doença (AML e

ALL).

Estratégia Baseada em certos padrões de metilação do DNA que

estão correlacionados com determinados parâmetros fenotípicos.

Utilizar uma análise baseada em microarrays. Utilizar sistemas de Aprendizado de Máquina

SVM (Support Vector Machine)

Page 17: Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

Análise de Metilação Baseada em Microarrays

CGCG CGCGm

Bissulfito

UGUG CGCGm

PCR

TGTG CGCG

Sondas (oligonucleotídeos)

ACAC GCGC

Page 18: Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

ALL x AML

• AML – Leucemia Mielóide Aguda– 17 amostras (tecidos e linhagem

celulares)

• ALL – Leucemia Linfoblástica Aguda– 8 amostras (tecidos e linhagens

celulares)

• 81 sítios CpG (região promotora, exons ou introns)

• Genes : ELK1, CSNK2B, 1-myc, CD63, CDC25A, TUBB2, CD1A, CDK4, n-myc, AR e c-MOS

• Vetor de atributos para cada amostra:– Razão : log CG/TG para os 81 sítios

20 Sítios CpG para os genesELK1 e AR (cromossomo X)

Page 19: Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

Sistema de Aprendizado de Máquina Supervisionado

Vetor de atributos X = {xi : xi є Rn} , i = 1,...,n

Número de atributos n = 81

Vetor de classes Y = {yj : yj є {ALL,AML}}, j = 1,...,m Número de exemplos que serão treinados m

Conjunto de treinamento {X, Y}

Performance de Generalização Estimada a partir da quantidade de erros de

classificação na fase de testes

Page 20: Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

Support Vector Machine

• Objetivo: encontrar uma função discriminante (f) capaz de capturar as propriedades essenciais da distribuição dos dados e evitar o super ajustamento aos dados de treinamento.

• SVM - discriminante linear ( f : Rn →{ALL,AML}) – separar os dados do conjunto de treinamento– maximizar a distância da margem do hiperplano

Page 21: Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

Redução de Dimensionalidade

• Critérios avaliados – Fisher– Golub– t-test– PCA– Backward Elimination

• Método Avaliação– Cross-validation

(repetido 50 vezes)• 8 Partições

– 7 treinamento– 1 teste

Page 22: Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

SVM (ALL / AML)

• Critério de Fisher – CSNK2B CpG2

(eixo-x)– CDK4 CpG3

(eixo-y)

Page 23: Aplicações de Bioinformática (Epigenética) Daniel Guariz Pinheiro

Banco de Dados (MethDB)

MethDB (setembro, 2002) 6667 experimentos

46 espécies, 160 tecidos e 72 fenótipos Tipos de dados

Descrições dos experimentos Padrões e perfis de metilação

Padrão de metilação : seqüência 5 mucleotídeos (incluindo a 5mC)

Perfil de metilação : representação da metilação ao longo das seqüências (lollipops)

Conteúdo de metilação total Quantidade de 5mC em uma amostra de DNA.

http://www.methdb.de/