30
26/04/2015 1 POLIMORFISMOS E ESTUDOS DO GENOMA José Francisco Diogo da Silva Junior – Mestrando CMANS/UECE Relação genótipofenótipo Os polimorfismos surgem devido à mutação, normalmente devido à uma  incorporação de um nucleotídeo durante a replicação, ou por mutagênese química ou física. Variação na sequência de DNA: Mudança de apenas uma base no DNA, Pequenas inserções e deleções de um número de bases através de expansões e contrações no número de repetições em tandem das sequências de DNA, Inserções de elementos transpostos, Inserções, deleções e duplicações de segmentos de DNA, Mudanças no número de cromossomos (ALBERTS et al., 2010).

POLIMORFISMOS E ESTUDOS DO GENOMA · 26/04/2015 2 Polimorfismos gênicos A presença, em uma população de dois ou mais formas relativamente comuns de um gene ou cromossomo é chamado

  • Upload
    buiphuc

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

26/04/2015

1

POLIMORFISMOSEESTUDOSDOGENOMA

JoséFranciscoDiogodaSilvaJunior– MestrandoCMANS/UECE

Relaçãogenótipo‐fenótipo

▪ Os polimorfismos surgem devido à mutação, normalmente devido 

à uma má incorporação de um nucleotídeo durante a replicação, 

ou por mutagênese química ou física.

▪ Variação na sequência de DNA:

▪ Mudança de apenas uma base no DNA,

▪ Pequenas inserções e deleções de um número de bases através de 

expansões e contrações no número de repetições em tandem das 

sequências de DNA, 

▪ Inserções de elementos transpostos,

▪ Inserções, deleções e duplicações de segmentos de DNA,

▪ Mudanças no número de cromossomos (ALBERTS et al., 2010).

26/04/2015

2

Polimorfismosgênicos

▪ A presença, em uma população de dois ou mais formas 

relativamente comuns de um gene ou cromossomo é chamado de 

polimorfismo

▪ Um tipo prevalente de polimorfismo é uma diferença em um único 

par de base, o polimorfismo de nucleotídeo único (SNP)

▪ Os SNPs em sítios de restrição formam polimorfismos de 

comprimento de fragmentos de restrição (RFLP)

▪ Polimorfismos resultantes de uma sequência curta de DNA 

repetida em tandem é chamada de sequência curta de repetição 

(SSR)

3

Polimorfismosdenúmerodecópias(CNPs)

▪ Uma parte substancial do genoma humano pode ser duplicada ou 

deletada em porções bastante largas, variando entre 1 kb até 1 Mb

▪ Esse tipo de variação é chamada de polimorfismos de número de 

cópias (copy‐number polymorphism ‐ CNP)

▪ As cópias extras ou faltantes do genoma nos CNPs podem ser 

detectadas por hibridação com oligonucleotídeos nos 

microarranjos de DNA

4

26/04/2015

3

Polimorfismodenucleotídeoúnico(SNP)

▪ É a variação genética de apenas um nucleotídeo entre sequências 

de DNA.

▪ 90% da variação genética humana é através dos SNPs.

▪ Um SNP ocorre aproximadamente a cada 300 bases no DNA. Isso 

significa que há cerca de 10 milhões de SNPs entre os 3 bilhões de 

nucleotídeos do genoma humano.

http://learn.genetics.utah.edu/content/pharma/snips/

SNP

94%

6%

C  T  T A  G  C T  T

C  T  T A  G  T T  T

MUTAÇÃO

99,9%

0,1%

C  T  T A  G  C T  T

C  T  T A  G  T T  T

Polimorfismodenucleotídeoúnico(SNP)

26/04/2015

4

NormalmRNA

Proteína

VariantemRNA

Proteína

A U G

Met

A A G

Lys

U U U

Phe

G G C

Gly

G C A

Ala

U U G

Leu

A A

Gln

C

A U G

Met

A A G

Lys

U U U

Phe

G G U

Gly

G C A

Ala

U U G

Leu

A A

Gln

C

G

Polimorfismodenucleotídeoúnico(SNP)

Relaçãogenótipo‐fenótipo

▪ Os polimorfismos de nucleotídeo único (single nucleotide 

polymorphisms, SNPs) envolvem a substituição de apenas um 

nucleotídeo em uma posição específica no genoma (ALBERTS et al., 

2010).

▪ Novos SNPs são continuamente gerados entre cada célula dos 

organismos, porém a maioria é removida através da ação de 

reparação de DNA durante a replicação (KUNKEL et al., 2005).

▪ Quando um SNP ocorre em pelo menos uma porcentagem 

relativamente grande de uma população (em torno de 5% a 10%), 

ele é considerado um SNP comum (BROOKES, 1999).

26/04/2015

5

Relaçãogenótipo‐fenótipo

▪ Os SNPs encontrados em regiões codificantes de um gene são 

chamados de SNPs codificantes (cSNP). 

▪ SNPs não sinônimos (nsSNPs) exercem um efeito na estrutura e/ou 

na função de uma proteína por causa de uma substituição de um 

aminoácido. 

▪ SNPs codificantes não sinônimos incluem um grupo de SNPs que, 

juntamente com os SNPs de regiões regulatórias, possuem o maior 

impacto no fenótipo.

Polimorfismodenucleotídeoúnico(SNP)

▪ Os SNPs são espaçados de forma irregular em intervalos de 500 a 

1000 bases

▪ Dois em cada três SNPs envolve a substituição da citocina (C) com a 

timina (T)

▪ Os SNPs podem ocorrer tanto nas regiões codificantes como não 

codificantes do genoma

▪ O SNP Consortium estima que até 300.000 SNPs podem ser 

necessários para estudos

▪ Mais de 100.000 SNPs podem ser necessários para a descoberta de 

genes de doenças complexas

26/04/2015

6

Polimorfismodenucleotídeoúnico(SNP)

▪ Um SNP geralmente é uma variável binária.

▪ A probabilidade de uma mutação se repetir no mesmo locus é 

bastante pequena

▪ Casos de tri‐alelos são geralmente considerados ser efeito de erro na 

genotipagem

▪ O nucleotídeo em um SNP é chamado de

▪ Alelo maior (se a frequência alélica é > 50%), ou

▪ Alelo menor (se a frequência alélica é < 50%)

94%

6%

C  T  T A  G  C T  T C: alelo maior 

C  T  T A  G  T T T T: alelo menor 

TiposdeSNPs(SNPsnãocodificantes)

▪ 5’ UTR

▪ 3’ UTR

▪ Íntrons

▪ Regiões intergênicas

▪ Pseudogenes

▪ Regulatório

▪ Splicing

▪ Regulação transcricional (promoter e sítios de ligação dos FT)

▪ Regulação traducional (iniciação ou terminação)

▪ Sítios alvos regulatórios de miRNA

26/04/2015

7

TiposdeSNPs(SNPscodificantes)

▪ SNPs sinônimos (variação de terceira posição)

▪ SNPs de substituição (mudança de aminoácido)

▪ SNPs funcionais (substituição aceitável de aminoácido)

▪ SNPs não funcionais (traços e doenças)

atggacgtactggtg5’UTRTFBS

promoter

tctgagtgctccgcgGU AG 3’UTR

Transcrito tipo 1

M D V L V S E C S AProteína tipo 1

M D V L V S E S S AProteína tipo 2

1. Alterando a proteína codificada

2. Alterando o splicing3. Terminação prematura4. Regulação da transcrição

Transcrito tipo 2

Proteína tipo 3

Transcrito tipo 3

G/CG/TG/T

G/TA/G

Sítios de ligaçãoFat. transcrição

SNPspossuemváriasfunções

26/04/2015

8

15

Figure 4.18: SNP genotype of an individual

SNPspodemounãoalteraraestruturaproteica

26/04/2015

9

Haplótipos

▪ Um haplótipo é um conjunto de SNPs ligados em um mesmo 

cromossomo

▪ Um haplótipo poder ser considerado um conjunto binário já que cada 

SNP é binário

Haplótipos

26/04/2015

10

Genetics HomeReference

http://ghr.nlm.nih.gov/

Penetrância eFatoresambientais

▪ Alta penetrância – doenças mendelianas de gene único

▪ Autossômico dominante, 100% de penetrância

▪ Anemia falciforme, daltonismo, fibrose cística

▪ Penetrância reduzida, alguns genes levam à predisposição à doença

▪ Genes BRCA1 & BRCA2 podem levarr à cancer de mama ou ovário

▪ Doenças complexas que necessitam de alelos em vários genes

▪ Câncer influenciado pelo ambiente (fumo, exposição aos raios UV)

▪ Aterosclerose (obesidade, genética e colesterol)

▪ Algumas doenças complexas possuem múltiplas causas

▪ Genética vs. ambiente vs. comportamento

▪ Algumas doenças complexas pode ser causadas por múltiplas vias metabólicas

▪ DMT2 – função reduzida das células‐β pancreática, produção reduzida da insulina, resistência à insulina, bem como condições ambientais (obesidade, sedentarismo, fumo, etc.)

26/04/2015

11

HerdabilidadedosSNPs

Manolio et al. Nature 461, 747‐753 (2009)

Anemia falciformeFibrose CísticaDaltonismo

Doenças complexas

Herdabilidadedealgumascondições

MANOLIO, T. A et al. Finding the missing heritability of complex diseases. Nature, v. 461, n. 7265, p. 747–753, 2009.

26/04/2015

12

Genesdeinteresseemnutrigenética

Doença Gene ou Loci

Diabetes, Tipo II CDKAL1, WFS1, KCNQ1, IL2Rα, JA2F1 

Diabetes, Tipo II KIAA0350

Obesidade FTO, MC4R, PCSK1

Doença cardiovascular 6q25, 2q36

DHGNA PNPLA3

Dislipidemia MLX1PL

Hipercolesterolemia CELSR2

Hipertensão SLC12A3, SLC12A1,KCNJ1

Doença Celíaca IL‐2, IL‐21, 

Colite ulcerativa ECM1, PTPN2, HERC2, STAT3

Doença de Crohn JAK2, CDKAL1, ITLN1, IRGM

ProjetoInternacionalHapMap

http://www.hapmap.org/

26/04/2015

13

EstudosdeAssociaçãoPan‐Genômica

(GWAS)

CatálogodeestudosGWAS

http://www.genome.gov/GWAStudies/

26/04/2015

14

GWASCentral

http://www.gwascentral.org/

dbGaP

26/04/2015

15

EstudosdeAssociaçãopan‐genômica(GWAS)

▪ Busca por associações a partir de variantes

▪ Geração de dados em larga escala (high‐throughput)

▪ Geração de dados em larguíssima escala (next gen sequencing)

▪ Ferramentas analíticas de data mining

▪ Descoberta de novas relações biológicas

BILLINGS et al., 2010

EstudosdeAssociaçãopan‐genômica(GWAS)

▪ Os estudos de associação pan‐genômica, ou Genome‐wide

Association Studies (GWAS), examina as variações genéticas em 

diferentes indivíduos para encontrar quais dessas variantes estão 

associadas à fenótipo em particular.

▪ A variante mais comum utilizada pelo GWAS é o polimorfismo de 

nucleotídeo único (SNP).

▪ Identifica regiões dos genes que podem predizer informações de 

desequilíbrio de ligação comparado com o projeto HapMap.

National Human Genome Research Institute (2011) 

26/04/2015

16

EstudosdeAssociaçãopan‐genômica(GWAS)

▪ Geralmente analisa de 100.000‐1.000.000 de SNPs no genoma.

▪ Cobre aproximadamente 80% do genoma.

▪ Aproximadamente 1.200 GWAS foram feitos sobre mais de 200 

doenças e traços e foram encontrados mais de 4.000 associações 

de SNPs.

https://www.genome.gov/

AbordagemGWASparadoençascomplexas

▪ Identificação de todos os 10 milhões de SNPs comuns.

▪ Coleta de 1.000 casos e 1.000 controles.

▪ Genotipagem de todo o DNA para todos os SNPs.

▪ 20 bilhões de genótipos.

▪ Em 2002, essa abordagem custava US$ 0,50 por genótipo.

▪ Isso daria US$ 10 bilhões para cada doença – impraticável.

COLLINS, et al. JAMA. 2008;299(11):1351‐1352

26/04/2015

17

AbordagemGWASparadoençascomplexas

▪ Identificação de um conjunto de 300.000 tag SNPs.

▪ Coleta de 1.000 casos e 1.000 controles.

▪ Genotipagem de todo o DNA para todos os SNPs.

▪ 600 milhões de genótipos.

▪ Em 2008, o custo da genotipagem caiu para US$ 0,0010, 

totalizando US$ 600.000 para cada doença.

COLLINS, et al. JAMA. 2008;299(11):1351‐1352

CustodosequenciamentodeDNA

▪ Sequenciamento de nova geração: US$ 1.000 e 1‐2 semanas

0,01

0,10

1,00

10,00

100,00

1.000,00

10.000,00

0,001

2003 2005 2011

Custo por genoma (US$ milhões)

100.000,00

Projeto Genoma Humano

13 anosUS$ 3.000.000.000,00

Next Generation Sequencing

Tempo de sequenciamento

meses

semanas

anos

26/04/2015

18

www.genome.gov/GWAStudies

26/04/2015

19

Estudos GWAS publicados, 2005 – 6/2012Número Total de Publicações

0

200

400

600

800

1000

1200

1400

2005 2006 2007 2008 2009 2010 2011 2012

1350

www.genome.gov/GWAStudies

Manolio T. N Engl J Med 2010;363:166‐176

26/04/2015

20

Manolio T. N Engl J Med 2010;363:166‐176

26/04/2015

21

EstudosdeAssociaçãopan‐genômica(GWAS)

Escanear o genoma- 500.000 SNPs

Identificar as regiões de interesse, examinaros genes, a densidadedos SNPs, regiõesregulatórias, etc.

Replicar os achados

* *

***

EstudosdeAssociaçãopan‐genômica(GWAS)

Hirschhorn & Daly, Nat Rev Genet (2005)

Locus diretamente genotipado

Gene Candidato  ou  GWAS

Associação direta     Associação indireta (guilt by association)

Marcador relacionado com o locus da doença

26/04/2015

22

DesequilíbriodeLigaçãoeAssociaçãoalélica

▪ Marcadores próximos nos cromossomos são normalmente transmitidos em conjunto, produzindo uma correlação entre os alelos. Esse fenômeno é chamado de Desequilíbrio de Ligação

▪ Isto é importante para a associação alélica porque significa que não é necessário acessar a variante etiológica exata, mas procurar por associação em um tag‐SNP com uma variante próxima.

Marcador1 2 3 n

LD

D

Desequilíbriodeligação

26/04/2015

23

Desequilíbriodeligação

Figura: http://www.molvis.org/molvis/v14/a205/images/mv‐v14‐1727‐f2.jpg

EstudosdeAssociaçãopan‐genômica(GWAS)

Manolio T. N Engl J Med 2010;363:166‐176

26/04/2015

24

AnálisegenéticadeSNPsrelacionadoscomDCV

DCV – doença cardiovascular

Fator de risco para DCV Gene SNPs Genótipo

Lipídios APOAI ‐75G→A GA

Lipídios APOC3 3175C→G GG

Lipídios APOE ε2, ε3, ε4 2, 3

Lipídios CETP 279G→A GG

Pressão arterial ACE Ins/Del ID

Pressão arterial AGT ‐6C→A AA

Inflamação IL1B ‐511C→T TT

Inflamação IL6 ‐174G→C GC

Metilação (folato) MTHFR 677C→T TT

Metilação (B12) TCN2 776C→T CT

Food and nutrition in 21st century, Warsaw, 8‐9.09.2011

EstudosdeAssociaçãodeMóduloGênico(GMAS)

26/04/2015

25

EstudodeAssociaçãodeMóduloGênico(GMAS)

▪ Difícil análise genética de fenótipos multifatoriais

▪ Expressão gênica

▪ Variantes polimórficas (SNPs e CNVs) dos genes de interesse

▪ Frequências alélicas

▪ Anormalidades cromossômicas

▪ Dieta e fatores ambientais e comportamentais

▪ Alterações epigenéticas (metilação de DNA)

DAI et al., 2013; MOORE et al., 2013

EstudodeAssociaçãodeMóduloGênico(GMAS)

▪ GWAS vs. GMAS

▪ Métodos reducionistas da complexidade e do volume

▪ Módulos Eigengenes

▪ Representam grupos gênicos baseados em redes de interação

▪ Combinação linear normalizada de genes com a maior variância em 

uma população

LANGFELDER et al., 2007; WEISS et al., 2012

26/04/2015

26

Eigengenes

▪ Representam as expressões características de módulos

▪ Associações ponderadas representam as relações entre os 

módulos

▪ Redes eigengenes fornecem um quadro natural de relações entre 

módulos gênicos e traços clínicos

LANGFELDER; HORVATH, 2007; WEISS et al., 2012

Coexpressãogênica

▪ Comparação entre tecidos, linhagens, indivíduos, amostras

▪ Coeficiente da correlação de Pearson (‐1 até 1)

▪ Base da construção da rede ponderada

Figura 2. Modelo de forte co‐expresão entre dois genes (A e B) Fonte: ATTED v7.1(http://atted.jp/overview.shtml)

26/04/2015

27

Módulosdecoexpressão

▪ Agrupamentos de genes com o padrão de expressão semelhante

▪ Pode fornecer informações cruciais na compreensão dos sistemas 

biológicos complexos

KINOSHITA; OBAYASHI, 2009

Figura 3. Visualização gráfica de redes de coexpressão de genes humanos.A figurainclui 615 genes‐nós e 2190 ramos de coexpressão numa rede produzida no formatoCytoscape com anotações completas sobre os 615 genes Fonte: PRIETO et al., 2008

26/04/2015

28

EstudodeAssociaçãodeMóduloGênico(GMAS)

▪ Ampliação de estudos do tipo GWAS

▪ Cenário de como os grupos de genes funcionam em conjunto

▪ “Soluções boas o suficiente”

▪ Suscetibilidade às doenças comuns pode ser bem mais relacionada à 

maneira pela qual os genes normais interagem uns com os outros do 

que com efeitos adicionais de múltiplas mutações gênicas

WEISS et al., 2012

RedesPonderadasdeEigengenes

▪ Maneira de reduzir a complexidade da análise gênica

▪ A ideia é tratar da relação entre os eigengenes no lugar de todos os genes

▪ Maior facilidade para testar a associação dos eigengenes com os 

fenótipos de interesse

▪ O padrão eigengene deve ser capaz de predizer uma resposta 

fenotípica

WEISS et al., 2012

26/04/2015

29

Construir a redeFerramentas: correlação de Pearson, limiar frouxoJustificativa: usar os padrões de interação entre genes

Identificar os módulosFerramentas: TOM, clustering hierárquicoJustificativa: análise baseada em módulo ou pathway

Achar o representativo de cada móduloFerramentas: eigengene (1o Componente Principal) Justificativa: Condensar cada módulo num só perfil

Análise Posterior

módulo de relações, módulo de significância de traços, análise causal

Construindoumarededecoexpressão

▪ Gerar/obter dados de expressão por microarray

▪ Fazer filtração preliminar

▪ Mensurar a concordância dos perfis de expressão de genes pela 

correlação de Pearson

▪ A matriz de correlação de Pearson deve ser continuamente 

considerando a função de adjacência → rede ponderada

26/04/2015

30

Redesconsensuaiseigengene

Módulos individuais

Módulos Consensuais

Eigengenes Consenso

Redes eigengene

consensuais