Sistema de evaluaci on de variantes gen eticas 2019-09-13آ  Tabla 1.1: Tabla de codones. 64 codones

Embed Size (px)

Text of Sistema de evaluaci on de variantes gen eticas 2019-09-13آ  Tabla 1.1: Tabla de codones. 64...

  • UNIVERSIDAD DE LAS PALMAS DE GRAN CANARIA

    Máster Oficial en Sistemas Inteligentes y Aplicaciones Numéricas en Ingenieŕıa

    Trabajo Final de Máster

    Sistema de evaluación de variantes genéticas

    Pascual Lorente Arencibia

    Tutores

    José Juan Hernández Cabrera

    Antonio Tugores Cester

    11 de enero de 2016

  • Agradecimentos

    Quiero agradecer a los tutores Antonio Tugores Cester y José Juan Hernández

    Cabrera su ayuda en todo el proceso de este Trabajo.

    Gracias a los profesores del máster. Me han enseñado algo más que el con-

    tenido de los proyectos docentes.

    Gracias a los compañeros de la UICHUMI y del Máster SIANI. El trabajo

    siempre se hacer mejor en compañ́ıa.

    Gracias a mi familia por darme un respiro lejos del trabajo.

    Gracias a Naira, por aguantarme y apoyarme incondicionalmente.

  • Resumen

    Las variantes genéticas individuales pueden determinar la presencia de en-

    fermedades genéticas de etioloǵıa desconocida y su conocimiento puede ayudar

    a hacer un diagnóstico precoz e incluso mejorar el tratamiento.

    La secuenciación masiva de exoma (NGS), permite conocer un gran número

    de variantes por paciente como aproximación sin hipótesis.

    Para establecer una relación entre una variante y una patoloǵıa hay que

    evaluar las caracteŕısticas de cada variante y las interacciones que hay entre los

    genes relacionados con ambas.

    En este trabajo presentamos un programa informático que evalúa cada va-

    riante y otorga una puntuación a cada gen afectado según sus interacciones y su

    distancia al fenotipo seleccionado para facilitar la tarea de selección de variantes

    candidatas.

  • Índice general

    1. Introducción 1

    1.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

    1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

    1.3. Estructura del ADN . . . . . . . . . . . . . . . . . . . . . . . . . 2

    1.4. Variantes genéticas . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    1.5. Tecnoloǵıas de secuenciación . . . . . . . . . . . . . . . . . . . . 5

    1.6. Funciones de los genes . . . . . . . . . . . . . . . . . . . . . . . . 7

    1.7. Software actual . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    1.7.1. Phenotype Based Gene Analyzer . . . . . . . . . . . . . . 8

    1.7.2. Search Tool for the Retrieval of Interacting Genes/Proteins 9

    1.7.3. Sorting Intolerant From Tolerant . . . . . . . . . . . . . . 10

    1.7.4. Polymorphism Phenotyping . . . . . . . . . . . . . . . . . 10

    1.7.5. Variant Effect Predictor . . . . . . . . . . . . . . . . . . . 11

    2. Estado del arte 12

    2.1. Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    VI

  • Pascual Lorente Arencibia ÍNDICE GENERAL

    2.2. Business Intelligence . . . . . . . . . . . . . . . . . . . . . . . . . 15

    2.3. Inteligencia Artificial . . . . . . . . . . . . . . . . . . . . . . . . . 15

    2.4. Interfaz de usuario . . . . . . . . . . . . . . . . . . . . . . . . . . 16

    3. Desarrollo 19

    3.1. Justificación del proyecto . . . . . . . . . . . . . . . . . . . . . . 19

    3.2. Recursos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    3.3. Data warehouse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    3.3.1. HUGO Gene Nomenclature Comitee . . . . . . . . . . . . 21

    3.3.2. Online Mendelian Inheritance in Man . . . . . . . . . . . 22

    3.3.3. Human Protein Reference Database . . . . . . . . . . . . 22

    3.3.4. Biological General Repository for Interaction Datasets . . 23

    3.3.5. Mentha . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    3.3.6. The Human Protein Atlas . . . . . . . . . . . . . . . . . . 23

    3.4. Evaluación de variantes . . . . . . . . . . . . . . . . . . . . . . . 23

    3.5. Entrada de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    3.6. Interfaz de usuario . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    3.6.1. Pantalla de fenotipos . . . . . . . . . . . . . . . . . . . . . 27

    3.6.2. Pantalla de genes . . . . . . . . . . . . . . . . . . . . . . . 27

    4. Resultados 29

    5. Conclusiones 32

    5.1. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    SIANI — ULPGC VII

  • Pascual Lorente Arencibia ÍNDICE GENERAL

    A. Obtención de variantes 34

    B. Variant Call Format 37

    C. Estructura de Poirot 39

    D. Consecuencias 41

    E. Interacciones 44

    SIANI — ULPGC VIII

  • Índice de figuras

    1.1. Estructura qúımica del ADN . . . . . . . . . . . . . . . . . . . . 3

    1.2. Secuenciación usando el método de Sanger . . . . . . . . . . . . . 6

    1.3. Diagrama de red de Phenolyzer . . . . . . . . . . . . . . . . . . . 9

    1.4. Afinidad f́ısica de los aminoácidos . . . . . . . . . . . . . . . . . . 11

    2.1. Estructura y tablas de un modelo relacional . . . . . . . . . . . . 13

    2.2. Sistema experto para diagnóstico . . . . . . . . . . . . . . . . . . 17

    3.1. Estructura del data warehouse . . . . . . . . . . . . . . . . . . . 22

    3.2. Grafo de interacciones de Poirot . . . . . . . . . . . . . . . . . . 24

    3.3. Pantalla de fenotipos . . . . . . . . . . . . . . . . . . . . . . . . . 28

    3.4. Pantalla de genes . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    4.1. Interacciones de los genes más implicados en la hipercolesterolemia 31

    C.1. Diagrama de clases . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    D.1. Posición de cada variante según su consecuencia . . . . . . . . . . 41

    IX

  • Índice de tablas

    1.1. Tabla de codones . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    1.2. Códigos de los aminoácidos . . . . . . . . . . . . . . . . . . . . . 4

    2.1. Base de datos en formato tabular . . . . . . . . . . . . . . . . . . 14

    3.1. Registros por base de datos . . . . . . . . . . . . . . . . . . . . . 21

    3.2. Valor de cada consecuencia . . . . . . . . . . . . . . . . . . . . . 25

    3.3. Valor de cada interacción . . . . . . . . . . . . . . . . . . . . . . 26

    4.1. Enfermedades de mayor valor . . . . . . . . . . . . . . . . . . . . 30

    4.2. Genes implicados en la hipercolesterolemia familiar . . . . . . . . 30

    B.1. Columnas del formato VCF. . . . . . . . . . . . . . . . . . . . . . 38

    B.2. Ejemplo de fichero VCF. . . . . . . . . . . . . . . . . . . . . . . . 38

    X

  • Caṕıtulo 1

    Introducción

    1.1. Motivación

    El ADN es uno de los descubrimientos más importantes del siglo 20[1]. Esta

    molécula es la encargada de determinar la estructura de los seres vivos y dirigir

    los procesos naturales que en ellos se realizan.

    De entre los múltiples usos que tiene conocer la secuencia genética de un ser

    humano, destacamos tres que están implicados en la medicina:

    1. Diagnosticar enfermedades antes de que se manifiesten sus śıntomas, pu-

    diendo retrasar sus aparición y reducir sus efectos.

    2. Mejorar y personalizar los tratamientos: conocer y tratar el origen de una

    enfermedad es mejor que tratar los śıntomas.

    3. Conocer la respuesta de una persona ante ciertos medicamentos, ya que

    la forma en que una persona tolera o rechaza un medicamento está deter-

    minada por su configuración genética.

    Este Trabajo Final de Máster es parte de un proyecto mayor que se desarrolla

    en la Unidad de Investigación del Complejo Hospitalario Universitario Insular -

    Materno Infantil (UICHUIMI). Este proyecto quiere mejorar el diagnóstico de

    enfermedades genéticas utilizando la secuenciación de exoma de nueva genera-

    ción para lograr determinar la relación entre variantes y patoloǵıas. Hasta ahora,

    las herramientas desarrolladas en la UICHUIMI permiten alinear las secuencias

    1

  • Pascual Lorente Arencibia CAPÍTULO 1. INTRODUCCIÓN

    de ADN, localizar las variantes genéticas, etiquetarlas y filtrarlas en base a la

    información conocida.

    1.2. Objetivos

    La UICHUIMI plantea la creación de un software que analice un listado de

    variantes genéticas y determine cuáles son más relevantes para una determinada

    patoloǵıa o fenotipo en función de las interacciones entre los genes asociados a

    las variantes.

    Los objetivos principales del software son:

    1. Mostrar un ranking de genes puntuados de 0 a 1 según su relevancia con

    una o varias patoloǵıas y expresiones seleccionadas.

    2. Mostrar los genes relacionados y las interacciones entre un gen con al

    menos una variante y la patoloǵıa o expresión escogidos.

    1.3. Estructura del ADN

    El genoma humano es una cadena de doble hélice de más de 3 mil millones

    de nucleótidos, moléculas orgánicas unidas a través de un enlace de fosfodiéster.

    Cada nucleótido se diferencia de los demás por su base nitrogenada, que puede

    ser Adenina, Guanina, Citosina o Timina. Las dos hélices son complementarias

    y están unidas por las bases nitro