BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

  • View
    102

  • Download
    0

Embed Size (px)

Text of BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

  • Slide 1
  • BIOLOGIA/MEDICINA A Revoluo da Genmica/Bioinformtica
  • Slide 2
  • A Verdadeira Revoluo Incio do sc. 20:Mendel e as leis da hereditariedade. 1944: DNA como elemento carreador da informao gentica (Avery) 1953: Watson/Crick e aestrutura do DNA. Anos 70 e 80: Biologia Molecular/Biotecnologia Anos 90 e sc. 21: Genmica/Bioinformtica
  • Slide 3
  • Histria da Biologia Molecular 1951Fred Sanger, Amino Acid Sequence of Insulin 1953Watson/Crick, Estrutura do DNA 1957 Francis Crick, Central Dogma, DNA RNA Protein 1960s Nirenberg, Matthaei, The Genetic Code 1967 Shapiro and Beckwith, First gene cloned, LacZ 1972 Paul Berg, First recombinant DNA molecule 1973 Cohen/Boyer, First recombinant organism 1977 Maxam/Gilbert and Fred Sanger, DNA sequencing 1977 Fred Sanger, Complete sequence of phage X174 1978 David Botstein, Restriction Fragment Length Polymorphisms (RFLP) 1980 Kerry Mullis, PCR 1983 Lee Hood, First Automated DNA Sequencer
  • Slide 4
  • Sequenciamento do DNA Sanger, Gilbert (Nobel 1980)
  • Slide 5
  • Sequenciamento Automtico Leroy Hood 30kb por corrida
  • Slide 6
  • A era genmica
  • Slide 7
  • 376 Genomas Concludos! 251 como rascunho! 342 em andamento 1995, Haemophilus influenzae 1996, Methanococcus jannaschii 1997, Saccharomyces cerevisiae 1997, Escherichia coli 1998, Caenorhabditis elegans 2000, Drosophila melanogaster 2000, Arabidopsis thaliana 2001, Homo sapiens 2002, Schizosaccharomyces pombe 2002, Oryza sativa 2002, Mus musculus 2005, Pan troglodites 327 Bacterial, 27 Archeal, 22 Eukaryotic http://www.ncbi.nlm.nih.gov 09/07/2006
  • Slide 8
  • Um modelo gentico
  • Slide 9
  • Genoma Humano 2001 International Consortium Grupos acadmicos Celera Genomics Companhia Privada
  • Slide 10
  • A nova revoluo da Genmica 454 Solexa - Illumina SOLiD - ABI ~120 MB de DNA por corrida ~01 GB de DNA por corrida ~03 GB de DNA por corrida 12KB/US$ 100KB/US$300KB/US$ Tecnologia de Capilar = 0.5KB/US$
  • Slide 11
  • Nova tecnologia Dispensa clonagem dos fragmentos em sistemas bacterianos Dispensa a preparao de DNA molde para sequenciamento Reaes feitas em paralelo em volume extremamente pequeno - nanotecnologia
  • Slide 12
  • Aplicaes Sequenciamento de Genomas sequenciamento de novo re-sequenciamento - variabilidade SNPs e mutaes Sequenciamento de Transcriptomas variabilidade - splicing, poliadenilao quantificao de expresso gnica
  • Slide 13
  • Sequenciamento de novo
  • Slide 14
  • Re-sequenciamento
  • Slide 15
  • Transcriptoma
  • Slide 16
  • Projeto 454 Participantes: LICR-SP, LICR-NY, Venter Institute Objetivo: Sequenciamento extensivo dos genes expressos na linhagem celular HCC1954 (tumor de mama) buscando conhecer, com um nico set de dados, alteraes genticas e epi-genticas neste tipo de cncer. Sequenciador: 454
  • Slide 17
  • Fapesp/LICR Genoma Humano do CncerProjeto 454 Venter/LICR # sequncias1.2 milhes520 mil # sequenciadores05 MegaBaces01 454 # corridas~15,00001 Custo (US$)*12 milhes10 mil * Excluindo o preo dos aparelhos
  • Slide 18
  • Um objetivo a curto prazo
  • Slide 19
  • Os sequenciadores de nova gerao promovem uma mudana no paradigma Com os bilhes de datapoints gerados em horas, o processamento e anlise dos dados tornou-se o maior gargalo das pesquisas biomdicas. Gerao de dados deixa de ser o fator limitante
  • Slide 20
  • Bioinformtica Computao Matemtica Biologia
  • Slide 21
  • O que Bioinformtica?
  • Slide 22
  • Slide 23
  • Slide 24
  • Bioinformtica - Histria 1970, Needleman/Wunch, Alinhamento Global. 1972, Margaret Dayhoff, Matrizes de Comparao. 1979, Walter Goad, GenBank. 1981, Smith/Waterman, Alinhamento Local. 1989, NHGRI, Projeto Genoma Humano. 1990, Altschul/Gish/Miller/Myers/Lipman, BLAST. 1994, Eddy/Krogh/Durbin, Hidden Markov Models (HMMs).
  • Slide 25
  • Bioinformtica - Importncia Poucas pessoas adequadamente treinadas em Biologia e Computao. Biologia em larga-escala. Produo de dados em massa gera uma demanda para anlises computacionais. Economiza tempo e dinheiro.
  • Slide 26
  • Bioinformtica Desenvolvimento de ferramentas. Forma de explorar novos dados. Processamento de dados gerados por projetos em larga-escala. Uma nova forma de se fazer cincia dirigida por hipteses.
  • Slide 27
  • Bioinformtica O BioinformataO Usurio - Manipula a informao. - Desenvolve ferramentas - Bancos de dados locais. - Local. - Mta programao. - Habilidades de TI. - Recursos da Web. - Local ou remoto. - nada de programao. - pouca habilidade de TI.
  • Slide 28
  • Cinco websites que todos devem conhecer NCBI (The National Center for Biotechnology Information; http://www.ncbi.nlm.nih.gov/ EBI (The European Bioinformatics Institute) http://www.ebi.ac.uk/ The UCSC Genome Browser http://genome.ucsc.edu/ SwissProt/ExPASy (Swiss Bioinformatics Resource) http://expasy.cbr.nrc.ca/sprot/ PDB (The Protein Databank) http://www.rcsb.org/PDB/
  • Slide 29
  • NCBI (http://www.ncbi.nlm.nih.gov/)http://www.ncbi.nlm.nih.gov/ Acesso aos bancos de dados via Entrez Medline/OMIM Genbank/Genpept/Structures Servidor de BLAST Todos os tipos de Blast Portal do Genoma Humano Muito, muito mais..
  • Slide 30
  • Slide 31
  • Slide 32
  • EBI (http://www.ebi.ac.uk/)http://www.ebi.ac.uk/ Acesso a bancos de dados via SRS EMBL, SwissProt, Muitas outras ferramentas ClustalW, DALI,
  • Slide 33
  • Slide 34
  • UCSC Genome Browser (http://genome.ucsc.edu/)http://genome.ucsc.edu/ Banco de dados e Browser para genomas de diferentes espcies Humano, camundongo, rato, zebrafish, etc. Muitas outras ferramentas SNPs, domnios prticos, genmica comparativa, etc.
  • Slide 35
  • Slide 36
  • SwissProt (http://www.expasy.ch/sprot/)http://www.expasy.ch/sprot/ Checagem manual. O nmero de entradas errneas bastante reduzido. Cross-link extensivo com outros bancos SwissProt o gold-standard em termos de bancos de dados e o melhor lugar para se comear uma anlise se vc procura info para uma ou poucas
  • Slide 37
  • Slide 38
  • Protein Data Bank PDB (http://www.rcsb.org/pdb/)http://www.rcsb.org/ Armazena a estrutura tri-dimensional para milhares de protenas Acesso a vrios servios relacionados a biologia estrutural
  • Slide 39
  • Slide 40
  • Bancos de Sequncia Primrios GenBank (USA) http://www.ncbi.nlm.nih.gov/Genbank EMBL (Europa) http://www.ebi.ac.uk/embl/ DDBJ (Japo) http://www.ddbj.nig.ac.jp/
  • Slide 41
  • Homologia - Ortologia - Paralogia
  • Slide 42
  • Dois conceitos importantes Paralogia: O evento que originou s duas sequncias um evento de duplicao gnica! Orthologia: O evento que deu origem s duas sequncias um evento de especiao! FUNES SIMILARES! FUNES IDNTICAS!
  • Slide 43
  • Como definir funo? Alinhamento de sequncias Motivos (padres consensuais) Blocos, perfis, etc.... Hidden Markov Models - HMM
  • Slide 44
  • Similarity Searches on Sequence Databases, EMBnet Course, October 2003
  • Slide 45
  • Alinhamento Identidade - MATCH Semelhana / divergncia - MISMATCH Lacunas - GAPS Insero/Deleo - INDELS 0 1 2 3 4 5 6 7 8 9 10 G A A - G G A T T A G G A T C G G A - - A G
  • Slide 46
  • Alinhamento Qual o melhor alinhamento ? Alinhamento 1: A C G G A C T | | | - | | A T C G G A T C T Alinhamento 2: A T C G G A T C T | | | | - | | A C G G A C T
  • Slide 47
  • Pontuao Esquema de pontuao match: +2 mismatch: +1 indel: 2 Alinhamento 1: (5 *2) + (1*1) + (4*-2) = 10 + 1 8 = 3 Alinhamento 2: (6 *2) + (1*1) + (2*-2) = 12 + 1 4 = 9 Escore final = soma dos escores para cada posio Favorece os matches, penaliza os gaps
  • Slide 48
  • Matriz de Substituio Tabela de comparao Reflete a probabilidade ou frequncia de determinada substituio em sequncias biologicamente relacionadas p(A B) = p(B A) Construdas pelo estudo do alinhamento de diversas sequncias relacionadas AA ou nucleotdeos
  • Slide 49
  • Percent Accepted Mutation (PAM - Dayhoff) Margaret Dayhoff (1978) Probabilidade de substituio de aa em alinhamentos globais de sequncias homlogas Cada matriz reflete as mutaes entre sequncias que divergiram por determinado perodo de tempo Mutaes aceitas => no afetam negativamente a viabilidade da protena Primeira matriz 71 grupos de protenas, 85% de similaridade 1572 substituties de aminocidos Expanso do nmero de protenas => 1991 database
  • Slide 50
  • Premissa => cada mutao independente das mutaes anteriores Consequncia => as substituies observadas em curtos perodos podem ser extrapoladas para longos perodos PAM 1 => sequncias com 1% ou menos de divergncia =>1 mutao aceita a cada 100 aminocidos PAM N mutaes = (PAM 1) N PAM 250 => 250 mutaes por 100 aa => 250% mutaes em 2500 milhes anos PAM 250: 20% similar - PAM 120: 40% - PAM 80: 50% - PAM 60: 60% Matrizes PAM
  • Slide 51