Introdução a Bioinformática - Tese

Embed Size (px)

Citation preview

  • 8/19/2019 Introdução a Bioinformática - Tese

    1/163

    UNIVERSIDADE FEDERAL DE GOIÁS

    ESCOLA DE ENGENHARIA ELÉTRICA E DE COMPUTAÇÃO

    INTRODUÇÃO A BIOINFORMÁTICA

    Weslley Francisco Machado de NapoliOrientador: Prof. Dr. Marco Antônio Assfalk de Oliveira

    Goiânia – 2003 

  • 8/19/2019 Introdução a Bioinformática - Tese

    2/163

    WESLLEY FRANCISCO MACHADO DE NAPOLI

    INTRODUÇÃO A BIOINFORMÁTICA

    Projeto Final apresentado ao Curso de Engenharia deComputação da Escola de Engenharia Elétrica e deComputação da Universidade Federal de Goiás, paraobtenção de Graduação em Engenharia de Computação.Área de concentração: Bioinformática.Orientador: Prof. Marco Antônio Assfalk de Oliveira

    Goiânia – 2003

  • 8/19/2019 Introdução a Bioinformática - Tese

    3/163

    WESLLEY FRANCISCO MACHADO DE NAPOLI

    INTRODUÇÃO A BIOINFORMÁTICA

    Dissertação defendida e aprovada em 25 de março de2003, pela banca examinadora constituída pelos professores.

     ____________________________________Prof. Dr. Marco Antônio Assfalk de Oliveira

     ____________________________________

    Prof. M.Sc. Carlos Galvão Pinheiro Jr.

     ____________________________________Prof. Dr. Gelson da Cruz Júnior

  • 8/19/2019 Introdução a Bioinformática - Tese

    4/163

     

    Aos meus pais, pelo carinho comque acompanharam e orientarama minha trajetória.

  • 8/19/2019 Introdução a Bioinformática - Tese

    5/163

     

    Agradecimentos 

    À minha grande amiga RosângelaThais por ter colaborado em todos os

    momentos durante a Elaboração do meuProjeto Final.

    Ao meu orientador e a UFG por teremaceitado a minha decisão de mudar de projeto faltando apenas três semanas para aapresentação.

    Ao meu antigo parceiro de ProjetoFinal que aceitou a divisão sem traumas esem desentendimentos.

  • 8/19/2019 Introdução a Bioinformática - Tese

    6/163

     

    Todo conhecimento científico nos ajuda acompreender os fenômenos da natureza, adesvendar os mistérios da vida e do Universo.Um novo conhecimento científico nos dá poderes. Esses poderes, quando utilizados deforma responsável, normalmente servem para o

    “bem”. Caso contrário, se utilizados sem se ponderar suas conseqüências, podem acabarcausando o “mal”. Se quisermos evitar situaçõesde abuso de um novo poder, como o mau uso daenergia nuclear (bombas atômicas), devemos usarcom responsabilidade os novos poderes adquiridoscom o conhecimento do genoma humano.

    Lygia da Veiga Pereira

  • 8/19/2019 Introdução a Bioinformática - Tese

    7/163

    SUMÁRIO

    RESUMO.......................................................................................................................................... 10

    ABSTRACT...................................................................................................................................... 11

    INTRODUÇÃO ................................................................................................................................ 12

    1 – CONCEITOS DA BIOLOGIA ............................................................................................ 151.1 – GENOMA ............................................................................................................................ 161.2 – DNA: A RECEITA BIOLÓGICA ....................................................................................... 18

    1.2.1 – Replicação de dna................................................................................................................. 191.2.2 – Transcrição de dna................................................................................................................ 201.3 – PROTEÍNAS........................................................................................................................ 211.4 – CROMOSSOMOS ............................................................................................................... 231.5 – HEREDITARIEDADE ........................................................................................................ 241.6 – GENES E ALELOS ............................................................................................................. 251.7 – DIVERSIDADE GENÉTICA .............................................................................................. 271.8 – GENES E MEIO AMBIENTE............................................................................................. 28

    2 – PROJETO GENOMA HUMANO ....................................................................................... 292.1 – OBJETIVOS DO GENOMA HUMANO ............................................................................ 292.2 – ORGANIZAÇÃO DO GENOMA HUMANO .................................................................... 31

    2.2.1 – Identificando genes a partir do rna ....................................................................................... 312.2.2 – O que já foi identificado na seqüência completa do genoma humano ................................. 322.2.3 – Diferenças entre genomas .................................................................................................... 332.2.4 – O próximo desafio: determinar a função gênica................................................................... 342.2.5 – O proteoma humano ............................................................................................................. 342.3 – O PROJETO GENOMA HUMANO NO BRASIL.............................................................. 34

    3 – INFORMÁTICA: UMA FERRAMENTA INDISPENSÁVEL .......................................... 363.1 – A INFLUÊNCIA DA COMPUTAÇÃO NA BIOLOGIA ................................................... 363.2 – RÓTULOS NAS SEQÜÊNCIAS DE GENES..................................................................... 383.3 – BIOINFORMÁTICA – APENAS A CRIAÇÃO DE BANCO DE DADOS?..................... 383.4 – A PRIMEIRA ERA DA INFORMAÇÃO EM BIOLOGIA ................................................ 39

    3.5 – DESAFIOS DA BIOLOGIA PARA A COMPUTAÇÃO ................................................... 413.6 – UMA NOVA ABORDAGEM DA COLETA DE DADOS................................................. 413.7 – QUE PERGUNTAS A BIOINFORMÁTICA PODE RESPONDER ? ............................... 42

    4 – MODELAGEM DE SISTEMAS BIOLÓGICOS ............................................................... 444.1 – REPRESENTAÇÃO UNIDIMENSIONAL DE MOLÉCULAS......................................... 444.2 – MÉTODOS COMPUTACIONAIS...................................................................................... 454.3 – ETAPAS DE UM EXPERIMENTO EM BIOLOGIA COMPUTACIONAL ..................... 49

    5 – PESQUISA BIOLÓGICA NA WEB ................................................................................... 515.1 – UTILIZAÇÃO DOS MECANISMOS DE PESQUISA....................................................... 515.2 – LOCALIZAÇÃO DE ARTIGOS CIENTÍFICOS................................................................ 52

  • 8/19/2019 Introdução a Bioinformática - Tese

    8/163

    5.3 – OS BANCOS DE DADOS BIOLÓGICOS PÚBLICOS ..................................................... 525.4 – HISTÓRICO......................................................................................................................... 545.5 – DADOS DE SEQÜÊNCIAS DE DNA, RNA E PROTEÍNAS ........................................... 54

    5.6 – DADOS DE EXPRESSÃO GÊNICA.................................................................................. 555.7 – PESQUISA E DEPÓSITO EM BANCOS DE DADOS BIOLÓGICOS............................. 56

    6 – ANÁLISE DE SEQÜÊNCIAS, ALINHAMENTO PAR-A-PAR E PESQUISA EMBANCOS DE DADOS......................................................................................................... 59

    6.1 – COMPOSIÇÃO DO DNA E RNA ...................................................................................... 606.2 – WATSON E CRICK DESCOBREM A ESTRUTURA DO DNA ...................................... 616.3 – DESENVOLVIMENTO DOS MÉTODOS DE SEQÜENCIAMENTO DO DNA............. 626.4 – A COMPOSIÇÃO QUÍMICA DAS PROTEÍNAS ............................................................. 636.5 – MECANISMOS DA EVOLUÇÃO MOLECULAR............................................................ 636.6 – DETECÇÃO DE PADRÕES E LOCALIZADORES DE GENE NO DNA ....................... 646.7 – PREDIÇÃO DA LOCALIZAÇÃO DE GENES.................................................................. 65

    6.8 – DETECÇÃO DE ESTRUTURAS........................................................................................ 666.9 – TRADUÇÃO DE DNA........................................................................................................ 666.10 – COMPARAÇÃO DE PARES DE SEQÜÊNCIAS.............................................................. 686.11 – SOFTWARES DE PESQUISA EM BANCOS DE DADOS BIOLÓGICOS ..................... 736.11.1– Alinhamento local usando blast ........................................................................................... 736.11.2– Alinhamento local com fasta ................................................................................................ 74

    7 – ALINHAMENTO MÚLTIPLO DE SEQÜÊNCIAS, .......................................................... 767.1 – EVOLUÇÃO........................................................................................................................ 767.2 – ALINHAMENTO DE VÁRIAS SEQÜÊNCIAS ................................................................ 787.3 – ANÁLISE FILOGENÉTICA............................................................................................... 817.3.1 – Árvores filogenéticas com base nas distâncias entre pares .................................................. 83

    7.3.2 – Árvores filogenéticas baseadas na junção de vizinhos......................................................... 847.3.3 – Árvores filogenéticas baseadas em parcimônia máxima...................................................... 847.3.4 – Árvores filogenéticas baseadas na estimativa de probabilidade máxima ............................. 857.3.5 – Software para análise filogenética........................................................................................ 867.4 – PERFIS E PADRÕES .......................................................................................................... 877.4.1 – Bancos de dados de padrões................................................................................................. 887.4.2 – Construção e uso dos próprios perfis.................................................................................... 90

    8 – VISUALIZAÇÃO DE ESTRUTURAS DE PROTEÍNA .................................................... 958.1 – A QUÍMICA DAS PROTEÍNAS......................................................................................... 968.1.1 – De unidimensional a tridimensional..................................................................................... 968.2 – FORÇAS INTERATÔMICAS E ESTRUTURA DE PROTEÍNAS.................................. 101

    8.2.1 – Interações covalentes.......................................................................................................... 1018.2.2 – Pontes de hidrogênio .......................................................................................................... 1028.2.3 – Interações hidrofóbicas e hidrofílicas................................................................................. 1038.2.4 – Interações carga-carga, carga-dipolo e dipolo-dipolo ........................................................ 1058.2.5 – Forças de Vander Waals..................................................................................................... 1068.2.6 – Forças repulsivas ................................................................................................................ 1068.2.7 – Força relativa de forças interatômicas................................................................................ 1068.3 – VISUALIZAÇÃO DA ESTRUTURA............................................................................... 1088.4 – CLASSIFICAÇÃO DA ESTRUTURA ............................................................................. 1098.4.1 – Estrutura Secundária a partir de coordenadas ................................................................... 1108.4.2 – Representação Gráfica da Topologia.................................................................................. 110

  • 8/19/2019 Introdução a Bioinformática - Tese

    9/163

    8.5 – ALINHAMENTO ESTRUTURAL ................................................................................... 1118.6 – ANÁLISE DA ESTRUTURA............................................................................................ 1138.6.1 – Análise da qualidade da estrutura....................................................................................... 113

    8.7 – ACESSIBILIDADE DE SOLVENTES E INTERAÇÕES................................................ 1148.8 – COMPUTAÇÃO DE PROPRIEDADES FÍSICO-QUÍMICAS ........................................ 1168.8.1 – Eletrostática macromolecular ............................................................................................. 1168.8.1.1 – Visualização de Superfícies Moleculares com Propriedades Mapeadas.......................... 1178.9 – OTIMIZAÇÃO DA ESTRUTURA ................................................................................... 1178.9.1 – Papel da Informática na Otimização................................................................................... 1188.10 – FERRAMENTAS E TÉCNICAS DA ESTRUTURA MOLECULAR.............................. 119

    9 – PREDIÇÃO DA ESTRUTURA E FUNÇÃO PROTÉICAS ............................................................1229.1 – DETERMINAÇÃO DE ESTRUTURAS DE PROTEÍNAS.............................................. 1229.1.1 – Resolução de estruturas protéicas pela cristalografia de raios-x ........................................ 1239.1.2 – Dissolução de estruturas pela espectroscopia por rnm ....................................................... 124

    9.2 – PREDIÇÃO DE ESTRUTURAS DE PROTEÍNAS.......................................................... 1259.2.1 – CASP: a busca pelo cálice sagrado .................................................................................... 1269.3 – DE TRIDIMENSIONAL A UNIDIMENSIONAL............................................................ 1279.4 – DETECÇÃO DE CARACTERÍSTICAS NAS SEQÜÊNCIAS PROTÉICAS ................. 1289.5 – PREDIÇÃO DA ESTRUTURA SECUNDÁRIA.............................................................. 1299.5.1 – Métodos híbridos e métodos baseados em alinhamento..................................................... 1299.5.2 – Métodos de predição de seqüência única ........................................................................... 1319.5.3 – Avaliação da exatidão da predição..................................................................................... 1319.5.4 – Predições em uso................................................................................................................ 1329.5.5 – Predição da hélice transmembrana ..................................................................................... 1329.5.6 – Encadeamento .................................................................................................................... 1339.6 – PREDIÇÃO DA ESTRUTURA TRIDIMENSIONAL...................................................... 134

    9.6.1 – Modelagem por homologia ................................................................................................ 1349.7 – REUNINDO TUDO: UM PROJETO DE MODELAGEM PROTÉICA........................... 1379.7.1 – Predição da estrutura secundária com base na seqüência................................................... 138

    10 – FERRAMENTAS PARA GENÔMICA E PROTEÔMICA .............................................. 14010.1 – DO SEQÜENCIAMENTO DOS GENES AO SEQÜENCIAMENTO DOS GENOMAS14110.2 – MONTAGEM DE SEQÜÊNCIAS .................................................................................... 14610.3 – ACESSO ÀS INFORMAÇÕES SOBRE GENOMA NA WEB........................................ 14810.4 – ANOTAÇÃO E ANÁLISE DAS SEQÜÊNCIAS DE GENOMAS COMPLETOS.......... 15110.4.1 – Anotação de Genoma ........................................................................................................ 15110.4.2 – Comparação de Genoma ................................................................................................... 15210.5 – MICROARRAYS DE DNA: TECNOLOGIAS EMERGENTES EM GENÔMICA

    FUNCIONAL..................................................................................................................... 15310.6 – PROTEÔMICA.................................................................................................................. 15410.7 – BANCOS DE DADOS DE VIAS BIOQUÍMICAS .......................................................... 15710.8 – MODELAGEM CINÉTICA E FISIOLÓGICA................................................................. 158

    CONCLUSÃO ................................................................................................................................ 161

    REFERÊNCIAS BIBLIOGRÁFICAS............................................................................................ 162

  • 8/19/2019 Introdução a Bioinformática - Tese

    10/163

    RESUMO

    A pesquisa biológica está sendo modificada drasticamente pela inserção nomundo atual de uma rede de comunicação cada vez mais globalizada – a Web e decomputadores cada vez mais potentes. A ciência biológica está seguindo uma tendênciamundial de quebra de paradigmas. Seguindo essa linha de pensamento, não podemos deixarde ressaltar o surgimento da bioinformática que consiste em uma disciplina científica emrápido desenvolvimento que trata da aplicação de métodos computacionais e analíticos a problemas biológicos. Envolve aspectos multidisciplinares resultando da união dasseguintes ciências: ciência da computação, a matemática e a biologia molecular. Neste momento, estamos completando o projeto mais audacioso jamais proposto pelahumanidade: determinar a seqüência do genoma humano, conhecer a receita que a natureza

    desenvolveu e aperfeiçoou durante milhões de anos e que ela segue para criar uma pessoa.Os conhecimentos da biologia humana gerados por esse projeto nos ajudarão a responderaquelas perguntas e, assim, revolucionarão a vida de cada um de nós.

  • 8/19/2019 Introdução a Bioinformática - Tese

    11/163

    ABSTRACT

    Recent computational resources and tools, such as the global information-sharing network known as the Internet, and ever more powerful personal computers, haveincreasingly enhanced biology research.Bioinformatics is a recent and increasingly relevant field of research, involving theapplication of computational and analytical methods to biology problems, thus having amultidisciplinary nature: from computer science and mathematics to molecular and cell biology.The Human Genome Project is a well-known example of bioinformatics. The sequencingand identification of the role of genes is however not limited to the human genome but isalso being applied, with considerable scientific and commercial success, to the geneticmaterial of other being, such as commercial crops and pathological bioagents.This essay provides a broad overview of the current state of bioinformatics, with a briefintroduction to genetic research concepts and, given the essay’s target audience - computerengineering professionals and students, with a more detailed description of relevantcomputational methods.

  • 8/19/2019 Introdução a Bioinformática - Tese

    12/163

    INTRODUÇÃO

    A pesquisa biológica está sendo modificada drasticamente pela inserção no

    mundo atual de uma rede de comunicação cada vez mais globalizada – a Web e de

    computadores cada vez mais potentes. A ciência biológica está seguindo uma tendência

    mundial de quebra de paradigmas. Podemos dizer que há muitos anos a biologia teórica e

    computacional existe em um segundo plano da ciência biológica. Mas de poucos anos para

    cá, a aplicação de computadores à análise de dados genômicos começou a mudar este

     paradigma. Em um passado recente, as pesquisas que eram iniciadas em laboratório,

    começam agora no computador, quando os cientistas pesquisam os bancos de dados em

     busca de informações que possam sugerir novas hipóteses.

    A partir dos anos 80, os computadores pessoais, cada vez mais acessíveis a

    todos os profissionais, transformaram-se de novidades caras com pouco poder real de

    computação em máquinas poderosas como os supercomputadores de décadas atrás. As

    máquinas tomaram o lugar do equipamento de laboratório no controle e na coleta de dados.Os bancos de dados são um meio de armazenar informações mais eficientes do que outras

    formas de registro não eletrônicas. Além da sua utilidade para armazenar, analisar e

    visualizar os dados, os computadores são dispositivos úteis para entender qualquer sistema

    que possa ser descrito de forma matemática, dando origem a disciplinas como a

     bioinformática que é um ramo da biologia computacional.

    A bioinformática consiste em uma disciplina científica em rápido

    desenvolvimento que trata da aplicação de métodos computacionais e analíticos a

     problemas biológicos. Envolve aspectos multidisciplinares resultando da união das

    seguintes ciências: ciência da computação, a matemática e a biologia molecular. Em vez de

    trabalhar com tubos de ensaio no laboratório, tenta extrair informações do genoma humano

     por meio de métodos computacionais de comparação de seqüências.

    Biologia + informática = bioinformática

  • 8/19/2019 Introdução a Bioinformática - Tese

    13/163

     13

     Nos últimos anos, é cada vez mais comum o armazenamento de dados

     biológicos em bancos de dados públicos. Atualmente, é de vital importância para um

     pesquisador manter-se atualizado com as informações necessárias da área utilizando-se de

    ferramentas computacionais.

    “A bioinformática é, antes de qualquer coisa, uma ciência

     biológica. Freqüentemente, trata-se menos de desenvolver perfeitamente algoritmos

    elegantes do que responder a perguntas práticas. Os especialistas em bioinformática (ou

     bioinformatas) são criadores das ferramentas e é fundamental que eles entendam os

     problemas biológicos tanto quanto as soluções computacionais para que produzam

    ferramentas úteis.”1 

    A pesquisa em bioinformática e biologia computacional engloba desde a

    abstração das propriedades de um sistema biológico em um modelo matemático ou físico,

    até a implementação de novos algoritmos para análise de dados ou, ainda, o

    desenvolvimento de banco de dados e ferramentas de Web para acessá-los.

    Esse trabalho é uma introdução de alguns dos assuntos mais importantes da

     bioinformática. Apresentamos técnicas computacionais padronizadas para localizar

    informações em bancos de dados de seqüências biológicas, genomas e estruturas

    moleculares. Examinamos maneiras de usar o computador como uma ferramenta para

    organizar dados, pensar sistematicamente sobre processos de análise de dados e começar a

     pensar sobre a automação do tratamento de dados. Além de abordar conceitos fundamentais

    de biologia molecular.

    Definimos uma estrutura em que os capítulos são independentes , de forma que pode ser lido do início ao fim ou salteado.

     Nos dois primeiros capítulos, discutiremos alguns conceitos sobre Biologia

    Molecular, Projeto Genoma dentre outros.

    1 GIBA,Cyntia. Desenvolvendo Bioinformática: Ferramentas de software para aplicação em biologia / CyntiaGibas & Per Jambeck; tradução Milarepa Ltda. Rio de Janeiro: Campus, 2001. 423 p. Tradução de:Developing bioinformatics computer skills.

  • 8/19/2019 Introdução a Bioinformática - Tese

    14/163

     14

     No terceiro capítulo, abordaremos a utilização da informática em pesquisas

    científicas, mais especificamente a biologia molecular.

     Nos capítulos quatro a dez, vamos descrever algumas técnicas computacionais

    utilizadas na bioinformática.

    E para encerrar, discutiremos no capítulo dez, algumas aplicações e

     perspectivas futuras em relação ao Projeto Genoma.

  • 8/19/2019 Introdução a Bioinformática - Tese

    15/163

     

    1 – CONCEITOS DA BIOLOGIA

    Vamos começar observando o produto final do nosso estudo: o ser humano.

    Observe seu corpo, começando por algo simples, como suas mãos. Perceba o formato dos

    dedos, a capacidade de flexioná-los, de controlar a força da flexão, de segurar objetos.

    Mesmo em uma época de grande desenvolvimento tecnológico, é extremamente complexo

    simular movimentos humanos através de robôs. Ainda estamos longe de chegar a perfeição.

    Cada estrutura do nosso corpo, cada função que ele exerce, desde coordenar as

     pernas para andar até bombear o sangue por nossas artérias e veias mantendo o corpo

    oxigenado, é extremamente sofisticada. E cada um de nós faz tudo isso sem nem sequer

     pensar no assunto.

    Mais fascinante ainda é lembrarmos de que cada um de nós começou como uma

    única célula, resultado da fusão de um óvulo da nossa mãe com um espermatozóide do

    nosso pai. Essa única célula se dividiu em duas, as duas em quatro, as quatro em oito, e

    assim por diante. Essas células, no início idênticas, a partir de um certo ponto começaram ase diferenciar, ou seja, passaram a desenvolver características diferentes umas das outras.

    Assim, umas viraram células de sangue, outras de músculo, outras de sistema nervoso, cada

    uma assumindo uma identidade e função próprias. Pois imagine só a complexidade de um

    ser humano: trilhões de células formando ossos, músculos, pele, gordura, os órgãos, os

    membros, e por aí vai. E todas essas estruturas ligadas umas às outras, interagindo de

    formas extremamente específicas e reguladas para o funcionamento de uma pessoa.

    Mas tomo isso acontece? Quem é o maestro que está regendo essa fascinante

    orquestra? É o genoma, nossa receita, que foi constituído no momento da fecundação,

    dentro daquela primeira célula que um dia fomos. A cada divisão, o genoma é fielmente

    copiado para cada uma das células-filhas. Assim, essa receita vai sendo lida e executada por

    cada uma das nossas células não só durante o desenvolvimento, mas durante toda a nossa

    vida.

  • 8/19/2019 Introdução a Bioinformática - Tese

    16/163

     16

    1.1 – GENOMA

    A seqüência completa de DNA que codifica um ser vivo é chamada de genoma.

    Assim como uma receita é composta de diversas instruções, nosso genoma também é

    composto de milhares de comandos, que chamamos de genes. Cada um dos 30 mil a 40 mil

    genes que se estima compor nosso genoma é uma instrução específica para a formação e o

    funcionamento de um ser humano.

    Os genes regulam todas as nossas características: altura, cor da pele, cor dos

    olhos, quantidade de cabelo, tamanho do nariz, distribuição de gordura no corpo, formato

    do rosto, capacidade respiratória, cardíaca, etc. Da mesma forma que uma receita é um

    conjunto de instruções, nosso genoma é esse conjunto de genes. Um gene é uma seção

     pequena e definida da seqüência genômica inteira, e cada gene tem um propósito específico

    exclusivo. Existem três tipos de genes:

     – Genes codificadores de proteínas: são modelos para gerar moléculas

    chamadas proteínas.

     – Genes especificadores de RNA: são modelos para as máquinas químicas,

    mas os blocos criadores das máquinas de RNA são diferentes dos que

    compõem a proteína.

     – Genes não transcritos: são regiões do DNA genômico que possuem algum

     propósito funcional, mas não alcançam esse propósito, sendo transcritos ou

    convertidos para criar outra molécula.

    Aliás, cada ser vivo tem seu próprio genoma. Os seres mais simples, como bactérias e outros organismos unicelulares, têm uma receita pequena, composta de poucas

    instruções, de poucos genes. Afinal de contas, esses organismos não têm muitas outras

    atividades além de crescer e reproduzir, funções relativamente pouco elaboradas para uma

    célula. O menor genoma que se conhece é o da bactéria Mycoplasma genitalium, composto

    de aproximadamente 500 genes.

  • 8/19/2019 Introdução a Bioinformática - Tese

    17/163

     17

    Conjuntos específicos de genes, de instruções, modulam cada uma das nossas

    características e funções fisiológicas. Por exemplo, quando sangramos, para o sangue coagular é

     preciso que seja executada uma série de instruções que são formadas por um conjunto de pelo

    menos dez genes no nosso genoma. Já nosso sistema auditivo é bem mais sofisticado,

    necessitando da interação de mais de 200 genes para seu funcionamento normal.

    Mutações

    Pequenas variações em cada um dos nossos genes dão origem a grande

    diversidade de tipos humanos -pessoas saudáveis, mas cada uma diferente da outra. Já erros

    em certos genes causam diferentes tipos de mau funcionamento, de doenças na pessoa.Esses erros são chamados de mutações.

    Veja o exemplo do gene F9, uma das instruções necessárias para a coagulação

    do sangue. Pessoas que possuem erros nesse gene, falha nesse comando, têm dificuldade de

    coagulação, fazendo que até pequenos ferimentos se tornem hemorragias. Essa doença,

    causada por mutações no gene F9, chama-se hemofilia.

    Já o gene ADA é um dos comandos para o funcionamento correto do sistemaimunológico. Pessoas com mutações nesse gene, defeitos nessa instrução, não desenvolvem

    seu sistema imune e assim são muito suscetíveis a infecções, tendo que viver isoladas em

    ambientes esterilizados.

    As mutações, as modificações na receita de um indivíduo de uma espécie,

     podem fazer com que ele tenha uma doença ou uma malformação. Mas podem também dar-

    lhe uma nova característica que, se conferir alguma vantagem de sobrevivência e

    reprodução sobre os seus companheiros, será passada para seus descendentes. O acúmulo

    dessas "mutações vantajosas" eventualmente dará origem a indivíduos tão diferentes dos

    originais que eles constituirão uma nova espécie. Ou seja, a evolução das espécies se dá por

    meio das mutações e da seleção natural.

    Atualmente são conhecidas mais de 800 doenças causadas por mutações em

    algum dos nossos milhares de genes. São as chamadas doenças genéticas.

  • 8/19/2019 Introdução a Bioinformática - Tese

    18/163

     18

    1.2 – DNA: A RECEITA BIOLÓGICA

     Nosso genoma é composto de um elemento químico chamado DNA (ácido

    desoxirribonucléico). O DNA encontra-se no núcleo das células e até a década de 1920 sabia-se

    muito pouco sobre a composição e a função desse material. Somente vinte anos depois foi

    finalmente demonstrado que o DNA contém instruções que determinam as características do ser

    vivo e que é ele que transmite essas instruções de geração a geração.

    E como essa informação está escrita no DNA? Da mesma forma que uma receita é

    uma seqüência das 25 letras do nosso alfabeto repetidas de forma organizada várias vezes, o

    DNA pode ser visto como uma fita composta por quatro elementos básicos repetidos: A

    (adenina), C (citosina), G (guanina) e T(timina). Ou seja, a receita de um ser humano está escrita

    com um alfabeto de quatro letras. Na linguagem bioquímica, essas "letras" são chamadas bases

    do DNA. Nosso genoma é composto de bilhões dessas bases organizadas em uma seqüência

    muito específica e que em conjunto são a receita de um ser humano.

    E os genes nisso tudo? Ora, se um gene é uma instrução dessa receita, cada gene é

    composto por uma seqüência específica de bases de DNA. O gene ADA, necessário para o

    funcionamento do sistema imunológico, possui quase 37 mil letras, ou 37 mil bases. Já o gene F9

    é composto de 200 mil bases, e assim por diante para cada gene no nosso genoma.

    O dogma central da Biologia Molecular estabelece: “o DNA atua como um modelo

     para se replicar, ele também é transcrito no RNA, e o RNA é convertido em proteína.“2 

    A informação genética, que é utilizada pelo organismo individual por meio de

     processos de transcrição e tradução, é conservada e passada para os descendentes por meio

    do processo de replicação.

    O DNA genômico contém todas as informações vitais de um ser vivo e pode

    conter íntrons, regiões repetidas e outras características. A seqüência de DNA

    2 GIBA,Cyntia. Desenvolvendo Bioinformática: Ferramentas de software para aplicação em biologia / CyntiaGibas & Per Jambeck; tradução Milarepa Ltda. Rio de Janeiro: Campus, 2001. 423 p. Tradução de:Developing bioinformatics computer skills.

  • 8/19/2019 Introdução a Bioinformática - Tese

    19/163

     19

    “unidimensional” em si não faz nada bioquimicamente; ela é só informação que é lida pelo

    sistema de síntese da proteína da célula.

    O DNA é um polímero linear composto de unidades químicas individuais

    chamadas nucleotídeos ou bases. Os quatro nucleotídeos que compõem as seqüências de

    DNA dos seres vivos são adenina, guanina, citosina e timina – designados pelas letras

    A, G, C e T, respectivamente. A ordem dos nucleotídeos na seqüência de DNA linear

    contém as instruções que criam um organismo. Essas instruções são lidas em processos

    chamados de replicação, transcrição e tradução.

    1.2.1 – REPLICAÇÃO DE DNA

    O DNA possui propriedades especiais fornecidas pela estrutura incomum

    de suas células. Essas propriedades permitem que as informações armazenadas sejam

     preservadas e passadas de uma célula a outra. Duas moléculas de DNA formam uma

    estrutura de dupla hélice, enroscadas uma na outra num padrão regular ao longo de

    todo o comprimento. As metades da dupla hélice são mantidas juntas por ligações

    entre os nucleotídeos em cada filamento (ou fita). Os nucleotídeos também se ligamde maneiras específicas: A só pode fazer par com T, e G só pode fazer par com C.

    Cada um desses pares chama-se par de bases, e o comprimento de uma seqüência de

    DNA geralmente é descrito em pares de bases (ou pb), quilobases (1.000 pb),

    megabases (1 milhão pb) etc.

    Cada fita na dupla hélice de DNA é uma “imagem química espelhada” da outra.

    Se houver um A em uma fita, sempre haverá um T em oposição ao outro. Se houver um C

    em uma fita, o seu par será sempre um G.

    Quando uma célula se divide para formar duas novas células - filhas, o DNA

    é replicado desenrolando as duas fitas da dupla hélice e usando cada fita como um

    modelo para criar a sua imagem química espelhada, ou Fita complementar. Esse

     processo está sendo ilustrado na Figura 1-1.

  • 8/19/2019 Introdução a Bioinformática - Tese

    20/163

     20

    Figura 1.1 – Esquema de uma molécula de DNA sendo replicada

    Fonte: Desenvolvendo Bioinformática, p. 23.

    1.2.2 – TRANSCRIÇÃO DE DNA

    O DNA não atua somente como um modelo para fazer cópias de si mesmo, mas

    também como modelo para uma molécula que possui o nome de ácido ribonucléico (RNA). A

    figura 1-2 ilustra o processo pelo qual o DNA é transcrito que se chama transcrição. O RNA é

    uma molécula polimérica composta de unidades químicas individuais, porém, a espinha dorsal

    química que mantém essas unidades juntas é um pouco diferente da espinha dorsal química do

    DNA, permitindo ao RNA existir tanto na forma de fita única como em dupla hélice. Essas

    moléculas de fita única ainda formam pares de bases entre diferentes partes da cadeia, causando

    a dobra do RNA em estruturas tridimensionais. As unidades químicas individuais do RNA são

    designadas pelas letras A, C, G e U (uracila, que substitui a timina).

    Figura 1.2 – Esquema do DNA sendo transcrito em RNAFonte: Desenvolvendo Bioinformática, p. 24.

  • 8/19/2019 Introdução a Bioinformática - Tese

    21/163

     21

    Existem três tipos principais de moléculas de RNA:

    1 – RNA mensageiro (mRNA): são transcritas do RNA dos genes e levam informações

    do genoma para o ribossomo, a maquinaria de síntese protéica da célula;

    2 – RNA de transferência (tRNA): são moléculas de RNA não traduzidas que

    transportam aminoácidos, os blocos de construção das proteínas, para os

    ribossomos;

    3 – RNA ribossômico (rRNA): são os componentes de RNA não traduzido dos

    ribossomos, que são complexos de proteína e RNA. Os rRNA estão envolvidos na

    fixação das moléculas de mRNA e na catálise de algumas etapas no processo de

    tradução.Alguns vírus também usam o RNA como seu material genético.

    1.3 – PROTEÍNAS

    O que existe na célula além do núcleo? Bem, as células podem ser divididas em

    duas regiões. A primeira é o núcleo, onde está armazenado e protegido o nosso genoma e

    onde, de acordo com a necessidade da célula, são feitas cópias de certas instruções a serem

    executadas – onde genes são copiados em RNAs. A segunda região é o chamado

    citoplasma. Ele pode ser comparado a uma grande cozinha, onde a receita vai ser lida e

    executada. No citoplasma da célula se encontram diferentes estruturas que são responsáveis

     por ler o RNA e executar a informação contida nele. Mas que tipo de informação existe em

    cada gene? O que são na prática as "instruções" contidas em cada gene? Se os genes não

    são nada mais que informação, quem está de fato "fazendo" alguma coisa nas células?

    As proteínas são os personagens principais na formação de um ser vivo. Elas

    dirigem a construção de todas as estruturas que compõem as células, e algumas proteínas

    constituem elas mesmas outras partes das células e, logo, do organismo (os cabelos e unhas,

     por exemplo, consistem basicamente em proteína); outras são responsáveis por mediar os

    milhões de reações bioquímicas que acontecem no organismo humano.

    As proteínas são responsáveis por fazer a digestão dos alimentos no estômago, da

    insulina que metaboliza açúcares, dos hormônios que iniciam a puberdade, da queratina que forma

    cabelos e unhas e do colágeno presente nos ossos. Todas essas moléculas são exemplos de proteínas.

  • 8/19/2019 Introdução a Bioinformática - Tese

    22/163

     22

    Assim, no citoplasma da célula, cada RNA, cada cópia de um gene, é traduzido

    em uma proteína. A tradução do mRNA em proteína é a etapa final na colocação das

    informações contidas no genoma em funcionamento na célula.

    As proteínas são polímeros lineares criados de um conjunto de pequenas

    moléculas denominadas aminoácidos. Ao contrário do DNA, a seqüência química de uma

     proteína possui uma estrutura físico – química, bem como, um conteúdo informativo.

    “Cada um dos vinte aminoácidos encontrados com mais freqüência nas proteínas temuma natureza química diferente, determinada por sua cadeia lateral – um grupo químico que varia deaminoácido para aminoácido. A seqüência química da proteína chama – se estrutura primária, mas a

    maneira pela qual a seqüência se dobra para formar uma molécula compacta é tão importante para afunção da proteína como é sua estrutura primária. Os elementos das estruturas secundária e terciáriaque compõem a dobra final da proteína podem juntar partes distantes da seqüência química da proteína para formar sítios funcionais.”3 

    Figura 1.3 – O Código GenéticoFonte: Desenvolvendo Bioinformática, p. 26.

    Como é ilustrado na figura 1-3, o código genético converte DNA em proteína.

    Ele utiliza três bases de DNA (chamadas códon) para codificar cada aminoácido em uma

    3 GIBA,Cyntia. Desenvolvendo Bioinformática: Ferramentas de software para aplicação em biologia / CyntiaGibas & Per Jambeck; tradução Milarepa Ltda. Rio de Janeiro: Campus, 2001. 423 p. Tradução de:Developing bioinformatics computer skills.

  • 8/19/2019 Introdução a Bioinformática - Tese

    23/163

     23

    seqüência de proteína. Alguns códons são redundantes, outros têm a função de informar ao

    mecanismo de tradução da célula para parar de converter uma molécula de mRNA. A

    figura 1-4 mostra como o RNA é convertido em proteína.

    Figura 1.4 – Esquema do RNA sendo convertido em proteínaFonte: Desenvolvendo Bioinformática, p. 26.

    DNA x Proteínas

    O DNA e as proteínas são moléculas tridimensionais complexas, compostas de

    milhões de átomos ligados. Entretanto, tanto o DNA quanto às proteínas são polímeros,

    cadeias de unidades químicas repetitivas (monômeros) com um núcleo comum que asmantém juntas.

     No DNA, quatro monômeros de ácidos nucléicos (A,T,C e G) são usados com

    mais freqüência para criar a cadeia de polímero. Nas proteínas, 20 monômeros de

    aminoácidos são usados. Em uma cadeia de DNA, os monômeros podem ocorrer em

    qualquer ordem, e a ordem em que eles ocorrem determina o que o DNA faz. Em uma

     proteína, os aminoácidos podem ocorrer em qualquer ordem, e a sua ordem determina o

    dobramento e a função da proteína.

    1.4 – CROMOSSOMOS

    Da mesma forma que toda a informação contida em uma enciclopédia é dividida em

    vários volumes, também nossa informação genética está dividida em pedaços: os cromossomos.

    Estes não são nada mais que "fascículos" da imensa enciclopédia que é nosso genoma. Cada

    cromossomo é um pedaço de DNA composto de 40 a 250 milhões de bases A, C, G e T.

  • 8/19/2019 Introdução a Bioinformática - Tese

    24/163

     24

    Os cromossomos humanos são numerados de 1 a 22, além de um cromossomo

    chamado X e outro chamado Y. No que diz respeito a ordem de execução de cada gene na

    formação de uma pessoa, a numeração dos cromossomos é completamente arbitrária. A

    receita não "começa" no cromossomo 1, continua no 2, e assim por diante até o 22. A

    numeração é correspondente ao tamanho dos cromossomos é 1 para o maior e 22 o menor.

    Os cromossomos X e Y recebem esses nomes especiais porque estão envolvidos na

    determinação do sexo. Mais especificamente, no cromossomo Y estão as instruções que vão

    determinar o sexo masculino do embrião.

    1.5 – HEREDITARIEDADETemos duas versões de cada instrução, de cada gene. Como os genes estão

    organizados nos cromossomos, nosso genoma é composto de dois de cada cromossomo – um par

    de cromossomos 1, um par do 2, do 3, e assim por diante. E os cromossomos sexuais X e Y

    formam também um par: um genoma contendo o par formado de dois cromossomos X dá origem

    a uma menina; aquele contendo o par formado de um X e um Y gera um menino.

    Cada célula do nosso corpo contém um genoma completo em seu núcleo, um par de

    cada um dos cromossomos. Mas existe uma exceção: as células germinativas, isto é, os óvulos e os

    espermatozóides. Essas células têm uma função muito especial: são as únicas células designadas à

    reprodução, à transmissão dos nossos genes à geração seguinte.

    Então que parte do genoma as células germinativas contêm? Eles possuem somente

    uma unidade de cada cromossomo e por isso são chamadas células haplóides. Quando essas duas

    células haplóides, contendo somente um de cada cromossomo, se fundem na fecundação, elas

    formam uma célula diplóide contendo um novo genoma, inédito, composto agora de duas unidades

    de cada cromossomo. A partir dessa primeira célula serão derivados todos os trilhões de células que

    compõem um indivíduo adulto, cada uma delas contendo um genoma completo. Veja a figura 1-5.

    É dessa forma que a natureza cria diversidade entre as pessoas, misturando as receitas do pai e da

    mãe para gerar descendentes com genomas diferentes, com características distintas.

    Algumas mais parecidas com as do pai, outras com as da mãe, e outras ainda que não

    conseguimos reconhecer em nenhum dos dois, mas que estavam lá escondidas em seu genoma.

  • 8/19/2019 Introdução a Bioinformática - Tese

    25/163

     25

    Figura 1.5 –A “mistura” dos genomas paterno e materno formando indivíduos diferentes.Fonte: Seqüenciaram o Genoma Humano... e Agora? p. 25.

    Mas para que duas versões de cada gene, uma do pai e outra da mãe? Estima-se

    que cada um de nós possua aproximadamente dez genes com uma das duas versões mutadas.

    Se não tivéssemos a outra versão normal, qualquer uma dessas mutações poderia causar uma

    doença genética grave ou até a morte. Ou seja, se uma versão de uma instrução está defeituosa,

     podemos contar com a outra versão da mesma instrução para executar a receita. E, assim, essa

    aparente redundância do genoma nos protege de mutações em vários genes.

    Mas qual é então a versão seguida na execução da receita? As duas, mas, dependendo

    da natureza de cada uma das versões, o efeito de uma domina ou complementa o efeito da outra.

    Exemplo: cor dos olhos. Apesar de essa característica ser determinada por vários

    genes agindo em conjunto, vamos simplificar e imaginar que o gene A é o responsável pela cor

    dos olhos e que existam duas versões levemente diferentes desse gene: a versão (A) diz "olhos

    escuros" e a versão (a) diz "olhos claros". Pois bem, se recebemos um (A) do pai e outro (A) da

    mãe, temos olhos escuros; (a) do pai e (a) da mãe, olhos claros. Até aí tudo bem, as instruçõesmaterna e paterna eram idênticas. Mas e quando recebemos (A) de um e (a) de outro? Neste

    caso específico, a instrução "olhos escuros" prevalece.

    1.6 – GENES E ALELOS

    Recapitulando: no nosso genoma possuímos duas versões de cada um dos nossos

    mi1hares de genes, uma que é herdada da mãe e a outra do pai. Para cada gene, as duas versões

  • 8/19/2019 Introdução a Bioinformática - Tese

    26/163

     26

     podem ser idênticas (AA, aa) ou levemente diferentes (Aa). E, dependendo da natureza da

     proteína produzida por esse gene, uma ou outra versão prevalecerá na manifestação da

    característica específica determinada pelo gene. Pois bem, como no exemplo do gene "A" da

    cor de olho, provavelmente da última vez que você ouviu falar de genética, para cada gene

    existia somente duas opções: os famosos "azão" (A) e "azinho" (a). Da mesma forma que existe

    um espectro contínuo de variações entre "claro" e "escuro", existem várias versões de cada um

    dos nossos genes - (A), (a), (a1), (a2), (a3) etc.

    Essas versões de um mesmo gene são chamadas alelos do gene. Assim, existem

     pessoas com (A)(A), com (a)(a), com (a1)(a3), com (a2)(a), enfim, com todas as

    combinações possíveis dos alelos do gene “A", dando origem a olhos pretos, marrons, cor

    de mel, verdes etc. E da mesma forma para cada um dos milhares de genes em nosso

    genoma. Observe a família representada na figura 1-6. Tente acompanhar a segregação dos

    alelos dos quatro genes de pais para filhos entre as várias gerações.

    Figura 1.6 – Segregação dos alelos de quatro genes em uma família

    Fonte: Seqüenciaram o Genoma Humano... e Agora? p. 28.

  • 8/19/2019 Introdução a Bioinformática - Tese

    27/163

     27

    1.7 – DIVERSIDADE GENÉTICA

    Essas pequenas variações em cada um dos nossos genes é que geram a fabulosa

    diversidade encontrada na nossa espécie. Faça este exercício: imagine que temos três genes,

    cada um com quatro versões, alelos, diferentes (figura 1-7). Com esse genoma imaginário

    de somente três genes e relativamente pouca variação dentro de cada um, seria possível

    existir aproximadamente quinhentas pessoas geneticamente distintas.

    Figura 1.7 – Combinação de 3 genes, cada um Com 4 alelos diferentes

    Fonte: Seqüenciaram o Genoma Humano... e Agora? p. 29.

    Fica também claro como é improvável existir duas pessoas geneticamente

    idênticas, mesmo sendo irmãos. A única exceção são os gêmeos univitelinos. Eles são

    gerados a partir do mesmo óvulo e do mesmo espermatozóide que, em vez de darem origem

    a um único embrião, dão origem a dois e só por isso possuem exatamente os mesmos

    genes.

    Teste de DNA

    Eles se baseiam exatamente no que foi explicado anteriormente: nos (A), (a), (a1),

    (a2), (a3); (B), (b), (b1), (b2), (b3); (C), (c), (c1), (c2), (c3), e assim por diante. Cada pessoa

     possui dois alelos, duas versões, de cada gene, uma vinda da mãe e outra do pai, certo?

    Os testes de paternidade comparam de 5 a 15 genes dos envolvidos: filho, mãe

    e suposto pai. Para cada um desses genes, o alelo presente no filho que não foi herdado da

    mãe deve ter sido herdado de seu pai verdadeiro, certo? Logo, deve estar presente no

  • 8/19/2019 Introdução a Bioinformática - Tese

    28/163

     28

    suposto pai caso este seja de fato o pai da criança. Se para algum desses genes o alelo do

    filho que não veio da mãe não estiver presente no suposto pai, poderemos excluir a

     possibilidade de esse homem ser o pai da criança.

     Na verdade a coisa não é tão simples assim. Esses testes trabalham

     basicamente com probabilidades, calculando o evento mais provável: a criança ter

    determinada combinação de alelos por acaso ou por ser filha do suposto pai. Veja o

    exemplo da figura 1-6: se o teste de paternidade levasse em consideração somente os

    genes A e B, chegaria à conclusão de que aquele homem é o pai da criança, certo? Porém,

    nesse caso, isso foi uma coincidência. Se a análise fosse estendida a mais genes, no caso

    os genes C e D, o teste excluiria aquele indivíduo como pai. Assim, quanto maior o

    número de genes examinados, e quanto maior o número de alelos diferentes para cada

    um desses genes, mais preciso será o teste.

    Esses dois fatores combinados fazem com que o teste de paternidade possa

    dizer que é 1 milhão de vezes mais provável a criança ter aqueles alelos porque é filha

    daquele suposto pai do que simplesmente por sorte.

    1.8 – GENES E MEIO AMBIENTE

    Muitas das nossas características são influenciadas pelo meio ambiente.

    Um exemplo bem óbvio é a cor da pele. Como disse, irmãos gêmeos idênticos,

    ou univitelinos, possuem genomas absolutamente idênticos, logo possuem exatamente os

    mesmos genes determinantes de cor de pele. No entanto, dependendo do estilo de vida de

    cada um, eles terão características diferentes.

  • 8/19/2019 Introdução a Bioinformática - Tese

    29/163

     29

    2 – PROJETO GENOMA HUMANO

     Nos últimos 60 anos, tivemos um grande aprendizado sobre a biologia humana.

    Descobrimos onde a natureza esconde os segredos da vida: no nosso genoma. Esse imenso

     programa está escrito na forma de DNA no núcleo de nossas células. O que é o Projeto

    Genoma Humano e quais são seus objetivos?

    Desde que nos entendemos por “gente”, nossa espécie vem tentando compreender

    como funciona o corpo humano. Isso foi iniciado há séculos essencialmente por anatomistas que

    observavam e descreviam cada uma das partes externas e, mais tarde, quando deixou de ser heresia

    examinar cadáveres humanos, as estruturas internas do corpo humano. O exame de indivíduos com

    diferentes doenças possibilitou um melhor entendimento das diversas funções biológicas.

    2.1 – OBJETIVOS DO GENOMA HUMANO

     Nesse contexto, o genoma humano tem o objetivo de complementar as

    estratégias de compreensão da biologia humana com a obtenção do manual de instruções,

    do genoma de um ser humano. Sabemos que a receita está dentro do núcleo de nossas

    células: vamos então recuperá-la, lê-la e decifrá-la.

    Em 1988, a Human Genome Organization (Organização do Genoma Humano,

    HUGO) foi fundada por cientistas norte-americanos para coordenar os esforços de

    seqüenciamento do genoma humano internacionalmente. Essa grande ousadia foi

    formalmente proposta ao Congresso dos Estados Unidos em 1990 como um plano de 15 anos

    a ser executado por um consórcio de pesquisadores : o Projeto Genoma Humano (PGH).

    Objetivos específicos do PGH:

     – Identificar os estimados 50 mil a 100 mil genes no genoma humano;

     – Determinar a seqüência completa do DNA humano;

     – Colocar toda essa informação em bancos de dados para acesso público;

     – Desenvolver instrumentos para análise desses dados;

  • 8/19/2019 Introdução a Bioinformática - Tese

    30/163

     30

     – Discutir as questões éticas, legais e sociais que surgiram a partir do projeto;

     – Realizar análises similares em organismos-modelo.

    Os métodos bioquímicos existentes não permitiam a manipulação de tamanhos

    de DNA tão grandes quanto o contido em um cromossomo, muito menos o seqüenciamento

    de moléculas desse tamanho. A receita teria que ser lida por partes.

    O consórcio público decidiu dividir a tarefa de seqüenciamento entre diferentes

    grupos, ficando cada um responsável por analisar um cromossomo específico. Assim, o

    genoma foi fragmentado em vários pedaços de milhões de letras. Primeiramente estes foramordenados para se saber que pedaço do genoma vem de qual cromossomo. A partir daí, foram

    distribuídos por vários grupos de pesquisa para serem ainda mais fragmentados e assim

     poderem ser seqüenciados. À medida que as seqüências ficaram prontas, elas foram

    organizadas de acordo com a ordem previamente estabelecida dos pedaços dentro do genoma.

    Em 1998 o prazo inicial de 15 anos foi reavaliado, e a HUGO propôs o término

    do seqüenciamento do genoma humano para 2003. Ainda em 1998, a empresa americana

    Celera Genomics Corporation, liderada por um cientista chamado Creg Venter, declarou

    que seqüenciaria o genoma humano em três anos, terminando a tarefa antes do consórcio

     público. Essa empresa decidiu adotar uma estratégia alternativa para o seqüenciamento:

     picotar o genoma todo em fragmentos pequenos e sobrepostos, e seqüenciá-los

    desordenadamente. Isso geraria milhões de seqüências curtas, com 500 a 1.000 letras. Para

    montar o enorme quebra-cabeça definindo qual pedaço vem antes de qual foi utilizado um

    supercomputador – foi exatamente essa incrível capacidade de computação que permitiu a

    Celera seqüenciar o genoma dessa forma, chamada shotgun. Essa estratégia foi recebida commuito ceticismo pela comunidade científica, porém a empresa demonstrou sua eficácia

     primeiro seqüenciando o genoma da  Drosophila melanogaster , com 137 milhões de letras, e

    em seguida o genoma humano em um tempo menor que o consórcio público.

    Enfim, a batalha entre a comunidade científica e a empresa Celera continua. Até

    agora, essa competição deu uma sacudida no consórcio público, que vinha trabalhando de

    forma um pouco acadêmica demais. Sob a ameaça de perder a liderança para a Celera, a

  • 8/19/2019 Introdução a Bioinformática - Tese

    31/163

     31

    HUGO teve que assumir um ritmo mais frenético de trabalho, diminuindo o prazo do término

    do seqüenciamento para o final do ano 2000.

    Dessa forma, por enquanto quem mais lucrou com a corrida foi a comunidade

    científica mundial. E, no final, as duas estratégias acabaram sendo complementares.

    Buracos na seqüência gerada por um grupo foram completados pela seqüência gerada pelo

    outro, e assim foi determinada a seqüência completa do genoma humano. Em fevereiro de

    2001, o consórcio público divulgou seus dados na revista Nature (v. 409, p. 860), enquanto

    a empresa Celera Genomics publicou os seus na revista Science (v. 291, p. 1.304).

     Na verdade, ao contrário do consórcio público, a Celera não colocou todos os seus dados

    à disposição, como é de praxe um grupo fazer ao publicar um artigo em revistas científicas como a

    Science. Quem quiser ter acesso à informação completa gerada pela empresa deverá pagar por isso.

     Na figura 2-1 está um trecho do nosso genoma – parte da seqüência do cromossomo 15.

    Figura 2.1 – Seqüência parcial do cromossomo 15.Fonte: Seqüenciaram o Genoma Humano... e Agora? p. 38.

    2.2 – ORGANIZAÇÃO DO GENOMA HUMANO

    Para se ter uma idéia da complexidade desse problema, somente 5% de todo o nosso

    genoma são, de fato, compostos por genes. Enquanto que os outros 95% são desconhecidos.

    2.2.1 – IDENTIFICANDO GENES A PARTIR DO RNA

    Outra estratégia para identificação de genes no genoma é utilizar a própria

    natureza. Você está lembrado do RNA, da cópia do gene que é levada para a célula? Ora, a

  • 8/19/2019 Introdução a Bioinformática - Tese

    32/163

     32

    célula só é capaz de fazer cópias de cada um dos nossos genes porque ela sabe identificar,

    naquele emaranhado de letras, as que compõem cada gene. Ao fazer o RNA, ela copia somente

    a informação que interessa, somente as letras que formam o gene. Assim, urna grande parte do

    trabalho do PGH é dedicada ao seqüenciamento de RNAs, gerando o que chamamos de

    seqüências expressas, instruções limpas. Comparando a seqüência do genoma todo com as

    seqüências dos RNAs, podemos identificar dentro do genoma de onde os RNAs foram

    copiados. Ou seja, podemos identificar no genoma os genes que geraram os RNAs.

    Mas, se podemos seqüenciar somente os 5% que interessam, os RNAs, por que

    seqüenciar o DNA inteiro?

    Primeiro vamos lembrar que os RNAs correspondem somente aos genes que

    estão ligados em uma célula, às instruções que estão sendo executadas. E esse conjunto de

    genes ligados varia muito de acordo com o período de desenvolvimento do embrião e com

    o tipo de célula . Uma célula do sistema nervoso tem uma forma e exerce funções muito

    diferentes das de uma célula do coração. Assim, podemos intuir que o conjunto de genes

    que está ligado a uma função do corpo humano é diferente do conjunto ligado a outra

    função. Essa diferença se reflete nos tipos de RNAs que encontramos nessas células.

    Se estudarmos as seqüências expressas, os RNAs, de um tipo de célula, teremos

    acesso à somente parte dos genes do genoma – àqueles que estão ligados nesse tipo celular.

    Mas, se nos limitarmos a esse tipo de análise, correremos o risco de não detectar genes que

    se expressam em ocasiões muito especiais, ou em tipos celulares raros.

    Se seqüenciarmos somente os RNAs, nunca obteremos as seqüências dos

     promotores dos genes. Ou seja, conhecemos muito pouco da linguagem do DNA para já ir

    descartando informação.

    2.2.2 – O QUE JÁ FOI IDENTIFICADO NA SEQÜÊNCIA COMPLETA DO GENOMA

    HUMANO

    A primeira análise da seqüência completa do genoma publicada em fevereiro de

    2001 revelou algumas surpresas. A maior delas é relativa ao número de genes contido no

  • 8/19/2019 Introdução a Bioinformática - Tese

    33/163

     33

    nosso genoma. Estimava-se algo entre 50 mil e 100 mil genes. Pois bem, com a seqüência

    toda em mãos, parece que nossa receita tem somente de 30 mil a 40 mil genes.

    A complexidade do ser humano não está refletida no número de genes que sua

    receita possui. Porém, aparentemente nossos genes são mais versáteis que os daquelas

    outras espécies: em média, cada gene humano é capaz de fazer três proteínas diferentes.

    Assim, a informação contida no nosso genoma parece estar compactada em 35 mil genes

    que produzem de 100 mil a 150 mil proteínas distintas.

    A seqüência do genoma humano carrega inúmeras informações. Ela fala daevolução da nossa espécie, de como genes de bactérias, leveduras, vermes e moscas foram

    reorganizados para a elaboração da receita de um ser humano. Encontramos no nosso genoma

    genes muito parecidos com genes dessas espécies bem menos complexas. A seqüência fala

    também das diferenças entre mulheres e homens e das diferenças entre cada um de nós.

    2.2.3 – DIFERENÇAS ENTRE GENOMAS

    Um código genético difere do outro em apenas 0,1%, ou seja, um em cada milACGTs do genoma humano é diferente em cada pessoa. A essas diferenças de uma base, ou de um

    nucleotídeo  (outro nome das bases do DNA), deu-se o nome de SNP (Single Nucleotide

    Polymorphism, ou polimorfismomo de um único nucleotídeo).Eles são basicamente diferenças de

    uma letra em certas partes do genoma de cada um. Veja na figura 2-2 um exemplo de SNPs dentro

    de um gene. Naquela região do genoma, uma pessoa pode ter um T enquanto outra pode ter um G.

    Ao longo do genoma humano foram identificados até agora 1,4 milhão dessas variações.

    Figura 2.2 – Variações na seqüência de DNA: Alelos E SNPSFonte: Seqüenciaram o Genoma Humano... e Agora? p. 46.

  • 8/19/2019 Introdução a Bioinformática - Tese

    34/163

     34

    2.2.4 – O PRÓXIMO DESAFIO: DETERMINAR A FUNÇÃO GÊNICA

    A informação mais valiosa dentro do nosso genoma estará disponível daqui a

    muito pouco tempo: a coleção de 30 mil a 50 mil (ainda nem sabemos o número exato)

    genes que compõem nossa receita.

    Mas atenção: como já vimos, DNA é só informação. Os genes são

    informações de como fazer uma proteína. Quem vai construir o ser humano são as

     proteínas. Passamos tanto tempo estudando o DNA justamente para começar a

    entendê-las. Ou seja, a partir da seqüência de cada um dos genes humanos, poderemos começar a estudar cada uma das proteínas que esses genes codificam

     para entendermos a função delas.

    2.2.5 – O PROTEOMA HUMANO

    Está lançado o maior desafio da "era pós-genoma": entender função gênica (ou

    função do produto gênico, da proteína). O conjunto dos milhares de proteínas codificadas

     pelo genoma é chamado de proteoma.

    A determinação do proteoma humano é comparável à elaboração da tabela

     periódica de elementos no final do século XIX. Da mesma forma que toda a matéria do

    mundo é composta por combinações daqueles 112 elementos, a idéia é que no futuro

    cientistas sejam capazes de explicar todos os fenômenos fisiológicos humanos a partir

    do nosso genoma/proteoma.

    2.3 – O PROJETO GENOMA HUMANO NO BRASIL

    Em nosso país, diversos centros de pesquisa se dedicam à pesquisa da

     biologia humana. Entre eles, gostaria de destacar dois intensamente envolvidos em

     pesquisas diretamente relacionadas ao Projeto Genoma Humano.

  • 8/19/2019 Introdução a Bioinformática - Tese

    35/163

     35

    Projeto Brasileiro Genoma do Câncer

    Em uma parceria entre a Fapesp (Fundação de Amparo à Pesquisa do Estado de

    São Paulo) e o LICR do Brasil ( Ludwig Institute for Cancer Research), foi criado o

    Fapesp/LICRHuman CancerGenome Project  (Projeto Genoma Humano do Câncer). Esse

     projeto envolveu 32 grupos de pesquisa do Estado de São Paulo e visou identificar

    seqüências expressas em diferentes tumores, identificar genes envolvidos em diferentes

    tipos de cânceres.

    Mas como eles conseguiram seqüenciar especificamente esses genes? Aestratégia foi a seguinte: foram isolados RNAs de vários tumores, ou seja, aquelas cópias

    dos genes que estavam ativos nos tumores, das instruções que estavam sendo executadas.

    Em vez do genoma inteiro, somente esses RNAs foram seqüenciados, dando-nos uma

    noção de quais genes são responsáveis pelas características de células cancerosas.

    O Projeto Genoma Humano Brasileiro foi capaz de gerar uma grande

    quantidade de seqüências de genes humanos, tendo grande impacto internacional.

    Centro de Estudos do Genoma Humano

    Em setembro de 2000 foi inaugurado o Centro de Estudos do Genoma Humano

    (CEGH), no Instituto de Biociências da Universidade de São Paulo O CEGH é atualmente

    o maior centro de genética humana da América Latina e nele são estudadas várias doenças

    genéticas. Entre elas estão as distrofias musculares; a síndrome do X-frágil e outras formas

    de retardo mental; alterações craniofaciais, como o lábio leporino; e alguns tipos de surdez.

    A pesquisa realizada no CEGH, além de contribuir para o melhor conhecimento

    daquelas doenças, reverte para a sociedade na forma de diagnóstico e aconselhamento genético.

    Além disso, esse grupo investe intensamente em educação/ divulgação

    científica, oferecendo cursos de genética humana e biologia molecular para os mais

    diversos públicos, de professores do ensino médio a médicos já formados que desejam (e

    devem) se atualizar nesse tema.

  • 8/19/2019 Introdução a Bioinformática - Tese

    36/163

     36

    3 – INFORMÁTICA: UMA FERRAMENTA INDISPENSÁVEL

    Podemos definir a biologia como o estudo dos seres vivos. O avanço da tecnologia

    tornou a coleta de dados mais rápida que sua interpretação. Há grandes volumes de dados de

    seqüência de DNA ao alcance de todos. Algumas perguntas direcionam as pesquisas dos biólogos:

     – Como descobrir quais partes do DNA controlam os vários processos

    químicos da vida?

     – Como prever a função e a aparência de uma proteína com base no

    conhecimento da sua seqüência?

    “A Biologia Computacional é uma área interdisciplinar e consiste no

    desenvolvimento de modelos quantitativos para explicar fenômenos biológicos.”4 

    Através da bioinformática, que é um ramo da biologia computacional, podemos interpretar

    as informações com a finalidade de entender o estudo dos seres vivos. A grande badalação em torno do

    mapeamento do genoma humano tornou o termo “bioinformática” uma expressão da moda. Muitos

    consideram esse fato benéfico porque mais apoio e investimentos foram conseguidos. O ditado popular

     prevaleceu: “a propaganda é a alma do negócio”. Outros já não consideram o fato positivo já que o

    termo “bioinformática” teve seu significado deturpado sendo utilizado em várias situações.

    Os pesquisadores na área são originalmente de muitos campos , incluindo matemática,

    ciência da computação e lingüística. As ciências biológicas tratam do específico até o geral. O

    oferecimento de algoritmos, bancos de dados, interfaces de usuários e ferramentas estatísticas faz a

     bioinformática possibilitar a realização de tarefa trabalhosas, como comparar seqüências de DNA e

    gerar resultados potencialmente significativos.

    3.1 – A INFLUÊNCIA DA COMPUTAÇÃO NA BIOLOGIA

    DNA, RNA e proteínas armazenam informações sobre função e hereditariedade do

    organismo. Todas são cadeias lineares compostas de pequenas moléculas. Essas macromoléculas

    4 http://www.inf.unisinos.br/~lbbc/

  • 8/19/2019 Introdução a Bioinformática - Tese

    37/163

     37

    são reunidas com base em um alfabeto fixo de produtos químicos simples: o DNA é composto de

    quatro desoxirribonucleotídeos (adenina, timina, citosina e guanina), o RNA é composto de

    quatro ribonucleotídeos (adenina, uracila, citosina e guanina), e as proteínas são compostas de

    vinte aminoácidos. Como essas macromoléculas são cadeias lineares de componentes definidos,

     podem ser representadas por seqüências de símbolos que serão comparadas para localizar

    semelhanças que sugerem uma relação das moléculas pela forma ou função.

    Figura 3.1 –Formulário para efetuar uma pesquisa com o Blast nos bancos de dados de nucleotídeos no NCBIFonte: Desenvolvendo Bioinformática, p. 6.

    A Web possibilita que um único banco de dados público de seqüências de genoma

    ofereça serviços por meio de interface uniforme com uma comunidade mundial de usuários. Comum programa mundial de computador, chamado fsBLAST, um biólogo molecular pode comparar

    uma seqüência de DNA desconhecida com a coleção pública completa de seqüências públicas.

    Assim como o BLASTA podemos citar também a existência do FASTA. A figura 3-1 mostra um

    formulário padrão para o envio de dados ao NCBI ( National Center for Biotechnology

     Information) para uma pesquisa com o BLAST.

  • 8/19/2019 Introdução a Bioinformática - Tese

    38/163

     38

    3.2 – RÓTULOS NAS SEQÜÊNCIAS DE GENES

    É interessante observar que a seqüência biológica (DNA ou proteína) tem

    uma função química, mas ao ser reduzida a um código de uma única letra, também

    funciona como um rótulo exclusivo, quase como um código de barras. O rótulo da

    seqüência pode ser aplicado a um gene, seu produto, sua função, sua ação no

    metabolismo celular, etc. O usuário que está buscando informações relacionadas a um

    determinado gene pode usar a comparação rápida das seqüências de pares de base para

    acessar todas as informações vinculadas a esse rótulo da seqüência. Os rótulos contêm

     padrões biologicamente significativos que permitem fazer comparações de rótulos

    diferentes, conectar informações e fazer inferências. Portanto, os rótulos não apenas

    conectam todas as informações sobre um gene, como também ajudam os usuários a

    conectarem as informações sobre genes que são ligeira ou drasticamente diferentes na

    seqüência.

    As seqüências biológicas são relacionadas por evolução, logo, uma

    combinação parcial de padrões entre dois rótulos de seqüência é um achadosignificativo. O BLAST diferencia-se da simples busca por palavra-chave por sua

    capacidade de detectar combinações parciais em toda a extensão da seqüência da

     proteína.

    3.3 – BIOINFORMÁTICA – APENAS A CRIAÇÃO DE BANCO DE DADOS?

    Atualmente, procedimentos que fazem parte da bioinformática –

    comparação de seqüências, pesquisa em bancos de dados, análise de seqüências – são

     bem mais complexos do que apenas projetar e preencher banco de dados. A figura 3-2

    mostra como a ciência quantitativa interage com a biologia em todos os níveis, desde

    a análise de dados de seqüências e da estrutura protéica, até a modelagem metabólica,

    a análise quantitativa das populações e a ecologia.

  • 8/19/2019 Introdução a Bioinformática - Tese

    39/163

     39

    Figura 3.2 – Como a tecnologia interage com a biologiaFonte: Desenvolvendo Bioinformática, p. 9.

    A pesquisa em bioinformática abrange desde a representação matemática de

    características de um sistema biológico até a implementação de novos algoritmos paraanálise de dados e o desenvolvimento de bancos de dados e das ferramentas de Web para

    acessá-los.

    3.4 – A PRIMEIRA ERA DA INFORMAÇÃO EM BIOLOGIA

     No trabalho dos biólogos antigos, que catalogaram e compararam as espécies

    de seres vivos, está as raízes do conceito de evolução. Hoje, ainda estão sendo descobertas

    novas formas de vida e fósseis de formas extintas de vida .

    “Em meados do século 16, Otto Brunfels publicou o primeiro trabalho modernoimportante descrevendo as espécies de plantas, o Herbarium vitae eicones. Como oseuropeus viajavam cada vez mais pelo mundo, o número de espécies catalogadas aumentou,e os jardins botânicos e herbários foram estabelecidos. No tempo de Teofrasto, aluno deAristóteles, havia 500 tipos de plantas catalogadas. Em 1623, Casper bauhin observara 6mil tipos de plantas.Pouco depois, John Ray introduziu o conceito de espécies distintas deanimais e plantas, e desenvolveu diretrizes baseadas nas características anatômicas para

  • 8/19/2019 Introdução a Bioinformática - Tese

    40/163

     40

    distinguir conclusivamente as espécies. Na terceira década do século 18, Carolus linnaeuscatalogou 18 mil espécies de plantas e cerca de 4 mil espécies de animais, e estabeleceu os princípios do sistema de nomenclatura da taxonomia moderna, baseada em reinos, classes,gêneros e espécies. No fim do século 18, o barão Cuvier relacionou cerca de 50 milespécies de plantas.”5

    Uma taxionomia moderna dos milhões de espécies da Terra é de memorização

    muito complicada. Felizmente, os computadores fornecem agora uma maneira de manter e

    acessar a taxonomia das espécies. O projeto Árvore da Vida (Tree of Life) da Universidade

    do Arizona e o banco de dados de taxonomia do NCNI são dois exemplos de projetos on-

    line. A figura 3-3 mostra uma maneira esquemática de classificar as espécies conhecidacomo “árvore da vida”.

    Figura 3.3 – A “árvore da vida” representa o sistema de nomenclatura que classifica as espécies.Fonte: Desenvolvendo Bioinformática, p. 6.

    5 GIBA,Cyntia. Desenvolvendo Bioinformática: Ferramentas de software para aplicação em biologia / CyntiaGibas & Per Jambeck; tradução Milarepa Ltda. Rio de Janeiro: Campus, 2001. 423 p. Tradução de:Developing bioinformatics computer skills.

  • 8/19/2019 Introdução a Bioinformática - Tese

    41/163

     41

    3.5 – DESAFIOS DA BIOLOGIA PARA A COMPUTAÇÃO

    Podemos dizer que o objetivo da biologia, na era dos projetos genoma, é

    desenvolver um conhecimento solidificado de como os seres vivos são formados com base

    no genoma que os codifica.

    Quebrar o código do genoma é uma tarefa muito complexa. No nível mais

    simples, ainda é difícil identificar os genes desconhecidos pela análise de computador

    da seqüência genômica. Ainda não se obteve êxito na predição ou modelagem de

    como a cadeia de aminoácidos se dobra atingindo a estrutura específica de uma proteína funcional.

    Gerenciar os bancos de seqüências genômicas está se tornando uma tarefa

    muito complicada, já que os dados estão crescendo em ritmo exponencial. Os dados

     biológicos são muito complexos e interligados.

    Finalmente, cada gene no genoma não é uma entidade independente. Vários genes

    interagem para formar vias bioquímicas, que também alimentam outras vias. A bioquímicasofre influência do ambiente externo, da interação com patogenias e de outros estímulos.

    3.6 – UMA NOVA ABORDAGEM DA COLETA DE DADOS

    A bioquímica é uma ciência empírica. Dependendo do interesse do especialista,

    a seqüência ou estrutura é determinada, ou as características de um único produto gênico

     por vez são analisadas. A maneira como um caminho ou uma proteína interage com outros

    componentes pode facilmente permanecer um mistério, devido ao fato de que a necessidade

    de realizar um experimento não é comunicada aos outros cientistas.

    A Internet mudou a maneira como os cientistas compartilham os dados e

     possibilitou que um depósito central de informações atendesse totalmente a uma

    comunidade de pesquisa.

  • 8/19/2019 Introdução a Bioinformática - Tese

    42/163

     42

     Nos anos 90, o foco central de atuação dos cientis tas foi tentar reproduzir

    o seqüenciamento de todo o DNA do genoma humano. Enormes seqüências de

    dados, dos quais se conhece a localização de apenas alguns poucos genes

    importantes, foram e ainda estão sendo geradas. Usando técnicas de processamento

    de imagem, mapas de genomas inteiros podem agora ser gerados mais rapidamente

    do que com as técnicas de mapeamento químico, mas mesmo com essa tecnologia, o

    mapeamento completo e detalhado dos dados genômicos que estão sendo produzidos

     pode levar anos.

    Computação paralela é um conceito que existe há muito tempo. Umaabordagem paralela está agora em andamento na biologia molecular experimental

    usando tecnologias como o microarray  de DNA. Essa tecnologia permite que os

     pesquisadores conduzam milhares de experimentos de expressão gênica

    simultaneamente em um pequeno chip. Os experimentos paralelos miniaturizados

    exigem suporte computacional para a coleção e a análise de dados. Exigem também a

     publicação eletrônica, porque as informações em grandes conjuntos de dados talvez

    sejam interessantes para outra pessoa.

    A crescente automação da biologia molecular experimental e a aplicação da

    tecnologia da informação nas ciências biológicas conduzem a uma mudança fundamental

    na maneira como a pesquisa biológica é realizada. Além da pesquisa empírica e do estudo

    detalhado de um único gene por vez, estamos agora catalogando todos os dados

    disponíveis, fazendo mapas completos para os quais podemos retornar e marcar os pontos

    de interesse. A tendência é no sentido de armazenar dados biológicos brutos de todos os

    tipos em bancos de dados públicos, com acesso aberto pela comunidade de pesquisa. Emvez de fazer pesquisa preliminar no laboratório, os cientistas vão aos bancos de dados

     primeiro para economizar tempo e recurso.

    3.7 – QUE PERGUNTAS A BIOINFORMÁTICA PODE RESPONDER ?

    “A bioinformática aborda as questões humanas que vêm sendo trabalhadas na

     biologia aplicada. Como curar doenças? Como prevenir infecções? Como produzir

  • 8/19/2019 Introdução a Bioinformática - Tese

    43/163

     43

    alimento suficiente para a humanidade toda? As empresas no ramo de desenvolvimento de

    remédios, produtos químicos para agricultura, plantas híbridas, plásticos e outros derivados

    de petróleo, e as abordagens biológicas da recuperação ambiental, entre outras, estão

    desenvolvendo novas divisões da bioinformática para fornecer novas metas e ajudar a

    substituir os recursos naturais escassos.”6 

    Atualmente, os objetivos implícitos da biologia molecular são:

     – Ler os genomas completos de todos os seres vivos;

     – Identificar cada gene;

     – Combinar cada gene com a proteína que ele codifica;

     – Determinar a estrutura e a função de cada proteína.

    A habilidade de manipular os seres vivos com precisão e exatidão está

    implícita.

    6 GIBA,Cyntia. Desenvolvendo Bioinformática: Ferramentas de software para aplicação em biologia / CyntiaGibas & Per Jambeck; tradução Milarepa Ltda. Rio de Janeiro: Campus, 2001. 423 p. Tradução de:Developing bioinformatics computer skills.

  • 8/19/2019 Introdução a Bioinformática - Tese

    44/163

     

    4 – MODELAGEM DE SISTEMAS BIOLÓGICOS

    Um dos mais importantes exercícios da ciência é a modelagem, ou seja, fazer

    uma representação mais simples de um sistema complexo. Um modelo ajuda a visualizar

    melhor certas características de um sistema que seriam difíceis de estudar usando

    abordagens quantitativas. As ferramentas da bioinformática contam com a habilidade dos

     pesquisadores para extrair parâmetros relevantes de um sistema biológico, descrevem

    quantitativamente os parâmetros e, em seguida, desenvolvem métodos computacionais que

    usam esses parâmetros para prever o seu comportamento.

    Um dos principais benefícios do uso de ferramentas computacionais em biologia

    é a facilidade de selecionar antecipadamente as metas para a realização dos experimentos.

    Para o pesquisador atento ao desenvolvimento dos métodos da bioinformática, a

    descoberta de regras e propriedades gerais dos dados é a categoria de problemas mais

    interessante que pode ser tratada usando um computador. Os pesquisadores encontram

     propriedades interessantes e úteis em tudo, desde os padrões de seqüência até a separaçãode átomos em estruturas moleculares, e têm aplicado essas descobertas para produzir

    ferramentas como localizadores de genes, ferramentas de predição de estrutura secundária,

    métodos de perfil e ferramentas de modelagem por homologia.

    Os especialistas em tecnologia da informação estão desenvolvendo atualmente

    as estruturas dos bancos de dados e as ferramentas de consulta para tudo que se possa

    imaginar, desde dados de expressão gênica até interações moleculares.

    4.1 – REPRESENTAÇÃO UNIDIMENSIONAL DE MOLÉCULAS

     Na realidade, o DNA e as proteínas são moléculas tridimensionais complexas,

    compostas de milhões de átomos ligados. Entretanto, tanto o DNA quanto às proteínas são

     polímeros, cadeias de unidades químicas repetitivas (monômeros) com um núcleo comum

  • 8/19/2019 Introdução a Bioinformática - Tese

    45/163

     45

    que as mantém juntas. Cada unidade química em um polímero tem dois subconjuntos de

    átomos: um subconjunto de átomos que não varia de monômero para monômero, que

    compõe o núcleo do polímero, e um subconjunto de átomos que varia de monômero para

    monômero.

     Não muito tempo depois que a natureza química do DNA e das proteínas foi

    entendida, os pesquisadores reconheceram que era conveniente representá-la por seqüências

    de letras soltas. Em vez de representar cada ácido nucléico em uma seqüência de DNA

    como uma entidade química detalhada, eles puderam ser representados simplesmente como

    A,T,C e G. Portanto, um pequeno pedaço de DNA que contém milhares de átomosindividuais pode ser representado por uma seqüência de poucas centenas de letras.

    Fazer esta abstração não só economiza o espaço de armazenamento e fornece

    uma maneira conveniente de compartilhar as informações de seqüência, como representa

    corretamente a natureza de uma molécula exclusiva, e ignora níveis de detalhes

    experimentalmente incessíveis.

    A abstração do ácido nucléico e das seqüências de proteínas em seqüência decaracteres unidimensionais é uma das estratégias de modelagem mais produtivas em

     biologia molecular computacional, e a análise de seqüências de caracteres ( string ) 7 é uma

    área de pesquisa antiga em ciência da computação.   Há algoritmos bem estabelecidos em

    ciência da computação para descobrir combinações exatas e inexatas em pares de string.

    Esses algoritmos são aplicados para descobrir combinações entre seqüências biológicas e

     para pesquisa em um banco de dados de seqüências usando uma seqüência de consulta.

    4.2 – MÉTODOS COMPUTACIONAIS

    A quantidade e o tipo de dados que podem ser reunidos na biologia molecular

    está crescendo muito, e a tendência de armazenar esses dados em bancos públicos está

    ultrapassando os limites das seqüências genômicas.

    7  Uma  seqüência de caracteres  (string) é uma seqüência sem quebras. Um caractere  é uma única letraescolhida de um conjunto de letras definidas, que pode ser um código binário (seqüência de zeros e uns) ouum alfabeto alfabético e numérico mais complicado, que pode ser digitado em um teclado de computador.

  • 8/19/2019 Introdução a Bioinformática - Tese

    46/163

     46

    Apresentaremos uma visão geral sobre alguns métodos computacionais para

    tratar os tipos de dados que são compartilhados atualmente em bancos de dados públicos.

    1. Uso de banco de dados públicos e formato de dados

    A pesquisa bibliográfica não é mais uma questão de procurar referências

    em um índice impresso. Há bancos de dados centrais que coletam as

    informações de referências de maneira que você possa pesquisar inúmeros

    artigos de uma só vez.

    2. Alinhamento e busca de seqüência

    A pesquisa baseada em seqüência é uma habilidade importante dos

     biólogos. A identificação de seqüências homólogas fornece uma base para

    a análise filogenética e para reconhecimento de padrões nas seqüências. A

     pesquisa pode ser feita on-line por meio de formulário na Web.

    3. Predição de genes

    Um dos métodos para tentar detectar sinais significativos em seqüências

    de DNA não caracterizadas. Até recentemente, os genes já eram

    caracterizados antes de serem depositados em bancos públicos. Entretanto,

    agora que os projetos genoma estão em plena atividade, há muitas

    seqüências de DNA que não estão caracterizadas.

    4. Alinhamento múltiplo de seqüências

    Os métodos de alinhamento múltiplo de seqüências montam alinhamentos

     par-a-par para muitas seqüências relacionadas em uma figura de

    homologia de seqüência entre todos os membros de uma família de genes.Os alinhamentos múltiplos auxiliam a identificação visual de locais em um

    DNA ou em uma seqüência de proteínas que pode ser funcionalmente

    importante.

    Esse método é uma etapa integral na análise filogenética de uma família de

    seqüências relacionadas, e eles também fornecem a base para identificar os

     padrões de seqüências que caracterizam famílias de determinadas proteínas.

  • 8/19/2019 Introdução a Bioinformática - Tese

    47/163

     47

    5. Análise filogenética

    Tenta descrever o relacionamento evolutivo de um grupo de seqüências.Uma árvore filogenética tradicional ou cladograma agrupa espécies em um

    diagrama que representa sua divergência evolutiva relativa. As

    ramificações em árvores filogenéticas representam a distância evolutiva

     baseada nas pontuações de similaridade de seqüência ou na modelagem

    teórico-informativa do número de event