39
Universidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA Turma de Bioinformática aplicada a genética

GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

  • Upload
    vothuy

  • View
    212

  • Download
    0

Embed Size (px)

Citation preview

Page 1: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

Universidade Federal de Pernambuco

TRABALHO DE CONCLUSÃO DE DISCIPLINA

Turma de Bioinformática aplicada a genética

Recife

2007

Page 2: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

NCBI

O falecido Senador Claude Pepper reconheceu a importância da informação

computadorizada processando métodos para a condição de pesquisas biomédicas e

responsabilizou-se pela legislação que estabeleceu o Centro Nacional para Informação

Biotecnológica (National Center for Biotechnology Information – NCBI) em 4 de

novembro de 1988, como uma divisão da Biblioteca Nacional de Medicina (National

Library of Medicine – NLM), localizado no campus da US National Institutes of Health

(NIH) em Bethesda, MD. NLM foi escolhido para esta experiência, criando e mantendo o

banco de dados biomédico, porque como parte do NIH, este poderia estabelecer um

programa de pesquisa computacional em biologia molecular [4].

O GenBank® é o banco de dados público de seqüências de nucleotídeos, bibliografia

suporte e anotações biológicas, ou seja é o repositório público para seqüências de DNA e

informações mantidas pelo NCBI. O GenBank cresceu de 5.700 entradas em 1985 para

mais de 3 milhões de seqüências com mais de 2 bilhões de pares de bases em 1998 [1, 2, 3].

Atualmente contem mais de 65 bilhões de bases de mais de 61 milhões de seqüências

individuais, com 15 milhões de novas seqüências adicionadas no último ano [1].

Este recurso inclui banco de dados de seqüências primárias de DNA e proteínas,

sites de genomas de organismos modelos e humano, banco de dados de mutações gênicas e

variações, banco de dados de estrutura de proteínas, ferramentas de visualização, sistema de

banco de dados de pesquisa de seqüências moleculares similares, serviço de predição da

estrutura do gene e proteína, e ferramentas de identificação padrão e modificadas [2]. O

Page 3: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

banco de dados está ligado também a literatura científica via PubMed e Central PubMed

[1].

Contribuições dos projetos genoma shotgun (WGS) suplementam os dados nas

divisões tradicionais trazendo o total de mais de 145 bilhões de bases. Genomas completos

(www.ncbi.nlm.nih.gov/Genomes/index.html) continuam a representar uma porção do

crescimento do banco de dados, com mais de 120 dos 370 genomas microbianos completos

depositados no banco no ano passado [1].

O NCBI construiu o GenBank primário da submissão de seqüência de dados de

autores e do volume de submissão de seqüências expressadas (EST), levantamento de

seqüências do genoma (GSS) e outros dados de centros de sequenciamento. O US Office of

Patents and Trademarks também contribuiu na emissão de patentes das seqüências. O

GenBank, o European Molecular Biology Laboratory (EMBL) Data Library na Europa, e

o DNA Databank of Japan (DDBJ) compreendem o Banco de dados Internacional de

Seqüência de Nucleotídeos. As informações são revistas diariamente para assegurar uma

coleção de informações de seqüências uniforme e compreensível [2, 3].

Em adição ao GenBank, o NCBI da suporte e distribui uma variedade de bancos de

dados para as comunidades médicas e científicas. Estes incluem o Online Herança

Mendeliana no Homem (OMIM), o Banco de dados de Modelagem Molecular (MMDB) de

estruturas 3D de proteínas, a Coleção de Seqüências Únicas de Genes Humanos (UniGene),

um Mapa de Genes do Genoma Humano, a Procura Taxonômica, e o Projeto de Genoma e

Anatomia do Câncer (CGAP), em colaboração com o Instituto Nacional do Câncer [4].

O Entrez é o sistema de pesquisa e recuperação do NCBI que promove aos usuários

acesso integrado as seqüências, mapeamentos, taxonomia, e dados estruturais. O Entrez

também promove a visualização de gráficos das seqüências e mapas cromossômicos. A

Page 4: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

literatura publicada é avaliada através do PubMed, uma interface de pesquisa na Web que

promove acesso a mais de 11 milhões de citações em jornais no MEDLINE e links

contendo artigos completos de publicações em sites da Web [4].

OMIM é o catalogo eletrônico que contem milhões de entradas para genes e

doenças genéticas e serve como um acompanhamento fenotípico ao Projeto Genoma

Humano. Os mapas citogenéticos do OMIM apresentam as localizações citogenéticas para

estes genes com localizações publicadas e promove uma lista alfabética de todas as doenças

descritas [4].

PubMed promove o acesso eletrônico a mais de 11 milhões de citações, resumos e

termos indexados em jornais de artigos na ciência biomédica. Este também inclue links de

textos completos de jornais, Atualmente, aproximadamente 20 milhões de pesquisas são

conduzidas por mês, e assim mais de 140 mil diferentes usuários buscam informações

diariamente via PubMed [4].

As principais ferramentas de analises de seqüências são:

1- BLAST (Basic Local Alignment Search) – compara genes e proteínas com outras

seqüências do banco público, traz diversos tipos incluindo o PSI-BLAST, PHI-BLAST e

BLAST 2 sequences.

2- CDD (Conserved Domain Database) – uma coleção de alinhamento de

seqüências e perfis representando os domínios conservados de proteínas em evolução

molecular.

3- e-PCR (Eletronic-PCR) – pode ser usado para comparar uma seqüência query

com locais mapeados para encontrar a possível localização no mapa da seqüência query.

Page 5: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

4- Entres Gene – encontra informações sobre seqüências analisadas para um gene

e/ou organismo particular.

5- ORF Finder – ferramenta de analises gráficas que encontra todos os quadros

abertos de leitura de um tamanho mínimo da seqüência selecionado pelo usuário ou em

uma seqüência já no banco de dados.

6- VecScreen – identifica segmentos de seqüência de ácidos nucléicos que podem

ser de um vetor, conector ou adaptador de origem posteriormente usando ferramentas para

analises da seqüência ou submissão.

UW - Washington University

A Biblioteca Médica da Escola Universitária de Washington (Medical Library at the

Washington University School of Medicine) participou como um site teste do programa

GenInfo do NCBI, desenvolveu um sistema de trabalho online para promover o acesso a

seqüência molecular, dados de mapeamento e software para analises, e estabeleceu um

programa suporte para coordenar o acesso do banco de dados bibliográficos e não

bibliográficos [2, 6].

A Universidade de Washington (UW) Biblioteca de Ciências da Saúde (Health

Sciences Libraries – HSL) tem desenvolvido um programa de serviços de bioinformática

para aumentar o acesso dos pesquisadores ao seu banco de dados de seqüências e outras

pesquisas sobre informações biológicas. Estes serviços estão disponíveis desde Outubro de

Page 6: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

1995 e tem como os mais notáveis o software da assembléia de mapas do MCD e o pacote

PHRED/PHRAP/CONSED. O UW HSL serve o Centro de Ciências da Saúde (Health

Sciences Center), o qual consiste de escolas de medicina, odontologia, enfermagem,

farmácia, trabalho social, saúde pública medicina da comunitária [6, 7].

O Centro de Genoma da Universidade de Washington (UWGC), embora menor que

outros Centros genômicos da rede, apresenta uma ajuda estatística e bem organizada Home

page. Este é um instituo de pesquisa para desenvolver melhores métodos para obtenção de

seqüências genômicas e construção de ferramentas matemáticas para analises eficientes dos

dados [5, 6].

Assim como os demais, o UWCG apresentam anotações onde pode se encontrar a

descrição da seqüência como a composição, gráficos representativos e alinhamentos. A

descrição promove um resumo da seqüência e fornece o número de acesso ao GenBank [5].

EMBL-EBI (European Bioinformatics Institute)

O instituto europeu de bioinformática (EBI) é uma organização acadêmica sem fins

lucrativos e que faz parte do laboratório europeu de biologia molecular (EMBL). O EBI é

um centro de pesquisa e serviços de bioinformática e controla banco de dados biológicos

incluindo acido nucléico, além de seqüências de proteínas e estruturas macromoleculares.

O instituto europeu de bioinformatica (EBI) substituiu a livraria de dados do

Laboratório Europeu de Biologia Molecular (EMBL) em 1994. Como seu predecessor, o

Page 7: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

EBI é um repositório computadorizado de todas as seqüências reportadas e tem uma

variedade de ferramentas para suas análises.

A função primária do EBI é o desenvolvimento e distribuição de ambos, um banco

de dados de seqüências de nucleotídeos compreensível (O EMBL banco de dados de

seqüência de nucleotídeos) e com a colaboração com Dr. Amos Bairoch da universidade de

Geneva, e um banco de dados companheiro de seqüências de proteínas, SWISS-PROT. Em

adição a esses dois bancos de dados de seqüências, EBI mantém ao redor de 50 bancos de

dados especializados.

O EMBL-EBI se encontra em uma paisagem de 55 hectares em um parque rural de

Cambridge, onde forma o “Wellcome genome campus”. O campus também aloca o

Wellcome trust Sanger institute, fazendo umas das maiores concentrações de peritos em

genômica e bioinformática. O EMBL-EBI cresceu com a ajuda do trabalho pioneiro da

EMBL em prover publicamente banco de dados biológicos para a comunidade científica.

Tem um papel fundamental em alcançar a missao da EMBL de promover um meio de

pesquisa com o topo de qualidade e também de desenvolver novas tecnologias, e prover

serviços e treinamentos para a vida de cientistas da Europa.

As raízes do EMBL-EBI estão na livraria de dados de seqüências de nucleotídeos da

EMBL (conhecida como banco da EMBL) que foi criada em 1980 no laboratório da EMBL

em Heidelberg, Alemanha e foi o primeiro banco de dados de seqüência de nucleotídeos do

mundo. O objetivo original era estabelecer um computador central com banco de dados de

seqüências de DNA, melhor que ter os cientistas submetendo as seqüências para revistas. O

que começou com uma modesta tarefa de absorver informação da literatura, breve se tornou

o principal banco de dados em atividade com submissão eletrônica direta dos dados.

Page 8: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

Os serviços que o EBI disponibiliza é uma extensiva rede de serviços gratuitos. Isso

inclui o acesso ao primário e especializado banco de dados mantido pelo EBI, coleção de

programas de computadores, documentação, e ferramentas de análise de seqüências que

podem ser utilizadas por servidores de e-mail, Gopher ou pela internet. A rede de

servidores do EBI, NetServ, permite o acesso via mensagem de e-mail para todos os bancos

de dados, programas e documentações mantidas pelo EBI. As seqüências de dados podem

ser analisadas por similaridade com outras seqüências usando o os servidores de e-mail do

EBI, BLITZ.

Construindo em mais de 20 anos de experiência em bioinformática, O EMBL-EBI

mantém o mais abrangente banco de dados do mundo. EBI é o nó para esforços

coordenados globalmente para coletar e disseminar dados biológicos. Muitos dos sues

bancos de dados são nomeados biologistas - Eles incluem EMBL – Bank (seqüências de

DNA e RNA), Esembl(genomas), ArrayExpress(dados de expressão de genes baseados em

microarray), Uniprot(seqüência de proteínas), Interpro (famílias de proteínas, domínios e

motifs) e MSD (estruturas macromoleculares). Outros como IntAct (Interação proteína -

proteína), Reactome e ChEBI (moléculas pequenas), são novos recursos que ajudam os

pesquisadores a entender não só as partes moleculares que vão construir um organismo,

mas qual dessas partes combinam para criar sistemas. Os detalhes de cada banco de dados

variam, mas todos têm os mesmos princípios, que é prover serviços para a pesquisa

cientifica, como: Acessibilidade, Compatibilidade, Serie de dados compreensíveis,

portabilidade, qualidade.

Atualmente a missão principal do EBI é prover gratuitamente dados disponíveis e

serviços de bioinformática para todas as facetas da comunidade cientifica para o progresso

da ciência, contribuir para o avanço da biologia através da pesquisa dirigida pelo

Page 9: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

investigador em bioinformática, prover treinamento avançado em bioinformática para

cientistas em todos os níveis, de estudantes de PhD a investigadores independentes e ajudar

a disseminar tecnologias para a indústria.

DDBJ (DNA Data Bank of Japan)

O banco de dados de DNA do Japão (DDBJ) é um repositório computadorizado de

todas as seqüências de acido nucléico já reportadas, patrocinada e mantida pelo governo

japonês. DDBJ começou seu serviço em colaboração com a comunidade de biologia

molecular do Japão e apoiado pelo ministério da educação, ciência, esportes e cultura

japonês. O banco de dados é administrado pelo DDBJ, o qual colabora com outros

repositórios principais de banco de dados de seqüências.

DDBJ (DNA Data Bank of Japan) começou o banco de dados de DNA no começo

de 1986 no instituto nacional de genética (NIG). Desde o começo, DDBJ tem funcionado

como um dos Bancos de dados de DNA internacionais, incluindo EBI (European

Bioinformatics Institute; responsável pelo banco de dados da EMBL) na Europa e o NCBI

(National Center for Biotechnology Information; responsável pelo banco de dados do

Genbank) nos Estados Unidos.

O DDBJ tem colaborado com os dois outros bancos de dados através do intercambio

de dados e informações pela internet e encontros regulares, O encontro internacional de

Consulta a banco de dados de DNA e o Encontro internacional de colaboradores dos bancos

de dados de DNA.

Page 10: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

Dados de seqüências podem ser analisados por similaridade com outras seqüências

usando os servidores de e-mail BLAST e Fasta do DDBJ. Os servidores do BLAST e o

FastA do DDBJ trabalha com o Servidor do BLAST do NCBI e o servidor do FastA com o

EBI. Em adição, DDBJ oferece um servidor de alinhamento de seqüência múltipla.

MAlign.

Dados de seqüências podem ser submetidos ao banco de dados do DDBJ de diversas

formas. Arquivos eletrônicos criados pelo autor podem ser submetidos por carta ou e-mail.

Mais recentemente, uma ferramenta baseada na web chamada Sakara foi colocada em

operação. Sakara é uma ferramenta baseada em entrada de seqüência e anotação que pode

ser acessada através do site do DDBJ.

O centro de informação biológica no NIG foi reconhecido como Centro de

informação da biologia e banco de dados do Japão (CIB-DDBJ) em 2001. O novo centro

tem um papel principal em carregar a pesquisa biologia da informação e operar o DDBJ no

mundo. É geralmente aceito que pesquisas em biologia hoje requer ambos os equipamento

computador e experimentos muito bons. DDBJ é o único banco de dados no Japão, que é

oficialmente certificado para coletar seqüências de DNA dos pesquisadores e gerar o

numero de acesso internacionalmente reconhecido dos pesquisadores que submetem

seqüências em qualquer outro país.

Desde que trocamos dados coletados com EMBL/EBI e GenBank/NCBI em uma

base diária, os três bancos de dados dividem virtualmente os mesmo dados em qualquer

hora.

Page 11: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

BLAST

Um dos programas de busca por similaridade mais usados é o BLAST (Basic Local

Alingnment Search Tool)(http://www.ncbi.nlm.nih.gov/BLAST), ferramenta de análise

comparativa de seqüências disponível no site do NCBI (www.nci.nlm.nih.gov), que calcula

o nível de similaridade que pode existir entre uma região da seqüência do cluster e outra

que está disponível em um banco de dados, como o Genbank (principal banco público de

seqüências de DNA e aminoácidos), realizando um alinhamento local. O programa recebe

as seqüências de aminoácidos ou nucleotídios no formato FASTA (formato aceito pelo

programa FASTA, um dos primeiros programas de alinhamento local de seqüências). A

busca entre diferentes combinações de seqüência são realizadas por diferentes tipos de

BLAST, os disponiveis são: seqüência de nucleotídeos em um banco de seqüências de

nucleotídeo (BLASTn); seqüência de aminoácidos em um banco de dados de seqüências de

aminoácidos (BLASTp); seqüência de nucleotídeos traduzida nos seis possíveis quadros de

leitura em um banco de seqüências de aminoácidos (BLASTx); seqüência de aminoácido

em um banco de dados de nucleotídeos traduzido dinamicamente nos seis quadros de

leitura (tBLASTn) e seqüência de nucleotídeos em um banco de dados de nucleotídeos

traduzido por computador (tBLASTx). Outras ferramentas de busca que podem ser usadas

quando a seqüência em estudo é de proteínas são: PSI-BLAST (Position-Specific Iterative

BLAST) muito útil para achar proteínas distantemente relacionadas que consiste na

construção de um perfil, após uma busca inicial, o qual é usado para as buscas subseqüentes

e o PHI-BLAST (Pattern-Hit Initiated BLAST) que encontra proteínas que contém um

padrão especificado pelo usuário e são similares à seqüência de estudo.

Page 12: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

Após escolhido o método de comparação, é necessário adicionar a sequência e se

achar necessário adicionar informações específicas sobre o invidíduo coletado (Entrez

query), ou restringindo o grupo taxonomico a ser procurado.

Para fazer uma busca mais prescisa pode-se selecionar parâmentros para os

algoritimos, que normalmente encontram-se na opção default. Dentre os padrões gerais

pode-se selecionar o número máximo de sequências para mostrar, pode-se selecionar a

opção de automaticamente ajustar o tamanho da palavra e outros parâmentros para

melhorar os resultados para as query curtas; estabelecer o threshold. que é o número de

chances de combinação em um modelo aleatório, e por último o word size que é o tamanho

inicial da semente que irá atuar no primeiro contado do sequenciamento.

Também podem ser estabelecidos parâmetros de pontuação, onde o programa utiliza

matrizes de pontuação, úteis principalmente em seqüenciamento de aminoácidos, que têm

como objetivo capturar o significado biológico da semelhança entre resíduos alinhados

considerando as mudanças conservativas e diferenças nas freqüências observadas nos

mesmos. As matrizes mais utilizadas são a PAM (Point Accepted Mutation) e a BLOSUM

(Block Substitution Matrices). Nas matrizes PAM, a análise é feita observando o

alinhamento global, que inclui tanto regiões altamente conservadas como variáveis. As

matrizes BLOSUM são baseadas apenas nas regiões altamente conservadas.

A matriz PAM foi originalmente desenvolvida pela contabilização da mutação

observada entre os aminoácidos que freqüentemente substituíam outros aminoácidos na

evolução, e baseada em uma série de dados relativamente pequena de 1.572 mudanças em

71 grupos de proteínas estreitamente relacionadas. Contudo, os valores da matriz são

baseados no modelo em que uma seqüência deriva de outra por uma série de mutações

independentes, cada mudança em um aminoácido na primeira seqüência para um outro

Page 13: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

aminoácido na segunda. PAM250 era uma matriz muito popular, mas foi substituído agora

pela série de matrizes BLOSUM, particular em procurar proteínas mais distantemente

relacionadas. As matrizes PAM de um mais baixo número correspondem aproximadamente

a matrizes numeradas mais elevadas de BLOSUM. O BLOSUM, por sua vez, é conjunto

das matrizes de alinhamento cujas probabilidades foram calculadas a partir das freqüências

de substituição das proteínas obtidas dos alinhamentos múltiplos sem gaps em proteínas

reais.

O custo de cada gap pode ser também imposto, ou seja, se a seqüência a ser

“blastada” necessita de uma combinação mais severa, com menores alterações possíveis,

deve-se optar por um maior peso dos gaps, caso contrário pode-se diminuir esse peso para

uma gama maior de seqüências.

O objetivo desta anotação primária, realizada automaticamente por computadores,

é de identificar, dentro do banco de seqüências geradas, as seqüências de prováveis genes,

através da sua comparação com uma cópia similar descrita em um banco de dados públicos,

fornecendo, por exemplo, indícios de que esta seqüência (até então não anotada) pertence a

uma família conhecida de proteínas.

Para avaliar se um alinhamento é significativo ou se é uma mera coincidência de

alguns poucos pares de bases que apresentaram alguma identidade entre as seqüências, é

necessário saber qual a possibilidade daquela similaridade ter ocorrido ao acaso. Desta

forma devem ser observados alguns valores que são atribuídos pelo programa para o

pareamento entre as seqüências, aferindo a similaridade dentro do segmento comparado.

Um dos principais valores é o score, uma pontuação conferida ao alinhamento que

considera, ente outros fatores, que num pareamento correto as duas seqüências devem

possuir o mesmo comprimento, ter todas as suas bases similares e não apresentar gaps. O

Page 14: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

cálculo deste valor baseia-se na penalização dos alinhamentos que descumprirem as

considerações abordadas acima. Na matriz de pontuação utilizada pelo programa, atribui-se

valor 2 à coincidência de uma base entre duas seqüências, valor -2 se elas são distintas e

valor -5 se há necessidade da introdução de um gap para permitir o alinhamento do restante

das seqüências. Logo, alinhamentos mais significativos terão o maior score.

Outro importante parâmetro de análise do alinhamento é o e-value ou equação

associada ao valor do score, que mede a possibilidade do evento de alinhamento ocorrer ao

acaso. O melhor alinhamento possível é alcançado com e-value igual a zero. Valores de e-

value menores que 10e  podem ser considerados significativos para alinhamento de

seqüências de aminoácidos e valores menores que 20e  para alinhamentos de seqüências de

nucleotídeos.

Alguns outros itens são observados na análise de um pareamento de seqüências

realizado pelo BLAST como o valor da identidade que é calculado a partir da divisão do

número de caracteres iguais entre as seqüências pelo comprimento do segmento alinhado; a

presença ou ausência de gaps e o quadro de leitura em que a seqüência em estudo pareou

com a seqüência do banco de dados público.

Há uma diferença significativa entre o WU BLAST e o NCBI BLAST, ambos de

origens diferentes, apresentando pacotes de software exibindo linhas de comando com

diferentes opções. Para comparações de desempenho entre os dois, deve ser levado em

conta os competentes dos fatores que afetam a velocidade, a sensibilidade e a seletividade.

Clustal

Page 15: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

O alinhamento de muitas seqüências de nucleotídeos ou aminoácidos é agora uma

ferramenta essencial na biologia molecular. Alinhamentos múltiplos são usados para

encontrar diagnóstico padrão para caracterizar famílias de proteínas; para detectar ou

demonstrar homologia entre novas seqüências; ajudar a predizer estruturas secundárias e

terciárias de novas seqüências; sugerir primers de oligonucleotídeos para PCR e como uma

ferramenta essencial para análise molecular evolutiva. A relação de aparência de novas

seqüências é firmemente aumentada e o desenvolvimento da eficiência e do correto método

para múltiplos alinhamentos é, por esta razão, de maior importância. A maioria dos

alinhamentos múltiplos era executada usando a semelhança “progressiva” de Feng e

Doolittle.

Julie D. Thompson, Desmond G. Higgins e Toby J. Gibson, da EMBL/EB,

descreveram um número de aperfeiçoamento para o método de alinhamento múltiplo

progressivo que melhora a sensibilidade sem sacrificar a velocidade e eficiência com que o

método é praticado. O novo método, de acesso ao público, é realizado em um programa

chamado Clustal W. Hoje, esse programa é básico para alinhamento múltiplo global de

seqüências, que podem ser constituídas por nucleotídeos ou proteínas. Dizer que o

alinhamento é global significa que as seqüências envolvidas são alinhadas de um extremo

ao outro, dando origem a apenas um resultado, diferente do que ocorre com o alinhamento

local, onde se procura alinhar apenas as regiões mais conservadas, independente da

localização relativa de cada região em sua seqüência. Consequentemente, este alinhamento

tem como resultado uma ou mais análises conservadas entre as seqüências. Além dessa

característica, o alinhamento global é frequentemente utilizado para determinar regiões

mais conservadas de seqüências homólogas, enquanto que o local é geralmente utilizado

para procurar seqüências homólogas ou análogas (funcionalmente semelhantes).

Page 16: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

O alinhamento múltiplo das seqüências é feito em três passos:

1- Alinhamento por pares: todas as seqüências são comparadas com cada uma das outras

(Alinhamento Pairwise);

2- Construção de um dendrograma (semelhante a uma árvore filogenética), que descreve o

agrupamento aproximado das seqüências por similaridade.

3- Alinhamento múltiplo final. Este é realizado usando como guia o dendrograma anterior,

1. Parâmetros do alinhamento por pares

A distância calculada entre um par e seqüências é utilizada para construir um

dendrograma, o qual é o guia principal para o alinhamento final. As distâncias são

calculadas para cada par de seqüências por separação mediante a um método de

programação dinâmica (lento, porém seguro) ou pelo método de Wilbur y Lipman

(extremamente rápido, porém aproximado).

1.1 Parâmetros de alinhamento do método de programação dinâmica (Lento/ preciso):

Estes parâmetros não afetam a velocidade dos alinhamentos, já que são utilizados para

produzir os alinhamentos iniciais ao qual são então recalculados para dar por meio de score

de identidade; estes últimos são mostrados em uma planilha. Os scores são convertidos em

distâncias para a construção das árvores.

As opções que podem ser variadas para este método de alinhamento são as seguintes:

- Penalização de abertura de um gap;

- Penalização para a extensão de um gap por um resíduo;

- Tabela com scores que escrevem a similaridade de cada aminoácido com os demais;

Page 17: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

- Matriz com scores associados com nucleotídeos que coincidem (matches) e os que

não coincidem (mismatches).

1.2 Parâmetros de alinhamento do método de Wilbur e Lipman (rápido/ aproximado):

Os scores de similaridade são calculados a partir de alinhamentos globais, aproximados e

rápidos, mediante a duas técnicas: A primeira é considerando apenas fragmentos que

coincidem completamente (k-tuples); e a segunda seria só as melhores diagonais utilizadas

(aquelas com a maioria de coincidências ou matches k-tuples).

Os parâmetros que controlam o alinhamento através desse método são:

- K-tuple size: este é o tamanho do fragmento que coincide completamente e é

utilizado para os cálculos. Conforme se adiciona, a velocidade aumenta (max= 2 para

proteínas; 4 para DNA). Conforme se diminui, aumenta a sensibiladade (mínimo 1 para

proteínas e 2 para DNA). Para seqüências grandes (mais de 1000 resíduos) pode ser

necessário aumentar o valor que o programa usa como padrão.

- Gap penalty: esta é a penalidade para cada gap em alinhamentos rápidos.

Praticamente não afeta a sensibilidade ou velocidade, a menos que se trate de valores

extremos.

- Top diagonals: o número de matches k-tuple em cada diagonal (em um gráfico de

matriz de pontos imaginários) é calculado. Apenas os melhores são usados no alinhamento.

Este parâmetro especifica quantos; conforme se deseja aumentar a velocidade dos cálculos,

seu valor é adicionado, enquanto que, conforme ele diminui se obtém uma maior

sensibilidade.

Page 18: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

- Window size: é o numero de diagonais ao redor de cada uma das diagonais que será

usada. Seu decréscimo aumenta a velocidade, enquanto que seu aumento diminui a

sensibilidade.

2. Parâmetros de alinhamento múltiplo

Controlam o alinhamento múltiplo final. Este é o “coração” do programa e seus

detalhes são complicados. Cada passo do alinhamento múltiplo final consiste em alinhar

duas seqüências. Isto é feito progressivamente seguindo a ordem de ramificação no guia da

árvore (Guide Tree). Os parâmetros básicos que o controlam são a penalização por gaps e

scores para vários atributos idênticos ou não.

2.1. Penalidades dos Gaps: Controla a introdução de cada gap novo e seu

comprimento. A adição na penalização de gaps diminuiria a freqüência os mesmos;

enquanto que o aumento da penalidade da extensão do gap, o fará mais curto.

2.2. Retardo das seqüências divergentes: Com esta opção se retarda o alinhamento

das seqüências menos relacionadas, até mesmo aquelas mais relacionadas têm sido

alinhadas. A opção ajusta a porcentagem do nível de identidade requerido para retardar a

adição de uma seqüência; é decidir que seqüências com um nível de identidade menor que

o escolhido, serão alinhadas depois que as outras seqüências com um valor maior.

2.3 Valor de transição: Com este parâmetro há um valor entre 0 e 1 para as

substituições purina-purina ou pirimidina-pirimidina. O valor nulo significa que as

transições são consideradas como não-coincidência de bases (mismatches), enquanto que

um valor de 1 dá um score de coincidência ou match a uma transição. Para seqüências de

DNA distanciadas, o valor deveria aproximar-se de zero, enquanto que para seqüências

muito relacionadas, podem ser valores mais altos.

Page 19: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

2.4 Matriz de “pesos” de proteínas. Conduz a um novo menu onde é possível

ecolher uma matriz de “peso”; O default do programa seleciona uma das matrizes

BLOSUM. A matriz que realmente se utiliza dentro da série escolhida depende de quão

similares são as sequências a serem alinhadas neste passo. As distintas matrizes trabalham

de diferente maneira no cálculo de distâncias evolutivas. É necessário ter um conhecimento

prévio para decidir qual o tipo de matriz é melhor para seus resultados.

2.5 Matriz de “pesos” de DNA: Conduz a um novo menu onde apenas uma matriz

(não uma série), pode ser selecionada. O default é o mesmo que utiliza BESTIFIT o GCG

para a comparação das seqüências de nucleotídeos.

2.6. Parâmetros de Gap de proteínas: Mostra o menu que permite colocar algumas

opções de penalização de gap, que são usadas no alinhamento de proteínas. Os parâmetros

de gaps em proteínas são:

- Penalizações específicas de resíduos: são as penalizações após os gaps em

proteínas, que reduzem a abertura de gaps em cada posição no alinhamento ou na

seqüência.

- Penalização de gaps hidrofílicos: são usados para incrementar as possibilidades de

um gap em uma corrida (5 ou mais) de aminoácidos hidrofílicos; estes são provavelmente

regiões de loop ou coil onde os gaps são mais comuns.

- Distância de separação de gaps: diminui a possibilidade de que apareça gaps muito

próximos. Aqueles gaps que estão a uma distância menor que a especificada são mais

penalizados que o resto dos gaps. Esta opção não elimina os gaps próximos sem que sejam

freqüentes permitindo que o alinhamento seja um único bloco.

- Separação de Gap dos extremos: os gaps extremos são tratados como gaps internos

pelo parâmetro anterior para evitar gaps demasiadamente próximos. Conforme esta opção é

Page 20: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

desativada os gaps extremos são ignorados. Isto é útil quando se deseja alinhar fragmentos

onde eles não são de importância biológica.

Antes de calcular uma árvore filogentica é necessario ter armazenado na memória

um alinhamento em qualquer formato (CLUSTAL, EMBL/Swiss Prot, FASTA, GCG-

MSF, NBRF/PIR). O método utilizado é o NJ (Neighbour Joining), de Staituo e Nei.

Primeiro deve se calcular as distâncias (porcentagem e divergência) entre todos os pares de

seqüências de um alinhamento múltiplo e posteriormente aplicar o método a matriz de

distâncias. É possível excluir posições em qualquer seqüência que tenha um gap. Com essa

opção as áreas duvidosas do alinhamento, que são aquelas ao redor o gap, são retiradas. A

desvantagem é que muitos dados podem ser perdidos se houver muitos gaps na seqüência.

Através do filogramas e cladogramas formados por esses programas, é possível visualizar

diferençar evolucionárias entre as seqüências alinhadas.

Atualmente há dois tipos de Clustal. O mais utilizado é conhecido como Clustal

W. O texto acima retrata como ocorre seu funcionamento. Há ainda o Clustal X que difere

do Clustal W pela sua interface gráfica. O programa é projetado também para: (1) executar

alinhamentos múltiplos, (2) ver os resultados do processo do alinhamento, e (3) se

necessário, melhorar o alinhamento. Melhorar o alinhamento é facilitado por algumas

opções que não estão disponíveis no Clustal W.

Mega

Devido ao sequenciamento em grande escala de diversos organismos, houve uma

necessidade de análise de todos esses dados, e a comparação destes dados são essenciais na

procura de um melhor entendimento da história da vida, suas origens e formações

Page 21: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

elucidando assim os mecanismos de evolução de vários caracteres morfológicos e

fisiológicos

O Software MEGA ( Molecular Evolutionary Genetics Analysis) criado na década de

90, e hoje na sua quarta versão, tem criado ferramentas mais eficazes para se entender e

estudar as seqüências gênicas, através de alinhamentos, estimativas das seqüências

divergentes, reconstrução e visualização de árvores filogenéticas e testando hipótese para a

evolução molecular, pois o mesmo contém vários algoritmos computacionais e métodos

estatísticos úteis com uma fácil interface permitindo trabalhos experimentais. A primeira

versão foi distribuída em 1993 para 2.000 cientistas, a segunda versão foi publicada em

2001, com uma interface muito mais poderosa e uma viabilidade para o Microsoft

Windows.

O primeiro passo para uma análise comparativa é o processo de alinhamento, este

processo identifica as posições de nucleotídeos homólogos ou aminoácidos de uma dada

seqüência. Para construir esse alinhamento, muitos passos são envolvidos, incluindo a

aquisição da seqüência no banco de dados. Estas seqüências são adquiridas através da

ferramenta BLAST. Todas as seqüências encontradas podem ser visualizadas, pela

ferramenta Web-Browsing do MEGA, permitindo uma maior facilidade da procura de

seqüências. As seqüências são alinhadas através da implementação do Clustal-W podendo

diferenciar as regiões codificantes ou não através da escolha: Translated proteins

sequences. Outra facilidade do MEGA é poder ver e editar as seqüências (eletroferograma)

produzidas pelo seqüenciador, ele pode editar dados do ABI e Staden.

Para dar entrada nos dados para a análise molecular de DNA ou aminoácidos e nas

matrizes distance pairwise, as seqüências podem ser de diversos grupos, ter diversos

Page 22: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

domínios (blocos contínuos de nucleotídeos ou aminoácidos) podendo os mesmos serem

codificantes ou não.

O software suporta a conversão de muitos formatos incluindo o Clustal, Nexus,

Philip, FASTA, entre outros, permitindo uma maior facilidade no uso das outras

ferramentas do programa, eles são feito pelo Text Editor, contendo várias outras utilidades

como remover ou inserir espaços e fazer um reversão complementar do texto.

Para o estudo das relações entre as espécies o MEGA possui as distâncias baseadas

em dois métodos para reconstrução filogenética: máxima parcimônia MP, este inclui os

algoritmos UPGMA e Neighbour Joining e Minimium Evolution. No algoritmo UPGMA

assume-se a constância da taxa de evolução para todas as linhagens. No Neighbour Joining

não se assume uma taxa constante e constrói a árvore hierarquicamente através da soma dos

comprimentos dos ramos mais próximos.

Além da construção de árvores com diversos métodos o software MEGA é composto

por várias outras ferramentas, tais como os testes estatísticos, como:os testes de seleção

que testam a hipótese da evolução adaptativa e neutra a um nível molecular, o mesmo é

baseada na distâncias sinônimas e não sinônimas; confere também uma estimativa da

distância evolucionária, através do número de substituições de nucleotídeos ou

aminoácidos. Essas distâncias são essências para a reconstrução das árvores filogenéticas

avaliando a diversidade das seqüências dentro e entre grupos e estimando o tempo da

divergência das espécies.

Na versão quatro duas novas funções foram criadas: Caption Expert software. Este

modula todos os resultados gerados pelo MEGA. Esta descrição informa ao usuário todas

as informações usadas nas análises, citando também o método, o algoritmo e o software

usado na análise, permitindo um melhor entendimento da mesma.

Page 23: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

A segunda função é: Maxximum Composite LiKelihood (MCL) método que estima a

distância evolutiva entre as seqüências de DNA, na qual o MEGA emprega para inferir

árvores filogenéticas, tempo de divergência e uma média das seqüências divergentes entre e

no mesmo grupo.

Com isso, podemos observar as diversas funcionalidades que o MEGA possui, além

de um interesse em sempre atualizar suas funções, melhorar a interface, permitindo ao o

usuário uma maior obtenção de sucesso em seus resultados.

Referências

Acessado em 22/08/2007 às 18:35 pm – http://www.genome.washington.edu/UWGC/index.cfm.

Acessado em 22/08/2007 às 18:35 pm – http://www.ncbi.nlm.nih.gov.

Acessado em 24/08/07 às 10:20 am – http://www.ddbj.nig.ac.jp

Acessado em 24/08/07 às 10:26 am – http://www.ebi.ac.uk

Benson, DA, Boguski, M, Lipman, DJ, Ostell, J, 1994. GenBank. Nucleic Acids Research, Vol. 22, No. 17, 3441 – 3444.

Page 24: GenBank [1], the public repository for DNA sequence  · Web viewUniversidade Federal de Pernambuco TRABALHO DE CONCLUSÃO DE DISCIPLINA. Turma de Bioinformática aplicada a genética

Benson, DA, Karsch-Mizrachi, I, Lipman, DJ, Ostell, J, Wheeler, DL, 2007. GenBank. Nucleic Acids Research, Vol. 35, D21 – D25.

Emmert, D.B., Stoehr, P.J., Stoesser, G. and Cameron, G.N. (1994) The EuropeanBioinformatic Institute (EBI) databases. Nucleic Acids Res., 22, 3445-3449.

Pruitt, KD, 1998. WebWise: Guide to the Washington University Center for Genetics in Medicine Web Site. Genome Res. 8, 686 – 689.

Pruitt, KD, 1998. WebWise: Guide to the University of Washington Genome Center Web Site. Genome Res. 8, 572 – 575.

Rodriguez-Tome, et al., (1996), The European Bioinformatics Institute (EBI) databases. Nucleic Acids Res. 24, 6-12.

Sudhir Kumar , Koichiro Tamura , and Masatoshi Nei. MEGA3: Integrated software for Molecular Evolutionary Genetics Analysis and sequence alignment Brief Bioinform v.5. n.2. p. 150-163. 2004

Tamura K, Dudley J, Nei M & Kumar S MEGA4: Molecular Evolutionary Genetics Analysis (MEGA) software version 4.0. Molecular Biology and Evolution v. 24. n.8 p. 1596-1599.2007

Yarfitz, S, Ketchell, MLDS, 2000. A library-based bioinformatics services program. Bull Med Libr Assoc 88(1), 36 – 48.