17
Identificação de organismos patogénicos do ponto de vista bioinformático Nos últimos 15anos a microbiologia passou por momentos de mudança relativamente aos métodos moleculares. Novas sequências aparecem diariamente em bases de dados públicas e novas ferramentas informáticas e servidores servidores Web estão publicadas numa base regular. Grandes avanços na identificação molecular de organismos Patogénicos foram feitos porque surgiram novos métodos de biotecnologia que muitas vezes exigem uma análise aprofundada de sequências. No entanto, grandes dificuldades em parte permanecem devido ao desenvolvimento de métodos eficientes porque as bases de dados públicas contêm muitas mal anotadas ou em sequências parciais (muitas vezes de ordem ambiental origem) e também porque existem poucos servidores Web dedicados a bases de dados. Introdução Em microbiologia, diagnósticos baseados em ácidos nucleicos gradualmente substituem os métodos baseados em culturas Processos que dependem do PCR de um único gene ou de várias sequências requerem a concepção de oligómeros de amplificação e hibridação. O sequenciamento massa ou catalogação através da unidade 16S rRNA produzem sequências que têm de ser adaptadas a um banco de dados sequências conhecidas. 1. DDBJ, EMBL e GenBank tem como objectivo o intercâmbio de dados (URL: http://www.insdc.org) contendo sequências conhecidas. 2. Blast é usado para recuperar sequências semelhantes, ACNUC, SRS ou Entrez recuperam sequências de acordo com palavras-chave.

Identificação de Organismos Patogénicos Do Ponto de Vista Bioinformático

Embed Size (px)

DESCRIPTION

m

Citation preview

Page 1: Identificação de Organismos Patogénicos Do Ponto de Vista Bioinformático

Identificação de organismos patogénicos do ponto de vista bioinformático

Nos últimos 15anos a microbiologia passou por momentos de mudança relativamente aos métodos moleculares. Novas sequências aparecem diariamente em bases de dados públicas e novas ferramentas informáticas e servidores servidores Web estão publicadas numa base regular.

Grandes avanços na identificação molecular de organismos Patogénicos foram feitos porque surgiram novos métodos de biotecnologia que muitas vezes exigem uma análise aprofundada de sequências.

No entanto, grandes dificuldades em parte permanecem devido ao desenvolvimento de métodos eficientes porque as bases de dados públicas contêm muitas mal anotadas ou em sequências parciais (muitas vezes de ordem ambiental origem) e também porque existem poucos servidores Web dedicados a bases de dados.

Introdução

Em microbiologia, diagnósticos baseados em ácidos nucleicos gradualmente substituem os métodos baseados em culturas

Processos que dependem do PCR de um único gene ou de várias sequências requerem a concepção de oligómeros de amplificação e hibridação.

O sequenciamento massa ou catalogação através da unidade 16S rRNA produzem sequências que têm de ser adaptadas a um banco de dados sequências conhecidas.

1. DDBJ, EMBL e GenBank tem como objectivo o intercâmbio de dados (URL: http://www.insdc.org) contendo sequências conhecidas.

2. Blast é usado para recuperar sequências semelhantes, ACNUC, SRS ou Entrez recuperam sequências de acordo com palavras-chave.

3. Existem muitos utilitários livres para alinhar sequências, calcular e visualizar árvores filogenéticas. (URL:http://bioinfo.unice.fr/softwares/oligo_softwares.html).

4. Por último desenho de primers e sondas pode ser feito utilizando várias ferramentas. (URL:http://bioinfo.unice.fr/softwares/oligo_softwares.html).

Recuperação de sequências necessárias pode ser, difícil, o desenho de primers e sondas é tedioso e pode resultar em menor qualidade e resultados se múltiplos critérios para o design deste não são devidamente tratados.

Novas sequências fluem mais rápido do que os programas podem lidar

Page 2: Identificação de Organismos Patogénicos Do Ponto de Vista Bioinformático

Ex:

Deixou de ser fácil fazer o Blast em genes da unidade 16S rRNA isolados para descobrir a qual bactéria esta relacionada porque novas sequencias do rRNA originam de clones não cultivados.

Sequências não são facilmente obtidas por Blast (porque muitas são bastante divergentes), ou por palavras-chave porque as suas anotações são frequentemente insuficientes ou não estão no formato standard.

Além disso, e em contraste com a comunidade dedicada para a análise de genomas completos, existem poucos serviços centralizado ou servidores web que angriam dados, que os tratam e publicam para posterior consulta e análise como ferramenta.

Finalmente, bioinformaticos continuam a publicar novas ferramentas, mas existem poucos estudos que façam a comparação entre eles e, de facto, analisar "quão bom" estas novas ferramentas estão.

Análises detalhadas serão restritos a bactérias aquáticas, para o qual vamos analisar seqüências disponíveis e soluções possíveis para a análise de diagnóstico, de métodos antes da sua real experimentação.

Escolha de um gene-alvo

Genes alvo para a identificação bacteriana pode ser o gene (rRNA) da unidade 16S.Algumas espécies são sempre patogénicas, e genes da unidade 16S rRNA é muitas vezes a solução, porque muitas sequências foram publicadas. PCR primers hibridación sondas e tem sido geralmente descrita e testada; finalmente software específico e Web sites que estão disponíveis

Casos do lateral transferts ou muito semelhantes 16S rRNA sequências genéticas (revista em referência, também destacou a necessidade de utilizar outros ou mais rápida evolução genes

Alguns destes genes foram, no entanto, completamente seqüenciado em muito poucos diferentes cepas ou espécies, tornando é duvidoso que verdadeiramente «universal» ou específicas oligómeros têm sido realmente concebido.

Também a ausência generalizada de muito conservadas domínios torna primers e sondas design difícil. Finalmente, há sempre a chance de que ainda

Page 3: Identificação de Organismos Patogénicos Do Ponto de Vista Bioinformático

Existem seqüências desconhecidas variante que vai escapar molecular porque a detecção de mutações.

O último caso aplica-se aos clones que se tornam patogênicos só depois aquisição de patogenicidade genes ou quando patogenicidade depende do conteúdo genético, isto é, pela regulação diferencial de alguns genes ou integração de genes (ou domínios), que pertencem à espécie ou género genético, mas nem sempre estão presentes em um determinado clone

Nesses casos, os genes é alvo patogenicidade melhor escolha, com dificuldades semelhantes às domésticas genes.

Para outras abordagens, tais como multilocos seqüência digitando (MLST) e análise de número variável de tandem repete (VNTR) ver referências para exemplos.

Para Eukaria (frequentemente protistas), a abordagem é muito semelhante, mas existem muitas vezes menos disponíveis a partir de seqüências diferentes cepas ou espécies.

Pelo contrário, uma vez pode-se esperar menos divergência (devido à menor população tamanhos e mais lento divisão taxas) para estar presente em uma população

Finalmente, os vírus são uma situação muito diferente, uma vez que existe não housekeeping gene homólogo compartilhado entre vírus, taxas de mutação e se espera que sejam muito mais elevados.

Recuperação de sequência de dados para a maioria de organismos patogénicos aquáticosUma lista de agentes patogénicos susceptíveis de serem encontradas em ambientes aquáticos foi construído

Page 4: Identificação de Organismos Patogénicos Do Ponto de Vista Bioinformático

e utilizada para a query-Gen Banco liberação 163 (atualizações até 5 de fevereiro de 2008) com ACNUC.

As questões colocadas eram "quais são as respectivos números de inscrições codifica genes e proteínas disponíveis para cada organismo "(uma entrada é uma apresentação separada identificado pelo seu número adesão, pode conter as seqüências de vários genes), e "quantos completa genomas estão disponíveis ».

Page 5: Identificação de Organismos Patogénicos Do Ponto de Vista Bioinformático

Estes dados (Tabela 1) demonstram situações contrastantes para os diferentes agentes patogénicos; Alguns organismos têm sido amplamente seqüenciado, tanto em termos de entradas, bem como completar genomas.

Outro patógenos, especialmente entre Eukarya ter recolhido pouco como patógenos de interesse para o filo Apicomplexa, a Nematoda dracunculus, e Naegleria fowleri.

Finalmente, para Bactérias e Eukarya, pesquisando pelo nome espécie é bastante fácil, mas em busca de vírus, o nome do anfitrião é frequentemente incluída no nome do organismo, fazendo buscas mais difícil. A fim de obter todas as sequências de um determinado vírus, é muitas vezes necessário usar uma consulta mais elevados fim palavra-chave (Tabela 1).

GenBank continha cerca de 1 188 211 entradas bacteriana (patogênicos ou não), a 16S rRNA gene sozinho contribuindo 647 899 seqüências.

Notável é que muitos desses seqüências foram curtas para muito curto (50-500 nt, 2530331 entradas), apenas 186 310 entradas tinham um comprimento de 1 200 ou

mais.

Apenas 32 900 dessas longas seqüências pertencia a anotada como cepas cultivadas cerca de 8 000 diferentes espécies.

Considerando-se todos os cadastros bacteriana, a nifH gene (envolvidos na fixação de nitrogênio) foi o mais seqüenciado (9 421 entradas), seguido por gyrB (um tipo de codificação topoisomerase II, 6 845 sequências) e rpoB (que codifica para a subunidade b do RNA polimerase, 6 231 sequências).

Por via aquática bacteriana patógenos e surpreendentemente o MDH gene (que codifica para uma enzima que catalisa a interconversão de malato e oxaloacetato) foram os mais seqüenciado, seguida por três genes housekeeping: gyrB, rpoB, e recA.

Page 6: Identificação de Organismos Patogénicos Do Ponto de Vista Bioinformático

GyrB genes (seqüências disponíveis de 337 gêneros e 1 483 espécies, a maioria sequenciados gêneros: Pseudomonas e Vibrio), rpoB (seqüências disponíveis de 238 gêneros e 1 565 espécies, a maioria sequenciados gênero: Mycobacterium) e recA (seqüências disponíveis de 232 gêneros e 999 espécies, a maioria sequenciados gênero: Vibrio) têm sido amplamente

utilizados como marcadores taxonômicos.

Domínios seqüenciado

O nível de seqüência divergência, bem como a duração da disponíveis sequências conduzir a resolução filogenética.

Ele não é possível fornecer essa facilmente uma avaliação no bacteriana, devido a diferentes sequências de genes estão disponíveis para uma ampla, mas diferente da distribuição de táxons.

Por isso, conteve a análise para o Vibrio sequências ou gyrB, recA, e rpoB.

Para simplificar o análises e resultados, seqüências protéicas foram baixados e alinhados.

O comprimento mostrou que a maioria das distribuições apresentaram seqüências não cobrem todo o comprimento (Tabela 2), como resultado de muitas seqüências PCR amplificações usando 'universal' primers, o que torna a avaliação da publicado primers difícil.

como resultado de muitas seqüências PCR amplificações usando 'universal' primers, o que torna a avaliação da publicado primers difícil.

-Primers para gene amplificação, um estudo de caso

Page 7: Identificação de Organismos Patogénicos Do Ponto de Vista Bioinformático
Page 8: Identificação de Organismos Patogénicos Do Ponto de Vista Bioinformático
Page 9: Identificação de Organismos Patogénicos Do Ponto de Vista Bioinformático
Page 10: Identificação de Organismos Patogénicos Do Ponto de Vista Bioinformático

Mesmo utilizando bioinformática análises, teria sido muito pesado, se não impossível, avaliar publicados primers para cada gene e para apresentar os resultados aqui.

Tal como um estudo de caso foi utilizado o PMI (macrófagos infecciosidade potentiator) Legionella no gene que codifica para uma superfície proteínas, necessárias para optimizar infecção de macrófagos

Consultando a literatura retornou 44 publicações que utilizaram PMI como um alvo para a identificação, e para efeitos de presente revisão, analisamos apenas dois estudos recentes

Temos obtido um total de 278 seqüências em PImáx Legionella espécies, das quais apenas 146 foram distintas (não contidos na uma seqüência mais longa).

Nós avaliamos a forma como cada Oligomer seria vincular a cada variante do PMI sequências genéticas (Tabela 3). É particularmente surpreendente que engodamento Mip-R1 mostra um descompasso para a maioria das seqüências na primeira posição, uma simples sopro confirmou este problema.

Page 11: Identificação de Organismos Patogénicos Do Ponto de Vista Bioinformático

Para os outros oligómeros, esta análise demonstra que um número de sequências variante provavelmente não será bem reconhecido.

Também analisaram se o gene estava presente em PImáx Legionella diferentes espécies de L. pneumophila e acoplado Tm cálculo com uma árvore filogenética (Figura 1).

O facto de o PMI gene também está presente em outras espécies de Legionella não é

Page 12: Identificação de Organismos Patogénicos Do Ponto de Vista Bioinformático

claramente afirmado nestas publicações (mas ver referência) e, desde lateral gene transferências são bastante comuns em bactérias, não é claro se realmente presentes primers amplificar PImáx genes em cada cepa L. pneumophila (ver Figura 1).

Bioinformatic tools

Dependendo das múltiplas tarefas, ferramentas disponíveis no NCBI, EBI ou noutro local, um número de servidores ou programas podem ajudar a análise:

GreenGenes. O greengenes aplicação web fornece acesso a uma seqüência 16S rRNA gene alinhamento para navegar, decapagem, probing, e download: URL: http://greengenes.lbl.gov.

PubMLST. Este site acessível ao público MLST bases de dados e software: URL: http://pubmlst.org,

Legionella PMI gene Sequence Database. Esta base de dados permite a comparação de um novo gene PMI DNA seqüências com seqüências de referência de todos os descritos espécies de Legionella: URL: http://www.hpa.org.uk/cfi/bioinformatics/ewgli/legionellamips.htm

leBIBI. Blast em bases de dados da SSU-rDNA, gyrB, recA, soda, rpoB, tmRNA, tuf e groel2-hsp65 gene seqüências e ferramentas para a identificação bacteriana: http://umr5558-sud-str1.univ-lyon1.fr/lebibi/lebibi.cgi.

ICB. Identificação e classificação de bactérias de dados usando gyrB: URL: http://seasquirt.mbio.-co.jp/icb/.

GPMS. Bactérias patogênicas estirpe genotipificação essencialmente para fins epidemiológicos, com base em polimórficos tandem repeat digitando: URL: http://minisatellites.u-psud.fr.

VNTR. Tipagem molecular de bactérias usando variável número par repete URL: http://vntr.csie.ntu.edu.tw.

OHM. Uma ferramenta que produz «heatmaps" representa em uma forma visual o Tm de primers, um conjunto de sequências (pode ser combinado com TreeDyn URL: http://bioinfo.unice.fr/ohm.

A Blast server, to Blast 16S rRNA sequences oncultured bacteria only: URL:http://bioinfo.unice.fr/blast.

Um alto-servidor, para Altos-16S rRNA seqüências em cultivadas bactérias apenas URL: http://bioinfo.unice.fr/blast.

DDBJ. Um servidor para Blast apenas em alto-16S rRNA gene sequências apenas (rápido): URL: http://blast.ddbj.nig.ac.jp/top-e.html.

A lista de nomes com Prokaryotic cumpreme nomenclatura (agora incluindo 16S rRNA adesão números): URL: http://www.bacterio.cict.fr/.

Page 13: Identificação de Organismos Patogénicos Do Ponto de Vista Bioinformático

Norovírus Epidemiologia Molecular Database. O norovírus banco de dados contém uma coleção de mais de 1000 sequências de norovírus estirpes e epidemiológicos associados dados:URL:http://www.hpa.org.uk/cfi/bioinformatics/norwalk/norovirus.htm.

Conclusão

Se nenhuma das opções acima podem ser utilizados servidores (este não é um lista exaustiva), seqüência recuperação, alinhamentos, Filogenias baseadas, e desenho de iniciadores pode ser muito demorado e entediante para os cientistas que não pode escrever computador programas.

Seqüência de recuperação utilizando palavras-chave é muitas vezes mais eficiente do que uma explosão. SRS (Advanced Search formulário)

ou ainda melhor ACNUC ou ferramentas específicas devem ser preferiu Entrez, porque elas são mais poderosas para seqüência recuperação.

Combinação de palavras-chave para o gene ou gene produtos com seu nome ou táxon ID e um filtro na seqüência comprimento (muito curto seqüências são inúteis) é frequentemente muito eficientes. Uma vez que anotações não são padrão, construir uma lista de produtos genética é muitas vezes necessário (ver materiais adicionais).

Se há muitas seqüências, é possível agrupamento dessas seqüências em uma determinada semelhança

nível (utilizando blastclust ou CD-hit [49]) e um alinhamento representante seqüência por cluster.

Uma inspecção visual alinhamentos de seqüências revela que não se alinham bem; eles muitas vezes são o resultado de um erro de anotação ou tenham a

ser invertido-complementada.

As demais seqüências pode então ser acrescentado a este "bom" alinhamento (utilizando Clustal Perfil opção, por exemplo).

Page 14: Identificação de Organismos Patogénicos Do Ponto de Vista Bioinformático

Para gene codifica uma proteína Transalign programa como pode ser uma boa escolha

Ao recuperar a partir de primers publicações, documentos mais antigos são muitas vezes inúteis porque primers foram desenhados utilizando um muito poucos números de seqüências (primers podem ser analisados usando o servidor da web já referido, para produzir dados semelhante à figura 1).

Finalmente, há uma grande diferença entre a amplificação utilizando DNA extraído de uma cultura pura e DNA extraídos de uma amostra ambiental.

Primário (P) liga para o seu alvo de DNA (T), de acordo com a clássica equação [P] [T] / [PT] = quilômetros.

A presença de um ou dois diferenças entre o P seqüência ea T seqüência maio influenciam fortemente o valor do quilômetro.

Com o DNA extraídos de uma cultura pura [T], pode ser suficientemente tão elevados que [PT], é grande o suficiente para a PCR de sucesso.

No ambiente de DNA, e na presença de mismatch ( es), a cartilha pode vincular a muitos outros domínios (em baixa afinidade, mas em muitos lugares), de modo que [PT] não é grande suficiente para permitir uma amplificação bem sucedida

Esta é a razão pela qual, para estudos ambientais, qualquer publicação deve primers sempre ser cuidadosamente verificada em comparação com recém - publicado seqüências.