9
Biotecnologia 7 Decifrando o genoma em grande escala Sylvia Morais de Sousa' Andréa Alrneida Carneiro? Newton Portilho Carneiro? Resumo - A determinação das funções gêni~~s tem de~andado um grande avanço das ciências genômicas, cujas tecnologias concentram-se, principalmente, na geração e no estudo de uma grande quantidade de dados. O ponto de apoio para o entendimento da função gênica e da estrutura do genoína tem sido o sequenciamento de genomas completos e do genoma expresso em grande escala. Mapas físicos e genéticos têm sido integrados com informações genôrnicas e de expressão, resultando em bancos de dados públicos altamente informativos para diferentes espécies animais e vegetais. Tais informações auxiliam em vários aspectos a análise·de expressão gênica, a determinação dos efeitos de processamento de éxons.e do número de cópias gênicas e cromossômicas, culminando na determinação das funções biológicas e do mecanismo de ação de vários genes. São descritos o surgimento de novas tecnologias e a evolução de algumas inovações já existentes, voltadas para a identificação de funções gênicas. Palavras-chave: Sequenciarnento de DNA. Genômica funcional. Macroarranjo de DNA. Mutagênese. Fenotipagem. INTRODUÇÃO A melhoria e a redução no custo das tecnologias de genotipagem e fenotipagem, associadas a estudos de genoma em grande escala, rapidamente estão-se tornando a abordagem preferida para dissecar a gené- tica de caracteres complexos. O sequencia- mento de ácido desoxirribonucleico (DNA) teve dois grandes momentos tecnológicos na história que trouxeram um enorme avanço para a ciência. Um deles ocorreu em 1977 com o aparecimento do método de Sanger. Desde o surgimento dessa téc- nica, houve modificações que ajudaram a aperfeiçoar o processo. Uma delas foi o uso de dioxinuc\eotídeos marcados com f1uorescência, capazes de ser visualizados por laser; a segunda foi o uso de capilares em substituição a placas, os quais auxi- liaram na automatização do processo de carregamento de amostra no gel e número de amostras feitas por dia. O segundo gran- de momento do sequenciamento ocorreu próximo a 2005, com o surgimento do sequenciamento por síntese. Esse processo, apesar de bastante inovador (um aumento de cerca de cem vezes em comparação com o obtido pelo método Sanger), não anulou o primeiro, pelo fato de fazer leituras cur- tas (cerca de 200 pb)". Dentre os métodos novos de sequenciamento encontram-se as plataformas 454 da Life Science, Illumina" e SOLiD'" da Applied Biosystems?". Essas novas tecnologias deram oportunidades de estudos mais complexos de organismos poliploides, com grande quantidade de sequências repetitivas, genomas compa- rativos, identificação de polimorfismos e genes diferencialmente expressos (que atualmente são muito estudados usando microchips de DNA também conhecidos como microarranjos). Os microarranjos, estudo de expressão gênica em grande es- "Biologo, D.Sc., Pesq. Embrapa Milho e Sorgo, Caixa Postal 151, CEP 35701-970 Sete Lagoas-MG. Correip eletrônico: [email protected] 2Bióloga, D.Sc., Pesq. Embrapa Milho e Sorgo, Caixa Postal 151, CEP 35701-970 Sete Lagoas-MG. Correio eletrônico: [email protected] "Biologo, D.Sc., Pesq. Embrapa Milho e Sorgo, Caixa Postal 151, CEP 35701-970 Sete Lagoas-MG. Correio eletrônico: [email protected] "pb -- Pares de bases. 5Disponíveis respectivamente nos sites: http://www.454.com; hllp:!/www.illumina.com e http://www3.appliedbiosystems.com informe Agropecuário, 8elo Horizonte, v.30, 253, p.108-115, nov./dez. 2009

Biotecnologia Decifrando o genoma em grande escalaainfo.cnptia.embrapa.br/digital/bitstream/item/61028/1/Decifrando... · a biologia como um todo, fornecendo uma ferramenta poderosa

  • Upload
    lediep

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

Biotecnologia 7

Decifrando o genoma em grande escalaSylvia Morais de Sousa'

Andréa Alrneida Carneiro?Newton Portilho Carneiro?

Resumo - A determinação das funções gêni~~s tem de~andado um grande avanço dasciências genômicas, cujas tecnologias concentram-se, principalmente, na geração e noestudo de uma grande quantidade de dados. O ponto de apoio para o entendimentoda função gênica e da estrutura do genoína tem sido o sequenciamento de genomascompletos e do genoma expresso em grande escala. Mapas físicos e genéticos têmsido integrados com informações genôrnicas e de expressão, resultando em bancos dedados públicos altamente informativos para diferentes espécies animais e vegetais. Taisinformações auxiliam em vários aspectos a análise·de expressão gênica, a determinaçãodos efeitos de processamento de éxons.e do número de cópias gênicas e cromossômicas,culminando na determinação das funções biológicas e do mecanismo de ação de váriosgenes. São descritos o surgimento de novas tecnologias e a evolução de algumasinovações já existentes, voltadas para a identificação de funções gênicas.

Palavras-chave: Sequenciarnento de DNA. Genômica funcional. Macroarranjo de DNA.Mutagênese. Fenotipagem.

INTRODUÇÃO

A melhoria e a redução no custo dastecnologias de genotipagem e fenotipagem,associadas a estudos de genoma em grandeescala, rapidamente estão-se tornando aabordagem preferida para dissecar a gené-tica de caracteres complexos. O sequencia-mento de ácido desoxirribonucleico (DNA)teve dois grandes momentos tecnológicosna história que trouxeram um enormeavanço para a ciência. Um deles ocorreuem 1977 com o aparecimento do métodode Sanger. Desde o surgimento dessa téc-nica, houve modificações que ajudaram a

aperfeiçoar o processo. Uma delas foi ouso de dioxinuc\eotídeos marcados comf1uorescência, capazes de ser visualizadospor laser; a segunda foi o uso de capilaresem substituição a placas, os quais auxi-liaram na automatização do processo decarregamento de amostra no gel e númerode amostras feitas por dia. O segundo gran-de momento do sequenciamento ocorreupróximo a 2005, com o surgimento dosequenciamento por síntese. Esse processo,apesar de bastante inovador (um aumentode cerca de cem vezes em comparação como obtido pelo método Sanger), não anulouo primeiro, pelo fato de fazer leituras cur-

tas (cerca de 200 pb)". Dentre os métodosnovos de sequenciamento encontram-se as

plataformas 454 da Life Science, Illumina"e SOLiD'" da Applied Biosystems?". Essas

novas tecnologias deram oportunidades deestudos mais complexos de organismospoliploides, com grande quantidade de

sequências repetitivas, genomas compa-rativos, identificação de polimorfismose genes diferencialmente expressos (que

atualmente são muito estudados usandomicrochips de DNA também conhecidos

como microarranjos). Os microarranjos,estudo de expressão gênica em grande es-

"Biologo, D.Sc., Pesq. Embrapa Milho e Sorgo, Caixa Postal 151, CEP 35701-970 Sete Lagoas-MG. Correip eletrônico:[email protected]

2Bióloga, D.Sc., Pesq. Embrapa Milho e Sorgo, Caixa Postal 151, CEP 35701-970 Sete Lagoas-MG. Correio eletrônico:[email protected]

"Biologo, D.Sc., Pesq. Embrapa Milho e Sorgo, Caixa Postal 151, CEP 35701-970 Sete Lagoas-MG. Correio eletrônico:[email protected]

"pb -- Pares de bases.

5Disponíveis respectivamente nos sites: http://www.454.com; hllp:!/www.illumina.com e http://www3.appliedbiosystems.com

informe Agropecuário, 8elo Horizonte, v.30, 253, p.108-115, nov./dez. 2009

8 Biotecnologia

cala, têm três grandes grupos no mercado:Affymetrix, NimbleGen e a Agilent".

A função de um dado gene não neces-sariamente representa o que está descritono banco de dados. Muitas vezes é neces-sário verificar sua função bioquímica emum contexto biológico. Um dos processosmais bem-aceitos é a modificação da ex-pressão do gene em sistemas heterólogos.Isso pode ser inicialmente feito por meio daidentificação de mutantes obtidos por muta-gênese química como é o caso da tecnologiatargenting induced locallesions in genomes(Tilling) e transposon ou transgenia,utilizan-do construções gênicas que se baseiam emRNA de interferência - RNA interference

'----'(RNAi). Os processos de relacionar gene efunção têm sido feitos em grande escalapor companhias que têm otimizado des-de a identificação de genes de interesse(por estudos genômicos), passando pelamontagem de cassetes gênicos, transfor-mação de plantas modelos (como tabaco,Arabidopsis, arroz e milho), até a análisefenotípica.

Tecnologias têm direcionado o se-quenciamento de um genoma completocustar abaixo de mil dólares, contudovários outros aspectos estão envolvidos noentendimento da relação gene e função. Oconhecimento mais aprofundado dessa fim-ção gênica e a sua inter-relação (tambémconhecida como metabolômica), tanto em

~ nível micro (célula) como macro (planta),têm como objetivo final o entendimento eo desenvolvimento de plantas cada vez maisprodutivas e adaptadas às mais diversascondições de cultivo.

SEQUENCIAMENTO EMGRANDE ESCALA

Em 1977, foram publicados dois arti-gos metodológicos para a determinaçãorápida de sequências de DNA (SANGERet aI., 1977; SANGER; NICKLEN;COULSON, 1977), que iriam transformara biologia como um todo, fornecendo

uma ferramenta poderosa para decifrargenes completos, que, mais tarde, seriama base para o sequenciamento de genomascompletos. O método sofreu uma série demelhorias, estabelecendo-se como o únicode sequenciamento de DNA usado nos 30anos seguintes. Com a meta de decifrar ogenoma humano, houve um aumento, semprecedentes, na escala do sequenciamentode DNA, levando ao desenvolvimento desequenciadores automáticos por capila-ridade. A automação de laboratórios e aparalelização de processos resultaram emcentros de sequenciamento com centenasde instrumentos. No entanto, mesmo comdois genomas humanos sequenciados e deoutras tantas espécies, o desejo por umatecnologia mais eficiente e barata conti-nuou impulsionando as pesquisas na área(SCHUSTER, 2008).

Centenas de instrumentos, com baseem sequenciamento capilar de 96 amostras,foram substituídos por poucos aparelhoscapazes de fazer sequenciamento de mi-lhões de pares de bases, paralelamente,em uma única corrida. Além disso, essanova geração de sequenciadores utilizafragmentos que não são sujeitos ao sistemaconvencional de clonagem em vetores deEscherichia coli.

Os primeiros sinais de que o mercadode sequenciamento poderia ser revo-lucionado apareceram em 2005, com apublicação da tecnologia sequenciamentopor síntese, desenvolvida pela 454 LifeSciences (MARGULIES et aI., 2005)e pelo protocolo multiplex de colôniade polimerase do laboratório de GeorgeChurch da Escola de Medicina de Harvard,EUA (SHENDURE et aI., 2005). Ambosos grupos usaram a estratégia de reduziro volume necessário de reação, enquantoaumentavam dramaticamente o número dereações de sequenciamento por corrida. Aestratégia consistia em colocar em umamatriz centenas de milhares de moldesem uma placa do tipo picotítulo (PTP) ou

finas camadas de agarose, para que estassequências pudessem ser analisadas emparalelo. Tais modificações culminaram emum aumento gigantesco de informações,quando comparadas com as 96 sequênciasobtidas pelo método Sanger em capilar(SCHUSTER, 2008).

O pirosequenciamento é um métodopara determinar a ordem dos nucleotídeosdo DNA, com base na detecção da libera-ção de pirofosfato no ato da incorporaçãodos nucleotídeos, ao invés da terminaçãoem cadeia com dideoxinucleotídeos, daí onome sequenciamento por síntese. Nessemétodo, a detecção da atividade da DNApolimerase utiliza outra enzima quimiolu-minescente, a luciferase. O DNA moldeé imobilizado e a solução contendo osnucleotídeos é adicionada e removida apóscada reação, sendo que a luz é produzidaapenas quando a solução de nucleotídeoscomplementa a primeira base sem par dafita molde (RONAGHI, 2001). A sequênciados sinais quimioluminescentes permite adeterminação da sequência dos respectivosnucleotídeos complementares à fita molde(Fig I).

O sistema de sequenciamento de DNAparalelo da 454 Life Sciences é cem vezesmais rápido do que o método de sequen-ciamento padrão e é capaz de sequenciarmais que 200 mil fragmentos, em 4 horasde corrida (MARGULIES et aI., 2005).Contudo, esse aumento na velocidade desequenciamento veio associado a umaredução no comprimento da leitura, sendosequenciados em média fragmentos de,aproximadamente, 100 pb de comprimento(MARGULIES et aI., 2005). Novas versõesdo sistema Genome Sequencer FLX e daquímica Titanium (HARKINS; JARVIE,2007) aumentaram o comprimento médioda leitura para um pouco mais de 200bases, com promessas de atingir leiturasde até 1.000 pb. A principal vantagem deleituras mais longas é a facilidade na mon-tagem e na organização das informações,

"Disponlveis respectivamente nos sites: hup.r/www affymetrix.com; http://www.nimblegen.com e http://www.agilent.com

Informe Agropecuário, 8elo Horizonte, v.30, n.253, p.108-115, nov./dez. 2009

Biotecnologia 9

A (NA) + NucleolideoPolimerase

-------~) (NA) n+1 + PPi

B PPi +APSATP sulfurase

--------~) ATP + SO!

LuciferaseC ATP + Luciferina + O, ------~) AMP + PPi + Oxyluceferina + CO, + Luz

Figura 1- Princípio geral dos diferentes sistemas de reações de pirosequenciamento

FONTE: Ronaghi (2001).NOTA: A - A polimerase catalisa a incorporação de nucleotídeos na cadeia de DNA;

B - Como resultado da incorporação, a molecular pirofosfato (PPI) é liberada esubsequentemente convertida a adenosina-5' -trifosfato (ATP) pela ATP sulfurase;C - A luz é produzida em uma reação da luciferase durante a qual a moléculaluciferina é liberada.

principalmente considerando a montagemde novo de genomas.

O método 454 reduz a dimensão e acomplexidade de cada etapa do protocoloconvencional de pirosequenciamento,aumentando a produtividade de informa-ções em uma escala genômica. Ao invésde desenhar um novo par de primers, paraa amplificação por reação em cadeia dapolimerase - polymerase chain reaction(PCR) de cada fragmento genômico, 0454divide o genoma em milhões de fragmentose liga dois primers adaptadores universais(A e B). A ligação coesiva é não específicae os fragmentos que não incorporaramambos os primers são removidos, usandoesferas especiais que são revesti das comosprimers. Em seguida, ocorre a reação deamplificação por PCR, também conhecidacomo emulsão de PCR (DRESSMAN etaI., 2003), na qual oprimer B e o fragmentomolde estão livres na solução, enquantoo primer A é embebido nas esferas. Asesferas de sefarose, cobertas com milhõesdeprimer A, são misturadas com a soluçãode DNA molde, primer B e solução. Asesferas são adicionadas em excesso, de talforma que apenas uma molécula de DNAmodelo e uma esfera acabam em cadagota d'água.

Esse passo é crítico, uma vez quecada fragmento de DNA tem as mesmassequências de adaptadores e primersde PCR. Após a reação de PCR, cada

esfera tem milhões de cópias da mesmasequência de DNA. Essas esferas são,então, colocadas em placas que cabemexatamente uma esfera por poço, contendoum total de 400 mil poços. O processorestante é o pirosequenciamento com en-zima e substrato, sendo colocados na placaPTP, trinucleotídeos ATGC adicionadossequencialmente, cuja f1uorescência écapturada com a câmera charge coupleddevice (CCD).

Um método para melhorar a eficiênciade perfis de transcrição com base no 454é ancorar esses fragmentos sequenciadosa sítios únicos próximos à região 3' dassequências expressas para reduzir o nú-mero de leituras necessário para identificarmRNAs individuais e maximizar a dis-tinção de polimorfismos entre transcritosrelacionados. A região J- não traduzi da(UTR) é rica em polimorfismos de baseúnica, que distinguem os transcritos(BHATTRAMAKKI et al., 2002; VROHBI et al., 2006). A especificidade da leiturada sequência 3'-UTR permite a efetiva ano-tação de cada mRNAs, sem a montagemcompleta dos cDNAs. Essa estratégia, porexemplo, foi adotada para analisar ováriosde milho mutante e selvagem, utilizandouma estratégia multiplex que resultou emperfis de expressão quantitativos, em quese podem distinguir membros próximos defamílias gênicas (EVELAND; MCCARTY;KOCH, 2008).

Informe Agropecuário, Belo Horizonte, v.30, 253, p.108-115, nov./dez. 2009

O comprimento dos fragmentos se-quenciados com a tecnologia 454 não éuma preocupação para a análise de trans-criptomas, uma vez que os genes expressossão menores do que os genomas e apresen-tam menos DNA repetitivo. A técnica decaptura por microdissecção laser (LCM)pode ser utilizada para isolar transcritosque se acumulam em determinados tiposde células, reduzindo, assim, a complexi-dade e o tamanho do transcriptoma alvo(SCHNABLE; HOCHHOLDINGER;NAKAZONO, 2004). Outra grandevantagem da tecnologia 454 é não en-volver a clonagem dos fragmentos e aconstrução de bibliotecas, que são etapascaras e demoradas, além de possibilitar osequenciamento de diferentes amostrasde cDNA simultaneamente, aumentandoa recuperação de transcritos altamenteespecializados e raros.

Emrich et a!. (2007) relataram osequenciamento de cDNA extraído decélulas do meristema apical do broto,utilizando a abordagem LCM-454. Umaúnica corrida de sequenciamento 454 foicapaz de gerar mais que 25 mil sequên-cias genômicas de milho, sendo anotadosquase 400 transcritos de genes órfãos (FUet al., 2005). No entanto, esses transcritosórfãos, detectados por LCM-454, foramvalidados experimentalmente, e a maioriadeles não foi detectada em outros tecidos,incluindo espigas imaturas ricas em tecidomeristemático.

Outra plataforma de sequenciamentoda Illumina", denominada Solexa e maisrecentemente Genome Analyzer, tambémutiliza o sequenciamento por síntese defragmentos aleatórios, ligados coesiva-mente aos adaptadores e processados emmultiplex com reações, utilizando molécu-las únicas. No entanto, durante a síntese,essa plataforma incorpora trinucleotídeosfluorescentes com a extremidade J-OH-inativada, enquanto no 454 são incor-porados quatro nucleotídeos por fileira.O Genome Analyzer incorpora os nucle-otídeos, um de cada vez, tirando fotos daintensidade das quatro cores fluorescentes

10 Biotecnologia

a cada ciclo, seguido pela ativação química

do J-OH. Todos os quatro nucleotídeos

são adicionados simultaneamente e cadafluorescência é marcada com uma cor

diferente. Em vez de uma placa PTP, osequenciamento no Genome Analyzer

ocorre em fluxo microfluido das células,

que são cobertos por dois primers dife-rentes ligados quimicamente. A hibridaçãodos primers com o DNA genômico com

pontas coesivas é preparada de maneirasimilar ao descrito para o 454. Quando osfragmentos se ligam ao interior da célula,

as duas pontas do fragmento ligam-se,

formando uma ponte. Após a formaçãodessa ponte, uma polimerase isotérmica

"---,,amplifica a sequência, usando os mesmos

primers genéricos e os nucleotídeos não-

marcados. O resultado da desnaturaçãoé um fluxo de células cobertas com umaúnica fita molde de DNA, pronta para aincorporação de nucleotídeos, imagemfluorescente e ativação dos 3·-0H.

A terceira plataforma, denominadaSequencing by Oligo Ligation and Detec-tion (SOLiDTM) da Applied Biosystems, é

semelhante às demais pelo fato de ser uma

plataforma multiplex e massiva, que nãonecessita da clonagem dos fragmentos e

amplifica o DNA fragmentado, que é liga-

do a dois primers, em uma única emulsãode PCR com esferas cobertas de primers.

Esse instrumento tornou-se comer-cial em outubro de 2007, utilizando um

"--- processo único de sequenciamento cata-lisado pela DNA ligase. Cada corrida doSOLiDTM requer cinco dias e produz de 3

a 4 milhões de etiquetas com uma médiade 25 a 35 pb. A plataforma SOLiDTM

tem um único protocolo a leitura de cadanucleotídeo, duas vezes sucessivamenteem reações com dinucleotídeos, comoum mecanismo de verificação de erros.

A reação de sequenciamento é repetidacinco vezes em cada modelo com quatrocores fluorescentes em sondas de oito pares

de base. Cada uma das cinco corridas de

sequenciamento por ligação é precedi-

da por uma hibridação com primers desequenciamento universais. Esse primeré específico para os primers ligados à

esfera, usado durante a amplificação dePCR, mas os cinco primers hibridizam adiferentes fragmentos que se sobrepõem naextremidade 5' do primer ligado à esfera.A extremidade 5' do primer I é o último

nucleotídeo a se ligar no primer da esfera(posição n), enquanto a extremidade 5'

do primer 2 está na posição ri-I e assimpor diante.

O primeiro passo junta a ligação daextremidade 5' do primer universal a umdos quatro oligonucleotídeos fluorescentes

da sonda octâmera, que constitui de três

nucleotídeos aleatórios (64 combinações),um dinucleotídeo (que combina com ascores fluorescentes) e um trinucleotídeo

universal idêntico em todos os octâmeros.

Cada passo adiciona 256 (4 de 64) octâme-ros e o sinal fluorescente indica o dímerosequenciado. Os octâmeros são ligadosao primer universal e, em preparaçãopara o próximo ciclo, um passo de cliva-

gem remove o trinucleotídeo universale a etiqueta 5' fluorescente. O processoé repetido até o final do fragmento deDNA, resultando em dois de cada cinconucleotídeos sequenciados. Para sequen-ciar o restante do fragmento de DNA, a

reação começa novamente com o primerde sequenciamento universal 2. Após as

cinco interações desse processo, cada nu-cleotídeo na sequência foi lido duas vezes.

Uma vez que existem apenas quatro coresfluorescentes, o processo deve ser repetidoquatro vezes, a fim de cobrir todos os pos-síveis dímeros de sequenciamento.

As três plataformas de análise genô-

mica em larga escala são instrumentos emnanoescala, com sistema para análise de

imagem e alto poder de bioinformáticaque usa supercomputadores (Quadro I).Apenas a tecnologia SOLiDTM propor-ciona checagem de erros no processo

de sequenciamento, enquanto GenomeAnalyzer e 454 garantem alta qualida-

de, mas não implementam medidas decontrole de qualidade. Por outro lado,a plataforma SOLiDTM necessita de um

sistema computacional massivo e recursospara estocar dados, por causa da comple-xidade da abordagem. Apesar de já terem

alcançado grandes avanços, os métodos

de sequenciamento em larga escala aindatêm alguns desafios, como a redução de

custos, a diminuição nas taxas de erro de

sequenciamento e a leitura de fragmentos

mais longos. Novos sistemas que não ne-

cessitam de amplificação por PCR e que

se iniciam a partir de uma única molécula

de DNAestão em desenvolvimento, como

a tecnologia Helicos Biosystem - True

Single Molecule Sequencing e CompleteGenomics, que propõe a visualização da

exata localização onde o oligonucleotídeo

fluorescente de pentâmero incorpora-se ao

longo de uma única fita de DNA.

Essa nova geração de tecnologias de

sequenciamento fornece uma velocidade

e processividade na geração de sequências

de DNA sem precedentes, permitindo umimpressionante avanço científico e novas

aplicações biológicas.O objetivo de gerar grande quantidade

de dados de sequência de organismos

relacionados está direcionado com umaaplicação denominada ressequenciamen-

to, que manipula os dados de sequênciade diferentes modos que a montagem denovo de genoma. No ressequenciamento, amontagem é direcionada para a sequência-

referência e requer menor cobertura (8 a 12

X), que a montagem do genoma de novo(25 a 70 X).

ANÁLISE DE EXPRESSÃODIFERENCIAL EM GRANDEESCALA

A tecnologia de microarranjos de DNApossibilita a avaliação simultânea da ex-

pressão de milhares de genes em diferentestecidos de um determinado organismo, emdiferentes estádios de desenvolvimento ou

submetidos a condições de es.tresse. Os

microarranjos são bastante utilizados emexperimentos de genômica funcional, comdiversas espécies animais e vegetais, sendo

gradativamente incorporados em diferentes

áreas da pesquisa zootécnica, como cres-

cimento e metabolismo, resposta imune adoenças, reprodução e resposta a fatores de

Informe Agropecuário, Belo Horizonte, v.30, n.253, p.10B-115, nov./dez. 2009

Biotecnologia 11

QUADRO 1- Comparação das três plataformas de sequenciamento em larga escala

CaracterísticaPlataformas de sequenciamento

454 Genome Analyzer SOLiDT"

Química de sequenciamento Pirosequenciamento Polimerase com base em se- Ligação com base em se-quenciamento por síntese quenciamento

Abordagem de amplificação Emulsão PCR Amplificação por ponte Emulsão de PCR

Finais pareados/separação Sim/3 kb Sim/200 pb Sim/3 kb

Mb/corrida 100 Mb 1.300 Mb 3000 Mb

Tempo/corrida (finais pareados) 7 horas 4 dias 5 dias

Comprimento de leitura 250 pb 32-40 pb 35 pb

Custo por corrida (total) $8,439.00 $8,950.00 $17,447.00

Custo por Mb $84.39 $5.97 $5.81, .FONTE: Dados bósicos: Mardls (2008).

NOTA: Mb - Megabases; kb - Quilobases; pb - Pares de bases; PCR - Po/ymerase chain readion.

estresse não-infecciosos (restrição alimen-tar, exposição a elementos tóxicos e a ou-tras condições ambientais desfavoráveis),além de melhoramento genético animal.Tais experimentos são consideravelmentecaros e como consequência, são, em ge-ral, conduzidos com tamanhos amostraisreduzidos. A realização de experimentoscom microarranjos envolve uma série deprocedimentos laboratoriais de alta com-plexidade, desde a coleta das amostras atéa obtenção das imagens para análise, quefrequentemente introduzem variações adi-cionais aos resultados (ROSA; ROCHA;FURLAN, 2007).

A Affymetrix, em Santa Clara, Cali-fórnia, dominou o mercado por muitosanos, aplicando tecnologia de fotolitografiapara a impressão de oligonucleotídeosem microarranjos de alta densidade. Seuchip é bastante usado, mas a dinâmica domercado está mudando. Novos autorestêm lançado arranjos de alta densidade emmenor tempo e custo.

A Xeotron da Houston TechonologyCenter/, e a NimbleGen, da Roche sãoduas companhias que produzem microar-ranjos com tecnologia digital, com base emuma série de pequenos espelhos, tornandoa sua impressão mais rápida e com menorcusto.

7Disponível no site: http://www.houstontech.org

A Agilent Technologies, em Paio Alto,

Califórnia, também usa um processo de

síntese in situ com a impressão de oligos de60 nucleotídeos, base por base, em lâminas

de vidro especialmente preparadas. Cadaoligo representa um gene e essa lâmina

pode ser lida na maioria dos escânerescomerciais.

Além das lâminas de microarranjosno formato de 3 x 1 polegadas, algumas

companhias estão desenvolvendo novos

formatos de arranjos que levam a processos

paralelos de múltiplas amostras, como é o

caso da Illumina" em San Diego, Califór-

nia. A tecnologia de esferas da companhiaestá disponível em dois substratos distin-

tos, o Sentrix Array Matrix (para até 96

amostras) e o Sentrix LD BeadChip (paraaté 8 amostras). Cada arranjo é fabricadopara processar múltiplas amostras de

cada vez e arnbas suportam genotipagem

de polimorfismo de nucleotídeo único- single-nucleotide polymorphism (SNP)e aplicações para análise de expressãogênica. Cada arranjo em cada substrato

contém milhares de pequenos poços nosquais esferas são montadas de maneira

aleatória. A companhia usa sondas de 50nucleotídeos concatenadas com sequências

conhecidas imobilizadas na superfície.

Informe Agropecuário, 8elo Horizonte, v.30, 253, p.108-115, nov./dez. 2009

Após a montagem das esferas, cada arranjoé decodificado, para determinar quais tiposde esfera contêm qual gene em cada umdos poços do substrato (GUNDERSONet aI., 2004).

DETERMINAÇÃO DE FUNÇÃOGÊNICA EM GRANDE ESCALA

Genética reversa é um processo dedescoberta de genes que ocorre, conforme

o próprio nome indica, de forma oposta aoprocesso de genética clássica. As genéticasclássica e reversa são parecidas, pelo fato

de investigadores tipicamente deduzirem afunção de um gene por meio de um efeitode mudança no fenótipo. Por outro lado, ocontraste dos dois processos está no fato deque a genética clássica procura indivíduosraros com fenótipos não usuais, buscando,então, o gene ou alelo responsável pelacaracterística fenotípica. A localização deum gene associado com tal fenótipo é oponto final da investigação.

O avanço nas técnicas de sequencia-mento de DNA resultou em vários genomas

completamente sequenciadõs e em umainfinidade de sequências gênicas dispo-níveis. A abundância de tais informaçõesestimulou a genética reversa, onde, com

base nas sequências dos genes, procura-

12 Biotecnologia

se entender a influência delas no fenótipo,descobrindo sua função biológica. Assim,uma série de estratégias pode ser utilizadapara auxiliar na determinação da funçãode genes.

Mutagênese porsilenciamento gênico

o RNA de interferência - RNAinterference (RNAi) é um processo noqual a expressão de um gene específicoé inibido por RNA senso e antisenso.Baseia-se na capacidade de sequênciasde dupla fita reconhecerem e degradaremsequências que sejam complementares aesses (LEWIN, 2004). O RNAi foi pri-

"----'meiramente descrito em Caenorhabditiselegans, quando introduzida uma fitadupla de RNA e observou-se o silencia-mento da expressão do gene (FlRE et aI.,1998; KUTTENKEULER; BOUTROS,2004). A primeira classe a participar doRNAi é o double strandedRNA (dsRNA),que é formado pela complementariedadede bases de duas fitas simples de RNAe automaticamente reconhecidos por umcomplexo enzimático - RNAses tipo III,específicas para RNAs dupla fita (DICER).Esse primeiro complexo tem atividadeRNAse rrr e digere o dsRNA em frag-mentos de 21 a 25 pb. Esses pequenosfragmentos são reconhecidos por um se-gundo complexo enzimático que se acoplaa regiões homólogas desses fragmentos

"---'de 25 pb no mRNA alvo (que nesse casoserá o próprio genoma do potyvirus), de-gradando-o e impossibilitando que o vírusproduza as enzimas necessárias a sua mul-tiplicação. Para que a fita de dsRNA ocorranesse processo, uma região conservadado genoma do vírus (cerca de 400 pb) écolocada duas vezes na construção gênicasendo que uma delas é invertida em relaçãoà outra. Quando a construção é transcrita,ocasiona a formação de uma dupla fita deRNA (Fig. 2).

O silenciamento, com base em RNAi,é uma excelente estratégia para genética

"Disponivel no site: hupr//wwwcropdesign.com

reversa (WATERHOUSE; GRAHAM;WANG, 1998). O RNAi tem sido usadocomo uma ferramenta poderosa para si-lenciar genes e analisar a perda de função,quando alelos não mutantes não estãodisponíveis (PATTANAYAK et aI., 2005).Processos de análise de função gênica emgrande escala, usando o RNAi, têm sidousados em processos como TraitMillTM8.

Mutagênese portransposons e agrobactéria

Os transposons são elementos mó-veis que podem translocar de uma regiãodo genoma para outra (HAYES, 2003).Transposons são sequências de DNA quepodem inserir em uma nova localidadedo genoma sem ter relação com a regiãoinserida (LEWIN, 2004). A mutagênese

5' AUGGACUAGCAU --"

3' UACCUGAUCGUA -V

~d"PI'd'RN~

ljICE!:!CIJJ\ OICERE

mRNA

mRNA .10-__ ___ AAAAAAA

Figura 2 - Esquema simplificado da degradação do dsRNA pelos complexos enzimáticos

NOTA: O fragmento de interesse é inserido duas vezes invertido no vetar, para queocorra durante a transcrição a formação do grampo de RNA. Esse complexoé reconhecido pela enzima - RNAses tipo 111,específicas para RNAs dupla fita(DICER) que fragmenta dessa dupla fita de RNA em fragmentos de 25 bases. Esseproduto é então reconhecido pelo complexo silenciador induzido por RNA - RNAinduced si/encing complex - (RISC) que reconhece RNAs produzidos-no celularque são homólogos a esse RNA. Esse processo impede que os RNAs provenientesda célula venham a ser traduzidos ocasionando plantas mutantes para o fenótipoespecífico. A grande vantagem desse sistema é de ser praticamente independentedo número de cópias do gene de interesse, já que o alvo é o RNA provenientedessas cópias.

Informe Agropecuário, Belo Horizonte, v.30, n.253, p.108-115, nov./dez. 2009

Biotecnologia 13

com base em transposons, tem sido

usada com sucesso para identificar genes

essenciais (HAYES, 2003). Métodos com

base em transposon têm sido usados em

Arabidospsis, milho e outras espécies

(STEMPLE, 2004). Um problema da mu-

tagênese por inserção de transposons é o

grande número de indivíduos necessários

para fazer a caracterização fenotípica e

identificar a mutação em um gene especí-

fico (GILCHRlST; HAUGHN, 2005; TILLet aI., 2003).

O segmento do plasmídeo Ti de

Agrobacterium tumefaciens, conhecido

como T-DNA, carrega genes de transfor-

mação de plantas e pode ser utilizado para

mutagênese insercional. Essa mutagênese

é usada para produzir knockouts principal-

mente em Arabidopsis (ALONSO et aI.,

2003). Esse processo também tem sido

utilizado em arroz e milho, porém em uma

escala menor, apesar da cobertura estar

aumentando (HENIKOFF; TILL; COMAI,

2004). Ao contrário de outros sistemas de

identificação de genes, o mecanismo preci-so da integração do T-DNA no genoma da

planta ainda é desconhecido. Como outras

técnicas de supressão de RNA, a mutagê-

nese insercional é limitada pelo hospedeiro

e seu alcance é limitado pelos tipos de

alelos (MCCALLUM et aI., 2000).

Mutagênese por EMS -1illin9

A tecnologia targeting induced locallesions in genomes (Tilling) é um proces-

so de genética reversa desenvolvido porColbert et aI. (2001). Nos processos de

mutagênese por transposons e agrobac-

téria é teoricamente possível identificar aregião onde foi inserido o fragmento, já

que a sequência deste é conhecida. Quan-

to ao método, baseia-se na identificação

de regiões do DNA em que não existeesse fragmento conhecido inserido no

local. Em razão de a mutagênese química

causar grande densidade de mutações,

virtualmente todos os genes podem ser

atingidos por esse método. Além disso,trata-se de um processo independente de

transgênicos. O método tem como base a

capacidade de uma enzima em detectar odesparelhamento de fitas de DNAmutante

e normal, quando aneladas. As plantas são

tratadas com etilmetanosulfanato (EMS),

para gerar uma população de mutações deponto aleatórias. Por seletividade, o DNA

é amplificado com primers marcados com

fluorescência e os heteroduplexes são for-mados pelo não-pareamento de algumas

bases entre o DNA selvagem e o mutante.Os heteroduplexes são incubados com a

endonuclease de planta CEL I (endo-l ,4-p-glucanase) que cliva o heteroduplex em sí-

tios não-pareados, resultando em produtos

que são visualizados nos sequenciadoresautomáticos de DNA. Após a análise do

DNA de plantas individuais a partir do

DNA do pool, é possível identificar a plantacom a mutação (Fig. 3). Um centro de gran-

de escala de Tilllng para Arabidopsis está

sendo montado no Instituto do Câncer Fred

Hutchinton em Seattle-USA (PROWEB

PROJECT, 2009). O usuário solicita e

recebe sementes de Arabidopsis, contendo

mutações no gene de interesse.

FENOTIPAGEM EM GRANDEESCALA

Uma plataforma de fenotipagem em

grande escala para milho e arroz, denomi-

nada Traitlvlill'", tem sido desenvolvida

na Bélgica pela CropDesign. Platafor-

mas semelhantes têm sido descritas por

outras companhias ao redor do mundo.

O princípio dessa plataforma engloba

a caracterização de um grande número

de plantas digitalmente, utilizando fer-

ramentas de bioinformática, sistema de

engenharia de genes, transformação em

grande escala e um sistema automatizado

EMS

-M2 I

I ••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••:::::::::::: "-••••••••••••~

Primers gene especifico

1111111111110111111111111

t CELI

IIIIIIIIIIII()IIIIIIIIIII

IIIIIIIIIIII()IIIIIIIIIII

t Denaturação

111111111111

111111111111 Gelescaneamento

----l>-~Identificaçãode mutantes

Figura 3 - Tifling em alta escala

FONTE: Colbert et aI. (2001).

NOTA: Sementes são mutagenizadas em concentrações de 20, 25 e 30 mM de etilmeta-nosulfonado (EMS). Plantas M 1 são colocadas em bandejas e sementes plantadasem vasos para a geração M2, onde cada M2 deriva de uma planta M 1 diferente.Os DNAs das plantas M2 são preparados e submetidos a reação em cadeia dapolimerase (PCR) usando primers específicos. A reação é submetida a tratamentocom endo- 1,4-p-glucanase (CEL I), limpeza e eletroforese e escaneamento.

Informe Agropecuário, Belo Horizonte, v.30, 253, p.108-115, nov./dez. 2009

14 Biotecnologia

de alta resolução para avaliação do fenó-tipo. Esse processo tem a capacidade demanipular centenas de genes e avaliar oefeito na planta por meio de um sistemaautomático de avaliação fenotípica global.Parte desse programa investiga genes, viasmetabólicas e elementos regulatórios quetenham papéis importantes no crescimentoe no desenvolvimento da planta. Os genessão geralmente testados sob o controle depromotores constitutivos e órgãos especí-ficos. Nesse processo, são gerados cerca de50 mil transformantes independentes porano. As plantas são cultivadas em casa devegetação, onde são conduzi das por meiode esteiras automáticas para a captura de

<:> imagens de vários ângulos, durante o seuciclo vegetativo. São processadas maisde 30 mil fotos de plantas por dia. Paraassegurar a correta análise dos dados, cadaplanta leva uma etiqueta que contém umchip que faz com que todas as informaçõessejam registradas automaticamente, quan-

do a planta passa pelo sistema de imagem.Algorítmos são usados para análise digital eextração de vários parâmetros relacionadoscom o crescimento, produção e tolerânciaa estresses. As sementes são colhidas paracada planta e as amostras são etiquetadascom código de barra. Um robô analisa opeso das sementes enquanto um sistemade análise de imagem faz sua contagem edetermina o seu tamanho (Fig. 4).

CONSIDERAÇÕES FINAIS

Muitas metodologias têm sido desen-volvidas para auxiliar na compreensão dasfunções gênicas. Um grande número de se-quências depositadas nos bancos de dadosteve suas funções desvendadas por meio deexperimentos de avaliação da expressão elocalização de mRNAs e proteínas, assimcomo na reconstituição de mutantes comfenótipos específicos. O sequenciamentotornou-se um elemento-chave na compre-ensão da funcionalidade do gene. A recente

/ \

{' .

"\

')fiJ)

Df(

Figura 4 - Descrição da fenotipagem de plantas pelo sistema TraitMill

NOTA: Plantas são dispostas na casa de vegetação em esteiras que se movem em tempoprogramado. Cada uma das plantas é fotografada digitalmente de vários ângu-los e as imagens são processadas em programas de computador que permitemgrande número de análises, incluindo crescimento, cor e formato de folhas ecaule, densidade de raiz, dentre outras características.

introdução de instrumentos capazes deproduzir milhões de sequências em umaúnica corrida está rapidamente mudandoo cenário da genética, aumentando acapacidade de fornecer respostas comvelocidades inimagináveis. Essas tecnolo-gias permitirão o sequenciamento total degenomas a preços cada vez mais acessíveise com maior rapidez.

Nesta revisão, foram abordadas as maisrecentes tecnologias de sequenciamentoe de análise de expressão gênica. Astécnicas de sequenciamento têm permi-tido a comparação de vários organismose/ou situações de forma mais acessível efrequente. As companhias que elaborammicroarranjos de DNA têm utilizado dadosde sequenciamento, mapeamento e funçãogênica para montagem de arranjos cada vezmais específicos e direcionados. Os pro-cessos de análise gênica, tanto individualquanto em larga escala, fornecerão acessoa novas descobertas sem precedentes emtodas as áreas da Biologia, incluindo aagropecuária, nas quais existe um grandeinteresse na identificação de genes envol-vidos com resistência a doenças, tolerânciaa estresses, aumento da qualidade nutricio-nal, biorrernediação de ambientes, dentreoutras características de valor econômico,social e ambiental.

REFERÊNCIAS

ALONSO, ).M. et a!. Genome-wide inser-tional mutagenesis of Arabidopsis thaliana.Scíence, v. 301, n. 5633, p.653-657, Aug.2003.

BHATTRAMAKKI, D. et a!. Insertion-deletion polymorphisms in 3' regions ofmaize genes oeeur frequently and ean beused as highly informative genetie ma-rkers. Plant Moleeular Biology, v. 48, n.516, p. 539-547, Mar. 2002.

COLBERT, T. et a!. High-throughput sere-ening for induced point mutatíons. PlantPhysiology, v. 126, p. 480-484, [une 2001.

EMRICH, S.J. et alo Gene discovery and an-notation using LCM-454 transcriplome se-

quencing. Genome Researeh, v. 17, n. 1, p.69-73, [an, 2007.

EVELAND, A.L.; MCCARTY, D.R.; KOCH,K.E. Transcript profiling by 3'- untranslaled

Informe Agropecuário, Belo Horizonte, v.30, n.253, p.108-115, nov./dez. 2009

Biotecnologia 15

region sequencing resolves expression ofgene families. Plant Physiology, v. 146, p.32-44, Ian. 2008.

FIRE, A. et aI. Potent and specific geneticinterference by double-stranded RNA inCaenorhabditis elegans. Nature, v. 391, n.6669, p. 806-811, Feb. 1998.

FU, Y. et al. Quality assessment of maizeassembled genomic islands (MAGIs) andlarge-scale experimental verification ofpredicted genes. Proceedings the Natio-nal Academy of Sciences, v. 102, n. 34, p.12282-12287, Aug. 2005.

GILCHRIST, E.J.; HAUGHN, G.w. Tillingwithout a plough: a new method with ap-plications for reverse genetics. Current Opi-nion in Plant Biology, v. 8, n.2, p. 211-215,2005

GUNDERSON, K.1. et aI. Decoding ran-domly ordered DNA arrays. Genome Rese-arch, v. 14, n.5, p. 870-877, May 2004.

HARKINS, T; JARVIE, T. Metagenomicsanalysis using the genome sequencer FLXsystem. Nature Methods, v.4, n.6, p. 533,[une 2007.

HAYES F. Transposon-based strategies formicrobial functional genomies and proteo-mies. Annual Review of Genetics, v.37, p.3-29, Dec. 2003.

HENIKOFF, S.; TILL, B.J.; COMAI, L. Tilling:traditional mutagenesis meets functionalgenomics. Plant Physiology, v. 135, p. 630-636, June 2004.

KUTTENKEULER, D.; BOUTROS, M. Ge-nome-wide RNAi as a route to gene func-tion in Drosophila. Briefings in FunctionalGenomics and Proteomics, v. 3, n. 2, p. 168-176, Aug. 2004.

LEWIN, B. Genes VII. New Jersey: PearsonPrentice Hall, 2004. 1027p.

MARDIS, E.R. The impact of next-generationsequencing technology on genetics. Trends in

Genetics, v. 24, n.3, p. 133-141, Mar. 2008.

MARGULIES, M. et aI. Genome sequencingin microfabricated high-density picolitre re-actors. Nature, v. 437, n. 7057, p. 376-380,Sept. 2005.

MCCALLUM C.M. et al. Targeted screeningfor induced mutations. Nature Biotechno-logy, v. 18, n. 4, p.455-457, Apr. 2000.

PATTANAYAK, D. et aI. Small but mightyRNA-mediated interference in plants. In-dian [ournal of Experimental Biology,v. 43, n. 1, p. 7-24, [an, 2005.

PROWEB PROJECT [S.1.: 2009]. Disponívelem: <http://www.proweb.org>. Acesso em:19 novo 2009.

RONAGHI, M. Pyrosequencing sheds lighton DNA sequencing. Genome Research,V. 11, p. 3-11, 2001.

ROSA, G.J. de M.; ROCHA, 1.B. da; FUR-LAN, 1.R. Estudos de expressão gênicautilizando-se microarrays: delineamento,análise, e aplicações na pesquisa zootécni-ca. Revista Brasileira de Zootecnia, Viçosa,MG, v.36, p. 185-209, 2007. Suplemento es-pecial.

SANGER, F. et al, Nucleotide sequence ofbacteriophage x 174 DNA. Nature, V. 265,n. 5596, p. 687-695, Feb. 1977.

___ ; NICKLEN, S.; COULSON, A.R.DNA sequencing with chain-terminatinginhibitors. Proceedings of the NationalAcademy of Sciences, V. 74, n. 12, p. 5463-5467, Dec. 1977.

SCHNABLE, ES.; HOCHHOLDINGER, F.;NAKAZONO, M. Global expression profi-ling applied to plant development. CurrentOpinion in Plant Biology, V. 7, p. 50-56,2004.

SCHUSTER, S.e. Next-generation sequen-cing transforms today's biology. Nature Me-thods, v. 5, n.1, p. 16-18, Jan.2008.

SHENDURE, J. et al. Accurate multiplexpolony sequencing of an evolved bacterialgenome. Science, V. 309, n. 5741, p. 1728-1732, Sept. 2005.

STEMPLE, D.L. Tilling - a high-throughputharvest for functional genomics. NatureReviews Genetics, V. 5, p. 145-150, Feb.2004.

TILL, B.J. et al. Large-scale discovery ofinduced point mutations with high-throu-ghput Tilling. Genome Research, v. 13, n. 3,p. 524-530, Mar. 2003.

VROH BI et aI. Single nucleotide polymor-phisms and insertion-deletions for geneticmarkers and anchoring the maize finger-print contig physical map. Crop Science,v. 46, n. 1, p. 12-21, Jan./Feb.2006.

WATERHOUSE, EM.; GRAHAM, M.W.;WANG, M. B. Virus resistance and gene si-lencing in plants can be induced by simul-taneous expression of sense and antisenseRNA. Proceedings of the National Acade-my of Science, v. 95, p. 13959-13964, Nov.1998.

BIBLIOGRAFIA CONSULTADABAURLER, 1.; LAUX, T Apical meristems:the plant's fountain of youth. Bioessays,V. 25, n. 10, p.961-970, Sept. 2003.

DRESSMAN, D. et al. Transforming singleDNA molecules into fluorescent magneticparticles for deteetion and enumeration ofgenetic variations. Proceedings of the Na-tional Academy of Sciences, v. 100, n. 15,p. 8817-8822, [uly 2003.

GUYOMARCH, S. et aI. Regulation of me-ristem activity by chromatin remodelling.Trends in Plant Science, v. 10, p. 332-338,2005.

WEBER, A.EM. et al. Sampling the Arabi-dopsis transcriptome with massively pa-ra1lel pyrosequencing. Plant Physiology,V. 144, n.l, p.32-42, May 2007.

186 mm X 50 mm

Informe Agropecuário, Belo Horizonte, v.30, 253, p.108-115, nov./dez. 2009