SEQUENCIAMENTO E BANCO DE DADOS BIOLÓGICOS · 1944 DNA material genético em todos os seres vivos...

Preview:

Citation preview

SEQUENCIAMENTO E BANCO DE DADOS BIOLÓGICOS

Gabriel Dequigiovanni Departamento de Genéticagabriel.dequi@gmail.com

1866 Gregor Mendel – Leis da Hereditariedade

1903 Walter Sutton – Cromossomos, unidades hereditárias

1913 Thomas Morgan – Cromossomos, arranjos lineares

1944 DNA material genético em todos os seres vivos - Avery, McCarty, McLeaod, Griffith’s

1945 Um gene codifica uma proteína, Beadle, Tatum

1953 Dupla hélice do DNA (Watson & Crick)

1960s Elucidação do código genético

1977 Sequenciamento do DNA (Fred Sanger)

1983 PCR – Kary Mullis

1995 Primeiro genoma de bactéria sequenciado (Haemophilus

influenza)

1998

1999 Primeiro cromossomo humano sequenciado

(cromossomo 22)

2000 Genomas Drosophia / Arabidopsis / Xylella

2001 Genomas humano e camundongo

2003 99% genoma humano

2004 Metagenômica (Environmental genomics)

2005 Sequenciar um genoma de procarioto por US$1 000.

2007 DNA de James Watson sequenciado

2009 Sequenciar seu próprio genoma por US$ 50 000.

LOUSA

Animação!

http:/www.dnalc.org/ddnalc/resources/sangerseq.html

LASER

Detecção

a laser

Animação!

http:/www.dnalc.org/ddnalc/resources/cycseq.html

ABI 3700 Applied Biosystems - ~150.000 bases/dia

3730 – Applied Biosystems – ~1.000.000 bases/dia

454 – Roche – ~100 M bases/7,5 h

SOLiD – Applied Biosystems –~3 000 M bases/corrida/ 6 dias (3 bilhões)

Solexa – Illumina – ~2 000 M bases/corrida /6,5 dia (2 bilhões)

Plataformas modernas para sequenciamento

HiSeq 2500 Illumina

454 Roche

Ion Torrent Life Technologies

NGS (Next-Generation Sequencing)

• Transição para NGS

De uma pequena quantidade de sequências maiores para muitas sequências

pequenas “massively parallel sequencing”

Maior capacidade geral de sequenciamento

Aumento da complexidade computacional

Sequências curtas

Resulta em bilhões de bases sequenciadas em centenas de milhões de

fragmentos

NGS (Next-Generation Sequencing)

Um único equipamento de nova geração faz o mesmo trabalho que 30 mil

sequenciadores do modelo usado em 2000!

Por outro lado, essas milhões de bases lidas estão em fragmentos muito pequenos

que, para a montagem de um genoma completo, têm de ser concatenados como em

um quebra-cabeça gigantesco.

Preparação do DNA

Reação de sequenciamento

Eletroforese capilar

Análise computacional

ETAPAS DO SEQUENCIAMENTO DE DNA

FRAGMENTOS DE DNA SEQUENCIADOS

FRAGMENTOS COMPLETOS

Biblioteca de insertos pequenos

Montagem dos fragmentos

Fechamento dos gaps

Análise

E porque não usamos só o PAC BIO?

BIOINFORMÁTICA

- Bancos de Dados Biológicos

A bioinformática consiste no desenvolvimento demétodos computacionais, matemáticos e estatísticospara organizar e analisar informações biológicas emgrande escala e de maneira integrada.

Organizaçãoe Armazenamento

Visualização e Análise

- Ferramentas computacionais- Compreensão do significado biológico

Você toparia?

Craig Venter

James WatsonNeanthertal

Desmond Mpilo Tutu (1931-) arcebispo e

ativista dos direitos humanos. Nobel da paz em

1994.

430.000 anos

2019

Arroz

Arabdopsis

Milho

Soja

Tomate

Poplar Genome Sequenced and Published; Model Crop for Biofuels

BANCO DE DADOS BIOLÓGICOS

Nucleotídeos :

– International Collaboration• NCBI(EUA), EMBL(Europa), DDBJ (Japão)

– Organismo-específico • http://flybase.org/

• http://poultry.mph.msu.edu/

• http://www.maizegdb.org/

• http://rice.plantbiology.msu.edu/

• http://www.yeastgenome.org/

• http://soybeangenome.siu.edu/

• http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml

JapanCIB/NIG

USANCBI/NLM

EuropeEBI/EMBL

INSDChttp://www.insdc.org/

Public Collections of DNA and RNA Sequences: Alcançou 100 Gigabases!!!! (August, 2005)

> 300,000 species;whole genome of over 1,500 organisms.

Public Collections of DNA and RNA Sequences: Alcançou 300 Gigabases!!!! (August, 2011) -199,575,971 entries

Sequenciamento de genomas:

BANCOS DE DADOS MUNDIAIS

Atualizações diárias

Troca de informações

BANCOS DE DADOS MUNDIAIS

National Center for Biotechnology Information (NCBI)

http://www.ncbi.nlm.nih.gov/

ENTREZ: ferramentade busca do banco de dados do NCBI

PubMed: artigoscientíficos

Taxonomy Browser: classificação taxonômica de organismos

FERRAMENTAS

http://www.ncbi.nlm.nih.gov/Database/index.html

ESTRUTURA DO GENBANK

Só o NCBI não seria suficiente?

Porque existe outros bancos?

Homo sapiens BRCA1

http://www.ncbi.nlm.nih.gov/Database/index.html

https://www.ncbi.nlm.nih.gov/nuccore/AH003701.2

>gi|226347322|gb|FJ830553.1| Anabaena planctonica CENA210 ribulose-1,5-

bisphosphate carboxylase/oxygenase large subunit (rbcL) gene, partial cds

CCGGCGAAATTAAAGGTCACTACCTCAACGTTACCGCTCCTACCTGCGAAGAAATGTTGAAACGGGCTGA

GTACGCTAAAGAACTCAAAATGCCCATCATCATGCACGACTACCTAACCGCAGGTTTCACCGCTAACACC

ACATTGGCTCGTTGGTGTCGTGATAACGGTATTTTATTGCACATTCACCGTGCTATGCACGCTGTAATTG

ACCGTCAAAAAAATCACGGTATCCACTTCCGCGTATTAGCTAAAGCCCTCCGCTTGTCCGGTGGTGATCA

CATCCACACTGGTACAGTTGTTGGTAAGTTAGAAGGTGAACGCGGTATTACCATGGGCTTCGTTGACTTA

TTACGTGAAAACTACGTTGAGCAAGACAAGTCTCGCGGTATTTACTTTACCCAAGATTGGGCGTCTCTAC

CTGGTGTAATGGCCGTTGCTTCTGGTGGTATCCACGTATGGCATATGCCCGCGTTGGTTGAGATCTTCGG

TGATGACTCCGTATTACAATTCGGTGGTGGTACACTCGGACATCCTTGGGGTAACGCTCCTGGTGCTACA

GCTAACCGCGTAGCTCTAAAAGCAGTTGTTCAAGCTCGTAACGAAGGCCGTAACTTAGCTCGTGAAGGTA

ACGATATTATCCGCGAAGCTGCTAAGTGGTCTCCTGAGTTGGCTGTTGCTTGCGAACTG

>gi|226347323|gb|ACO50079.1| ribulose-1,5-bisphosphate

carboxylase/oxygenase large subunit [Anabaena planctonica CENA210]

GEIKGHYLNVTAPTCEEMLKRAEYAKELKMPIIMHDYLTAGFTANTTLARWCRDNGILLHIHRAMHAVID

RQKNHGIHFRVLAKALRLSGGDHIHTGTVVGKLEGERGITMGFVDLLRENYVEQDKSRGIYFTQDWASLP

GVMAVASGGIHVWHMPALVEIFGDDSVLQFGGGTLGHPWGNAPGATANRVALKAVVQARNEGRNLAREGN

DIIREAAKWSPELAVACEL

Formato FASTA: formato universalmente aceito para ser processado

Identificador

• Por sequência de nucleotídeos ou de aminoácidos (proteínas)

• Comparação de sequências a fim de identificar similaridade deDNA ou proteína para inferir origem, função, filogenia

• Realiza comparações entre pares de sequências, buscandoregiões com similaridade local

• Alinhamento local (segmentos) é a base da busca por BLAST

• Usa algoritmos para gerar alinhamento de sequências

BUSCA EM BLAST

BLAST: Basic Local Alignment Search Tool

BUSCA EM BLAST

BUSCA EM BLAST

Mais utilizados blastn e blastp!!

Algoritmos em Blast:

• Não avaliam homologia

• Medem similaridade e identidade de seqüências

A análise de sequências objetivaencontrar similaridades importantesque permitam inferir sobre homologia

Exemplos:Órgãos homólogos – asas de morcego e mãos de humanos (mesma origem)Órgãos similares – asas de morcego e asas de borboleta (mesma função)

BUSCA EM BLAST

Identidade x Similaridade x Homologia

• Identidade = ocorrência do mesmo nucleotídeo ouaminoácido na mesma posição nas seqüências alinhadas

• Similaridade = considera combinações próximas e avaliada pormedidas de diferença/igualdade

• Homologia = dividem mesma ancestralidade, com significadoevolutivo

Homologia => conceito central de Evolução

BUSCA EM BLAST

• Nossa sequência – query (consulta),

• O resultado da busca em BLAST pode ser um ou mais hits emsequências-sujeito (subject)

• Os melhores resultados de escores são relatados,

• usar valor E

– valor E <0.01 Quanto menor o e-value, maissignificativo o alinhamento!!!

BUSCA EM BLAST

GGCTCTTTAGCTTCTTAGGACAGCACTTCCTGATT

TTGTTTTCAACTTCTAATCCTTTGAGTGTTTTTCA

TTCTGCAGATGCTGAGTTTGTGTGTGAACGGACAC

TGAAATATTTTCTAGGTGCGGGAGGAAAATGGGTA

GTTAGCTATTTCTGTAAGTATAATACTATTTCTCC

CCTCCTCCCTTTAACACCTCAGAATTGCATTTTTA

CACCTAACGTTTAACACCTAAGGTTTTTGCTGATG

CTGAGTCTGAGTTACCAAAAGGTCTTTAATTGTAA

TACTAAACTACTTTTATCTTTAATATCACTTTGTT

CAGATAAGCTGGTGATGCTGGGAAAATGGGTCTC

Z96068.1

Nucleotídeos

EAX11622.1

Proteína>EAX11622.1 lactase [Homo sapiens]

MELSWHVVFIALLSFSCWGSDWESDRNFISTAGPLTNDLLHNLSGLLGDQSSNFVAGDKDMYVCHQPLPT

FLPEYFSSLHASQITHYKVFLSWAQLLPAGSTQNPDEKTVQCYRRLLKALKTARLQPMVILHHQTLPAST

LRRTEAFADLFADYATFAFHSFGDLVGIWFTFSDLEEVIKELPHQESRASQLQTLSDAHRKAYEIYHESY

AFQGGKLSVVLRAEDIPELLLEPPISALAQDTVDFLSLDLSYECQNEASLRQKLSKLQTIEPKVKVFIFN

LKLPDCPSTMKNPASLLFSLFEAINKDQVLTIGFDINEFLSCSSSSKKSMSCSLTGSLALQPDQQQDHET

TDSSPASAYQRVWEAFANQSRAERDAFLQDTFPEGFLWGASTGAFNVEGGWAEGGRGVSIWDPRRPLNTT

EGQATLEVASDSYHKVASDVALLCGLRAQVYKFSISWSRIFPMGHGSSPSLPGVAYYNKLIDRLQDAGIE

PMATLFHWDLPQALQDHGGWQNESVVDAFLDYAAFCFSTFGDRVKLWVTFHEPWVMSYAGYGTGQHPPGI

SDPGVASFKVAHLVLKAHARTWHHYNSHHRPQQQGHVGIVLNSDWAEPLSPERPEDLRASERFLHFMLGW

FAHPVFVDGDYPATLRTQIQQMNRQCSHPVAQLPEFTEAEKQLLKGSADFLGLSHYTSRLISNAPQNTCI

PSYDTIGGFSQHVNHVWPQTSSSWIRVVPWGIRRLLQFVSLEYTRGKVPIYLAGNGMPIGESENLFDDSL

RVDYFNQYINEVLKAIKEDSVDVRSYIARSLIDGFEGPSGYSQRFGLHHVNFSDSSKSRTPRKSAYFFTS

IIEKNGFLTKGAKRLLPPNTVNLPSKVRAFTFPSEVPSKAKVVWEKFSSQPKFERDLFYHGTFRDDFLWG

VSSSAYQIEGAWDADGKGPSIWDNFTHTPGSNVKDNATGDIACDSYHQLDADLNMLRALKVKAYRFSISW

SRIFPTGRNSSINSHGVDYYNRLINGLVASNIFPMVTLFHWDLPQALQDIGGWENPALIDLFDSYADFCF

QTFGDRVKFWMTFNEPMYLAWLGYGSGEFPPGVKDPGWAPYRIAHAVIKAHARVYHTYDEKYRQEQKGVI

SLSLSTHWAEPKSPGVPRDVEAADRMLQFSLGWFAHPIFRNGDYPDTMKWKVGNRSELQHLATSRLPSFT

EEEKRFIRATADVFCLNTYYSRIVQHKTPRLNPPSYEDDQEMAEEEDPSWPSTAMNRAAPWGTRRLLNWI

KEEYGDIPIYITENGVGLTNPNTEDTDRIFYHKTYINEALKAYRLDGIDLRGYVAWSLMDNFEWLNGYTV

KFGLYHVDFNNTNRPRTARASARYYTEVITNNGMPLAREDEFLYGRFPEGFIWSAASAAYQIEGAWRADG

KGLSIWDTFSHTPLRVENDAIGDVACDSYHKIAEDLVTLQNLGVSHYRFSISWSRILPDGTTRYINEAGL

NYYVRLIDTLLAASIQPQVTIYHWDLPQTLQDVGGWENETIVQRFKEYADVLFQRLGDKVKFWITLNEPF

VIAYQGYGYGTAAPGVSNRPGTAPYIVGHNLIKAHAEAWHLYNDVYRASQGGVISITISSDWAEPRDPSN

QEDVEAARRYVQFMGGWFAHPIFKNGDYNEVMKTRIRDRSLAAGLNKSRLPEFTESEKRRINGTYDFFGF

NHYTTVLAYNLNYATAISSFDADRGVASIADRSWPDSGSFWLKMTPFGFRRILNWLKEEYNDPPIYVTEN

GVSQREETDLNDTARIYYLRTYINEALKAVQDKVDLRGYTVWSAMDNFEWATGFSERFGLHFVNYSDPSL

PRIPKASAKFYASVVRCNGFPDPATGPHACLHQPDAGPTISPVRQEEVQFLGLMLGTTEAQTALYVLFSL

VLLGVCGLAFLSYKYCKRSKQGKTQRSQQELSPVSSF

BLASTn

BLASTp

Colar a sequência que deseja analisar

Barra = Identidade

PROTEÍNAS

>gi|47933334|gb|AAQ63935.1| cellulose synthase [Pinus radiata]

MEARTNTAAGSNKRNVRVSVRDDGELGPKPPQHINSHICQICGEDV

GLAADGEFFVACNECAFPVCRPCYEYEWKDGNQSCPQCKTRYKWH

KGSPQVDGDKEDECADDLDHDFNSTQGNRNEKQQIAEAMLHWQM

AYGRGEDVGPSRSESQELPQLQVPLITNGQAISGELPAGSSEYRRIA

APPTGGGSGKRVHPLPFPDSTQTGQVRA

>LINHA DO NOME

MÁXIMA DE 80 CARACTERES POR LINHA

FORMATO FASTA

BUSCA EM BLAST

AY751548.1L03637.1

AJ005984.1NM_001246552.1

G24983.1BK000460

NM_001045493.1NM_001114949.1

BC037526.1AB081072.1AY136463.1BC009121.1AB052957.1

Recommended