46
Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de Oliveira Pedrosa

Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Embed Size (px)

Citation preview

Page 1: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Um Banco de Dados de Seqüências e Anotações

do GenBank para Mineração de Dados

Biológicos Dieval Guizelini

Orientadores: Roberto Tadeu RaittzFábio de Oliveira Pedrosa

Page 2: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Agenda• Objetivos• Conceito de Banco de Dados• A origem dos dados• Conceituação de seqüências e anotações• Paradigma central da Biologia Molecular• Formato dos arquivos do GenBank• Alguns números sobre os organismos• Modelagem do banco de dados• Aplicação• Estudo de caso

Page 3: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Objetivos1. Estruturar um banco e popular com todas as

informações das seqüências de nucleotídeos de genomas completos e as respectivas anotações disponíveis no GenBank pelo NCBI.

2. Ter a(s) localização(ões) das regiões de interesse (Gene, promotores, RBS, 5’UTR, 3’UTR, TATA_signal, etc).

3. Ter mapeadas as áreas gênicas e intergênicas.

4. Preocupação para atualizar o banco

Page 4: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Uma Questão AdjacenteO conceito de Banco de dados:• Informática: “Coleção de dados inter-

relacionados, armazenados juntos e com redundância controlada para servir a uma ou mais aplicações” (James Martin, 1975)

• ANS: “Coleção organizada de fatos e informações sobre dados, como pacientes, prontuários, etc.” (SOARES, 2007)

• Bioinformática: ???

Page 5: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

A Origem dos Dados• GenBank é um banco de dados público, de seqüencia

de nucleotídeos, com anotação de informações biológicas e bibliográficas. O GenBank da NCBI é parte do “Internation Nucleotide Sequence Database Collaboration”. Os outros dois membros são o DNA DataBank of Japan (DDBJ) e European Molecular Biology (EMBL).

• O NCBI (National Center for Biotechnology Information) é uma divisão da National Library of Medicine (NLM), localizada no campus US National Institute of Health, em Bethesda, MD, USA.

• Releases mensais, o último – 176 de 24/02/2010• ftp://ftp.ncbi.nih.gov/genbank/genomes/Bacteria/

Obs: a pasta refere-se a Bacteria, mas os arquivos são de organismos dos Domínios Bacteria e Archaea

Page 6: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Questões Legais de Uso da Informação

“GenBank Data Usage The GenBank database is designed to provide and encourage access within the scientific community to the most up to date and comprehensive DNA sequence information. Therefore, NCBI places no restrictions on the use or distribution of the GenBank data. However, some submitters may claim patent, copyright, or other intellectual property rights in all or a portion of the data they have submitted. NCBI is not in a position to assess the validity of such claims, and therefore cannot provide comment or unrestricted permission concerning the use, copying, or distribution of the information contained in GenBank.”

Fonte: http://www.ncbi.nlm.nih.gov/Genbank/

Page 7: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Seqüências, Anotações???

Parte da figura 1-30 página 30 – Lehninger Principles of Biochemistry – 4ª Ed – NELSON & COX

Exemplo de uma seqüência:

GCTGAGCGTC

Page 8: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Mapa do genoma de Escherichia coli

Page 9: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

agcttttcattctgcctgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgacttaggtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccat

Mapa do genoma de Escherichia coliAnotações

Page 10: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

O que procuramos no Genoma?

• Processo de Replicação (DNA polimerase)

• Processo de Transcrição (RNA polimerase)

• Processo de Tradução

DNA

RNA

PROTEÍNA

Replicação

TranscriçãoTranscriçãoReversa

Tradução

Page 11: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Formato GenBankVantagens:• Contem as seqüências dos genomas e as

respectivas regiões anotadas.• Bem documentado

Desvantagem:• Redundância de informação• Não apresenta associação entre as informações

do mesmo nível hierárquico (como no COG)• Formato texto (grandes arquivos)

Page 12: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Arquivo do GenBank(NCBI Documents)

• NCBI Resource Guidehttp://www.ncbi.nlm.nih.gov/Sitemap/ResourceGuide.html

• GenBankhttp://www.ncbi.nlm.nih.gov/Sitemap/ResourceGuide.html#GenBank

• Sample recordhttp://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

• GenBank Divisionshttp://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html#GenBankDivisionB

Vamos dar uma olhada no conteúdo de um arquivo no formato do GenBank.

Page 13: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Primeiro Exemplo

http://www.ncbi.nlm.nih.gov/nuccore/5640000?report=GenBank

LOCUS AF165912 5485 bp DNA linear PLN 29-JUL-1999DEFINITION Arabidopsis thaliana CTP:phosphocholine cytidylyltransferase (CCT) gene, complete cds.ACCESSION AF165912VERSION AF165912.1 GI:5640000KEYWORDS .SOURCE Arabidopsis thaliana (thale cress) ORGANISM Arabidopsis thaliana Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; eudicotyledons; core eudicotyledons; rosids; eurosids II; Brassicales; Brassicaceae; Arabidopsis.REFERENCE 1 (bases 1 to 5485) AUTHORS Choi,Y.H., Choi,S.B. and Cho,S.H. TITLE Structure of a CTP:Phosphocholine Cytidylyltransferase Gene from Arabidopsis thaliana JOURNAL UnpublishedFEATURES Location/Qualifiers

Page 14: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

FEATURES Location/Qualifiers source 1..5485 /organism="Arabidopsis thaliana" /mol_type="genomic DNA" /db_xref="taxon:3702" /ecotype="Col-0" gene 1..4637 /gene="CCT" promoter 1..1602 /gene="CCT" TATA_signal 1554..1560 /gene="CCT" mRNA join(1603..1891,2322..2438,2538..2633,2801..2843, 2918..3073,3167..3247,3874..3972,4082..4637) /gene="CCT" /product="CTP:phosphocholine cytidylyltransferase" 5'UTR 1603..1712 /gene="CCT" CDS join(1713..1891,2322..2438,2538..2633,2801..2843, 2918..3073,3167..3247,3874..3972,4082..4309) /gene="CCT" /EC_number="2.7.7.15" /codon_start=1 /product="CTP:phosphocholine cytidylyltransferase" /protein_id="AAD45922.1" /db_xref="GI:5640001" /translation="MSNVIGDRTEDGLSTAAAASGSTAVQSSPPTDRPVRVYADGIYD RLENGQDDDTDDQFYEEYFDHDMGSDDDEDEKFYDEEEVKEEETEKTVMTDAKDNK" 3'UTR 4310..4637 /gene="CCT"

Primeiro Exemplo

Page 15: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Primeiro ExemploORIGIN 1 ccagaatggt tactatggac atccgccaac catacaagct atggtgaaat gctttatcta 61 tctcattttt agtttcaaag cttttgttat aacacatgca aatccatatc cgtaaccaat 121 atccaatcgc ttgacatagt ctgatgaagt ttttggtagt taagataaag ctcgagactg 181 atatttcata tactggatga tttagggaaa cttgcattct attcatgaac gaatgagtca 241 atacgagaca caaccaagca tgcaaggagc tgtgagttga tgttctatgc tatttaagta 301 tttttcggga gatatatata tcttattgtt ctcctcctcc cgagtcaagt tgttctaaga 361 aagaaggatc tatttcattt tgtggattgt ctagtttcag ggacagacgg ggtttagggg... 5101 tgttgttaac caactctctt tacatattag gaccgtgctt gtcaggccaa tggttttcac 5161 ttcgaaaaat tgcttccgat atcaaactat gtgtacatta ttggtggact gtggacataa 5221 cttaaacgca taattttatt gtgtaccttt aaaataaaca atagattaca catatatata 5281 tggcaaatat ttgaacatta gatgtcaaga gaaaagtaaa acatgtcatg attacaccat 5341 ctttgttatt atttagagtg attctcacta aatcttaggc ggttagcaac cgccatagtt 5401 ttcaaaatct cattctatcg ggattaaatc tgtttttggt gactatatat aaacattggt 5461 cgaattttta ggtaagtaaa atcag//

60pb por linha

Page 16: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Sample GenBank Recordhttp://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

LOCUSThe LOCUS field contains a number of different data elements, including locus name, sequence length, molecule type, GenBank division, and modification date. Each element is described below.

• Locus name• Sequence Length• Molecule type (todas do tipo DNA)• Genbank division• Modification date

LOCUS U00096 4639675 bp DNA circular BCT 28-JUL-2009

Page 17: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Sequence Length (Locus)Média 1.931.100 pb

Mediana 1.498.456 pb

Modo 94.830 pb

Mínimo 1.286 pb

Máximo 13.033.779 pb

Contagem 1.822

Page 18: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Sequence Length (Locus)Histograma

750

69 93 144 136 118 89 84 63 104 83 34 18 37

0200400600800

bloco

Freq

üênc

ia

Freqüência

Page 19: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Molecule typeTodos os arquivos e carregados no banco banco de dados são derivados de seqüências de DNA.

Mas poderiam ser: genomic RNA, precursor RNA, mRNA (cDNA), ribosomal RNA, transfer RNA, small nuclear RNA, and small cytoplasmic RNA.

Page 20: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Tipo de Cromossomo

Tipo chromosome Plasmid Total

Circular 1024 691 1715

Linear 32 75 107

1.822

Page 21: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Mais detalhes...• Genbank division (dos 1822 genomas)• 1.816 – BCT - bacterial sequences • 1 – COM –

• 5 – ENV - environmental sampling sequences

Another division, called CON, was added in release 115.0 (December 1999) but is not listed above because it records

in that division contain no sequence data. Instead, they contain sequence assembly instructions on how to construct

contigs from multiple GenBank records. See the Fall 1999 NCBI News and

section 1.3.3 of GenBank 115.0 release notes for details.

GenBank Releases 176 – 15/02/2010ftp://ftp.ncbi.nih.gov/genbank/release.notes/gb176.release.notes

Page 22: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

DNA

RNA

PROTEÍNA

Replicação

TranscriçãoTranscriçãoReversa

Tradução

Fluxo da Informação Gênica

Page 23: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

FEATURES Location/Qualifiers 5'UTR 1603..1712 /gene="CCT" CDS join(1713..1891,2322..2438,2538..2633, 2801..2843, 2918..3073,3167..3247,3874..3972,4082..4309) /gene="CCT" /EC_number="2.7.7.15" /codon_start=1 /product="CTP:phosphocholine

cytidylyltransferase" /protein_id="AAD45922.1" /db_xref="GI:5640001“ /transl_table=4 /translation="MSNVIGDRTEDGLSTAAAASGSTAV QSSPPTDRPVRVYADGIYDRLENGQDDDTDDQFYEEYFD HDMGSDDDEDEKFYDEEEVKEEETEKTVMTDAKDNK" 3'UTR 4310..4637 /gene="CCT"

Exemplo de Tradução

Page 24: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

The Genetic Codeshttp://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi?mode=c

Last update of the Genetic Codes: April 07, 2008 1. The Standard Code (transl_table=1)By default all transl_table in GenBank flatfiles are equal to id 1, and this is not shown. When transl_table is not equal to id 1, it is shown as a qualifier on the CDS feature.

AAs = FFLLSSSSYY**CC*WLLLLPPPPHHQQRRRRIIIMTTTTNNKKSSRRVVVVAAAADDEEGGGG Starts = ---M---------------M---------------M---------------------------- Base1 = TTTTTTTTTTTTTTTTCCCCCCCCCCCCCCCCAAAAAAAAAAAAAAAAGGGGGGGGGGGGGGGG Base2 = TTTTCCCCAAAAGGGGTTTTCCCCAAAAGGGGTTTTCCCCAAAAGGGGTTTTCCCCAAAAGGGG Base3 = TCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAG

Initiation Codon:AUG

Alternative Initiation CodonsIn rare cases, translation in eukaryotes can be initiated from codons other than AUG. A well documented case (including direct protein sequencing) is the GUG start of a ribosomal P protein of the fungus Candida albicans (Abramczyk et al.) and the GUG initiation in mammalian NAT1 (Takahashi et al. 2005). Other examples can be found in the following references: Peabody 1989; Prats et al. 1989; Hann et al. 1992; Sugihara et al. 1990. The standard code currently allows initiation from UUG and CUG in addition to AUG.

Page 25: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

11. The Bacterial, Archaeal and Plant Plastid Code (transl_table=11)

TTT F Phe TCT S Ser TAT Y Tyr TGT C Cys TTC F Phe TCC S Ser TAC Y Tyr TGC C Cys TTA L Leu TCA S Ser TAA * Ter TGA * Ter TTG L Leu i TCG S Ser TAG * Ter TGG W Trp

CTT L Leu CCT P Pro CAT H His CGT R Arg CTC L Leu CCC P Pro CAC H His CGC R Arg CTA L Leu CCA P Pro CAA Q Gln CGA R Arg CTG L Leu i CCG P Pro CAG Q Gln CGG R Arg

ATT I Ile i ACT T Thr AAT N Asn AGT S Ser ATC I Ile i ACC T Thr AAC N Asn AGC S Ser ATA I Ile i ACA T Thr AAA K Lys AGA R Arg ATG M Met i ACG T Thr AAG K Lys AGG R Arg

GTT V Val GCT A Ala GAT D Asp GGT G Gly GTC V Val GCC A Ala GAC D Asp GGC G Gly GTA V Val GCA A Ala GAA E Glu GGA G Gly GTG V Val i GCG A Ala GAG E Glu GGG G Gly

The Genetic Codeshttp://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi?mode=c

Last update of the Genetic Codes: April 07, 2008

Page 26: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

The Genetic Codeshttp://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi?mode=c

Last update of the Genetic Codes: April 07, 2008

Systematic Range and Comments: Table 11 is used for Bacteria, Archaea, prokaryotic viruses and chloroplast proteins.

As in the standard code, initiation is most efficient at AUG.

In addition, GUG and UUG starts are documented in Archaea and Bacteria

In E. coli, UUG is estimated to serve as initiator for about 3% of the bacterium's proteins.

CUG is known to function as an initiator for one plasmid-encoded protein (RepA) in Escherichia coli.

In addition to the NUG initiations, in rare cases Bacteria can initiate translation from an AUU codon as e.g. in the case of poly(A) polymerase PcnB and the InfC gene that codes for translation initiation factor IF. The internal assignments are the same as in the standard code though UGA codes at low efficiency for Trp in Bacillus subtilis and, presumably, in Escherichia coli.

Page 27: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Um Banco de Dados de Seqüências e Anotações

do GenBank para Mineração de Dados

Biológicos

Detalhes de Implementação

Page 28: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

O Modelo Relacional Proposto

Page 29: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Origem das informações para 1ª Parte

ftp://ftp.ncbi.nih.gov/genbank/genomes/Bacteria/Escherichia_coli_K_12_substr__MG1655/

LOCUS AF165912 5485 bp DNA linear PLN 29-JUL-1999DEFINITION Arabidopsis thaliana CTP:phosphocholine cytidylyltransferase (CCT) gene, complete cds.ACCESSION AF165912VERSION AF165912.1 GI:5640000KEYWORDS .SOURCE Arabidopsis thaliana (thale cress) ORGANISM Arabidopsis thaliana Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; eudicotyledons; core eudicotyledons; rosids; eurosids II; Brassicales; Brassicaceae; Arabidopsis.REFERENCE 1 (bases 1 to 5485) AUTHORS Choi,Y.H., Choi,S.B. and Cho,S.H. TITLE Structure of a CTP:Phosphocholine Cytidylyltransferase Gene from Arabidopsis thaliana JOURNAL UnpublishedFEATURES Location/Qualifiers

Page 30: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Arquivos, Definições, Referências...

Page 31: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Origem das informações para 2ª ParteFEATURES Location/Qualifiers source 1..5485 /organism="Arabidopsis thaliana" /mol_type="genomic DNA" /db_xref="taxon:3702" /ecotype="Col-0" gene 1..4637 /gene="CCT" promoter 1..1602 /gene="CCT" TATA_signal 1554..1560 /gene="CCT" mRNA join(1603..1891,2322..2438,2538..2633,2801..2843, 2918..3073,3167..3247,3874..3972,4082..4637) /gene="CCT" /product="CTP:phosphocholine cytidylyltransferase" 5'UTR 1603..1712 /gene="CCT" CDS join(1713..1891,2322..2438,2538..2633,2801..2843, 2918..3073,3167..3247,3874..3972,4082..4309) /gene="CCT" /EC_number="2.7.7.15" /codon_start=1 /product="CTP:phosphocholine cytidylyltransferase" /protein_id="AAD45922.1" /db_xref="GI:5640001" /translation="MSNVIGDRTEDGLSTAAAASGSTAVQSSPPTDRPVRVYADGIYD RLENGQDDDTDDQFYEEYFDHDMGSDDDEDEKFYDEEEVKEEETEKTVMTDAKDNK" 3'UTR 4310..4637 /gene="CCT"

ORIGIN 1 ccagaatggt tactatggac atccgccaac catacaagct atggtgaaat gctttatcta 61 tctcattttt agtttcaaag cttttgttat aacacatgca aatccatatc cgtaaccaat 121 atccaatcgc ttgacatagt ctgatgaagt ttttggtagt taagataaag ctcgagactg 181 atatttcata tactggatga tttagggaaa cttgcattct attcatgaac gaatgagtca 241 atacgagaca caaccaagca tgcaaggagc tgtgagttga tgttctatgc tatttaagta 301 tttttcggga gatatatata tcttattgtt ctcctcctcc cgagtcaagt tgttctaaga 361 aagaaggatc tatttcattt tgtggattgt ctagtttcag ggacagacgg ggtttagggg... 5101 tgttgttaac caactctctt tacatattag gaccgtgctt gtcaggccaa tggttttcac 5161 ttcgaaaaat tgcttccgat atcaaactat gtgtacatta ttggtggact gtggacataa 5221 cttaaacgca taattttatt gtgtaccttt aaaataaaca atagattaca catatatata 5281 tggcaaatat ttgaacatta gatgtcaaga gaaaagtaaa acatgtcatg attacaccat 5341 ctttgttatt atttagagtg attctcacta aatcttaggc ggttagcaac cgccatagtt 5401 ttcaaaatct cattctatcg ggattaaatc tgtttttggt gactatatat aaacattggt 5461 cgaattttta ggtaagtaaa atcag//

Page 32: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Origem das informações para 2ª ParteFEATURES Location/Qualifiers source 1..5485 /organism="Arabidopsis thaliana" /mol_type="genomic DNA" /db_xref="taxon:3702" /ecotype="Col-0" gene 1..4637 /gene="CCT" promoter 1..1602 /gene="CCT" TATA_signal 1554..1560 /gene="CCT" mRNA join(1603..1891,2322..2438,2538..2633,2801..2843, 2918..3073,3167..3247,3874..3972,4082..4637) /gene="CCT" /product="CTP:phosphocholine cytidylyltransferase" 5'UTR 1603..1712 /gene="CCT" CDS join(1713..1891,2322..2438,2538..2633,2801..2843, 2918..3073,3167..3247,3874..3972,4082..4309) /gene="CCT" /EC_number="2.7.7.15" /codon_start=1 /product="CTP:phosphocholine cytidylyltransferase" /protein_id="AAD45922.1" /db_xref="GI:5640001" /translation="MSNVIGDRTEDGLSTAAAASGSTAVQSSPPTDRPVRVYADGIYD RLENGQDDDTDDQFYEEYFDHDMGSDDDEDEKFYDEEEVKEEETEKTVMTDAKDNK" 3'UTR 4310..4637 /gene="CCT"

ORIGIN 1 ccagaatggt tactatggac atccgccaac catacaagct atggtgaaat gctttatcta 61 tctcattttt agtttcaaag cttttgttat aacacatgca aatccatatc cgtaaccaat 121 atccaatcgc ttgacatagt ctgatgaagt ttttggtagt taagataaag ctcgagactg 181 atatttcata tactggatga tttagggaaa cttgcattct attcatgaac gaatgagtca 241 atacgagaca caaccaagca tgcaaggagc tgtgagttga tgttctatgc tatttaagta 301 tttttcggga gatatatata tcttattgtt ctcctcctcc cgagtcaagt tgttctaaga 361 aagaaggatc tatttcattt tgtggattgt ctagtttcag ggacagacgg ggtttagggg... 5101 tgttgttaac caactctctt tacatattag gaccgtgctt gtcaggccaa tggttttcac 5161 ttcgaaaaat tgcttccgat atcaaactat gtgtacatta ttggtggact gtggacataa 5221 cttaaacgca taattttatt gtgtaccttt aaaataaaca atagattaca catatatata 5281 tggcaaatat ttgaacatta gatgtcaaga gaaaagtaaa acatgtcatg attacaccat 5341 ctttgttatt atttagagtg attctcacta aatcttaggc ggttagcaac cgccatagtt 5401 ttcaaaatct cattctatcg ggattaaatc tgtttttggt gactatatat aaacattggt 5461 cgaattttta ggtaagtaaa atcag//

The DDBJ/EMBL/GenBank Feature Table:

Definition

Version 8.1 Apr 2009 http://www.ncbi.nlm.nih.gov/collab/FT/index.html

http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

Page 33: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Seqüências e Anotações

Page 34: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

A aplicação de carga/atualização

Page 35: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Detalhes da Aplicação• Desenvolvida em Java• Camada de persistência manual (JDBC)• Aplicação dos designer patterns: Factory,

Factory Method e DAO (desenvolvidos para ANSI Sql, MySQL, PostgreSQL e Oracle).

• Carga de arquivos locais e remotos (http e ftp client)

• Desenvolvimento segundo padrão i18n

Page 36: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Algumas Dificuldades Encontradas ao longo do

trabalho• Formato do GenBank e as variações

encontradas...• Desempenho... (hardware e software)

– A primeira versão do programa levou 26 minutos para carregar o genoma da Escherichia Coli.

– A primeira versão, executamos durante 3 semanas... e apenas 226 arquivos dos 1822 arquivos foram carregados.

– Inconsistência nas tags utilizadas.– Tempo de carga dos bancos de dados

Page 37: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Alguns Resultados

Page 38: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Alguns estudos e resultados...

• Atualmente, para a Coli o programa leva 1 minuto e 36 segundos.

• Extração de seqüencias para treinamento de rede para classificação de ORFs (acerto estimado 86%)

• Levantamento dos organismos que possuem o gene nifH

• Extração de seqüencias que produzem os RNA curtos

Tempo médio 330kb/s, tempo para todo banco: com muita sorte 7 dias

Page 39: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Levantamento dos possíveis organismos fixadores de Nitrogênio• Pesquisa da Michelly, parâmetros informados:

Organismos que possuem os genes nifH, nifD e nifK

• Bom exemplo do problema da precisão das anotações:

Where X=nifH X=nifD X=nifK

valor like ‘%X%’

312 137 127

Upper(valor) like ‘%X%’

1.864 3.376 4.326

Page 40: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Queryselect s.id s_id, s.source, ra.id nifh_id, ra.ini_min nifh_min, ra.fim_max nifh_max, ra.genomas nifh_genoma, rb.id nifd_id, rb.ini_min nifd_min, rb.fim_max nifd_max, rb.genomas nifd_genoma, rc.id nifk_id, rc.ini_min nifk_min, rb.fim_max nifk_max, rb.genomas nifk_genoma

from mi_anotacao a, mi_anotacao b, mi_anotacao c, genbankseg s, regiao ra, regiao rb, regiao rc

Where s.id = ra.genbankseg and s.id = rb.genbankseg and s.id = rc.genbankseg and ra.id = a.regiao and rb.id = b.regiao and rc.id = c.regiao and upper(a.valor) like '%NIFH%' and upper(b.valor) like '%NIFD%' and upper(c.valor) like '%NIFK%'

Levantamento dos possíveis organismos fixadores de Nitrogênio

Page 41: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

table type key rows Extra

a ALL NULL 906 Using where

b ALL NULL 906 Using where; Using join buffer

c ALL NULL 906 Using where; Using join buffer

ra eq_ref PRIMARY 1  

s eq_ref PRIMARY 1  

rb eq_ref PRIMARY 1 Using where

rc eq_ref PRIMARY 1 Using where

Em resumo: Query OK, 12798 rows affected (4 min 8.71 sec)Records: 12798 Duplicates: 0 Warnings: 0

Somados coms os 2min21.34s (da tabela mi_anotacao), temos: 6 min 30,05 sec

Levantamento dos possíveis organismos fixadores de Nitrogênio

Page 42: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

E finalmente, os possíveis organismos são:

• Acidithiobacillus ferrooxidans ATCC 23270 • Alkaliphilus metalliredigens QYMF • Azoarcus sp. BH72 • Azorhizobium caulinodans ORS 571 • Azotobacter vinelandii DJ • Bradyrhizobium sp. BTAi1 • Bradyrhizobium japonicum USDA 110 • Bradyrhizobium sp. ORS278 • Burkholderia xenovorans LB400 • Candidatus Methanoregula boonei 6A8 • Chlorobium tepidum TLS • Clostridium acetobutylicum ATCC 824 • Clostridium beijerinckii NCIMB 8052 • Clostridium kluyveri DSM 555 • Cupriavidus taiwanensis • Synechococcus sp. JA-3-3Ab • Synechococcus sp. JA-2-3B'a(2-13) • Cyanothece sp. ATCC 51142 • Dehalococcoides ethenogenes 195 • Desulfitobacterium hafniense DCB-2

• Desulfobacterium autotrophicum HRM2 • Desulfotomaculum reducens MI-1 • Desulfovibrio magneticus RS-1 • Desulfovibrio vulgaris str. Hildenborough • Pectobacterium atrosepticum SCRI1043 • Frankia alni ACN14a • Geobacter sulfurreducens PCA • Gluconacetobacter diazotrophicus PAl 5 • Heliobacterium modesticaldum Ice1 • Klebsiella pneumoniae 342 • Mesorhizobium loti MAFF303099 • Methanothermobacter thermautotrophicus

str. Delta ... • Methanococcus maripaludis S2 • Methanosarcina acetivorans C2A • Methylobacterium sp. 4-46 • Methylococcus capsulatus str. Bath • Nostoc punctiforme PCC 73102 (Nostoc

punctiforme A... • Nostoc sp. PCC 7120 • Pelobacter carbinolicus DSM 2380 • Polaromonas naphthalenivorans CJ2

Page 43: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

E finalmente, os possíveis organismos são (continuação):

• Pseudomonas stutzeri A1501 • Rhizobium etli CFN 42 • Rhizobium etli CIAT 652 • Rhizobium leguminosarum bv. viciae 3841 • Rhizobium sp. NGR234 • Rhodobacter sphaeroides 2.4.1 • Rhodopseudomonas palustris CGA009 • Rhodospirillum centenum SW (Rhodocista centenaria ... • Teredinibacter turnerae T7901 • Thermodesulfovibrio yellowstonii DSM 11347 • uncultured methanogenic archaeon RC-I • Wolinella succinogenes DSM 1740 • Xanthobacter autotrophicus Py2 • Sinorhizobium medicae WSM419 • Sinorhizobium meliloti 1021 • Zymomonas mobilis subsp. mobilis ZM4

56 organismos

Page 44: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Próximos passos...• Criar uma interface amigável para

extração de dados

• Iniciar a 2ª etapa da mineração de dados

Page 45: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Dúvidas

Acesso ao banco em www.bioinfo.ufpr.br

Page 46: Um Banco de Dados de Seqüências e Anotações do GenBank para Mineração de Dados Biológicos Dieval Guizelini Orientadores: Roberto Tadeu Raittz Fábio de

Muito Obrigado