rdmesquita@iq.ufrj.br Laboratório de Bioinformática§ão.pdf · Apresentação de ferramentas e...

Preview:

Citation preview

Bioinformática Básica

Rafael Dias Mesquita rdmesquita@iq.ufrj.br

Laboratório de Bioinformática

Departamento de Bioquímica Instituto de Química - UFRJ

Apresentação de ferramentas e informações básicas em bioinformática, incluindo: v  Softwares Básicos

•  Firefox e o complemento biobar. •  Bloco de notas, textpad. (NUNCA o word!!!!!) •  Editores de sequências (bioedit).

v  Formato de sequências •  Problema do fim de linha •  Fasta, genbank...

v  Edição de sequencias

Objetivo

A bioinformática é uma ferramenta que nos possibilita extrair sentido do mar de dados biológicos que tornam-se

disponíveis diariamente.

O Que é Bioinformática ?

Informação = dado interpretado.

O Que é Bioinformática ?

BIO

Hardware x Software

Bioquímica Básica

Tópicos básicos que vocês devem dominar: •  Estrutura do DNA. •  Pareamento A-T e C-G. •  Para bioinformática quase sempre U e T são representados como T. •  Número de pontes de hidrogênio entre os nucleotídeos. •  Código genético degenerado e tradução. •  Frames de leitura •  Característica química dos Aas. •  Estrutura de proteínas •  Domínios conservados

Degeneração do código genético

Frames de Leitura

Frame +1

Frame +2

Frame +3

Estrutura de proteínas

Domínios conservados

calmodulina subunidade β da proteína G

proteína Src proteína Sem5 PLC-δ

FIREFOX

Download do firefox https://www.mozilla.org/pt-BR/firefox/new/ Instalação do complemento BIOBAR Clicar em: Ferramentas -> complementos Buscar o termo “biobar” e clicar no botão instalar correspondente Reiniciar o firefox

FIREFOX - Biobar

FIREFOX - Biobar

FIREFOX - Biobar

FIREFOX - Biobar

Editor de texto x Word

Você acha que Word é bom para a bioinformática?

Editor de texto x Word

Você acha que Word é bom para a bioinformática?

Editor de texto x Word

Você acha que Word é bom para a bioinformática? Usar bloco de notas ou TEXTPAD ou equivalente !!!!

TextPad

TextPad

Para marcar colunas mantenha a tecla “Alt” pressionada no teclado e marque com o mouse

Editor de sequências

Bioedit para windows: http://www.mbio.ncsu.edu/bioedit/bioedit.html

BIOEDIT

O problema do final de linha:

Formato de Sequências

Imagine o fim de uma conversa: Avô usa “Adeus”, pai usa “Tchau” o adolescente usa “Valeu”. Eles se entendem? Windows x Mac x linux O final de linha sempre é sinalizado por um caractere especial (invisível) Win: CR+LF (carriage return + line feed) Mac(OS X) e linux: LF (line feed)

O problema do final de linha:

Formato de Sequências

Alguns programas conseguem VER a diferença. MUITOS programas de bioinformática não rodam devido a isso. Demonstração de Correção: TextPad, ou (em ÚLTIMO CASO) word (para arquivos pequenos). Programas específicos.

Para transformar um Arquivo com fim de linha windows (PC) para unix ou vice versa: Escolha Salvar como e especifique o formato e codificação. Windows: PC e ANSI Unix: Unix e UTF-8

Fasta

Formato de Sequências

>SEQUENCE_1 MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL

MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL >SEQUENCE_2

SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH >MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA DIDGDGQVNYEEFVQMMTAK*

>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY

>gi_5524211_gb_AAD44166_1__cytochrome_b__Elephas_maximus_maximus_

Fasta

Formato de Sequências

>gi|603218|gb|U18238.1|MSU18238 Medicago sativa glucose-6-phosphate dehyd CCACCAGATATAATTAAGTAGATCAGAGTAGAAGAAGATGGGAACAAATGAATGGCATGTAGAAAGAAGA

GATAGCATAGGTACTGAATCTCCTGTAGCAAGAGAGGTACTTGAAACTGGCACACTCTCTATTGTTGTGC

TTGGTGCTTCTGGTGATCTTGCCAAGAAGAAGACTTTTCCTGCACTTTTTCACTTATATAAACAGGAATT

GTTGCCACCTGATGAAGTTCACATTTTTGGCTATGCAAGGTCAAAGATCTCCGATGATGAATTGAGAAAC

AAATTGCGTAGCTATCTTGTTCCAGAGAAAGGTGCTTCTCCTAAACAGTTAGATGATGTATCAAAGTTTT

TACAATTGGTTAAATATGTAAGTGGCCCTTATGATTCTGAAGATGGATTTCGCTTGTTGGATAAAGAGAT

TTCAGAGCATGAATATTTGAAAAATAGTAAAGAGGGTTCATCTCGGAGGCTTTTCTATCTTGCACTTCCT

CCTTCAGTGTATCCATCCGTTTGCAAGATGATCAAAACTTGTTGCATGAATAAATCTGATCTTGGTGGAT

GGACACGCGTTGTTGTTGAGAAACCCTTTGGTAGGGATCTAGAATCTGCAGAAGAACTCAGTACTCAGAT

TGGAGAGTTATTTGAAGAACCACAGATTTATCGTATTGATCACTATTTAGGAAAGGAACTAGTGCAAAAC

ATGTTAGTACTTCGTTTTGCAAATCGGTTCTTCTTGCCTCTGTGGAACCACAACCACATTGACAATGTGC

AGATAGTATTTAGAGAGGATTTTGGAACTGATGGTCGTGGTGGATATTTTGACCAATATGGAATTATCCG

FASTA Definition Line >gi|603218|gb|U18238.1|MSU18238

gi number

Database Identifiers gb GenBank emb EMBL dbj DDBJ sp SWISS-PROT pdb Protein Databank pir PIR prf PRF ref RefSeq

Accession number

Locus Name

@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC

+SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36

IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC

Fastq Qualidade:

, onde p é a probabilidade de uma base estar errada (linha vermelha)

Formato de Sequências

Probabilidade de 5% = Q13 Quality Probability of error Base call accuracy 10 1 in 10 90% 20 1 in 100 99% 30 1 in 1000 99.9% 40 1 in 10000 99.99% 50 1 in 100000 99.999%

Genbank

Formato de Sequências

Genbank

Formato de Sequências