50
Bioinformática Felipe G. Torres

Bioinformática Felipe G. Torres. DICA

Embed Size (px)

Citation preview

Page 1: Bioinformática Felipe G. Torres. DICA

Bioinformática

Felipe G. Torres

Page 2: Bioinformática Felipe G. Torres. DICA

DICA

http://www.cellbiol.com/

Page 3: Bioinformática Felipe G. Torres. DICA
Page 4: Bioinformática Felipe G. Torres. DICA

TERMOS IMPORTANTES

• READS: Trechos sequenciados de DNA.

• CONTIG: Macro trechos formato pela junção de reads.

• LOW QUALITY: Regiões com baixa região, seja por falha de artefato ou metodológica.

• QUALIDADE: Certeza de identificação do nucleotídeo em um determinado sítio.

Page 5: Bioinformática Felipe G. Torres. DICA

MONTAGEM DE GENOMAS

• É um subprocesso do workflow de obtenção da sequencia de DNA.

• Consiste em pegar os reads gerados no processo de sequenciamento e montar um ou vários contigs.

• Afim de unificar os reads em uma sequência consensus que é a sequência do DNA.

Page 6: Bioinformática Felipe G. Torres. DICA

WORKFLOW - MONTAGEM

SEQUENCIAMENTO

ANÁLISE DE QUALIDADE

MONTAGEM DOS CONTIGS

Page 7: Bioinformática Felipe G. Torres. DICA

SEQUENCIAMENTO

• O sequenciamento do DNA é uma série de processos bioquímicos tem por finalidade determinar a ordem dos nucleotídeos.

• Método Sanger• Pirosequenciamento• Nova Geração

Page 8: Bioinformática Felipe G. Torres. DICA

SEQUENCIAMENTO

COMO É ARMAZENADO OS DADOS DO SEQUENCIAMENTO EM UM

ARQUIVO ?

Page 9: Bioinformática Felipe G. Torres. DICA

SEQUENCIAMENTO

• O arquivo usado para armazenar esse tipo de dado é o .FASTQ

• Este arquivo não é lido de uma forma agradável pois muitas vezes possui o seu conteúdo binário.

• Para lidar com ele normalmente é feita a conversão para o modelo FASTA.

Page 10: Bioinformática Felipe G. Torres. DICA

ANÁLISE

• Essa conversão não é tão simples pois envolve uma análise de qualidade.

• Existem regiões que possuem ruídos que necessitam ser avaliados.

• Essa avaliação pode ser feita por diversos softwares. Ex:. PHRED & PHRAP

Page 11: Bioinformática Felipe G. Torres. DICA

ANÁLISE

http://asparagin.cenargen.embrapa.br/phph/

Page 12: Bioinformática Felipe G. Torres. DICA

MÃOS NA MASSA

1- Pegue o arquivo seq2.zip

2- Analise a qualidade do sequenciamento e gere os arquivos FASTA.

Page 13: Bioinformática Felipe G. Torres. DICA

APENAS SEQUENCIAR O DNA DE UM ORGANISMO RESPONDE TODAS AS

PERGUNTAS ?

Page 14: Bioinformática Felipe G. Torres. DICA

ANOTAÇÃO GENÔMICA

• Ter a sequência do genoma de um organismo não responde todas as perguntas... Mas ABRE PORTAS

• É necessário entender, mapear e identificar todas as estruturas gênicas presentes nesse genoma.

• Esse processo de explorar e entender melhor a estrutura de um genoma é conhecido por anotação.

Page 15: Bioinformática Felipe G. Torres. DICA

ANOTAÇÃO GENÔMICA

• Este processo tem ganhado muita força recentemente devido:

• Ganho de tempo

• Redução de erros de artefatos

• Entendimento melhor dos organismos

• Redução de custos

Page 16: Bioinformática Felipe G. Torres. DICA

ANOTAÇÃO GENÔMICA

ANOTAÇÃOGENÔMICA

ESTRUTURAL

FUNCIONAL

PRO

CES

SO D

E A

NO

TAÇ

ÃO

Page 17: Bioinformática Felipe G. Torres. DICA

ANOTAÇÃO ESTRUTURAL

• A anotação estrutural consiste na identificação e mapeamento de estruturas genômicas:

• GENES

• RNAnc

• REGIÕES PROMOTORAS

Page 18: Bioinformática Felipe G. Torres. DICA

ANOTAÇÃO ESTRUTURAL

• Essa identificação é feita utilizando técnicas de predição gênica.

• Os preditores são especializados para seres eucariotos e procariotos.

• Essa especificação deve-se a diferença da complexidade das estruturas do genoma.

Page 19: Bioinformática Felipe G. Torres. DICA

ANOTAÇÃO ESTRUTURAL

• Alguns preditores conhecidos são: GLIMMER, GENSCAN e GENMARK.

Eucarioto ProcariotoGENSCAN GLIMMERGENMARK

Page 20: Bioinformática Felipe G. Torres. DICA

DICA

http://www.bioplanet.com/

Page 21: Bioinformática Felipe G. Torres. DICA

GLIMMER

• É um sistema de identificação de genes em DNA de procariotos, especialmente bacteria e archaea.

• GLIMMER (Gene Locator and Interpolated Markov ModelIER).

• Ele utiliza a interpolação de Markov para definir a probabilidade de uma região ser codificante.

Page 22: Bioinformática Felipe G. Torres. DICA

GLIMMER

Page 23: Bioinformática Felipe G. Torres. DICA

GLIMMER

http://www.ncbi.nlm.nih.gov/genomes/MICROBES/glimmer_3.cgi

Page 24: Bioinformática Felipe G. Torres. DICA

GLIMMER - RESULTADO

ID: São números identificadores de possíveis genes.Frame: É o frame de leitura da ORF. Positivo indica a fita foward e Negativo indica a reverse.

Page 25: Bioinformática Felipe G. Torres. DICA

GLIMMER - RESULTADO

Start: Sítio de início do gene ou da ORF.Stop: Sítio de início do gene ou da ORF.

Page 26: Bioinformática Felipe G. Torres. DICA

GLIMMER - RESULTADO

Length: Tamanho do ORF e do Gene.

Page 27: Bioinformática Felipe G. Torres. DICA

MÃOS NA MASSA

1- Procure no NCBI uma sequência da Leishmania braziliensis.

2- Utilizando o GLIMMER, analise a sequência em busca de genes.

Page 28: Bioinformática Felipe G. Torres. DICA

GENSCAN

• É um sistema de identificação de genes em DNA de eucariotos.

• O GENSCAN pode ser usado para localização de exon-intron em sequências.

• Desenvolvido pelo MIT, este software pode ser executado utilizando a web.

• Ele utiliza cadeias de Markov do estado oculto para predizer as estruturas.

Page 29: Bioinformática Felipe G. Torres. DICA

GENSCAN

Page 30: Bioinformática Felipe G. Torres. DICA

GENSCANhttp://genes.mit.edu/GENSCAN.html

Page 31: Bioinformática Felipe G. Torres. DICA

GENSCAN - RESULTADO

Gn.Ex : Número de identificação da estrutura.

Type : Init = Initial exon (ATG to 5' splice site) Intr = Internal exon (3' splice site to 5' splice site) Term = Terminal exon (3' splice site to stop codon) Sngl = Single-exon gene (ATG to stop) Prom = Promoter (TATA box / initation site) PlyA = poly-A signal (consensus: AATAAA)

Page 32: Bioinformática Felipe G. Torres. DICA

GENSCAN - RESULTADO

S : DNA strand (+ = input strand; - = opposite strand) Begin : beginning of exon or signal (numbered on input strand) End : end point of exon or signal (numbered on input strand) Len : length of exon or signal (bp)

Page 33: Bioinformática Felipe G. Torres. DICA

GENSCAN - RESULTADO

CodRg : coding region score (tenth bit units) P : probability of exon (sum over all parses containing exon) Tscr : exon score (depends on length, I/Ac, Do/T and CodRg scores)

Page 34: Bioinformática Felipe G. Torres. DICA

DICA

http://www.softberry.com/

Page 35: Bioinformática Felipe G. Torres. DICA

SOFTBERRY

• O softberry é uma plataforma de bioinformática que permite a execução de softwares sem instalar.

• Você pode executar softwares como:• BLAST• FGNESH

Page 36: Bioinformática Felipe G. Torres. DICA

ANOTAÇÃO FUNCIONAL

• A anotação funcional consiste na identificação das funções executadas pelas estruturas identificadas.

• Normalmente para este tipo de anotação utiliza-se algoritmos de similaridade entre bases de dados anotadas.

• A comparação é feita entre o desconhecido e o conhecido e anotado.

Page 37: Bioinformática Felipe G. Torres. DICA

ANOTAÇÃO FUNCIONAL

Comparação

Proteínas anotadas

Proteinas preditas

Proteinas preditas

similares a existentes

BLASTBLAT

BOWTIE

Page 38: Bioinformática Felipe G. Torres. DICA

ANOTAÇÃO FUNCIONAL

• Esta metodologia tem algumas limitações que por muitas vezes resultam diretamente no resultado do projeto.

• Por exemplo, a base de dados conhecida precisa ter uma variedade alta de sequências.

• Você pode está procurando similaridade entre coisas impossíveis.

Page 39: Bioinformática Felipe G. Torres. DICA

ANOTAÇÃO FUNCIONAL

• Existem algumas bases conhecidas e consolidadas:

• SWISS-PROT: Base de dados de proteínas curadas manualmente e mantida pela UNIPROT.

• NRDR: Base de dados de RNA não codificante.

Page 40: Bioinformática Felipe G. Torres. DICA

ANOTAÇÃO FUNCIONAL

• Existem algumas bases conhecidas e consolidadas:

• EGGNOG: Base de dados de proteínas e grupos de Orthologia.

Page 41: Bioinformática Felipe G. Torres. DICA

ANOTAÇÃO FUNCIONAL

• Esse processo é lento devido a grande quantidade de comparações.

• A escolha do algoritmo de comparação deve ser feita analisando o tipo de dado que será comparado.

• Nesse processo a escolha e formatação dos dados está diretamente ligado ao sucesso da técnica.

Page 42: Bioinformática Felipe G. Torres. DICA

MÃOS NA MASSA

1- Pegue as proteinas 2,3,4,5 e descubra:

Qual o organismo ?Qual é a proteína ?Qual a função da proteína ?

Page 43: Bioinformática Felipe G. Torres. DICA

TERMOS GO

• Mas como descobrir a função de uma proteína ?

• Será que terei que difere o processo para organismos diferentes ?

Page 44: Bioinformática Felipe G. Torres. DICA

TERMOS GO

• O Gene Onthology é a maior iniciativa da área de bioinformática para unificar os produtos gênicos atribuídos a todas as espécies.

• O GO é na verdade uma metodologia de classificar proteínas por:• Componente Celular• Processo Biológico• Função Molecular

Page 45: Bioinformática Felipe G. Torres. DICA

TERMOS GO

• Existem três tipos de termos GO:

• Componente celular: É um componente celular ou no desenvolvimento extracelular.

• Processo biológico: São produtos gênicos envolvidos processos vitais para a célula.

Page 46: Bioinformática Felipe G. Torres. DICA

TERMOS GO

• Existem três tipos de termos GO:

•Função molecular: São produtos gênicos envolvidos em alguma função intracelular.

Page 47: Bioinformática Felipe G. Torres. DICA

GO

http://geneontology.org/

Page 48: Bioinformática Felipe G. Torres. DICA

AMIGO

http://amigo.geneontology.org/amigo

Page 49: Bioinformática Felipe G. Torres. DICA

MÃOS NA MASSA

1- Pegue as proteinas 4 e descubra:

Qual a função da proteína ?

Page 50: Bioinformática Felipe G. Torres. DICA

Bioinformática

Felipe G. Torres