107
Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo Instituto Nacional de Ciência e Tecnologia em Células-Tronco e Terapia Celular Introdução à Bioinformática Daniel Guariz Pinheiro, PhD.

Introdução à Bioinformática

  • Upload
    nike

  • View
    31

  • Download
    2

Embed Size (px)

DESCRIPTION

Introdução à Bioinformática. Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo Instituto Nacional de Ciência e Tecnologia em Células-Tronco e Terapia Celular. - PowerPoint PPT Presentation

Citation preview

Page 1: Introdução à Bioinformática

Laboratório de Genética Molecular e Bioinformática

Departamento de GenéticaFaculdade de Medicina de Ribeirão PretoUniversidade de São Paulo

Instituto Nacional de Ciência e Tecnologia em Células-Tronco e Terapia Celular

Introdução à Bioinformática

Daniel Guariz Pinheiro, PhD.

Page 2: Introdução à Bioinformática

Sumário• Introdução

– Revisão Histórica– Sequenciamento– Projetos– Definição de Bioinformática

• Áreas de Aplicação – Estudos “-omas”– Problemas clássicos em Bioinformática

• Desenvolvimento de Sofwares – Principais programas– Análises comuns

• Bancos de Dados Biológicos– Principais repositórios– Extração de Conhecimento de Bases de Dados

• Centros de Pesquisa– Nacionais e Internacionais / Públicos e Privados

• Formação na Área– Cursos (Graduação / Pós-Graduação)– Eventos (Congressos, Simpósios, Cursos de Verão, ...)

• Perspectivas profissionais• Referências

Page 3: Introdução à Bioinformática

INTRODUÇÃO

Page 4: Introdução à Bioinformática

Revisão Histórica

The Origin of Species

Experiments in Plant Hybridization

Molecular Structure of Nucleic Acids

1859

1866

1953

1946

ENIAC,o 1° computador eletrônico

1944

Caráter Hereditário(DNA)

Oswald Avery

Leis da hereditariedade1900Gene

Page 5: Introdução à Bioinformática

Revisão Histórica

1977

1986

Gilbert & Sanger

- Métodos para o sequenciamento de DNA

- Sequenciadorsemi-automático

Leroy Hood

1986

- Sequenciador automáticocomercial

Applied Biosystems A C G T

Page 6: Introdução à Bioinformática

Revisão Histórica

Iniciativa pública Projeto Genoma Humano

Publicação do rascunhodo Genoma Humano

1990 2001

2000

GenomabactériaXylella fastidiosa

1997

Organization for Nucleotide Sequencing and Analysis

19991996

Cancer GenomeAnatomy Project

1988

National Center forBiotechnology Information

1995

SAGE microarray

2005, 2006, 2007

...

Next-Generation Sequencing

2003

Conclusão do Projeto Genoma Humano

2008

1000 GenomesProject

Page 7: Introdução à Bioinformática

Projeto Genoma Humano

• The International Human Genome Sequencing Consortium • 13 anos (1990-2003)• U$3.000.000.000,00 (3 BILHÕES de DÓLARES!!!)• Avanços imediatos proporcionados

• Identificação de ~25.000 genes (~20% material genético total);• Possibilitou a descoberta de ~1.800 genes relacionados a doenças,

facilitando a identificação de outros genes;• Permitiu o desenvolvimento de mais de 1.000 testes genéticos;• Ao menos 350 produtos biotecnológicos resultantes deste

conhecimento já estão em testes clínicos;• Desenvolvimentos de ferramentas para análise genômica, inclusive

de outras espécies de interesse biomédico e econômico;• Promoveu discussões éticas, legais e implicações sociais em torno

do assunto;• Base de conhecimento;

Page 8: Introdução à Bioinformática

International Nucleotide Sequence Database Colaboration

200898.868.465 seqüências99.116.431.942 bases

1982606 seqüências2.427 bases

Page 9: Introdução à Bioinformática

Nova Geração de Sequenciadores de DNA

Roche/454 FLX Illumina/Solexa GA ABI SOLiDABI 3730xl

ABI 3730xl Roche/454 FLX Illumina/Solexa GA ABI SOLiD

Método Sanger Pirosequenciamento Sequenciamento por Síntese

Sequenciamento por Ligação

• Aumento na quantidade de Dados (até ~1/2 Tb por corrida);• Redução no tempo relativo para obtenção dos dados ( genoma 3Gb (8x) em

questão de poucas semanas);• Aumento gradual do tamanho das sequências (curtas ~36pb – 400pb);• Redução do custo por base sequenciada;

Page 10: Introdução à Bioinformática

Sequence Read Archive

“(…) In mid-September 2010,

the SRA contained >500 billion reads consisting of 60 trillion base pairs available for download (…) Almost 80% of the sequencing data are derived from the Illumina GA platform. The SOLiD™ and Roche/454 platforms account for 15% and 5% of submitted base pairs, respectively.(…)”

[Leinonen R et. al., 2011]

“We’re growing by about 1 Tb/month.”NCBI’s staff scientist Martin Shumway

InternationalNucleotideSequenceDatabaseCollaboration

• SRA (NCBI Sequence Read Archive): http://www.ncbi.nlm.nih.gov/sra• ENA (EBI European Nucleotide Archive): http://www.ebi.ac.uk/ena/• DRA (DDBJ Sequence Read Archive): http://trace.ddbj.nig.ac.jp/dra/index_e.shtml

Page 11: Introdução à Bioinformática

Novas promessas

• HeliScope– Helicos BioSciences

• ION Torrent– Applied Biosystems

• PacBio RS– Pacific Biosciences

2008

2010

2010

Page 12: Introdução à Bioinformática

$100 genome• Seqüenciamento genoma

completo – 2010 (~U$50.000,00)– 2011 (~U$10.000,00)

• Testes genéticos (marcadores)– deCODEme (~U$2.000,00 ~50

doenças/traços)• http://www.decodeme.com/

– 23andme (~U$500,00 ~174 relatórios saúde)• http://www.23andme.com

Page 13: Introdução à Bioinformática

1000 Genomes• Catálogo completo e

detalhado de Variantes Genômicas Humanas

• 2.000 genomas, 4x cobertura– 1.270 genomas seqüenciados– Mais de 6 trilhões de bases

• Suporte financeiro– Wellcome Trust Sanger

Institute (Inglaterra);– Beijing Genomics Institute

(China);– National Human Genome

Research Institute (EUA);

Craig Venter

Page 14: Introdução à Bioinformática

Início dos anos 90...Início do Projeto Genoma Humano

Page 15: Introdução à Bioinformática

Por onde começar?

Page 16: Introdução à Bioinformática

Bancos de Dados

Propriedades:

- Representar um aspecto do mundo real;- Conter dados coerentes e com um significado inerente;- Deve ter um propósito;

A database is a repository for a collection of computerized data files. (C.J.Date)

A database is a collection of related data. By data, we mean known facts that can be recorded and that have implicit meaning. (R. Elmasri and S. B. Navathe)

Page 17: Introdução à Bioinformática

Abordagem utilizando Sistema de Arquivos

• Cada usuário define e implementa os arquivos necessários para uma aplicação específica.– Gera redundância na definição e no

armazenamento dos dados;– Possui estrutura específica e dependente de

determinada aplicação;– Não permite compartilhamento e acesso

concorrente;– …

Page 18: Introdução à Bioinformática

Abordagem utilizando Sistema de Banco de Dados

• Utiliza um sistema de gerenciamento de bancos de dados para manter um único repositório de dados;– Evita redundância;– Contém em si a definição de sua estrutura (metadados);– Possui restrições implementadas que evitam inconsistências nos

dados;– Solução genérica para qualquer aplicação;– Permite o acesso concorrente de múltiplos usuários;– Permite diferentes visões dos dados;– Independência da aplicação;– Permite representar relacionamentos complexos entre os dados;– ...

Page 19: Introdução à Bioinformática

Em que situações a abordagem com arquivos é indicada?

• O banco de dados e as aplicações são simples e bem definidas e não espera-se alterações;

• Há o requisito de tempo-real para alguns programas, não encontrado com o uso de SGBDs dada sua sobrecarga;

• Não há necessidade de múltiplos acessos.

Page 20: Introdução à Bioinformática

Elmasri, R. A. and Navathe

Ambiente Simplificado de um Sistema de Banco de Dados

Page 21: Introdução à Bioinformática

Banco de Dados Flat file

• Abordagem utilizando arquivos– Arquivos que contêm registros de dados que não

estão estruturalmente relacionados.• Exemplo: Banco de Dados flat file de seqüências

de nucleotídeos (nt)• Possui um padrão específico de formatação

– GenBank, Fasta, ASN.1 ...• É necessário um programa chamado de parser,

que reconhece esses formatos específicos e conseguem extrair informação de forma automática.

– Ex.: Módulos da BioPerl

Page 22: Introdução à Bioinformática

Repositórios de Dados Biológicos

• 1965 – Atlas of Protein Sequences and Structure (Dayhoff et al.) - ~1Mb

• 1982 – GenBank – 1988 – NCBI – National Center for Biotechnology Information

• 1997 – EMBL – European Molecular Biology Laboratory

• 1986 – DDBJ – DNA Data Bank of Japan

Page 23: Introdução à Bioinformática

E agora ?

Page 24: Introdução à Bioinformática

Análise dos Dados• Necessidade de sistemas

computacionais para análise dos dados e interpretação dos resultados.

• Desafios : – Armazenar e organizar– Estabelecer relações– Procurar padrões– Analisar– Filtrar– Desenvolver mecanismo de

visualização– Integrar– Etc.

Equipe Multidisciplinar

Page 25: Introdução à Bioinformática

Bioinformática

Etimologia

Bio = “bios” (vida)+Informática = “informatik” (informação +

automática)

Page 26: Introdução à Bioinformática

Termo “Bioinformática”

• “Bioinformática”– Paulien Hogeweg, 1978

• Estudo de sistemas biológicos como sistemas dinâmicos (modelos matemáticos que descrevem o comportamento de um sistema)

– Origem disputada, meados 1980• Análise de seqüências biológicas

Page 27: Introdução à Bioinformática

Bioinformática

“The mathematical, statistical and computing methods that aim to solve biological problems using DNA and amino acid sequences and related information.”

Fredj Tekaia ( Institut Pasteur )

“Métodos matemáticos, estatísticos e computacionais para resolver problemas biológicos usando seqüências de DNA e aminoácidos e informações relacionadas”

Page 28: Introdução à Bioinformática

Biologia Computacional

“Computational biology is not a “field”, but an “approach” involving the use of computers to study biological processes and hence it is an area as diverse as biology itself.”

Paul J Schulte ( University of Washington )

“Biologia Computacional não é um “campo”, mas uma “abordagem” envolvendo o uso de computadores para estudar processos biológicos e portanto é uma área tão diversa quanto a biologia em si.”

Page 29: Introdução à Bioinformática

Definições atuais• Bioinformática: Pesquisa, desenvolvimento, ou aplicação de

ferramentas computacionais e abordagens para expandir a utilização de dados biológicos, médicos, comportamentais e de saúde, incluindo a aquisição, o armazenamento, a organização, o arquivamento a análise ou visualização desses dados.

• Computational Biology: O desenvolvimento e aplicação de métodos teóricos e analíticos, incluindo modelagem matemática e aplicação de técnicas de simulações computacionais para o estudo de sistemas biológicos, sociais ou comportamentais.

Biomedical Information Science and Technology Initiative Consortium (NIH)

Page 30: Introdução à Bioinformática

As Bases da Bioinformática

Page 31: Introdução à Bioinformática

ÁREAS DE APLICAÇÃO

Page 32: Introdução à Bioinformática

Projetos “-omas”x

Pesquisa Clássica em Genética e Bioquímica

                                                  

             

Science 291:1221. 2001

Genômica

Transcritômica

Proteômica

Epigenômica

Metabolômica

Page 33: Introdução à Bioinformática

Genômica• Genômica Estrutural

– Construção de mapas genéticos, físicos e de transcrição de um organismo.

• Genômica Funcional– Caracterização das

propriedades funcionais do conjunto gênico e padrão de Expressão Gênica.

• Genômica Comparativa• Genômica Clínica

Page 34: Introdução à Bioinformática

Proteômica• Como regra geral, as proteínas são estudadas isoladamente.• A Proteômica engloba o estudo amplo de todas as propriedades

das proteínas, isoladamente e em interação com o organismo.

Page 35: Introdução à Bioinformática

Bioinformática “Clássica”• Organização da Informação

Biológica– Definição de Bases de Dados

• Genômica Estrutural– Análise de seqüências de DNA ou

RNA• Processamento automatizado dos

Dados de Seqüências (pipelines);• Montagem de seqüências genômicas;• Predição Gênica;• Definição das estruturas gênicas;• Mapeamento genômico de estruturas

gênicas;• Identificação e de Polimorfismos de

DNA;• ...

Page 36: Introdução à Bioinformática

Montagem do quebra-cabeças

HUMAN GENOME CONSORTIUM CELERA GENOMICS

100.000 fragmentos (1000 b) - ~ 3 a 4 milhões de bases (Genoma de uma Bactéria)

Estratégias (Pública x Privada)

Cra

ig V

ente

r

Fran

cis

Col

lins

Page 37: Introdução à Bioinformática

Base-Calling

• Phred : http://www.phrap.com/phred/ • Lê o arquivo do cromatograma da seqüência de DNA e

analisa os picos para descrever as bases, associando um valor de qualidade para cada base descrita.

Phred quality score Probability that the base is called wrong Accuracy of the base call10 1 in 10 90%20 1 in 100 99%30 1 in 1,000 99,90%40 1 in 10,000 99,99%50 1 in 100,000 99,999%

Page 38: Introdução à Bioinformática

Problema clássicoComo obter as sequências de

nucleotídeos dos cromossomos a partir do sequenciamento de milhares de sequências de fragmentos de DNA?

Como montar as peças desse quebra-cabeças?

Page 39: Introdução à Bioinformática

Problema clássico Sejam duas seqüências de caracteres distintas:

É possível quantificar o quanto elas estão relacionadas e quais regiões são correspondentes entre si?

ATATTAATGATTTGTAAGGTGGTGGTGGGGAACTTG 

GCTAGACGAATGATTTGTAATGTGGTGGGAAACTTG

Alinhamento de seqüências ATATTAATGATTTGTAAGGTGGTGGTGGGGAACTTG  ||||||||||||||||||||||||GCTAGACGAATGATTTGTAATGTGGTGGGAAACTTG

Page 40: Introdução à Bioinformática

Alinhamento de Sequências

Em Bioinformática, alinhamento de sequências é uma forma de dispor as sequências de DNA, RNA, ou proteínas para identificar regiões de similaridade que podem ser consequência de relacionamentos funcionais, estruturais ou relações evolutivas entre elas.

Page 41: Introdução à Bioinformática

Significado Biológico do Alinhamento de Sequências

• Definição de 3 termos importantes:– identidade: refere-se à fração de aminoácidos

ou nucleotídeos idênticos entre pares de sequências após um alinhamento dessas sequências;

– similaridade: refere-se à fração de aminoácidos ou nucleotídeos similares (com propriedades físico-químicas semelhantes – aminoácidos conservados) entre pares de sequências após um alinhamento dessas sequências;

– homologia: representa uma relação evolutiva entre as sequências;• Homólogos

– Parálogos;– Ortólogos;

Page 42: Introdução à Bioinformática

Há uma referência?• Resequenciamento

– Existem sequências produzidas a partir de um genoma/transcriptoma da mesma espécie da amostra ou de uma espécie relacionada que podem ser usadas como referências. Alinhamento com a referência.

• Sequenciamento de novo– Não há sequências que podem ser usadas como

referências. Este tipo de sequenciamento exigirá uma montagem (assembly) das sequências, utilizando apenas os dados obtidos desse sequenciamento. Alinhamento entre as sequencias geradas, que permitirá a obtenção de um consenso.

Page 43: Introdução à Bioinformática

Identificação das sequências• Resequenciamento

– Alinhamento: Conjunto de Sequências X Sequências Referências (Ex.: Genoma)

>seq1gcagtcagtcacacatgtca...>seq2cgcgcatgcGcgtactctat...>seq3tcgagcatcatcagtcgtca...>seq4tatgctttatagcgagtcat........

>chrXatcacacatgtcacatggtcagggcatcagtcagtcagtcatgcgcgcgcatgcCcgtactctatctcatgcgtcagtcatgcatgcgagcagtcatgcatgcatcgcactgcatcatacgtcatgcatgaa.....

Objetivos:- Eliminar as sequência sem hit- Eliminar as sequência com hits múltiplos (ambiguous)- Identificar as sequência com hit único (unambiguous)

Page 44: Introdução à Bioinformática

Montagem de sequências• Sequenciamento de novo

– Alinhamentos: • Conjunto de Sequências X Conjunto de Sequências (alinhamento pareado)• Alinhamento Múltiplo de Sequências (MSA)

ACAGTACGACAGTACGACCAGTACGATAGCAGTACGATACGACCGA TCCAGTACGATAGCAGTACGATCAG GCACAGTACGACCAGTACGATACAGGAAC CAGGTACGATACGACGGACGGGGACAGTACGACAGTACGAAAC GTACGACCAGTACGATACACT AACGACAGTACGAAACGGG TATAGGTACGATACGACGGAC

Consensus :Seq ASeq BSeq CSeq DSeq ESeq FSeq G

Page 45: Introdução à Bioinformática

Abordagens para alinhar sequências

ALGORITMOS PARA ALINHAMENTO DE SEQUÊNCIAS

Page 46: Introdução à Bioinformática

Problema básico• Transformar uma sequência de caracteres em outra:

– Operações:• inserção• deleção• substituição

– Custo de operação:• Score de substituição• Penalidade para Gaps (inserção/deleção)

– Qual é a quantidade de operações mínima ?– Como achar a séries de operações que vai garantir que usamos a

quantidade de operações mínima ?

Exemplo: ACGT ||G-GT

Scores:Match: 2Mismatch (S): -1Gap(I): -2Gap(D): -2

Score (4-2-1): 12 matches: 41 gap: -21 mismatch: -1

Page 47: Introdução à Bioinformática

Soluções

• Matrix de pontos (dot matrix)– Informação qualitativa;

Drosophila Dystrobrevin and Mouse ortholog

[Gol

dste

in e

Gun

awar

dena

a, 2

000]

Page 48: Introdução à Bioinformática

Soluções

• Matrix de pontos (dot matrix)– Informação qualitativa;

• Algoritmos de Programação Dinâmica– Smith-Waterman; Needleman-Wunsch;

• SW é um algoritmo para achar o alinhamento mais provável com uma estrutura certa;

Page 49: Introdução à Bioinformática

Alinhamentos de Sequências• Alinhamento Global (e.g. Algoritmo de Needleman-Wunsch)

• As sequências envolvidas devem ser alinhadas de um extremo ao outro. Adequado quando as sequências possuem aproximadamente o mesmo tamanho.

Seq X : C A T T A G C A G C C T | | | | | | Seq Y : - A G T A – - A G C - -

• Alinhamento Local (e.g. Algoritmo de Smith–Waterman)• Procura-se alinhar apenas as regiões mais similares, independente da

localização relativa de cada região.

Seq X [4,10]: T A G C A G C | | | | |Seq Y [3,7]: T A - - A G C

Alinhamentos (Global/Local) (DNA/Protein)• FASTA (http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml)• EMBOSS Align (http://www.ebi.ac.uk/Tools/emboss/align/)

Page 50: Introdução à Bioinformática

Matriz de Programação Dinâmica

Exemplo: ACGT ||G-GT

Scores:Match: 2Mismatch (S): -1Gap(I): -2Gap(D): -2

Score (4-2-1): 12 matches: 41 gap: -21 mismatch: -1

D(i, j) = max

D(i-1, j-1) + s(xi, yj) (diagonal -> match/mismatch)D(i -1, j) + g (acima -> gap acima)D(i, j -1) + g (esquerda -> gap esquerda)

D(i-1,j-1)

D(i-1,j)

D(i,j-1) D(i,j)

traceback

GG A

> Score (-2-1): -31 gap: -21 mismatch: -1

> Score(-1-2): -31 mismatch: -11 gap: -2

> Score(-4-2): -62 gaps: -41 gap: -2

GGA

GG A

Page 51: Introdução à Bioinformática

Solução• Matrix de pontos (dot matrix)

– Informação qualitativa;• Algoritmos de Programação Dinâmica

– Smith-Waterman; Needleman-Wunsch;• SW é um algoritmo para achar o alinhamento mais

provável com uma estrutura certa;• Por razões de tempo e espaço, não pode ser usado para

alinhamento de sequências de larga escala;• Utilizações de aproximações (heurísticas);

• Geralmente, quanto mais rápida for a aproximação, mais distante estará a resposta da solução “correta”;

Page 52: Introdução à Bioinformática

Desafios

• Eficiência;– velocidade;– sensibilidade;– especificidade;

• Ambiguidade causada por sequências repetitivas;

• Erros inerentes às técnicas de sequenciamento.

Page 53: Introdução à Bioinformática

Identificação de sequências

• Utilização de sequências referência– Ex.: Genoma

• Localização precisa– quantidade de matches suficientes– não tenha ambiguidade

• Exemplo:– Sequenciamento de transcritos humanos para

determinar expressão gênica

Page 54: Introdução à Bioinformática

BLAST• Basic Local Alignment Search Tool• http://blast.ncbi.nlm.nih.gov/• Heurística: dicionário de palavras

E-value (S): número de diferentes alinhamentos com scores equivalentes ou melhores que S que são esperados ocorrer ao acaso em buscas em um banco de dados aleatório, do mesmo tamanho, com a mesma composição de bases;

QUANTO MENOR... MELHOR!!!NÃO CONFUNDIR COM P-value (probabilidade)

Page 55: Introdução à Bioinformática

BLAT• BLAT—The BLAST-Like Alignment Tool• http://genome.ucsc.edu/• Estruturalmente diferente (BLAST)

– Além de outros pontos, o Blat constrói um índice do banco de dado de sequências (database) (k-mers) e faz as buscas na sequência a qual se deseja consultar (query);

• Blat é mais rápido, porém menos sensível;• Possui código especialmente para lidar com intros em alinhamentos RNA/DNA;• Comumente utilizado para localizar uma determinada sequência no genoma ou

determinar a estrutura de exons de um RNA;• Pode ser utilizado para alinhar sequências de Roche/454;

Page 56: Introdução à Bioinformática

Alinhamento de sequências curtas

• BLAST/BLAT são lentos demais para alinhar milhões de sequências (Illumina: 35bp-100bp/SOLiD: )

• Novos algoritmos– Novas implementações

• BWA• Bowtie• Bfast• Mosaik• ...

Page 57: Introdução à Bioinformática

Mascaramento de Vetores

• Mascaramento das regiões que representam, normalmente, partes dos vetores de clonagem onde as seqüências de interesse foram inseridas ou pedaços de DNA adaptadores utilizados durante o experimento.

• Cross_match (http://www.phrap.org/phredphrap/)

>CloneXTGAGATCACTTCCCTTGCACAGTTTGGAAGGGAGAGCACTTTATTACAGACCTTGGAAGCAAGAGGATTG CATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGC TATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTG TTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA CATTGTAAGAAGAAACCGGGGTGGGTGGTGTCTCCAGGTCAATCAACTTCTGTACTGGGCTCTGACCACAGACGATTCACGTGTGGGTCTATGTTCAGGTCCT

>CloneXmaskedTGAGATCACTTCCCTTGCACAGTTTGGAAGGGAGAGCACTTTATTACAGACCTTGGAAGCAAGAGGATTG CATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGC TATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTG TTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA CATTGTAAGAAGAAACCGGGGTGGGTGGTGTCTCCAGGTCAATCAACTTCTGTACTGGGCTCTGACCACAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Page 58: Introdução à Bioinformática

Mascaramento de Elementos Repetitivos

• Mascaramento das regiões que representam, normalmente elementos repetitivos do genoma (transposons, retrotransposons, ...) ou sequências de baixa complexidade;

• RepeatMasker (http://www.repeatmasker.org/ )

>CloneXTGAGTTAGTTAATTGTGCCAGCCTGGCCGATAATCACATGTGGGGCTAATTGAAAGGCGGAGGGATAAATGGGTGGTGAGCCTCGCCTTTCTAGTTCTCGGGTCTCTTGCTTTGTGATGGATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGCTATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTGTTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA

>CloneXmaskedNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGCTATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTGTTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA

Page 59: Introdução à Bioinformática

Análise Filogenética• Alinhamento Global• Inferência de Filogenias• Reconstruir o parentesco entre as espécies associando essas

informações a uma escala temporal;• PHYLIP (http://evolution.genetics.washington.edu/phylip.html)

Page 60: Introdução à Bioinformática

Detecção de Formas Alternativas do Gene

• Encadeamento Alternativo de Exons (Alternative Splicing):• Alinhamento de sequências de transcritos em relação a um genoma

referência;

A) exon skipping (CD44)B) alternative acceptor (MDM2)C) Intron retention (WDR39)

Page 61: Introdução à Bioinformática

Análise de SNP• SNP - Single Nucleotide Polymorphism • polybayes (http://bioinformatics.bc.edu/marthlab/PolyBayes)

ATGGTGCATCTGACTCCTGAGGAGAAGTCTGCCGTTACTGCCCTGTGGGGCA TGACTCCTGTGGAGAAGTCTGCCGTTACTGCCATGGTGCATCTGACTCCTGAGGAGAAGTCTGATGGTGCATCTGACTCCTGTGGAGAAGTCTGCCGTTACTGCCCTGT GCATCTGACTCCTGAGGAGAAGTCTGCCGTTACTGCCCTGTGGGGATGGTGCATCTGACTCCTGTGGAGAAGTCTGCCGTTACTGCCCTGTGGGGCA CATCTGACTCCTGAGGAGAAGTCTGCCGTTAC

Seq 1 :Seq 2 :Seq 3 :Seq 4 :Seq 5 :Seq 6 :Seq 7 :

Anemia Falciforme- deficiência no transporte de oxigênio

Glutamato (GAG) / Valina (GTG)Gene HBB

Page 62: Introdução à Bioinformática

Abordagem para montar sequências

• Alinhamentos para montagem de sequências;

• Algoritmos de montagem (Overlap-Layout-Consensus)– Requerem o alinhamentos pareados entre as sequências;

Page 63: Introdução à Bioinformática

Abordagem para montagem de seqüências• Montagem dos pequenos fragmentos seqüenciados em

seqüências maiores. Considera-se um mosaico de partes da seqüências que são agrupadas, como regiões de alta qualidade e onde a sobreposição.

• Montagem: Phrap (http://www.phrap.org/phredphrap/)

ACAGTACGACAGTACGACCAGTACGATAGCAGTACGATACGACCGA TCCAGTACGATAGCAGTACGATCAG GCACAGTACGACCAGTACGATACAGGAAC CAGGTACGATACGACGGACGGGGACAGTACGACAGTACGAAAC

Consensus :Seq ASeq BSeq CSeq D

Page 64: Introdução à Bioinformática

Montagem• Definição

– É uma estrutura hierárquica que mapeia os dados de sequências de fragmentos para uma reconstrução aproximada do alvo (neste caso transcritos) em sua forma original;• leituras (reads) => contigs => scaffolds

– A montagem agrupa sequências em contigs e contigs em scaffolds (supercontigs);

– A montagem só é possível quando o alvo (transcriptoma) é excessivamente sequenciado;

Page 65: Introdução à Bioinformática

Gap

Conceitos Básicos (1)• contig – alinhamento múltiplo de leituras de onde é extraída uma

sequência consenso;• unitig – contig formado pela sobreposição de sequências únicas das

leituras, ou seja, sem ambiguidades;• scaffold – definem a ordem e orientação dos contigs além do

tamanho dos gaps entre os contigs;• singlets – leituras não agrupadas em um contig;• gap – espaço entre dois contigs, onde não se conhece a

sequência;

Page 66: Introdução à Bioinformática

Conceitos Básicos (2)• Cobertura (coverage)

– Total de pares de bases sequenciadas [N*L] dividido pelo tamanho da região de interesse (genoma) [G]

• ((N*L)/G)– Ex: Genoma de 1Mbp (G)

» 5 milhões de reads (N) de 50bp (L)» Cobertura = (5.000.000 * 50) / 1.000.000 = 25X

– Na prática, corresponde a quantas vezes, em média, cada base do genoma foi sequenciada;

– Profundidade (depth of coverage)• Requisitos para o sequenciamento de genomas:

– Sanger: C. Venter (3Gb ~7.5x) • [Levy et al., 2007]

– Roche 454: J. Watson (3Gb ~7.4x) • [Wheeler et al., 2008]

– Illumina (52pb): Panda (Ailuropoda melanoleura) (2.4Gb ~73x) • [Li et al., 2010]

Page 67: Introdução à Bioinformática

Montagem “de novo”• Reconstrução da sequência (transcrito) em sua forma

original, sem a consulta de sequências previamente resolvidas de genomas, transcritos e proteínas.

• A montagem é possível quando o alvo é excessivamente amostrado com leituras “shotgun” que se sobrepõem.

• Montagem de novo de dados de Next-Generation Sequencing (NGS)– tamanho das leituras (menos informação por leitura)

• necessidade de maior cobertura – aumento da complexidade;– grande volume de dados

• necessidade de algoritmos que utilizem de forma racional e eficiente os recursos computacionais (CPU/RAM);

Page 68: Introdução à Bioinformática

Desafios (1)• Contaminates nas amostras (e.g. Bacteria)

• Ribosomal RNA (pequenas e grandes sub-unidades)

• Artefatos gerados na etapa de PCR (e.g. Quimeras e mutações)

• Erros de sequenciamento– e.g. Roche 454 - erros de homopolímeros (3 ou mais bases consecutivas);

• Presença de primers/adaptadores (e.g. adaptadores SMART utilizados na síntese de cDNA);

• Repetições e genomas poliplóides (sequências repetitivas no transcritoma torna a montagem mais difícil);– Necessidade de “spanners” – leituras que atravessam uma região de repetição e que possuem

suficientes regiões únicas em ambos os lados;– Utilização de leituras paired-ends/mate-pairs e suas propriedades de tamanho e orientação,

estando um dos pares ancorado em uma região única;

Page 69: Introdução à Bioinformática

Desafios (2)• Passos extras na preparação das amostras e síntese de cDNA pode

levar a um maior risco de erros na clonagem ou contaminação;

• Transcritos muito abundantes (alta cobertura), transcritos pouco abundantes (baixa cobertura);

• Processamento alternativo do RNA– e.g. Alternative splicing

• Genes parálogos

• A falta de um genoma referência torna difícil o julgamento da qualidade da montagem

Page 70: Introdução à Bioinformática

Problemas recorrentes causados por repetições

Page 71: Introdução à Bioinformática

Visualização• É importante a visualização dos alinhamentos, que permite extrair

conclusões ainda não consideradas.• Visualização : Consed (http://www.phrap.org/phredphrap/)

Page 72: Introdução à Bioinformática

Mapeamento e Apresentação dos Dados

UCSC Genome Browser ( http://genome.ucsc.edu/ )

Page 73: Introdução à Bioinformática

Predição Estruturas Gênicas• Identificação de estruturas de genes em DNA genômico• O programa determina a estrutura gênica mais provável baseado

em um modelo probabilístico de um gene estrutural e de propriedades composicionais no DNA genômico de determinado organismo que caracterizam um gene.

• GenScan (http://genes.mit.edu/GENSCAN.html)

Page 74: Introdução à Bioinformática

O processo de anotaçãogênica

• Onde está localizado ?

• O quê ele faz ?

• Como ele faz ?

Page 75: Introdução à Bioinformática

Era pós-genômica

Quais são os genes e de que forma eles podem influenciar em determinado fenótipo ?

Page 76: Introdução à Bioinformática

Expressão Gênica Diferencial

Célula do Músculo Célula da Pele Célula neuralCélula do Músculo Célula da Pele Célula neural

Rede de Interações GênicasRegulação Gênica

Ambiente

Page 77: Introdução à Bioinformática

Gene A

Gene B

Gene C

Células Normais Células do Tumor

oncogene

supressor tumoral

Expressão Gênica e Câncer

Célula Normal Célula Cancerosa

Cell. 2000 Jan 7;100(1):57-70

Célula Normal Célula Cancerosa

Auxílio diagnóstico eprognóstico

Perfil de expressão de70 genes

Desenvolvimento de novosfármacos e terapias individualizadaspara o tratamento do pacientecom câncer

Page 78: Introdução à Bioinformática

Genômica Funcional: Análise de Expressão Gênica

Genômica Funcional = Métodos de obtenção de dados em larga escala

+ Métodos de Bioinformática

(Genome-wide expression “profiling”)

Revolução dos projetos “-omas”

Mayo Clin Proc. 2004 May;79(5):651-8

Page 79: Introdução à Bioinformática

Análises de Expressão Gênica

Experimento de microarray

Nature Genetics  34, 85 - 90 (2003)

HierarchicalCluster

~100,000 – ~150,000 spots

Page 80: Introdução à Bioinformática

Bioinformática Atual• Análise dos resultados obtidos através da

Genômica e Proteômica.• Análise dos dados obtidos através de novas

técnicas de laboratório.• Desenvolvimento de modelos de simulação de

redes de interações gênicas.• Desenvolvimento de metodologias para o

reconhecimento de padrões de expressão gênica que determinam um fenótipo.

• Análise entre os dados clínicos de pacientes e os obtidos através da pesquisa genômica e proteômica.

• Integração dessas Informações.

Page 81: Introdução à Bioinformática

Biologia Sistêmica

• Estudo das interações entre as componentes de um sistema biológico, e como essas interações fazem emergir função e comportamento no sistema;

"Systems Biology is the science of discovering, modeling, understanding and ultimately engineering at the molecular level the dynamic relationships between the biological molecules that define living organisms “

Leroy Hood

Page 82: Introdução à Bioinformática

Integração dos Bancos de Dados Biológicos

• Características– Grande volume de dados;

• Desenvolvimento de novos mecanismos e técnicas para o armazenamento e recuperação (e.g. Google BigTable );

– Não há padrão para os nomes dos objetos;• Ontologias (e.g. Gene Ontology) e organizações que regulam a

nomenclatura (e.g. HUGO)– Não há padrão para acesso aos dados, cuja natureza é

distribuída;• Utilização de formatação padrão para troca de informações (e.g.

GFF) e web services;– Definição variável para alguns conceitos;

• e.g. gene– Dados altamente heterogêneos mas inter-relacionados;– Informação dinâmica e em constante atualização;

Page 83: Introdução à Bioinformática

Bancos de Dados para Extração de Conhecimento

Data warehouse

Bancos de Dados

Integração dos Dados/Consolidação dos Dados

Seleção epré-processamento

Data mining

Dados

Padrões eModelos

ConhecimentoTransformação

Interpretaçãoe Avaliação

Page 84: Introdução à Bioinformática

DESENVOLVIMENTO DE SOFTWARES

Page 85: Introdução à Bioinformática

Plataforma de Desenvolvimento

• Sistemas Operacionais : Linux, UNIX, MacOS, Windows

• Linguagens de Programação : Perl (Practical Extract and Report Language), C/C++, Java, Python

• Sistemas de Gerenciamento de Bancos de Dados : MySQL, PostgreSQL

Page 86: Introdução à Bioinformática

• BioPerl ?• Projeto de colaboração open-source internacional

(1996- …)• Biblioteca de módulos Perl

• Soluções para a Pesquisa em Bioinformática, Genômica e Ciências Biológicas;

• Tarefas complexas e rotineiras utilizando algumas poucas linhas de código;• Análise e anotação de seqüências e outras áreas;

• Licenciado sob a Perl Artistic License;• Open Bioinformatics Foundation (2002-...)

Open Bioinformatics Foundation

IntroduçãoBioPerl

Page 87: Introdução à Bioinformática

1. Conhecimentos e alguma experiência na área de Biologia Molecular, Computação e Estatística;

2. Conhecimentos e experiência em utilizar as principais ferramentas e pacotes de análises em Bioinformática;

3. Se sentir à vontade no ambiente de linha de comando;

4. Conhecimentos e experiência em linguagens de programação C/C++, Perl ou Python;

Habilidades essenciais (Bioinformática)

Page 88: Introdução à Bioinformática

Considerações• A Bioinformática “estima”, você é que afirma.• G.I.G.O. - “Garbage in, garbage out”; Entra lixo,

sai lixo.• Quanto mais informações corretas você puder

dar, melhor será o resultado.• Sempre há um resultado, pode ser bom ou ruim,

mas como julgar?• Não há fuga da bancada.• Se você torturar os dados o suficiente, eles irão

confessar qualquer coisa.

Page 89: Introdução à Bioinformática

Centros de Pesquisa

Page 90: Introdução à Bioinformática

Next Generation Sequencers

Page 91: Introdução à Bioinformática

No mundo...

National Center for Biotechnology Informationhttp://www.ncbi.nlm.nih.govBethesda – MD - US

European Bioinformatics Institutehttp://www.ebi.ac.uk Hinxton - UK

South African National Bioinformatics Institutehttp://www.sanbi.ac.za Tygerberg - ZA

Center for Information Biology http://www.cib.nig.ac.jp Mishima - JP

TIGR/J. Craig Venter Institutehttp://jcvi.orgSan Diego - CA - US

Wellcome trust SANGER Institutehttp://www.sanger.ac.uk/Hinxton - UK

Page 92: Introdução à Bioinformática

Companhias de Bioinformática

http://www.bioplanet.com/bioinformatics_companies.htm

Page 93: Introdução à Bioinformática

e no Brasil...

Ludwig Institute for Cancer Research – São Paulo Branchhttp://www.ludwig.org.brSão Paulo - BR

Laboratório Nacional de Computação Científicahttp://www.lncc.br Petrópolis - BR

Embrapahttp://www.nbi.cnptia.embrapa.br Campinas - BR

Laboratório de Genética Molecular e Bioinformática (INCTC)http://lgmb.fmrp.usp.br/inctc/Ribeirão Preto - BR

Departamento de Bioquímica - Instituto de Química - USPhttp://verjo19.iq.usp.br/pt_index.php São Paulo - BR

Bioinformatics Laboratory - Universidade Católica de Brasília (BioFoco)http://bioinformatica.ucb.brBrasília - BR

Laboratory for Bioinformatics – UNICAMPhttp://www.lbi.dcc.unicamp.br Campinas - BR

Alellyx Applied Genomicshttp://www.alellyx.com.br Campinas - BR

Scylla Bioinformáticahttp://www.scylla.com.br Campinas - BR

Page 94: Introdução à Bioinformática

Formação na Área

Page 95: Introdução à Bioinformática

Graduação• Informática Biomédica – USP• 3 principais áreas

– Bioinformática– Processamento de Imagens e

sinais– Sistemas de Informação em

Saúde

Page 96: Introdução à Bioinformática

Pós-Graduação• Bioinformática – Interunidades/USP

– http://www.ime.usp.br/posbioinfo/• Genética – FMRP/USP

– http://rge.fmrp.usp.br/• Bioinformática – UFMG

– http://www.pgbioinfo.icb.ufmg.br/• Genética – UFPA

– http://www.lghm.ufpa.br/ppgbm/• Bioinformática – UFPR

– http://www.bioinfo.ufpr.br/

Page 97: Introdução à Bioinformática

Curso de Inverno em Bioinformática

• Objetivo principal : curso introdutório sobre as principais técnicas utilizadas em projetos de Bioinformática, permitindo a integração entre os interssados na área.

• Público alvo : O curso é aberto a toda comunidade, direcionado principalmente aos alunos de graduação, sem restrição de área.

• http://gbi.fmrp.usp.br/cursodeinverno/

Page 98: Introdução à Bioinformática

Curso de Verão em Bioinformática

• Objetivo principal : apresentar um cenário real de elaboração e execução de um projeto em Bioinformática.

• Público alvo : alunos de graduação, pós-graduação ou profissionais, das áreas de ciências exatas ou biológicas .

• http://lgmb.fmrp.usp.br/cvbioinfo/

Page 99: Introdução à Bioinformática

AB3C

• Servir a comunidade científica brasileira e internacional influenciando as políticas governamentais e científicas;

• Representar a comunidade brasileira de Bioinformática e Biologia Computacional junto aos poderes públicos, influenciando as políticas de governo em ciência e tecnologia;

• Congregar a comunidade brasileira de Bioinformática e Biologia Computacional, possibilitando um maior relacionamento social e profissional entre seus membros;

• Organizar encontros e publicações de alta qualidade na área de Bioinformática e Biologia Computacional;

• Distribuir informação sobre treinamento, educação, emprego e notícias relevantes de áreas correlatas.

http://www.ab3c.org/

Page 100: Introdução à Bioinformática

X-Meeting

http://www.ab3c.org/xmeeting

Page 101: Introdução à Bioinformática

Perspectivas

http://physweb.bgu.ac.il

Page 102: Introdução à Bioinformática

... para a Bioinformática

• Consolidar-se definitivamente como ciência.– Disciplina obrigatória na área de Genética Molecular;– Disciplina opcional para área de Ciência da Computação;– No Brasil, novos cursos de graduação, extensão e pós-graduação.

• Em universidades públicas e privadas.• No Brasil, deve desenvolver-se também em outros estados.• Desenvolvimento da Bioinformática aplicada à Proteômica.• Desafio do futuro: integrar todo o conhecimento adquirido (Biologia

Sistêmica).• Exigir e promover ainda mais a multidisciplinaridade e a integração

entre os profissionais das diferentes áreas envolvidas.• Conquistar o mercado.

– No Brasil, a área ainda tem muito espaço pra crescer.• Mais investimentos na área.

Page 103: Introdução à Bioinformática

e para o bioinformata

•No Brasil–Ainda muito restrito à área acadêmica e institutos públicos de pesquisa;–Bolsas de Estudo de Instituições de fomento à Pesquisa.–Poucos cursos e treinamento para capacitação.–Excelente formação na área;•América do Norte e Europa e Ásia–Grandes centros de Bioinformática financiados por instituições

governamentais e privadas [empresas farmacêuticas];–Cursos e treinamentos especializados para a capacitação.–Carreira de Bioinformática - salário médio anual - Pesquisador:

US$77.710,00 – (~R$140.000,00)•http://www.jobs-salary.com

Page 104: Introdução à Bioinformática

Referências

Page 105: Introdução à Bioinformática

Referências• STRACHAN, T ; READ, A P. Genética Molecular Humana.  Artmed. 2002.• Alberts, B; Johnson, A; Lewis J; Raff, M; Roberts, K; Walter, A. Biologia Molecular da Célula. Ed.

Artmed. 2004.• Prosdocimi F et. al. Bioinformática: manual do usuário . Biotec. Ci. Des. 29: 18-31, 2002.• O DNA Vai à Escola,

http://www.odnavaiaescola.com • Wikipedia,

http://en.wikipedia.org/wiki/Main_Page • Revista ComCiência,

http://www.comciencia.br • Genome News Network,

http://www.genomenewsnetwork.org• Folha Online,

http://www1.folha.uol.com.br • Bioinformatics.Org

http://bioinformatics.org • Catálogo de Centros de Bioinformática

http://sullivan.bu.edu/~mfrith/BioinfoCenters.html• Salários

http://www.jobs-salary.com/bioinformatics-scientist-salary.htm• Genome (NHGRI)

http://www.genome.gov

Page 106: Introdução à Bioinformática

Links Úteis e Interessantes

• Bioinformatics Organization (http://www.bioinformatics.org/)

• NCBI (http://www.ncbi.nlm.nih.gov)

• EBI (http://www.ebi.ac.uk/)

• CPAN - Comprehensive Perl Archive Network (http://www.cpan.org)

• BioPerl (http://bioperl.org)

• Os livros editados pela O’REILLY (http://www.oreilly.com)– Perl (http://oreilly.com/pub/topic/perl)– Bioinformatics (http://oreilly.com/pub/topic/bioinformatics)

• Periódicos Científicos– Bioinformatics (http://bioinformatics.oxfordjournals.org/)– BMC Bioinformatics (http://www.biomedcentral.com/bmcbioinformatics/)

Page 107: Introdução à Bioinformática

Daniel Guariz [email protected]

http://lgmb.fmrp.usp.br/~daniel/

Laboratório de Genética Molecular e Bioinformáticahttp://lgmb.fmrp.usp.br

OBRIGADO PELA PACIÊNCIA !!!

Perguntas...