Introdução à Bioinformática

Preview:

DESCRIPTION

Introdução à Bioinformática. Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo Instituto Nacional de Ciência e Tecnologia em Células-Tronco e Terapia Celular. - PowerPoint PPT Presentation

Citation preview

Laboratório de Genética Molecular e Bioinformática

Departamento de GenéticaFaculdade de Medicina de Ribeirão PretoUniversidade de São Paulo

Instituto Nacional de Ciência e Tecnologia em Células-Tronco e Terapia Celular

Introdução à Bioinformática

Daniel Guariz Pinheiro, PhD.

Sumário• Introdução

– Revisão Histórica– Sequenciamento– Projetos– Definição de Bioinformática

• Áreas de Aplicação – Estudos “-omas”– Problemas clássicos em Bioinformática

• Desenvolvimento de Sofwares – Principais programas– Análises comuns

• Bancos de Dados Biológicos– Principais repositórios– Extração de Conhecimento de Bases de Dados

• Centros de Pesquisa– Nacionais e Internacionais / Públicos e Privados

• Formação na Área– Cursos (Graduação / Pós-Graduação)– Eventos (Congressos, Simpósios, Cursos de Verão, ...)

• Perspectivas profissionais• Referências

INTRODUÇÃO

Revisão Histórica

The Origin of Species

Experiments in Plant Hybridization

Molecular Structure of Nucleic Acids

1859

1866

1953

1946

ENIAC,o 1° computador eletrônico

1944

Caráter Hereditário(DNA)

Oswald Avery

Leis da hereditariedade1900Gene

Revisão Histórica

1977

1986

Gilbert & Sanger

- Métodos para o sequenciamento de DNA

- Sequenciadorsemi-automático

Leroy Hood

1986

- Sequenciador automáticocomercial

Applied Biosystems A C G T

Revisão Histórica

Iniciativa pública Projeto Genoma Humano

Publicação do rascunhodo Genoma Humano

1990 2001

2000

GenomabactériaXylella fastidiosa

1997

Organization for Nucleotide Sequencing and Analysis

19991996

Cancer GenomeAnatomy Project

1988

National Center forBiotechnology Information

1995

SAGE microarray

2005, 2006, 2007

...

Next-Generation Sequencing

2003

Conclusão do Projeto Genoma Humano

2008

1000 GenomesProject

Projeto Genoma Humano

• The International Human Genome Sequencing Consortium • 13 anos (1990-2003)• U$3.000.000.000,00 (3 BILHÕES de DÓLARES!!!)• Avanços imediatos proporcionados

• Identificação de ~25.000 genes (~20% material genético total);• Possibilitou a descoberta de ~1.800 genes relacionados a doenças,

facilitando a identificação de outros genes;• Permitiu o desenvolvimento de mais de 1.000 testes genéticos;• Ao menos 350 produtos biotecnológicos resultantes deste

conhecimento já estão em testes clínicos;• Desenvolvimentos de ferramentas para análise genômica, inclusive

de outras espécies de interesse biomédico e econômico;• Promoveu discussões éticas, legais e implicações sociais em torno

do assunto;• Base de conhecimento;

International Nucleotide Sequence Database Colaboration

200898.868.465 seqüências99.116.431.942 bases

1982606 seqüências2.427 bases

Nova Geração de Sequenciadores de DNA

Roche/454 FLX Illumina/Solexa GA ABI SOLiDABI 3730xl

ABI 3730xl Roche/454 FLX Illumina/Solexa GA ABI SOLiD

Método Sanger Pirosequenciamento Sequenciamento por Síntese

Sequenciamento por Ligação

• Aumento na quantidade de Dados (até ~1/2 Tb por corrida);• Redução no tempo relativo para obtenção dos dados ( genoma 3Gb (8x) em

questão de poucas semanas);• Aumento gradual do tamanho das sequências (curtas ~36pb – 400pb);• Redução do custo por base sequenciada;

Sequence Read Archive

“(…) In mid-September 2010,

the SRA contained >500 billion reads consisting of 60 trillion base pairs available for download (…) Almost 80% of the sequencing data are derived from the Illumina GA platform. The SOLiD™ and Roche/454 platforms account for 15% and 5% of submitted base pairs, respectively.(…)”

[Leinonen R et. al., 2011]

“We’re growing by about 1 Tb/month.”NCBI’s staff scientist Martin Shumway

InternationalNucleotideSequenceDatabaseCollaboration

• SRA (NCBI Sequence Read Archive): http://www.ncbi.nlm.nih.gov/sra• ENA (EBI European Nucleotide Archive): http://www.ebi.ac.uk/ena/• DRA (DDBJ Sequence Read Archive): http://trace.ddbj.nig.ac.jp/dra/index_e.shtml

Novas promessas

• HeliScope– Helicos BioSciences

• ION Torrent– Applied Biosystems

• PacBio RS– Pacific Biosciences

2008

2010

2010

$100 genome• Seqüenciamento genoma

completo – 2010 (~U$50.000,00)– 2011 (~U$10.000,00)

• Testes genéticos (marcadores)– deCODEme (~U$2.000,00 ~50

doenças/traços)• http://www.decodeme.com/

– 23andme (~U$500,00 ~174 relatórios saúde)• http://www.23andme.com

1000 Genomes• Catálogo completo e

detalhado de Variantes Genômicas Humanas

• 2.000 genomas, 4x cobertura– 1.270 genomas seqüenciados– Mais de 6 trilhões de bases

• Suporte financeiro– Wellcome Trust Sanger

Institute (Inglaterra);– Beijing Genomics Institute

(China);– National Human Genome

Research Institute (EUA);

Craig Venter

Início dos anos 90...Início do Projeto Genoma Humano

Por onde começar?

Bancos de Dados

Propriedades:

- Representar um aspecto do mundo real;- Conter dados coerentes e com um significado inerente;- Deve ter um propósito;

A database is a repository for a collection of computerized data files. (C.J.Date)

A database is a collection of related data. By data, we mean known facts that can be recorded and that have implicit meaning. (R. Elmasri and S. B. Navathe)

Abordagem utilizando Sistema de Arquivos

• Cada usuário define e implementa os arquivos necessários para uma aplicação específica.– Gera redundância na definição e no

armazenamento dos dados;– Possui estrutura específica e dependente de

determinada aplicação;– Não permite compartilhamento e acesso

concorrente;– …

Abordagem utilizando Sistema de Banco de Dados

• Utiliza um sistema de gerenciamento de bancos de dados para manter um único repositório de dados;– Evita redundância;– Contém em si a definição de sua estrutura (metadados);– Possui restrições implementadas que evitam inconsistências nos

dados;– Solução genérica para qualquer aplicação;– Permite o acesso concorrente de múltiplos usuários;– Permite diferentes visões dos dados;– Independência da aplicação;– Permite representar relacionamentos complexos entre os dados;– ...

Em que situações a abordagem com arquivos é indicada?

• O banco de dados e as aplicações são simples e bem definidas e não espera-se alterações;

• Há o requisito de tempo-real para alguns programas, não encontrado com o uso de SGBDs dada sua sobrecarga;

• Não há necessidade de múltiplos acessos.

Elmasri, R. A. and Navathe

Ambiente Simplificado de um Sistema de Banco de Dados

Banco de Dados Flat file

• Abordagem utilizando arquivos– Arquivos que contêm registros de dados que não

estão estruturalmente relacionados.• Exemplo: Banco de Dados flat file de seqüências

de nucleotídeos (nt)• Possui um padrão específico de formatação

– GenBank, Fasta, ASN.1 ...• É necessário um programa chamado de parser,

que reconhece esses formatos específicos e conseguem extrair informação de forma automática.

– Ex.: Módulos da BioPerl

Repositórios de Dados Biológicos

• 1965 – Atlas of Protein Sequences and Structure (Dayhoff et al.) - ~1Mb

• 1982 – GenBank – 1988 – NCBI – National Center for Biotechnology Information

• 1997 – EMBL – European Molecular Biology Laboratory

• 1986 – DDBJ – DNA Data Bank of Japan

E agora ?

Análise dos Dados• Necessidade de sistemas

computacionais para análise dos dados e interpretação dos resultados.

• Desafios : – Armazenar e organizar– Estabelecer relações– Procurar padrões– Analisar– Filtrar– Desenvolver mecanismo de

visualização– Integrar– Etc.

Equipe Multidisciplinar

Bioinformática

Etimologia

Bio = “bios” (vida)+Informática = “informatik” (informação +

automática)

Termo “Bioinformática”

• “Bioinformática”– Paulien Hogeweg, 1978

• Estudo de sistemas biológicos como sistemas dinâmicos (modelos matemáticos que descrevem o comportamento de um sistema)

– Origem disputada, meados 1980• Análise de seqüências biológicas

Bioinformática

“The mathematical, statistical and computing methods that aim to solve biological problems using DNA and amino acid sequences and related information.”

Fredj Tekaia ( Institut Pasteur )

“Métodos matemáticos, estatísticos e computacionais para resolver problemas biológicos usando seqüências de DNA e aminoácidos e informações relacionadas”

Biologia Computacional

“Computational biology is not a “field”, but an “approach” involving the use of computers to study biological processes and hence it is an area as diverse as biology itself.”

Paul J Schulte ( University of Washington )

“Biologia Computacional não é um “campo”, mas uma “abordagem” envolvendo o uso de computadores para estudar processos biológicos e portanto é uma área tão diversa quanto a biologia em si.”

Definições atuais• Bioinformática: Pesquisa, desenvolvimento, ou aplicação de

ferramentas computacionais e abordagens para expandir a utilização de dados biológicos, médicos, comportamentais e de saúde, incluindo a aquisição, o armazenamento, a organização, o arquivamento a análise ou visualização desses dados.

• Computational Biology: O desenvolvimento e aplicação de métodos teóricos e analíticos, incluindo modelagem matemática e aplicação de técnicas de simulações computacionais para o estudo de sistemas biológicos, sociais ou comportamentais.

Biomedical Information Science and Technology Initiative Consortium (NIH)

As Bases da Bioinformática

ÁREAS DE APLICAÇÃO

Projetos “-omas”x

Pesquisa Clássica em Genética e Bioquímica

                                                  

             

Science 291:1221. 2001

Genômica

Transcritômica

Proteômica

Epigenômica

Metabolômica

Genômica• Genômica Estrutural

– Construção de mapas genéticos, físicos e de transcrição de um organismo.

• Genômica Funcional– Caracterização das

propriedades funcionais do conjunto gênico e padrão de Expressão Gênica.

• Genômica Comparativa• Genômica Clínica

Proteômica• Como regra geral, as proteínas são estudadas isoladamente.• A Proteômica engloba o estudo amplo de todas as propriedades

das proteínas, isoladamente e em interação com o organismo.

Bioinformática “Clássica”• Organização da Informação

Biológica– Definição de Bases de Dados

• Genômica Estrutural– Análise de seqüências de DNA ou

RNA• Processamento automatizado dos

Dados de Seqüências (pipelines);• Montagem de seqüências genômicas;• Predição Gênica;• Definição das estruturas gênicas;• Mapeamento genômico de estruturas

gênicas;• Identificação e de Polimorfismos de

DNA;• ...

Montagem do quebra-cabeças

HUMAN GENOME CONSORTIUM CELERA GENOMICS

100.000 fragmentos (1000 b) - ~ 3 a 4 milhões de bases (Genoma de uma Bactéria)

Estratégias (Pública x Privada)

Cra

ig V

ente

r

Fran

cis

Col

lins

Base-Calling

• Phred : http://www.phrap.com/phred/ • Lê o arquivo do cromatograma da seqüência de DNA e

analisa os picos para descrever as bases, associando um valor de qualidade para cada base descrita.

Phred quality score Probability that the base is called wrong Accuracy of the base call10 1 in 10 90%20 1 in 100 99%30 1 in 1,000 99,90%40 1 in 10,000 99,99%50 1 in 100,000 99,999%

Problema clássicoComo obter as sequências de

nucleotídeos dos cromossomos a partir do sequenciamento de milhares de sequências de fragmentos de DNA?

Como montar as peças desse quebra-cabeças?

Problema clássico Sejam duas seqüências de caracteres distintas:

É possível quantificar o quanto elas estão relacionadas e quais regiões são correspondentes entre si?

ATATTAATGATTTGTAAGGTGGTGGTGGGGAACTTG 

GCTAGACGAATGATTTGTAATGTGGTGGGAAACTTG

Alinhamento de seqüências ATATTAATGATTTGTAAGGTGGTGGTGGGGAACTTG  ||||||||||||||||||||||||GCTAGACGAATGATTTGTAATGTGGTGGGAAACTTG

Alinhamento de Sequências

Em Bioinformática, alinhamento de sequências é uma forma de dispor as sequências de DNA, RNA, ou proteínas para identificar regiões de similaridade que podem ser consequência de relacionamentos funcionais, estruturais ou relações evolutivas entre elas.

Significado Biológico do Alinhamento de Sequências

• Definição de 3 termos importantes:– identidade: refere-se à fração de aminoácidos

ou nucleotídeos idênticos entre pares de sequências após um alinhamento dessas sequências;

– similaridade: refere-se à fração de aminoácidos ou nucleotídeos similares (com propriedades físico-químicas semelhantes – aminoácidos conservados) entre pares de sequências após um alinhamento dessas sequências;

– homologia: representa uma relação evolutiva entre as sequências;• Homólogos

– Parálogos;– Ortólogos;

Há uma referência?• Resequenciamento

– Existem sequências produzidas a partir de um genoma/transcriptoma da mesma espécie da amostra ou de uma espécie relacionada que podem ser usadas como referências. Alinhamento com a referência.

• Sequenciamento de novo– Não há sequências que podem ser usadas como

referências. Este tipo de sequenciamento exigirá uma montagem (assembly) das sequências, utilizando apenas os dados obtidos desse sequenciamento. Alinhamento entre as sequencias geradas, que permitirá a obtenção de um consenso.

Identificação das sequências• Resequenciamento

– Alinhamento: Conjunto de Sequências X Sequências Referências (Ex.: Genoma)

>seq1gcagtcagtcacacatgtca...>seq2cgcgcatgcGcgtactctat...>seq3tcgagcatcatcagtcgtca...>seq4tatgctttatagcgagtcat........

>chrXatcacacatgtcacatggtcagggcatcagtcagtcagtcatgcgcgcgcatgcCcgtactctatctcatgcgtcagtcatgcatgcgagcagtcatgcatgcatcgcactgcatcatacgtcatgcatgaa.....

Objetivos:- Eliminar as sequência sem hit- Eliminar as sequência com hits múltiplos (ambiguous)- Identificar as sequência com hit único (unambiguous)

Montagem de sequências• Sequenciamento de novo

– Alinhamentos: • Conjunto de Sequências X Conjunto de Sequências (alinhamento pareado)• Alinhamento Múltiplo de Sequências (MSA)

ACAGTACGACAGTACGACCAGTACGATAGCAGTACGATACGACCGA TCCAGTACGATAGCAGTACGATCAG GCACAGTACGACCAGTACGATACAGGAAC CAGGTACGATACGACGGACGGGGACAGTACGACAGTACGAAAC GTACGACCAGTACGATACACT AACGACAGTACGAAACGGG TATAGGTACGATACGACGGAC

Consensus :Seq ASeq BSeq CSeq DSeq ESeq FSeq G

Abordagens para alinhar sequências

ALGORITMOS PARA ALINHAMENTO DE SEQUÊNCIAS

Problema básico• Transformar uma sequência de caracteres em outra:

– Operações:• inserção• deleção• substituição

– Custo de operação:• Score de substituição• Penalidade para Gaps (inserção/deleção)

– Qual é a quantidade de operações mínima ?– Como achar a séries de operações que vai garantir que usamos a

quantidade de operações mínima ?

Exemplo: ACGT ||G-GT

Scores:Match: 2Mismatch (S): -1Gap(I): -2Gap(D): -2

Score (4-2-1): 12 matches: 41 gap: -21 mismatch: -1

Soluções

• Matrix de pontos (dot matrix)– Informação qualitativa;

Drosophila Dystrobrevin and Mouse ortholog

[Gol

dste

in e

Gun

awar

dena

a, 2

000]

Soluções

• Matrix de pontos (dot matrix)– Informação qualitativa;

• Algoritmos de Programação Dinâmica– Smith-Waterman; Needleman-Wunsch;

• SW é um algoritmo para achar o alinhamento mais provável com uma estrutura certa;

Alinhamentos de Sequências• Alinhamento Global (e.g. Algoritmo de Needleman-Wunsch)

• As sequências envolvidas devem ser alinhadas de um extremo ao outro. Adequado quando as sequências possuem aproximadamente o mesmo tamanho.

Seq X : C A T T A G C A G C C T | | | | | | Seq Y : - A G T A – - A G C - -

• Alinhamento Local (e.g. Algoritmo de Smith–Waterman)• Procura-se alinhar apenas as regiões mais similares, independente da

localização relativa de cada região.

Seq X [4,10]: T A G C A G C | | | | |Seq Y [3,7]: T A - - A G C

Alinhamentos (Global/Local) (DNA/Protein)• FASTA (http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml)• EMBOSS Align (http://www.ebi.ac.uk/Tools/emboss/align/)

Matriz de Programação Dinâmica

Exemplo: ACGT ||G-GT

Scores:Match: 2Mismatch (S): -1Gap(I): -2Gap(D): -2

Score (4-2-1): 12 matches: 41 gap: -21 mismatch: -1

D(i, j) = max

D(i-1, j-1) + s(xi, yj) (diagonal -> match/mismatch)D(i -1, j) + g (acima -> gap acima)D(i, j -1) + g (esquerda -> gap esquerda)

D(i-1,j-1)

D(i-1,j)

D(i,j-1) D(i,j)

traceback

GG A

> Score (-2-1): -31 gap: -21 mismatch: -1

> Score(-1-2): -31 mismatch: -11 gap: -2

> Score(-4-2): -62 gaps: -41 gap: -2

GGA

GG A

Solução• Matrix de pontos (dot matrix)

– Informação qualitativa;• Algoritmos de Programação Dinâmica

– Smith-Waterman; Needleman-Wunsch;• SW é um algoritmo para achar o alinhamento mais

provável com uma estrutura certa;• Por razões de tempo e espaço, não pode ser usado para

alinhamento de sequências de larga escala;• Utilizações de aproximações (heurísticas);

• Geralmente, quanto mais rápida for a aproximação, mais distante estará a resposta da solução “correta”;

Desafios

• Eficiência;– velocidade;– sensibilidade;– especificidade;

• Ambiguidade causada por sequências repetitivas;

• Erros inerentes às técnicas de sequenciamento.

Identificação de sequências

• Utilização de sequências referência– Ex.: Genoma

• Localização precisa– quantidade de matches suficientes– não tenha ambiguidade

• Exemplo:– Sequenciamento de transcritos humanos para

determinar expressão gênica

BLAST• Basic Local Alignment Search Tool• http://blast.ncbi.nlm.nih.gov/• Heurística: dicionário de palavras

E-value (S): número de diferentes alinhamentos com scores equivalentes ou melhores que S que são esperados ocorrer ao acaso em buscas em um banco de dados aleatório, do mesmo tamanho, com a mesma composição de bases;

QUANTO MENOR... MELHOR!!!NÃO CONFUNDIR COM P-value (probabilidade)

BLAT• BLAT—The BLAST-Like Alignment Tool• http://genome.ucsc.edu/• Estruturalmente diferente (BLAST)

– Além de outros pontos, o Blat constrói um índice do banco de dado de sequências (database) (k-mers) e faz as buscas na sequência a qual se deseja consultar (query);

• Blat é mais rápido, porém menos sensível;• Possui código especialmente para lidar com intros em alinhamentos RNA/DNA;• Comumente utilizado para localizar uma determinada sequência no genoma ou

determinar a estrutura de exons de um RNA;• Pode ser utilizado para alinhar sequências de Roche/454;

Alinhamento de sequências curtas

• BLAST/BLAT são lentos demais para alinhar milhões de sequências (Illumina: 35bp-100bp/SOLiD: )

• Novos algoritmos– Novas implementações

• BWA• Bowtie• Bfast• Mosaik• ...

Mascaramento de Vetores

• Mascaramento das regiões que representam, normalmente, partes dos vetores de clonagem onde as seqüências de interesse foram inseridas ou pedaços de DNA adaptadores utilizados durante o experimento.

• Cross_match (http://www.phrap.org/phredphrap/)

>CloneXTGAGATCACTTCCCTTGCACAGTTTGGAAGGGAGAGCACTTTATTACAGACCTTGGAAGCAAGAGGATTG CATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGC TATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTG TTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA CATTGTAAGAAGAAACCGGGGTGGGTGGTGTCTCCAGGTCAATCAACTTCTGTACTGGGCTCTGACCACAGACGATTCACGTGTGGGTCTATGTTCAGGTCCT

>CloneXmaskedTGAGATCACTTCCCTTGCACAGTTTGGAAGGGAGAGCACTTTATTACAGACCTTGGAAGCAAGAGGATTG CATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGC TATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTG TTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA CATTGTAAGAAGAAACCGGGGTGGGTGGTGTCTCCAGGTCAATCAACTTCTGTACTGGGCTCTGACCACAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Mascaramento de Elementos Repetitivos

• Mascaramento das regiões que representam, normalmente elementos repetitivos do genoma (transposons, retrotransposons, ...) ou sequências de baixa complexidade;

• RepeatMasker (http://www.repeatmasker.org/ )

>CloneXTGAGTTAGTTAATTGTGCCAGCCTGGCCGATAATCACATGTGGGGCTAATTGAAAGGCGGAGGGATAAATGGGTGGTGAGCCTCGCCTTTCTAGTTCTCGGGTCTCTTGCTTTGTGATGGATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGCTATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTGTTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA

>CloneXmaskedNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGCTATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTGTTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA

Análise Filogenética• Alinhamento Global• Inferência de Filogenias• Reconstruir o parentesco entre as espécies associando essas

informações a uma escala temporal;• PHYLIP (http://evolution.genetics.washington.edu/phylip.html)

Detecção de Formas Alternativas do Gene

• Encadeamento Alternativo de Exons (Alternative Splicing):• Alinhamento de sequências de transcritos em relação a um genoma

referência;

A) exon skipping (CD44)B) alternative acceptor (MDM2)C) Intron retention (WDR39)

Análise de SNP• SNP - Single Nucleotide Polymorphism • polybayes (http://bioinformatics.bc.edu/marthlab/PolyBayes)

ATGGTGCATCTGACTCCTGAGGAGAAGTCTGCCGTTACTGCCCTGTGGGGCA TGACTCCTGTGGAGAAGTCTGCCGTTACTGCCATGGTGCATCTGACTCCTGAGGAGAAGTCTGATGGTGCATCTGACTCCTGTGGAGAAGTCTGCCGTTACTGCCCTGT GCATCTGACTCCTGAGGAGAAGTCTGCCGTTACTGCCCTGTGGGGATGGTGCATCTGACTCCTGTGGAGAAGTCTGCCGTTACTGCCCTGTGGGGCA CATCTGACTCCTGAGGAGAAGTCTGCCGTTAC

Seq 1 :Seq 2 :Seq 3 :Seq 4 :Seq 5 :Seq 6 :Seq 7 :

Anemia Falciforme- deficiência no transporte de oxigênio

Glutamato (GAG) / Valina (GTG)Gene HBB

Abordagem para montar sequências

• Alinhamentos para montagem de sequências;

• Algoritmos de montagem (Overlap-Layout-Consensus)– Requerem o alinhamentos pareados entre as sequências;

Abordagem para montagem de seqüências• Montagem dos pequenos fragmentos seqüenciados em

seqüências maiores. Considera-se um mosaico de partes da seqüências que são agrupadas, como regiões de alta qualidade e onde a sobreposição.

• Montagem: Phrap (http://www.phrap.org/phredphrap/)

ACAGTACGACAGTACGACCAGTACGATAGCAGTACGATACGACCGA TCCAGTACGATAGCAGTACGATCAG GCACAGTACGACCAGTACGATACAGGAAC CAGGTACGATACGACGGACGGGGACAGTACGACAGTACGAAAC

Consensus :Seq ASeq BSeq CSeq D

Montagem• Definição

– É uma estrutura hierárquica que mapeia os dados de sequências de fragmentos para uma reconstrução aproximada do alvo (neste caso transcritos) em sua forma original;• leituras (reads) => contigs => scaffolds

– A montagem agrupa sequências em contigs e contigs em scaffolds (supercontigs);

– A montagem só é possível quando o alvo (transcriptoma) é excessivamente sequenciado;

Gap

Conceitos Básicos (1)• contig – alinhamento múltiplo de leituras de onde é extraída uma

sequência consenso;• unitig – contig formado pela sobreposição de sequências únicas das

leituras, ou seja, sem ambiguidades;• scaffold – definem a ordem e orientação dos contigs além do

tamanho dos gaps entre os contigs;• singlets – leituras não agrupadas em um contig;• gap – espaço entre dois contigs, onde não se conhece a

sequência;

Conceitos Básicos (2)• Cobertura (coverage)

– Total de pares de bases sequenciadas [N*L] dividido pelo tamanho da região de interesse (genoma) [G]

• ((N*L)/G)– Ex: Genoma de 1Mbp (G)

» 5 milhões de reads (N) de 50bp (L)» Cobertura = (5.000.000 * 50) / 1.000.000 = 25X

– Na prática, corresponde a quantas vezes, em média, cada base do genoma foi sequenciada;

– Profundidade (depth of coverage)• Requisitos para o sequenciamento de genomas:

– Sanger: C. Venter (3Gb ~7.5x) • [Levy et al., 2007]

– Roche 454: J. Watson (3Gb ~7.4x) • [Wheeler et al., 2008]

– Illumina (52pb): Panda (Ailuropoda melanoleura) (2.4Gb ~73x) • [Li et al., 2010]

Montagem “de novo”• Reconstrução da sequência (transcrito) em sua forma

original, sem a consulta de sequências previamente resolvidas de genomas, transcritos e proteínas.

• A montagem é possível quando o alvo é excessivamente amostrado com leituras “shotgun” que se sobrepõem.

• Montagem de novo de dados de Next-Generation Sequencing (NGS)– tamanho das leituras (menos informação por leitura)

• necessidade de maior cobertura – aumento da complexidade;– grande volume de dados

• necessidade de algoritmos que utilizem de forma racional e eficiente os recursos computacionais (CPU/RAM);

Desafios (1)• Contaminates nas amostras (e.g. Bacteria)

• Ribosomal RNA (pequenas e grandes sub-unidades)

• Artefatos gerados na etapa de PCR (e.g. Quimeras e mutações)

• Erros de sequenciamento– e.g. Roche 454 - erros de homopolímeros (3 ou mais bases consecutivas);

• Presença de primers/adaptadores (e.g. adaptadores SMART utilizados na síntese de cDNA);

• Repetições e genomas poliplóides (sequências repetitivas no transcritoma torna a montagem mais difícil);– Necessidade de “spanners” – leituras que atravessam uma região de repetição e que possuem

suficientes regiões únicas em ambos os lados;– Utilização de leituras paired-ends/mate-pairs e suas propriedades de tamanho e orientação,

estando um dos pares ancorado em uma região única;

Desafios (2)• Passos extras na preparação das amostras e síntese de cDNA pode

levar a um maior risco de erros na clonagem ou contaminação;

• Transcritos muito abundantes (alta cobertura), transcritos pouco abundantes (baixa cobertura);

• Processamento alternativo do RNA– e.g. Alternative splicing

• Genes parálogos

• A falta de um genoma referência torna difícil o julgamento da qualidade da montagem

Problemas recorrentes causados por repetições

Visualização• É importante a visualização dos alinhamentos, que permite extrair

conclusões ainda não consideradas.• Visualização : Consed (http://www.phrap.org/phredphrap/)

Mapeamento e Apresentação dos Dados

UCSC Genome Browser ( http://genome.ucsc.edu/ )

Predição Estruturas Gênicas• Identificação de estruturas de genes em DNA genômico• O programa determina a estrutura gênica mais provável baseado

em um modelo probabilístico de um gene estrutural e de propriedades composicionais no DNA genômico de determinado organismo que caracterizam um gene.

• GenScan (http://genes.mit.edu/GENSCAN.html)

O processo de anotaçãogênica

• Onde está localizado ?

• O quê ele faz ?

• Como ele faz ?

Era pós-genômica

Quais são os genes e de que forma eles podem influenciar em determinado fenótipo ?

Expressão Gênica Diferencial

Célula do Músculo Célula da Pele Célula neuralCélula do Músculo Célula da Pele Célula neural

Rede de Interações GênicasRegulação Gênica

Ambiente

Gene A

Gene B

Gene C

Células Normais Células do Tumor

oncogene

supressor tumoral

Expressão Gênica e Câncer

Célula Normal Célula Cancerosa

Cell. 2000 Jan 7;100(1):57-70

Célula Normal Célula Cancerosa

Auxílio diagnóstico eprognóstico

Perfil de expressão de70 genes

Desenvolvimento de novosfármacos e terapias individualizadaspara o tratamento do pacientecom câncer

Genômica Funcional: Análise de Expressão Gênica

Genômica Funcional = Métodos de obtenção de dados em larga escala

+ Métodos de Bioinformática

(Genome-wide expression “profiling”)

Revolução dos projetos “-omas”

Mayo Clin Proc. 2004 May;79(5):651-8

Análises de Expressão Gênica

Experimento de microarray

Nature Genetics  34, 85 - 90 (2003)

HierarchicalCluster

~100,000 – ~150,000 spots

Bioinformática Atual• Análise dos resultados obtidos através da

Genômica e Proteômica.• Análise dos dados obtidos através de novas

técnicas de laboratório.• Desenvolvimento de modelos de simulação de

redes de interações gênicas.• Desenvolvimento de metodologias para o

reconhecimento de padrões de expressão gênica que determinam um fenótipo.

• Análise entre os dados clínicos de pacientes e os obtidos através da pesquisa genômica e proteômica.

• Integração dessas Informações.

Biologia Sistêmica

• Estudo das interações entre as componentes de um sistema biológico, e como essas interações fazem emergir função e comportamento no sistema;

"Systems Biology is the science of discovering, modeling, understanding and ultimately engineering at the molecular level the dynamic relationships between the biological molecules that define living organisms “

Leroy Hood

Integração dos Bancos de Dados Biológicos

• Características– Grande volume de dados;

• Desenvolvimento de novos mecanismos e técnicas para o armazenamento e recuperação (e.g. Google BigTable );

– Não há padrão para os nomes dos objetos;• Ontologias (e.g. Gene Ontology) e organizações que regulam a

nomenclatura (e.g. HUGO)– Não há padrão para acesso aos dados, cuja natureza é

distribuída;• Utilização de formatação padrão para troca de informações (e.g.

GFF) e web services;– Definição variável para alguns conceitos;

• e.g. gene– Dados altamente heterogêneos mas inter-relacionados;– Informação dinâmica e em constante atualização;

Bancos de Dados para Extração de Conhecimento

Data warehouse

Bancos de Dados

Integração dos Dados/Consolidação dos Dados

Seleção epré-processamento

Data mining

Dados

Padrões eModelos

ConhecimentoTransformação

Interpretaçãoe Avaliação

DESENVOLVIMENTO DE SOFTWARES

Plataforma de Desenvolvimento

• Sistemas Operacionais : Linux, UNIX, MacOS, Windows

• Linguagens de Programação : Perl (Practical Extract and Report Language), C/C++, Java, Python

• Sistemas de Gerenciamento de Bancos de Dados : MySQL, PostgreSQL

• BioPerl ?• Projeto de colaboração open-source internacional

(1996- …)• Biblioteca de módulos Perl

• Soluções para a Pesquisa em Bioinformática, Genômica e Ciências Biológicas;

• Tarefas complexas e rotineiras utilizando algumas poucas linhas de código;• Análise e anotação de seqüências e outras áreas;

• Licenciado sob a Perl Artistic License;• Open Bioinformatics Foundation (2002-...)

Open Bioinformatics Foundation

IntroduçãoBioPerl

1. Conhecimentos e alguma experiência na área de Biologia Molecular, Computação e Estatística;

2. Conhecimentos e experiência em utilizar as principais ferramentas e pacotes de análises em Bioinformática;

3. Se sentir à vontade no ambiente de linha de comando;

4. Conhecimentos e experiência em linguagens de programação C/C++, Perl ou Python;

Habilidades essenciais (Bioinformática)

Considerações• A Bioinformática “estima”, você é que afirma.• G.I.G.O. - “Garbage in, garbage out”; Entra lixo,

sai lixo.• Quanto mais informações corretas você puder

dar, melhor será o resultado.• Sempre há um resultado, pode ser bom ou ruim,

mas como julgar?• Não há fuga da bancada.• Se você torturar os dados o suficiente, eles irão

confessar qualquer coisa.

Centros de Pesquisa

Next Generation Sequencers

No mundo...

National Center for Biotechnology Informationhttp://www.ncbi.nlm.nih.govBethesda – MD - US

European Bioinformatics Institutehttp://www.ebi.ac.uk Hinxton - UK

South African National Bioinformatics Institutehttp://www.sanbi.ac.za Tygerberg - ZA

Center for Information Biology http://www.cib.nig.ac.jp Mishima - JP

TIGR/J. Craig Venter Institutehttp://jcvi.orgSan Diego - CA - US

Wellcome trust SANGER Institutehttp://www.sanger.ac.uk/Hinxton - UK

Companhias de Bioinformática

http://www.bioplanet.com/bioinformatics_companies.htm

e no Brasil...

Ludwig Institute for Cancer Research – São Paulo Branchhttp://www.ludwig.org.brSão Paulo - BR

Laboratório Nacional de Computação Científicahttp://www.lncc.br Petrópolis - BR

Embrapahttp://www.nbi.cnptia.embrapa.br Campinas - BR

Laboratório de Genética Molecular e Bioinformática (INCTC)http://lgmb.fmrp.usp.br/inctc/Ribeirão Preto - BR

Departamento de Bioquímica - Instituto de Química - USPhttp://verjo19.iq.usp.br/pt_index.php São Paulo - BR

Bioinformatics Laboratory - Universidade Católica de Brasília (BioFoco)http://bioinformatica.ucb.brBrasília - BR

Laboratory for Bioinformatics – UNICAMPhttp://www.lbi.dcc.unicamp.br Campinas - BR

Alellyx Applied Genomicshttp://www.alellyx.com.br Campinas - BR

Scylla Bioinformáticahttp://www.scylla.com.br Campinas - BR

Formação na Área

Graduação• Informática Biomédica – USP• 3 principais áreas

– Bioinformática– Processamento de Imagens e

sinais– Sistemas de Informação em

Saúde

Pós-Graduação• Bioinformática – Interunidades/USP

– http://www.ime.usp.br/posbioinfo/• Genética – FMRP/USP

– http://rge.fmrp.usp.br/• Bioinformática – UFMG

– http://www.pgbioinfo.icb.ufmg.br/• Genética – UFPA

– http://www.lghm.ufpa.br/ppgbm/• Bioinformática – UFPR

– http://www.bioinfo.ufpr.br/

Curso de Inverno em Bioinformática

• Objetivo principal : curso introdutório sobre as principais técnicas utilizadas em projetos de Bioinformática, permitindo a integração entre os interssados na área.

• Público alvo : O curso é aberto a toda comunidade, direcionado principalmente aos alunos de graduação, sem restrição de área.

• http://gbi.fmrp.usp.br/cursodeinverno/

Curso de Verão em Bioinformática

• Objetivo principal : apresentar um cenário real de elaboração e execução de um projeto em Bioinformática.

• Público alvo : alunos de graduação, pós-graduação ou profissionais, das áreas de ciências exatas ou biológicas .

• http://lgmb.fmrp.usp.br/cvbioinfo/

AB3C

• Servir a comunidade científica brasileira e internacional influenciando as políticas governamentais e científicas;

• Representar a comunidade brasileira de Bioinformática e Biologia Computacional junto aos poderes públicos, influenciando as políticas de governo em ciência e tecnologia;

• Congregar a comunidade brasileira de Bioinformática e Biologia Computacional, possibilitando um maior relacionamento social e profissional entre seus membros;

• Organizar encontros e publicações de alta qualidade na área de Bioinformática e Biologia Computacional;

• Distribuir informação sobre treinamento, educação, emprego e notícias relevantes de áreas correlatas.

http://www.ab3c.org/

X-Meeting

http://www.ab3c.org/xmeeting

Perspectivas

http://physweb.bgu.ac.il

... para a Bioinformática

• Consolidar-se definitivamente como ciência.– Disciplina obrigatória na área de Genética Molecular;– Disciplina opcional para área de Ciência da Computação;– No Brasil, novos cursos de graduação, extensão e pós-graduação.

• Em universidades públicas e privadas.• No Brasil, deve desenvolver-se também em outros estados.• Desenvolvimento da Bioinformática aplicada à Proteômica.• Desafio do futuro: integrar todo o conhecimento adquirido (Biologia

Sistêmica).• Exigir e promover ainda mais a multidisciplinaridade e a integração

entre os profissionais das diferentes áreas envolvidas.• Conquistar o mercado.

– No Brasil, a área ainda tem muito espaço pra crescer.• Mais investimentos na área.

e para o bioinformata

•No Brasil–Ainda muito restrito à área acadêmica e institutos públicos de pesquisa;–Bolsas de Estudo de Instituições de fomento à Pesquisa.–Poucos cursos e treinamento para capacitação.–Excelente formação na área;•América do Norte e Europa e Ásia–Grandes centros de Bioinformática financiados por instituições

governamentais e privadas [empresas farmacêuticas];–Cursos e treinamentos especializados para a capacitação.–Carreira de Bioinformática - salário médio anual - Pesquisador:

US$77.710,00 – (~R$140.000,00)•http://www.jobs-salary.com

Referências

Referências• STRACHAN, T ; READ, A P. Genética Molecular Humana.  Artmed. 2002.• Alberts, B; Johnson, A; Lewis J; Raff, M; Roberts, K; Walter, A. Biologia Molecular da Célula. Ed.

Artmed. 2004.• Prosdocimi F et. al. Bioinformática: manual do usuário . Biotec. Ci. Des. 29: 18-31, 2002.• O DNA Vai à Escola,

http://www.odnavaiaescola.com • Wikipedia,

http://en.wikipedia.org/wiki/Main_Page • Revista ComCiência,

http://www.comciencia.br • Genome News Network,

http://www.genomenewsnetwork.org• Folha Online,

http://www1.folha.uol.com.br • Bioinformatics.Org

http://bioinformatics.org • Catálogo de Centros de Bioinformática

http://sullivan.bu.edu/~mfrith/BioinfoCenters.html• Salários

http://www.jobs-salary.com/bioinformatics-scientist-salary.htm• Genome (NHGRI)

http://www.genome.gov

Links Úteis e Interessantes

• Bioinformatics Organization (http://www.bioinformatics.org/)

• NCBI (http://www.ncbi.nlm.nih.gov)

• EBI (http://www.ebi.ac.uk/)

• CPAN - Comprehensive Perl Archive Network (http://www.cpan.org)

• BioPerl (http://bioperl.org)

• Os livros editados pela O’REILLY (http://www.oreilly.com)– Perl (http://oreilly.com/pub/topic/perl)– Bioinformatics (http://oreilly.com/pub/topic/bioinformatics)

• Periódicos Científicos– Bioinformatics (http://bioinformatics.oxfordjournals.org/)– BMC Bioinformatics (http://www.biomedcentral.com/bmcbioinformatics/)

Daniel Guariz Pinheirodgpinheiro@usp.br

http://lgmb.fmrp.usp.br/~daniel/

Laboratório de Genética Molecular e Bioinformáticahttp://lgmb.fmrp.usp.br

OBRIGADO PELA PACIÊNCIA !!!

Perguntas...

Recommended