59
Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Doutorado em Ciências com ênfase em Genética Uma plataforma computacional para análise de expressão diferencial múltipla

Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr

Embed Size (px)

DESCRIPTION

Uma plataforma computacional para análise de expressão diferencial múltipla. Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto - PowerPoint PPT Presentation

Citation preview

Israel Tojal da Silva

Orientador: Prof. Wilson Araújo da Silva Jr.

Laboratório de Genética Molecular e BioinformáticaDepartamento de Genética

Faculdade de Medicina de Ribeirão Preto

Doutorado em Ciências com ênfase em Genética

Uma plataforma computacional para análise de expressão diferencial múltipla

Introdução

Expressão Gênica

IntroduçãoExpressão gênica

Dogma Central da Biologia Molecular

IntroduçãoExpressão gênica

Por que estudar o transcriptoma?

Um ponto de partida para a compreensão das desordens moleculares associadas com a fisiopatologia de um dado fenótipo.

(Murray et al., 2007)

0

20000

40000

60000

19

51

19

62

19

65

19

68

19

71

19

74

19

77

19

80

19

83

19

86

19

89

19

92

19

95

19

98

20

01

20

04

20

07

20

10

gene expression gene expression AND cancer

Busca no PubMed por palavra chave

IntroduçãoExpressão gênica

Análise dos perfis de expressão gênica

IntroduçãoExpressão gênica

• Real Time quantitative RT-PCR

• Microarray (Schena et al., 1995)

• Serial Analysis of Gene Expression (SAGE) (Velculescu et al., 1995)

• Massively Parallel Signature Sequencing (MPSS) (Brenner et al., 2000)

• Proxima geração de sequenciamento (Rusk & Kiermer, 2008)

• 454 Roche• Illumina Solexa• SOLiD system

Medida da Expressão Gênica

IntroduçãoBanco de dados biológicos

NCBI - National Center for Biotechnology Information

Estado da arte

Introdução

Análise da Expressão Diferencial – ED

Questões :

Sejam duas amostras biológicas C e T, quais os genes que estão hiper ( > ) ou hipo ( < ) expressos em relação ao controle( C ) ?

IntroduçãoEstado da arte

C T

C < T

p < cutoff

T<T c/ p < cutoff

• Análise ED

(1)

(2)

(3)

(4)

C T

C < T

IntroduçãoEstado da arte

Teste

Teste Fisher Exato X2

Audic-Claverie (Audic & Claverie, 1997) teste t

w (Baggely et al., 2003)

teste log-t (Lu et al., 2005) SAGEbetaBin (Vencio et al., 2004), etc

IntroduçãoEstado da arte

Ferramentas web para análise ED

T1 T2 T3

IntroduçãoEstado da arte

Análise da Expressão Diferencial Múltipla – ED

Questões :

Sejam duas amostras biológicas C e T, quais os genes que estão hiper ( > ) ou hipo ( < ) expressos em relação ao controle( C ) ?

A B

A < B

p < cutoff

Teste

A < B c/ p < cutoff

• Análise EDM

A CB

(1)

(2)

(3)

(4)

B C Teste

B > C

p < cutoff

B > C c/ p < cutoff

(5)A<B AND B>CA < B > C

A < B > C

IntroduçãoEstado da arte

Erros de estimação

A, B : A B ;

A, B, C : A B ; B C

(Romualdi et al., 2003)

Objetivos

Introdução

IntroduçãoObjetivos

Geral

Desenvolver uma plataforma computacional para análises de EDM;

ProbFAST

Gene1Gene2Gene3Gene4Gene5….GeneN

A CB

Conhecimento apriori

Hipótese

Medidas

Análises

Interpretação

IntroduçãoObjetivos

Geral

Desenvolver uma plataforma computacional para análises de EDM;

Específicos

Estabelecer uma métrica de avaliação e verificar o desempenho do método em relação às demais abordagens por meio de um estudo simulado;

Criar uma plataforma (ProbFAST) que permita análises globais associando aos resultados informações funcionais;

Avaliar um conjunto de dados de expressão gênica pelo ProbFAST.

ProbFAST

Gene1Gene2Gene3Gene4Gene5….GeneN

A B

Conhecimento apriori

Hipótese

Medidas

Análises

Interpretação

Material e Métodos

Método para análise EDM e ED

A B C

G1 6 99 24

G2 46 88 66

G3 24 65 52

G4 66 76 25

G5 11 8 89

… … ... ...

GN 3 77 49

CONDIÇÃO BIOLÓGICA

EXPRESSÃO

3

10

50

100

A B C

Beta(a,b) (Chen et al., 1998; Baggerly et al., 2003; Vëncio et al. 2003; Zuyderdyn, 2007)

Material e MétodosModelagem

P (A < B > C) P ( (A < B ) AND (A>C) ) …

Material e MétodosModelagem

Como funciona ?

A B C

G1 26 19 24

G2 56 48 66

G3 44 45 52

G4 66 36 65

G5 11 8 59

… … ... ...

GN 33 7 49

A > B < C+

+

Cutoff

G1 59

G2 66

G3 62

G4 88

G5 79

… ...

GN 94

MAQC - MicroArray Quality Control

• Affymetrix (AFX);

•~ 1000 genes validados ( TaqMan )

• 2 amostras de RNAs:Universal Human Reference RNA (UHRR) Human Brain Reference RNA (HBRR)

•4 pools: A: 100% UHRR B: 100% HBRR C: 75% UHRR e 25% HBRR D: 25% UHRR:75% HBRR

(Shi et al .2006)

Material e MétodosAvaliação do método - Análise simulada

Affymetrix (AFX)

Material e MétodosEstudo simulado – pré processamento

Atualizada a anotação spot c/ maior intensidade Excluir probes repetidos TaqMan

4 test site

A B C D

A1 6 99 24 32

A2 56 88 66 19

A3 24 65 52 61

A4 66 76 25 53

A5 11 8 89 47

1) A1,A2,A3,A4 > B1,B2,B3,B4

2) A1 > C1 > D1 > B1

Gerando as tags virtuais

Curva ROC (Receiver Operating Characteristic)

1 – TN/(FP+TN)

TP

/(T

P+

FN

)

(Fawcett 2006)

Material e MétodosAvaliação do método - Análise simulada

• Verdadeiro positivo - TP , Verdadeiro negativo - TN • Falso positivo - FP , Falso negativo - FN

Construindo a curva ROC

Material e MétodosAvaliação do método - Análise simulada

Corte TP TN FP FN X Y70 179 105 414 22 0.80 0.8971 178 106 413 23 0.80 0.8972 178 109 410 23 0.79 0.8973 178 109 410 23 0.79 0.8974 178 120 399 23 0.77 0.8975 178 120 399 23 0.77 0.8976 178 120 399 23 0.77 0.8977 177 125 394 24 0.76 0.8878 177 125 394 24 0.76 0.88...100 176 131 388 25 0.75 0.88

TaqMan

Cutoff

G1 59

G2 66

G3 62

G4 88

G5 79

… ...

GN 94

Cortes (limiar de decisão)

+

+

Material e MétodosPlataforma de desenvolvimento – ProbFAST

Linguagem de Programação

• R• PERL

Interface de Aplicação

• CGI + Apache• DBI

Sistema de Gerenciamento de Banco de Dados

• MySQL

Sistema Operacional

• Linux Red Hat

DBDesigner, CPAN, BioPERL

Material e Métodos Modelo entidade relacional - ProbFAST

Dados Biológicos

• Informações funcionaisi. KEGGii. BIOCARTA/CGAPiii. Gene Ontology

• Dados de expressão gênica

i. GEO(Gene Expression Omnibus)

• Anotaçãoi. Unigene – Geneii. Tag - gene

Material e MétodosAplicação – Análise com dados reais

Efeito da radiação na expressão gênica

Acesso Biblioteca # Tags # Transcritos

GSM66698 Controle 17297 52162

GSM66712 Exposta a RF durante 2h 15487 51916

GSM66714 Exporsta a RF durante 6h 17814 51601

GSM755 Tumoral 23001 57686

GSM756 Tumoral 21254 49064

GSM728 Normal 17913 50179

GSM729 Normal 16569 49593

Grupos biológicos

Resultados e Discussões

Resultados e Discussões

Resultados e Discussões

Análise da curva ROC

A1,A2,A3,A4 > B1,B2,B3,B4 ( ProbFAST x Baggerly x BetaBin x log-t )

F =1E6 F =1E7 F =1E8

Resultados e DiscussõesEstudo simulado

Análise da curva ROC

A1,A2,A3,A4 > B1,B2,B3,B4 ( ProbFAST x Baggerly x BetaBin x log-t )

F = 1E6

Resultados e DiscussõesEstudo simulado

A1 C1

A1 >C1

p < cutoff

A1 > C1 c/ p < cutoff

(1)

(2)

(3)

(4)

C1 D1

C1 > D1

p < cutoff

C1 > D1 c/ p < cutoff

(5)A1 >C1 AND C1>D1 AND D1>B1 ( A1>C1>D1>B1 )

D1 > B1 c/ p < cutoff

D1 B1

D1 > B1

p < cutoff

Análise da curva ROC

A1>C1>D1>B1 ( ProbFAST x Fisher x Chi2x2 x AC )

Resultados e DiscussõesEstudo simulado

Análise da curva ROC

A1>C1>D1>B1 ( ProbFAST x Fisher x Chi2x2 x AC )

F = 1E7F = 1E6 F = 1E8

Resultados e DiscussõesEstudo simulado

Análise da curva ROC

A1>C1>D1>B1 ( ProbFAST x Fisher x Chi2x2 x AC )

F = 1E7

Resultados e DiscussõesEstudo simulado

ResultadosProbFAST - Arquitetura

ProbFAST – Probabilistic Functional Analysis System Tool

http://gdm.fmrp.usp.br/probfast

Analysis

Creating Question

VisualizeAnalysis

Resultados e discussõesProbFAST – interface web

Analysis

Creating Question

VisualizeAnalysis

Resultados e discussõesProbFAST – interface web

ProbFAST– Workflow web

Analysis

Creating Question

€€€

VisualizeAnalysis

Resultados e discussõesProbFAST – interface web

Analysis

Creating Question

VisualizeAnalysis

Resultados e discussõesProbFAST – interface web

Aplicações

Resultados e discussões

Efeito da radiação na expressão gênica

Lee et al. (2005) GSM66698 (CT), GSM66712 (2h) e GSM66714 (6h)

ProbFAST - questões avaliadas relacionadas ao tempo de exposição

Quais os genes que foram ativados ( CT < 2h < 6h )

Quais os genes que foram desativados ( CT > 2h > 6h )PTMA (prothymosin, alpha)

• Ojima et al (2007) células suscetíveis a apotose

Resultados e discussõesAplicações

EIF5 (eukaryotic translation initiation factor 5) • Li et al. (2004) indução apotose – cancer de pulmão• Taylor et al. (2004) protegeu células a entrarem em apoptose

X

Resultados e discussõesAplicações

Efeito da radiação na expressão gênica

Lee et al. (2005) GSM66698 (CT), GSM66712 (2h) e GSM66714 (6h)

ProbFAST - questões avaliadas relacionadas ao tempo de exposição

Resultados e discussõesAplicações

EIF5PTMA

Apoptose

Resultados e discussõesAplicacões

Resultados e discussõesAplicacões

Resultados e discussõesAplicacões

Gene Estudo Descrição

PRR5 Johnstone et al. 2005

Envolvido com a tumorigênese de colon retal e células mamárias

BP1 Rojo et al., 2007 Progressão de neoplasias por meio da sinalização celular

S100A6 Komatsu et al. 2002

Tumorigênese cólon retal

PLCB2 Bertagnolo et al. 2007

Capacidade de invasão em células mamárias

REG1A LIU et al. 2008 Infiltração de propriedade primária do carcinoma gástrico.

Hanahan & Weinberg (2000)

Conclusão

ConclusãoProbFAST para análises EDM e ED

• ProbFAST para análises EDM e ED– Aplicação web (on the fly) para análises de dados de expressão

basedo em sequenciamento (perfis digitais);– Interface intuitiva para formular expressões ( AND , > , < ) ;– Análises globais a partir de dados públicos (GEO) e/ou privados ;– Ambiente integrado com informações funcionais do Gene

Ontology, Biocarta e KEGG;– Alternativa de análise aos procedimentos usuais.

ConclusãoEstudo simulado

• Avaliação do método – estudo simulado– Curva ROC– MAQC – gerar os dados virtuais– Boa performance quando comparado aos procedimentos usuais

durante análise EDM (A>B>C>D) e ED (A1,A2,A3,A4 > B1,B2,B3,B4)

ConclusãoAnálise com dados reais

• Avaliação do método – dados reais– 2 análises realizadas;

• Exposição a RF ( Ativados e Desativados )• Super expressos em amostras tumorais

– Resultados refletem a natureza dos dados experimentais; – Genes não descritos em Lee et al. (2005) ;– Informações funcionais (GO e vias) associados aos genes auxiliam

a visualizar os processos ativados e/ou desativados.

Conclusão

O ambiente integrado do ProbFAST habilita identificar potenciais marcadores baseados nas alterações no padrão de expressão gênica e, também, auxilia o pesquisador a compreender em termos funcionais estas alterações.

Conclusão

• Próximas etapas– Integrar informações de outros estudos a partir do GeneRIF (Gene

Reference Into Function);– Adaptar o ProbFAST para comportar processamento paralelo

com o objetivo de reduzir o tempo de processamento;– Disponibilizar um sistema de exportação dos dados para análises

locais.– Comportar análises com dados de Microarray

Agradecimentos

Prof. Rafael Rosales – DFM/FFCLRP

Prof. Ricardo Vêncio – RGE/FMRP Prof. Junior Barrera – DFM/FFCLRP

LaLaboratório de boratório de GeGenética nética MMolecular e olecular e BBioinformáticaioinformática