View
28
Download
1
Category
Preview:
DESCRIPTION
Uma plataforma computacional para análise de expressão diferencial múltipla. Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto - PowerPoint PPT Presentation
Citation preview
Israel Tojal da Silva
Orientador: Prof. Wilson Araújo da Silva Jr.
Laboratório de Genética Molecular e BioinformáticaDepartamento de Genética
Faculdade de Medicina de Ribeirão Preto
Doutorado em Ciências com ênfase em Genética
Uma plataforma computacional para análise de expressão diferencial múltipla
IntroduçãoExpressão gênica
Por que estudar o transcriptoma?
Um ponto de partida para a compreensão das desordens moleculares associadas com a fisiopatologia de um dado fenótipo.
(Murray et al., 2007)
0
20000
40000
60000
19
51
19
62
19
65
19
68
19
71
19
74
19
77
19
80
19
83
19
86
19
89
19
92
19
95
19
98
20
01
20
04
20
07
20
10
gene expression gene expression AND cancer
Busca no PubMed por palavra chave
IntroduçãoExpressão gênica
• Real Time quantitative RT-PCR
• Microarray (Schena et al., 1995)
• Serial Analysis of Gene Expression (SAGE) (Velculescu et al., 1995)
• Massively Parallel Signature Sequencing (MPSS) (Brenner et al., 2000)
• Proxima geração de sequenciamento (Rusk & Kiermer, 2008)
• 454 Roche• Illumina Solexa• SOLiD system
Medida da Expressão Gênica
Análise da Expressão Diferencial – ED
Questões :
Sejam duas amostras biológicas C e T, quais os genes que estão hiper ( > ) ou hipo ( < ) expressos em relação ao controle( C ) ?
IntroduçãoEstado da arte
C T
C < T
p < cutoff
T<T c/ p < cutoff
• Análise ED
(1)
(2)
(3)
(4)
C T
C < T
IntroduçãoEstado da arte
Teste
Teste Fisher Exato X2
Audic-Claverie (Audic & Claverie, 1997) teste t
w (Baggely et al., 2003)
teste log-t (Lu et al., 2005) SAGEbetaBin (Vencio et al., 2004), etc
T1 T2 T3
IntroduçãoEstado da arte
Análise da Expressão Diferencial Múltipla – ED
Questões :
Sejam duas amostras biológicas C e T, quais os genes que estão hiper ( > ) ou hipo ( < ) expressos em relação ao controle( C ) ?
A B
A < B
p < cutoff
Teste
A < B c/ p < cutoff
• Análise EDM
A CB
(1)
(2)
(3)
(4)
B C Teste
B > C
p < cutoff
B > C c/ p < cutoff
(5)A<B AND B>CA < B > C
A < B > C
IntroduçãoEstado da arte
Erros de estimação
A, B : A B ;
A, B, C : A B ; B C
(Romualdi et al., 2003)
IntroduçãoObjetivos
Geral
Desenvolver uma plataforma computacional para análises de EDM;
ProbFAST
Gene1Gene2Gene3Gene4Gene5….GeneN
A CB
Conhecimento apriori
Hipótese
Medidas
Análises
Interpretação
IntroduçãoObjetivos
Geral
Desenvolver uma plataforma computacional para análises de EDM;
Específicos
Estabelecer uma métrica de avaliação e verificar o desempenho do método em relação às demais abordagens por meio de um estudo simulado;
Criar uma plataforma (ProbFAST) que permita análises globais associando aos resultados informações funcionais;
Avaliar um conjunto de dados de expressão gênica pelo ProbFAST.
ProbFAST
Gene1Gene2Gene3Gene4Gene5….GeneN
A B
Conhecimento apriori
Hipótese
Medidas
Análises
Interpretação
Método para análise EDM e ED
A B C
G1 6 99 24
G2 46 88 66
G3 24 65 52
G4 66 76 25
G5 11 8 89
… … ... ...
GN 3 77 49
CONDIÇÃO BIOLÓGICA
EXPRESSÃO
3
10
50
100
A B C
Beta(a,b) (Chen et al., 1998; Baggerly et al., 2003; Vëncio et al. 2003; Zuyderdyn, 2007)
Material e MétodosModelagem
P (A < B > C) P ( (A < B ) AND (A>C) ) …
Material e MétodosModelagem
Como funciona ?
A B C
G1 26 19 24
G2 56 48 66
G3 44 45 52
G4 66 36 65
G5 11 8 59
… … ... ...
GN 33 7 49
A > B < C+
+
Cutoff
G1 59
G2 66
G3 62
G4 88
G5 79
… ...
GN 94
MAQC - MicroArray Quality Control
• Affymetrix (AFX);
•~ 1000 genes validados ( TaqMan )
• 2 amostras de RNAs:Universal Human Reference RNA (UHRR) Human Brain Reference RNA (HBRR)
•4 pools: A: 100% UHRR B: 100% HBRR C: 75% UHRR e 25% HBRR D: 25% UHRR:75% HBRR
(Shi et al .2006)
Material e MétodosAvaliação do método - Análise simulada
Affymetrix (AFX)
Material e MétodosEstudo simulado – pré processamento
Atualizada a anotação spot c/ maior intensidade Excluir probes repetidos TaqMan
4 test site
A B C D
A1 6 99 24 32
A2 56 88 66 19
A3 24 65 52 61
A4 66 76 25 53
A5 11 8 89 47
1) A1,A2,A3,A4 > B1,B2,B3,B4
2) A1 > C1 > D1 > B1
Gerando as tags virtuais
Curva ROC (Receiver Operating Characteristic)
1 – TN/(FP+TN)
TP
/(T
P+
FN
)
(Fawcett 2006)
Material e MétodosAvaliação do método - Análise simulada
• Verdadeiro positivo - TP , Verdadeiro negativo - TN • Falso positivo - FP , Falso negativo - FN
Construindo a curva ROC
Material e MétodosAvaliação do método - Análise simulada
Corte TP TN FP FN X Y70 179 105 414 22 0.80 0.8971 178 106 413 23 0.80 0.8972 178 109 410 23 0.79 0.8973 178 109 410 23 0.79 0.8974 178 120 399 23 0.77 0.8975 178 120 399 23 0.77 0.8976 178 120 399 23 0.77 0.8977 177 125 394 24 0.76 0.8878 177 125 394 24 0.76 0.88...100 176 131 388 25 0.75 0.88
TaqMan
Cutoff
G1 59
G2 66
G3 62
G4 88
G5 79
… ...
GN 94
Cortes (limiar de decisão)
+
+
Material e MétodosPlataforma de desenvolvimento – ProbFAST
Linguagem de Programação
• R• PERL
Interface de Aplicação
• CGI + Apache• DBI
Sistema de Gerenciamento de Banco de Dados
• MySQL
Sistema Operacional
• Linux Red Hat
DBDesigner, CPAN, BioPERL
Material e Métodos Modelo entidade relacional - ProbFAST
Dados Biológicos
• Informações funcionaisi. KEGGii. BIOCARTA/CGAPiii. Gene Ontology
• Dados de expressão gênica
i. GEO(Gene Expression Omnibus)
• Anotaçãoi. Unigene – Geneii. Tag - gene
Material e MétodosAplicação – Análise com dados reais
Efeito da radiação na expressão gênica
Acesso Biblioteca # Tags # Transcritos
GSM66698 Controle 17297 52162
GSM66712 Exposta a RF durante 2h 15487 51916
GSM66714 Exporsta a RF durante 6h 17814 51601
GSM755 Tumoral 23001 57686
GSM756 Tumoral 21254 49064
GSM728 Normal 17913 50179
GSM729 Normal 16569 49593
Grupos biológicos
Análise da curva ROC
A1,A2,A3,A4 > B1,B2,B3,B4 ( ProbFAST x Baggerly x BetaBin x log-t )
F =1E6 F =1E7 F =1E8
Resultados e DiscussõesEstudo simulado
Análise da curva ROC
A1,A2,A3,A4 > B1,B2,B3,B4 ( ProbFAST x Baggerly x BetaBin x log-t )
F = 1E6
Resultados e DiscussõesEstudo simulado
A1 C1
A1 >C1
p < cutoff
A1 > C1 c/ p < cutoff
(1)
(2)
(3)
(4)
C1 D1
C1 > D1
p < cutoff
C1 > D1 c/ p < cutoff
(5)A1 >C1 AND C1>D1 AND D1>B1 ( A1>C1>D1>B1 )
D1 > B1 c/ p < cutoff
D1 B1
D1 > B1
p < cutoff
Análise da curva ROC
A1>C1>D1>B1 ( ProbFAST x Fisher x Chi2x2 x AC )
Resultados e DiscussõesEstudo simulado
Análise da curva ROC
A1>C1>D1>B1 ( ProbFAST x Fisher x Chi2x2 x AC )
F = 1E7F = 1E6 F = 1E8
Resultados e DiscussõesEstudo simulado
Análise da curva ROC
A1>C1>D1>B1 ( ProbFAST x Fisher x Chi2x2 x AC )
F = 1E7
Resultados e DiscussõesEstudo simulado
ResultadosProbFAST - Arquitetura
ProbFAST – Probabilistic Functional Analysis System Tool
http://gdm.fmrp.usp.br/probfast
ProbFAST– Workflow web
Analysis
Creating Question
€€€
VisualizeAnalysis
Resultados e discussõesProbFAST – interface web
Efeito da radiação na expressão gênica
Lee et al. (2005) GSM66698 (CT), GSM66712 (2h) e GSM66714 (6h)
ProbFAST - questões avaliadas relacionadas ao tempo de exposição
Quais os genes que foram ativados ( CT < 2h < 6h )
Quais os genes que foram desativados ( CT > 2h > 6h )PTMA (prothymosin, alpha)
• Ojima et al (2007) células suscetíveis a apotose
Resultados e discussõesAplicações
EIF5 (eukaryotic translation initiation factor 5) • Li et al. (2004) indução apotose – cancer de pulmão• Taylor et al. (2004) protegeu células a entrarem em apoptose
X
Efeito da radiação na expressão gênica
Lee et al. (2005) GSM66698 (CT), GSM66712 (2h) e GSM66714 (6h)
ProbFAST - questões avaliadas relacionadas ao tempo de exposição
Resultados e discussõesAplicações
EIF5PTMA
Apoptose
Resultados e discussõesAplicacões
Gene Estudo Descrição
PRR5 Johnstone et al. 2005
Envolvido com a tumorigênese de colon retal e células mamárias
BP1 Rojo et al., 2007 Progressão de neoplasias por meio da sinalização celular
S100A6 Komatsu et al. 2002
Tumorigênese cólon retal
PLCB2 Bertagnolo et al. 2007
Capacidade de invasão em células mamárias
REG1A LIU et al. 2008 Infiltração de propriedade primária do carcinoma gástrico.
Hanahan & Weinberg (2000)
ConclusãoProbFAST para análises EDM e ED
• ProbFAST para análises EDM e ED– Aplicação web (on the fly) para análises de dados de expressão
basedo em sequenciamento (perfis digitais);– Interface intuitiva para formular expressões ( AND , > , < ) ;– Análises globais a partir de dados públicos (GEO) e/ou privados ;– Ambiente integrado com informações funcionais do Gene
Ontology, Biocarta e KEGG;– Alternativa de análise aos procedimentos usuais.
ConclusãoEstudo simulado
• Avaliação do método – estudo simulado– Curva ROC– MAQC – gerar os dados virtuais– Boa performance quando comparado aos procedimentos usuais
durante análise EDM (A>B>C>D) e ED (A1,A2,A3,A4 > B1,B2,B3,B4)
ConclusãoAnálise com dados reais
• Avaliação do método – dados reais– 2 análises realizadas;
• Exposição a RF ( Ativados e Desativados )• Super expressos em amostras tumorais
– Resultados refletem a natureza dos dados experimentais; – Genes não descritos em Lee et al. (2005) ;– Informações funcionais (GO e vias) associados aos genes auxiliam
a visualizar os processos ativados e/ou desativados.
Conclusão
O ambiente integrado do ProbFAST habilita identificar potenciais marcadores baseados nas alterações no padrão de expressão gênica e, também, auxilia o pesquisador a compreender em termos funcionais estas alterações.
Conclusão
• Próximas etapas– Integrar informações de outros estudos a partir do GeneRIF (Gene
Reference Into Function);– Adaptar o ProbFAST para comportar processamento paralelo
com o objetivo de reduzir o tempo de processamento;– Disponibilizar um sistema de exportação dos dados para análises
locais.– Comportar análises com dados de Microarray
Recommended