Prof. Dr. Éder Maiquel Simão Email: edersimao@gmail.comedersimao@gmail.com Rio Grande, Setembro de...

Preview:

Citation preview

Softwares de Análises Estatísticas em Biologia Sistêmica

Prof. Dr. Éder Maiquel SimãoEmail: edersimao@gmail.com

Rio Grande, Setembro de 2012

V Conferência Sul em Modelagem Computacional

Roteiro1- Teoria

1.1 Introdução;

1.2 Informação Genética;

1.3 Formação do Câncer;

1.4 Expressão de Proteínas;

2- Prática2.1 Normalização;

2.2 Atividade Relativa - Diversidade Relativa;

2.3 Mudança de Expressão;

2.4 Mapas Funcionais.

1.1 Introdução

Biologia Sistêmica: Integração entre os fenômenos e as teorias que envolvem os sistemas biológicos.

- Informação;

- Abordagem sistêmica;

O objetivo do mini curso será mostrar a funcionalidade de alguns softwares de análises estatísticas usados pela biologia sistêmica para investigar a expressão de vias e genes relacionados a doenças humanas.

1- Dados de expressão do GEO e genes da Ontologia Ontocancro;

2- Software R, com pacotes do Bioconductor;

3- Software ViaComplex;

4- Mapas Funcionais – Banco de Dados String.

1.2 Informação Genética

Um cromossomo é uma longa sequência de DNA, que contém vários genes, e outras sequências de nucleotídeos com funções específicas nas células dos seres vivos.

(String)

Um conjunto de proteínas desempenha uma função específica.

Ex: - Proteínas que dão cor aos olhos;- Envolvidas na morte celular;- Na proliferação celular...

1.4 EXPRESSÃO DE PROTEÍNASGENOMA PROTEOMA

TRANSCRIPTOMA

interaçãoprot-gene

METABOLOMA

Citratesynthase

Malatedehydrogenase

Fumarase

Succinatedehydrogenase

INTERATOMA

interaçãoprot-prot

7

Expressão de proteínas: Todos as células tem a mesma quantidade de genes e as células com funções diferentes produzem proteínas especializadas naquela função.

COMO MEDIR A EXPRESSÃO DE PROTEÍNAS?

MICROARRANJOSRNA-Seq

2

3

2

3

Bancos de Dados

http://www.ncbi.nlm.nih.gov/geo/

Bancos de Dados

Adrenocortical Carcinomas , Adenomas

GSE10927

PASTA 1- ARQUIVOS .CEL (GSE10927)

Glândulas suprarrenais: Estimulam a conversão de proteínas e gorduras em glicose, ao mesmo tempo que diminuem a captação de glicose pelas células, aumentando, assim, a utilização de gorduras.

2.1 Normalização

Software R com pacotes do Bioconductor

ARQUIVOS .CEL

Gráfico de “bigodes”, indica a dispersão entre as amostras. A linha preta é a mediana, a caixa representa os elementos entre o 10 e o 30 quadrante.

ABRINDO O ARQUIVO GSE10927_RMA.XLS

MATRIZ NORMALIZADA

- Cada elemento representa uma sonda de um gene;- Cada linha corresponde ao valor de expressão do mesmo gene;

- Cada Coluna corresponde a uma amostra (microarranjo) de um determinado tecido.

AGRUPAR OS TECIDOS

1- Criar 2 colunas em branco, separando as amostras;

2- Fazer a média entre as amostras;

3- Expandir o cálculo para todos os genes.

4- Criar nova planilha e colar as sondas com as médias;

5- Para gerar o arquivo de expressão usado no software ViaComplex devemos

baixar o arquivo da plataforma referente a série que estamos analisando:

6- Deste arquivo 2 colunas são extraídas:

- A primeira corresponde ao IDENTIFICADOR da SONDA;

- A segunda corresponde ao SÍMBOLO APROVADO DO GENE.

OBS: Passo já realizado.

7- Com a plataforma devemos formar as combinações de expressão a serem

analisadas:

ADENOMA x NORMAL e CÂNCER x NORMAL

Observações Importantes: No arquivo TXT de expressão não pode aparecer o

caractere “/” ou espaços em branco nas células de cálculo.

# Devemos sempre cuidar o espaço existente no final do arquivo.

ADENOMA x NORMAL e CÂNCER x NORMAL

SALVAR CADA UM DESTES ARQUIVOS COMO:

texto (separado por tabulação)

PASTA 2 - Criar arquivos para o SOFTWARE VIACOMPLEX

BANCOS DE DADOS DE VIAS E GENES:

NCI PATHAWAY, REACTOME, BIOCARTA e ONTOLOGIA ONTOCANCROhttp://ontocancro.inf.ufsm.br/

PASTA 3 - VIAS E GENES - ONTOLOGIA ONTOCANCRO

23

Diversidade Entropia de Shannon

Frequência da diversidade do gene i

Diversidade relativa

2.2 Atividade Relativa - Diversidade Relativa

Câncer Normal

Atividade relativa

25

26

27

28

2.3 Mudança de Expressão

Câncer, adenoma Normal

No de vezes que a expressão varia entre os genes de uma via (conjunto de genes com uma determinada função)

Para encontrar a mudança de expressão entre os genes de uma via:

1- Encontrar as vias de interesse:

http://ontocancro.inf.ufsm.br/

PASTA 5 - Fold Change

Software R com pacotes do Bioconductor

Mudança de Expressão

Para efetuarmos os cálculos da mudança de expressão são necessários alguns arquivos importantes:1- Vias de interesse;2- Arquivo RData, salvo durante a Normalização dos dados;3-Script.

Objetivo: Através da atividade relativa iremos analisar a expressão das amostras de tecidos pré cancerosos do cólon em uma rede de proteínas envolvida na manutenção do genoma. Para isso precisaremos construir uma rede de interação.

2.4 Mapas funcionais

http://ontocancro.inf.ufsm.br/

http://string-db.org/

Banco de Dados String

Contém várias informações do genoma:Incluí mais de 5 milhões de proteínas de 1133 Organismos

Passo 6 - Software STRING

Arquivo Medusa

Resultado

Artigos publicados com os Softwares