30
Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Embed Size (px)

Citation preview

Page 1: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Clustering Algorithms for Gene Expression Analysis

Adaptado de uma apresentação de

Pablo Viana

Fagner Nascimento

Page 2: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Gene Expression Analysis

Estudo dos padrões de ativação (expressão) dos genes sobre diversas condições.

Genes que possuem a mesma funcionalidade são comumente ativados pelas mesmas condições.

Page 3: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Gene Expression Analysis

Genes codificadores de enzimas que catalisam um conjunto de reações encadeadas são geralmente co-regulados (e normalmente se localizam próximos no cromossomo).

A ativação conjunta também ajuda a inferir funcionalidades de genes dos quais ainda não temos informações.

O padrão de ativação dos genes pode caracterizar doenças e assim gerar novas ferramentas precisas de diagnóstico.

Page 4: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Micro Arrays

probe(on chip)

sample(labelled)

pseudo-colourimage

[image from Jeremy Buhler]

Page 5: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Micro array Output Image

Color-coded spots:

Page 6: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Gene Expression Analysis

Micro Array Data Matrix:

Page 7: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Gene Expression Analysis

Diversas técnicas de análise de dados têm sido aplicadas para problemas dessa classe: Redução de Dimensionalidade:

Principal Component Analysis Clustering:

Hierarchical Clustering K-Means

Self-Organizing Maps

Page 8: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Redução de Dimensionalidade

Vetores de dados biológicos possuem muitas dimensões.

Métodos que diminuem a dimensionalidade dos dados facilitam a extração de informações.

Page 9: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Redução de Dimensionalidade

Principal Component Analysis (PCA): Método estatístico para projetar pontos de

dimensão M num espaço de dimensão K (K << M).

Encontra a representação num espaço de dimensionalidade menor que descreve os pontos dados com o menor erro possível.

Page 10: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Clustering

O que é clusterizar? Classificar, agrupar, comprimir.

Page 11: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Clustering

Page 12: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Clustering

Tipos de dados Numérico Relacional Nominal

Similaridade / Distância

Número de Clusters

Page 13: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Clustering

Supervisionado: Baseado num conjunto de vetores ou classes

dados. Não-Supervisionado:

Não existe nenhum conhecimento prévio de classificação.

Métodos Híbridos: Métodos supervisionados utilizando

classificações previamente obtidas pela aplicação de um método não-supervisionado.

Page 14: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Hierarchical Clustering Algoritmo:

Os dois elementos mais similares(na matriz de similaridade) unem-se criando-se um novo nó.

A matriz de similaridade é recalculada, com o novo nó substituindo os dois antigos e com valor igual a média dos anteriores.

Com N pontos iniciais, esse processo é repetido N-1 vezes até restar apenas um nó.

Page 15: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Hierarchical Clustering

Page 16: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Hierarchical Clustering

Árvore de Visualização Problema:

Encontrar a melhor ordenação da árvore. Cada filho pode estar a esquerda ou direita.

2N-1 possibilidades. Solução:

Conhecido algoritmo de programação dinâmica: inside portion of the inside-outside algorithm for stochastic context-free grammar

Page 17: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Hierarchical Clustering

Desvantagens: A divisão da árvore em clusters não é clara. Métodos de classificação usando hierarchical

clustering são imprecisos.

Page 18: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

K-Means

Algoritmo: Inicialização:

Defina K; Gere K vetores representantes;

Para cada ponto associe-o ao representante mais próximo.

Para cada representante, redefina sua posição como sendo a média das distâncias dos componentes associados a ele no passo anterior. Caso a variação dos representantes seja menor que um limiar finalize o algoritmo, caso contrário, volte ao passo anterior.

Page 19: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

K-Means

Page 20: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

K-Means

Vantagens: Fácil implementação Convergência rápida

Desvantagens: Nem sempre gera uma divisão ótima Má escolha dos representantes

Page 21: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

K-Means

Page 22: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Self-Organizing Maps

Também conhecido como Kohonen Map, foi descrito pela primeira vez como uma rede neural artificial.

Parecido com o K-Means. Preserva as propriedade topológicas

dos dados. Algoritmo não-supervisionado.

Page 23: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Self-Organizing Maps

Algoritmo: Crie um conjunto de nós. Mapeie-os aleatoriamente pelo espaço de

entrada. A cada iteração escolha um ponto da entrada

aleatoriamente e encontre o nó mais próximo a ele.

Este nó e seus vizinhos se moverão em direção a este ponto. A influência do nó escolhido nos vizinhos decresce com relação à distância entre eles e a iteração.

Page 24: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Self-Organizing Maps

Vantagens: O algoritmo converge para um mapa de classificação e

topologia ótimas. Possui uma forma muito conveniente para visualização

dos dados. Manipula bem dados não uniformes e irregulares.

Desvantagens: Não tem base teórica para determinar a dimensão ótima. Pode demorar muitas iterações para convergir (20.000 -

50.000).

Page 25: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Gene Clustering

A co-expressão de genes sugere que eles são relacionados funcionalmente e que eles são possivelmente co-regulados.

A função de muitos genes não-caracterizados podem ser descobertas a partir das funções de genes co-expressados conhecidos.

Page 26: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Gene Clustering

Os principais objetivos de gene clustering são: Organização funcional de genes. Interpretar o estado da célula de acordo

com um determinado padrão de expressão gênica.

Deduzir a função de genes desconhecidos.

Explorar a regulação transcripcional.

Page 27: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Sample Clustering

Verificar a expressão gênica relativa a uma condição fisiológica.

Classificar doenças utilizando perfis de expressão gênica baseados em micro-array.

Agrupar experimentos de acordo com a similaridade dos perfis.

Os clusters identificados podem ser analisados diretamente dos padrões de expressão gênica associados sob perspectivas moleculares ou clínicas.

Page 28: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Visualization of Gene Expression Data

Page 29: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Applets

http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/AppletH.html

http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/AppletKM.html

http://davis.wpi.edu/~matt/courses/soms/applet.html

Page 30: Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

Referências

Handbook of Computational Molecular Biology (Chapman & Hall/CRC Computer and Information Science Series) Cap. 25;

http://compbio.utmem.edu/MSCI814/Module10.htm http://www.ucl.ac.uk/oncology/MicroCore/

HTML_resource/PCA_1.htm http://en.wikipedia.org/wiki/DNA_microarray http://en.wikipedia.org/wiki/Data_clustering http://en.wikipedia.org/wiki/Self_organizing_maps http://www.autonlab.org/tutorials/kmeans.html