Applications in Bioinformatics and Medical Informatics Disciplina: Inteligência de Enxame Docente: José Manoel Seixas Discente: José Dilermando Costa Junior

Applications in Bioinformatics and Applications in Bioinformatics and Medical InformaticsMedical Informatics

Disciplina: Inteligência de EnxameDisciplina: Inteligência de EnxameDocente: José Manoel SeixasDocente: José Manoel SeixasDiscente: José Dilermando Costa JuniorDiscente: José Dilermando Costa Junior

Rio de JaneiroRio de Janeiro20112011

IntroduIntroduçãoção

Estudos cerebrais e em biologia molecular produzem grande quantidade de Estudos cerebrais e em biologia molecular produzem grande quantidade de dados.dados.Processamento e avaliação está no campo de bioinformática.Processamento e avaliação está no campo de bioinformática.

Metodologias de processamento de informação.Metodologias de processamento de informação.Tarefas biológicas;Tarefas biológicas;Tarefas biomédicas.Tarefas biomédicas.

Desenvolvimento de modelos computacionais.Desenvolvimento de modelos computacionais.Modelagem;Modelagem;Mineração de dados;Mineração de dados;Machine learningMachine learning..

Exemplos de problemas:Exemplos de problemas:Localização de proteínas;Localização de proteínas;Análise de genoma e sequências de genomas;Análise de genoma e sequências de genomas;Análise e monitoramento da atividade cerebral.Análise e monitoramento da atividade cerebral.

IntroduIntroduçãoção

Metodologias:Metodologias: Redes neurais;Redes neurais; Algoritmos evolucionários;Algoritmos evolucionários; Inteligência de enxame.Inteligência de enxame.

Particle swarm optimization Particle swarm optimization (PSO) combinado com diferentes técnicas de (PSO) combinado com diferentes técnicas de modelagem:modelagem:

Modelo adaptativo de redes neurais para classificação;Modelo adaptativo de redes neurais para classificação;Modelamento adaptativo – PSO, mecanismo de configuração básico.Modelamento adaptativo – PSO, mecanismo de configuração básico.Localização de proteínas.Localização de proteínas.Diagnósticos médicos.Diagnósticos médicos.

PSO unificado aplicado à problemas de magnetoencefalografia (MEG).PSO unificado aplicado à problemas de magnetoencefalografia (MEG).PSO para detectar fontes excitatórias desconhecidas.PSO para detectar fontes excitatórias desconhecidas.

Redes Neurais ProbabilRedes Neurais Probabilíísticas (PNNs)sticas (PNNs)

PNNs - modelos de redes neurais de classificação supervisionadas.PNNs - modelos de redes neurais de classificação supervisionadas. Está relacionada:Está relacionada:

Regra de classificação de Bayes;Regra de classificação de Bayes;Teoria de estimação com função densidade de probabilidade (PDF) não paramétrica Teoria de estimação com função densidade de probabilidade (PDF) não paramétrica de Parzende Parzen

Vantagem da PNNVantagem da PNN Habilidade para explorar todas informações disponíveis no problema e fornecer Habilidade para explorar todas informações disponíveis no problema e fornecer

medidas de incerteza da classificação.medidas de incerteza da classificação.Ex. Classificação de câncer – probabilidade de tumor maligno ou benigno.Ex. Classificação de câncer – probabilidade de tumor maligno ou benigno.Diferente de resposta sim ou não de outros classificadores.Diferente de resposta sim ou não de outros classificadores.


Aplicações de PNN na biomédica:Aplicações de PNN na biomédica:

PNN combinado com método de extração de características na PNN combinado com método de extração de características na classificação de classificação de câncercâncer (Huang 2002). (Huang 2002).

PNN para PNN para desenvolver modelos metabonômicosdesenvolver modelos metabonômicos baseado em baseado em NMRNMR para para predição de toxidadepredição de toxidade induzida por induzida por xenobióticosxenobióticos, enfatizando seu potencial na , enfatizando seu potencial na aceleração de descobertas de novas drogas (Holmes aceleração de descobertas de novas drogas (Holmes et alet al. 2001).. 2001).

PNN na construção de sistema de predição automática, eficiente e confiável PNN na construção de sistema de predição automática, eficiente e confiável para para localização de proteínalocalização de proteína sub-celular em análises de sub-celular em análises de genomasgenomas em grandes em grandes escalas (Guo escalas (Guo et alet al. 2004).. 2004).

PNN para PNN para identificaridentificar pequenas pequenas mudançasmudanças em em quantidade e volumequantidade e volume do do tecido tecido cerebralcerebral através de análises de imagens de ressonância magnética (Wang através de análises de imagens de ressonância magnética (Wang et alet al. . 1998)1998)


A estrutura da PNN é semelhante a das redes neurais A estrutura da PNN é semelhante a das redes neurais feedforwardfeedforward..

PNN tem 4 camadas: PNN tem 4 camadas: inputinput,, pattern pattern, , summationsummation e e outputoutput..


Parâmetros de espalhamento determinam forma e tamanho do Parâmetros de espalhamento determinam forma e tamanho do kernel.kernel.

PNN homocedástico – utiliza um único parâmetro de espalhamento PNN homocedástico – utiliza um único parâmetro de espalhamento global;global;

PNN heterocedástico – utiliza separados parâmetros de espalhamento PNN heterocedástico – utiliza separados parâmetros de espalhamento não correlacionados.não correlacionados.

Modelo PNN adaptativo (SA-PNN)Modelo PNN adaptativo (SA-PNN)

A matriz de espalhamento, ∑, tem efeito direto nos kernels (elementos de A matriz de espalhamento, ∑, tem efeito direto nos kernels (elementos de classificação das PNNs)classificação das PNNs)A detecção de uma ∑ ótima aumenta significantemente a qualidade de A detecção de uma ∑ ótima aumenta significantemente a qualidade de qualificação das PNNs.qualificação das PNNs.PNN adaptativo (Georgiou PNN adaptativo (Georgiou et al. et al. 2006) – uso do PSO2006) – uso do PSO

Incorporou algoritmos de otimização para detectar parâmetros de espalhamento Incorporou algoritmos de otimização para detectar parâmetros de espalhamento ótimos.ótimos.

PNN homocedásticoPNN homocedásticoPNN heterocedásticoPNN heterocedástico

Modelo PNN adaptativo (SA-PNN)Modelo PNN adaptativo (SA-PNN)

Georgiou et al. (2006) utilizou a proporção de erro de classificação leave-one-out do grupo de treinamento como valor objetivo da partícula (matriz de espalhamento).

A PNN foi treinada utilizando todos os modelos do grupo de treinamento. O modelo excluído é usado para avaliar a acurácia da classificação. O processo repete excluindo modelos a modelo, até acabar todos modelos

Experimentos e resultadosExperimentos e resultados

Modelo SA-PNN com PSO aplicado a:Modelo SA-PNN com PSO aplicado a: E. ColiE. Coli

Localização celular de proteínas (8 locais)Localização celular de proteínas (8 locais) LeveduraLevedura

Localização celular de proteínas (10 locais)Localização celular de proteínas (10 locais) Câncer de mamaCâncer de mama

Classificação: benigno e malignoClassificação: benigno e maligno Diabetes de índios PimaDiabetes de índios Pima

Classificação: com ou sem diabetesClassificação: com ou sem diabetes


Foram utilizadas 3 técnicas de amostragem:Foram utilizadas 3 técnicas de amostragem:

11 - Stratified random sampling - Stratified random sampling (SRS) (SRS)Conjunto de dados com tamanho Conjunto de dados com tamanho NN e e KK classes, é dividido em classes, é dividido em KK subgrupos não subgrupos não sobrepostos (camadas), contendo sobrepostos (camadas), contendo NNkk vetores padrão da vetores padrão da kk-gésima classe (-gésima classe (kk = 1, 2, ..., = 1, 2, ..., KK).).Uma amostra aleatória de tamanho Uma amostra aleatória de tamanho aakk é selecionada independentemente de cada é selecionada independentemente de cada camada.camada.Todas amostras selecionadas são colocadas juntas para formar a SRS.Todas amostras selecionadas são colocadas juntas para formar a SRS.As amostras não selecionadas são utilizadas como grupo teste.As amostras não selecionadas são utilizadas como grupo teste.


22 - - λλ-fold cross-validation-fold cross-validation ((λλ-CV)-CV)O grupo de dados é dividido em O grupo de dados é dividido em λλ partes de tamanho aproximadamente iguais. partes de tamanho aproximadamente iguais.Cada subgrupo é utilizado como grupo teste.Cada subgrupo é utilizado como grupo teste.Enquanto o resto é usado como grupos de treinamento.Enquanto o resto é usado como grupos de treinamento.

3 - 3 - Train-validation-test partitioningTrain-validation-test partitioning (TVT)(TVT)Os dados são divididos em 3 componentes..Os dados são divididos em 3 componentes..PSO minimiza o erro de classificação PSO minimiza o erro de classificação leave-one-outleave-one-out no grupo de treinamento para no grupo de treinamento para determinar ∑.determinar ∑.Erro e validação são monitorados a cada interação.Erro e validação são monitorados a cada interação.


Georgiou et al. (2006) aplicou:Georgiou et al. (2006) aplicou: SA-PNNs homocedásticoSA-PNNs homocedástico

Otimizado com Otimizado com constriction coefficientconstriction coefficientInertia weightInertia weight

SA-PNNs heterocedásticoSA-PNNs heterocedásticoOtimizado com Otimizado com constriction coefficientconstriction coefficientInertia weightInertia weight

Comparou o desempenho com:Comparou o desempenho com: PNN básicoPNN básico PNN otimizado com PNN otimizado com golden sectiongolden section NN NN feedforwardfeedforward Máquina de vetores suporteMáquina de vetores suporte


Parâmetros do PSOParâmetros do PSO

Teste Kolmogorov-SmirnovTeste Kolmogorov-SmirnovE. ColiE. Coli LeveduraLevedura DiabetesDiabetes Câncer de mamaCâncer de mama

λλ-CV-CV **** **** **** **SRSSRS **TVTTVT **


Combinações entre SA-PNN e PSO mais eficientes dependem do problema Combinações entre SA-PNN e PSO mais eficientes dependem do problema em questão e das técnicas de amostragem.em questão e das técnicas de amostragem.Melhores desempenhos:Melhores desempenhos:

SRS e TVT - SRS e TVT - constriction coefficientconstriction coefficient para qualquer modelo SA-PNN para qualquer modelo SA-PNN λλ-CV com -CV com constriction coefficientconstriction coefficient

SA-PNN homocedático - SA-PNN homocedático - E. ColiE. ColiSA-PNN heterocedático – diabetes de índios PimaSA-PNN heterocedático – diabetes de índios Pima

Inertia weightInertia weight - levedura e câncer de mama, para modelos homo e - levedura e câncer de mama, para modelos homo e heterocedáticos.heterocedáticos.

SA-PNN homocedático SA-PNN homocedático - - E. Coli E. Coli e câncer de mamae câncer de mama SA-PNN heterocedático - levedura e diabetes dos índios PimaSA-PNN heterocedático - levedura e diabetes dos índios Pima

PSO promove melhoramentos em modelos PNNPSO promove melhoramentos em modelos PNN

Magnetoencefalografia (MEG)Magnetoencefalografia (MEG)

Utilizada em estudos sobre o comportamento funcional do Utilizada em estudos sobre o comportamento funcional do cérebro.cérebro.Baseada na captura e análise de campos elétricos gerados Baseada na captura e análise de campos elétricos gerados pela excitação de pequenas áreas do cérebro.pela excitação de pequenas áreas do cérebro.


Parsopoulos Parsopoulos et al. et al. (2009) - dois problemas em MEG utilizando PSO:(2009) - dois problemas em MEG utilizando PSO: Inverse problemInverse problem – fonte de excitação desconhecida é detectada por um número – fonte de excitação desconhecida é detectada por um número

de sensores.de sensores.Identificar a fonte.Identificar a fonte.

Forward task for inverse use Forward task for inverse use – computação de coeficientes que otimizam a – computação de coeficientes que otimizam a aproximação de potenciais magnéticos através de expansões esféricasaproximação de potenciais magnéticos através de expansões esféricas

Expansão esférica:Expansão esférica:

Magnetoencefalográfia (MEG)Magnetoencefalográfia (MEG)

Inverse problemInverse problem

PSO foi utilizado para detectar as 3 fontes em diferentes níveis de ruído.PSO foi utilizado para detectar as 3 fontes em diferentes níveis de ruído.Cada partícula do enxame foi considerada uma posição candidata da fonte.Cada partícula do enxame foi considerada uma posição candidata da fonte.PSO unificado (UPSO) com PSO unificado (UPSO) com constriction coeficientconstriction coeficient


Inverse problemInverse problem


Forward task for inverse useForward task for inverse use

UPSO com UPSO com uu = 0.1 = 0.1Sensores: 10 – 1000 (incremento 10)Sensores: 10 – 1000 (incremento 10)3 fontes3 fontesFunção potencialFunção potencial

Cada partícula do enxame corresponde a um grupo candidato de 8 Cada partícula do enxame corresponde a um grupo candidato de 8 coeficientes.coeficientes.Valor dos coeficientes - média de 5 experimentosValor dos coeficientes - média de 5 experimentosErro entre números de sensoresErro entre números de sensores


Forward task for inverse useForward task for inverse use

Documents

Applications in Bioinformatics and Medical Informatics Disciplina: Inteligência de Enxame Docente: José Manoel Seixas Discente: José Dilermando Costa Junior