Prognóstico de Doentes com Esclerose LateralAmiotrófica usando Modelos Gráficos Probabilísticos
José Jorge Dos Reis
Dissertação para obtenção do Grau de Mestre emEngenharia Informática e de Computadores
Orientadoras: Doutora Sara Alexandra Cordeiro MadeiraDoutora Alexandra Sofia Martins de Carvalho
JúriPresidente: Doutor Luís Eduardo Teixeira RodriguesOrientadora: Doutora Sara Alexandra Cordeiro MadeiraVogal: Doutor Pedro Filipe Zeferino Tomás
Novembro 2014
Agradecimentos
Quero agradecer ao meu pai, mãe e irmã por terem estado sempre presentes e terem sempre
acreditado em mim.
À minha namorada por me ter motivado nos momentos mais difíceis e ter sido sempre muito
compreensiva nos momentos em que não pude dar-lhe a atenção que ela merece.
Quero também agradecer à Professora Sara Madeira e à Professora Alexandra Carvalho por
me terem orientado sempre da melhor forma e me terem dado as suas sugestões no decorrer do
trabalho.
Ao André por gentilmente me ter fornecido os dados e dado uma explicação sobre o Weka.
Finalmente, ao Professor Pedro Tomás, o autor do modelo utilizado nesta tese.
Abstract
Amyotrophic Lateral Sclerosis (ALS) is a fatal neurodegenerative disease characterized by
progressive muscle weakness caused by the degeneration of motor neurons. The main cause
of death in patients with ALS is related with respiratory insufficiency caused by weakness of the
respiratory muscles. In this context, and although ALS has no cure it is currently known that the
use of non-invasive ventilation techniques (NIV) improves patients’ condition during treatment.
The goal of this thesis is to develop a prognostic method based on dynamic probabilistic
graphical models, to predict hypoventilation in patients with ALS, considering time windows of
90, 180 and 365 days.
Data from 517 ALS patients followed-up at Hospital de Santa Maria in Lisbon were analyzed.
The dataset included 29 features plus the variable of class which is binary and shows whether the
patient needs NIV or does not need NIV. Three classifiers based on dynamic Bayesian Networks
were implemented, differing the strategy used to learn conditional Bayes network. The validation
of classifiers was performed using 10-fold-cross-validation. A Software was also developed for test
the classifiers. The best of the three classifiers achieved 93.9%, 92.6% and 94.3% of accuracy,
sensibility and specificity, respectively.
Keywords
Amyotrophic Lateral Sclerosis, Data Mining, Probabilistic Grapical Models, Prognosis, Classi-
fication, Classifier based on Dynamic Bayes Network.
iii
Resumo
A Esclerose Lateral Amiotrófica (ELA) é uma doença neurodegenerativa fatal caraterizada por
um enfraquecimento muscular progressivo causado pela degeneração dos neurónios motores. A
principal causa de morte dos doentes de ELA resulta das complicações respiratórias causadas
pelo enfraquecimento dos músculos respiratórios. Apesar de a ELA ser uma doença atualmente
incurável, sabe-se que a aplicação de técnicas de ventilação não invasivas (NIV) melhora as con-
dições de vida dos doentes durante o tratamento.
O objetivo deste trabalho é desenvolver um método de prognóstico baseado em modelos
gráficos probabilísticos dinâmico, para prever indícios de hipoventilação em doentes com ELA,
considerando janelas temporais de 90, 180 e 365 dias.
Foram utilizados dados de 517 doentes com ELA seguidos clinicamente no Hospital de Santa
Maria, em Lisboa. Os dados têm 29 atributos mais a variável da classe binária, que indica se
um doente precisa ou não de NIV.Foram implementados três classificadores baseados em Re-
des de Bayes dinâmicas, diferindo estes na estratégia utilizada na aprendizagem da Rede de
Bayes condicional. A validação dos classificadores foi feita com o método de validação cruzada
com k = 10. Foi também desenvolvida uma aplicação computacional para testar os classifica-
dores. O classificador com melhor desempenho alcançou 93.9%, 92.6% e 94.3% de precisão,
sensibilidade e especificidade, respetivamente.
Palavras Chave
Esclerose Lateral Amiotrófica, Mineração de dados, Modelos Gráficos Probabilísticos, Prog-
nóstico, Classificação, Classificador baseado em Redes de Bayes dinâmicas.
v
Conteúdo
1 Introdução 1
1.1 Formulação do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Dados Clínicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Principais Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Estrutura do Documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Revisão da Literatura 5
2.1 Esclerose Lateral Amiotrófica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.1 Primeiros sintomas nos membros superiores ou inferiores . . . . . . . . . . 6
2.1.2 Início da doença na zona da medula . . . . . . . . . . . . . . . . . . . . . . 7
2.1.3 Herediteriedade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.4 Tratamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Mineração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1 Modelos Gráficos Probabilísticos . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.2 Redes de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.3 Aprender a estrutura da Rede de Bayes . . . . . . . . . . . . . . . . . . . . 11
2.2.4 Classificador baseado numa Rede de Bayes . . . . . . . . . . . . . . . . . 13
2.2.5 Classificador Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.6 Classificador Tree Augmented Naive Bayes . . . . . . . . . . . . . . . . . . 14
2.2.7 Inferência numa Rede de Bayes . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.7.A Método de Eliminação de Variáveis . . . . . . . . . . . . . . . . . 16
2.2.7.B Construção da Junction Tree . . . . . . . . . . . . . . . . . . . . . 18
2.2.7.C Cálculo das marginais através da Junction Tree . . . . . . . . . . 20
2.2.8 Redes de Bayes Dinâmicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.9 Aprender a estrutura da Rede de Bayes dinâmica . . . . . . . . . . . . . . 24
2.2.10 Inferência em Redes de Bayes dinâmicas . . . . . . . . . . . . . . . . . . . 25
2.2.10.A Algoritmo Interface . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3 Trabalho Relacionado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.1 Trabalho Relacionado em Esclerose Lateral Amiotrófica . . . . . . . . . . . 27
vii
Conteúdo
2.3.2 Trabalho Relacionado em Classificação utilizando MGP . . . . . . . . . . . 29
2.4 Sumário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3 Prever Insuficiência Respiratória em Doentes de ELA 35
3.1 Descrição dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.1 Pré processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.1.A Seleção das observações . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.1.B Substituição dos valores em falta e discretização dos dados . . . 39
3.2.2 Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2.3 SMOTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.4 Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.3 Classificador dinâmico baseado em RBD . . . . . . . . . . . . . . . . . . . . . . . 41
3.3.1 Amostras de transição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3.2 Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.3.3 Classificador cdRBDp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3.4 Classificador cdRBDia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3.5 Classificador cdRBDfa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.5 Discussão dos resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.6 Sumário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4 Aplicação 49
4.1 Arquitetura da aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2 Interface com o utilizador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3 Sumário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5 Conclusões e Trabalho Futuro 55
A Appendix A 63
viii
Lista de Figuras
2.1 Exemplo simples de uma Rede de Bayes. . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Três tipos possíveis de conexão entre três nós vizinhos numa Rede de Bayes: a)
linear, b) convergente e c) divergente. . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Exemplo de uma rede TAN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4 Exemplo de uma RB retirada de [1]. A variável E não é utilizada para não se
confundir com a evidência. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.5 O grafo resultante de moralizar o grafo da Figura 2.4. O arco adicionado na mora-
lização está a tracejado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.6 Eliminação dos nós do grafo da Figura 2.5 utilizando a ordem de eliminação π =
(A,F,D,C,B,G). A tracejado estão os arcos adicionados para que todos os pares
de vértices de Ci estejam ligados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.7 Eliminação dos nós do grafo da Figura 2.5 utilizando a ordem de eliminação π =
(A,B,C,D, F,G). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.8 Junction Tree para o grafo da Figura 2.4 construída usando a ordem de eliminação
π = (A,B,C,D, F,G). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.9 Exemplo de uma Rede de Bayes Dinâmica. . . . . . . . . . . . . . . . . . . . . . . 23
2.10 Rede de Bayes dinâmica desenrolada em três instantes de tempo. . . . . . . . . . 23
2.11 Junção das várias árvores através dos nós interface. It são os nós interface para
o instante de tempo t e Nt os nós não interface desse instante. Dt é o clique em
Jt que contém It−1. Ct corresponde ao clique em Jt que contém It. As caixas
retangulares representam os separadores, sendo os seus domínios It. . . . . . . 26
3.1 Exemplo da estrutura dos dados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2 Plano de trabalho adotado para a classificação dos doentes de ELA. Para equilibrar
o número de instâncias pertencente a cada classe, foi aplicada a técnica Synthetic
Minority Over-sampling Technique (SMOTE) [2], explicada na Secção 3.2.3. . . . . 37
ix
Lista de Figuras
3.3 Exemplo da seleção das observações dos doentes através da definição de um
intervalo. Neste exemplo os limites inferior e superior são definidos como 2 e 4,
respetivamente. À esquerda está representado um exemplo de um conjunto de
dados e à direita o conjunto resultante de aplicar a operação de seleção. . . . . . 38
3.4 Exemplo da seleção das últimas N observações de cada doente. Neste exemplo,
N = 3. À esquerda está representado um exemplo de um conjunto de dados e à
direita o conjunto resultante de aplicar a operação de seleção. . . . . . . . . . . . 39
3.5 Diagrama UML com uma visão geral da hierarquia de classes do classificador di-
nâmico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.6 Exemplo de um vetor de N instâncias organizadas em T instantes de tempo. . . . 43
3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-
ção das instâncias de dois instantes de tempo consecutivos. A amostra de transi-
ção é obtida através da repetição do procedimento, para todas as instâncias. . . . 43
3.8 Ilustração do método utilizado para a classificação de um doente com o classifi-
cador dinâmico, tendo em conta todas as suas observações. Neste exemplo cada
doente tem N observações e variável da classe assume k valores possíveis. . . . 44
3.9 Resultados da classificação para os dados correspondentes à janela temporal
de 90 dias. Foram utilizados os classificadores dinâmicos cdRBDp, cdRBDia e
cdRBDfa e os classificadores estáticos NB, GHC, TAN e K2. . . . . . . . . . . . . 47
3.10 Resultados da classificação para os dados correspondentes à janela temporal de
180 dias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.11 Resultados relativos ao desempenho dos classificadores obtidos na classificação
utilizando os dados correspondentes à janela temporal de 365 dias. . . . . . . . . 48
4.1 Esquema com a arquitetura da aplicação. . . . . . . . . . . . . . . . . . . . . . . . 50
4.2 Ecrã da aplicação utilizado para carregar os dados no servidor. . . . . . . . . . . . 52
4.3 Ecrã da aplicação utilizado para processar os dados. . . . . . . . . . . . . . . . . 52
4.4 Ecrã da aplicação utilizado para escolher o classificador e os vários parâmetros. 53
4.5 Ecrã da aplicação onde são apresentados os resultados obtidos na classificação. 53
x
Lista de Tabelas
2.1 Probabilidades condicionais para a variável CP. . . . . . . . . . . . . . . . . . . . . 9
3.1 Detalhes dos dados por janela temporal (90, 180 e 365 dias). . . . . . . . . . . . . 37
3.2 Detalhes dos dados por janela temporal (90, 180 e 365 dias), depois de seleciona-
das as primeiras 5 observações de cada doente. . . . . . . . . . . . . . . . . . . . 39
3.3 Intervalos de discretização obtidos para as variáveis contínuas. . . . . . . . . . . . 40
3.4 Exemplo de uma matriz confusão. . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
A.1 Estrutura da RB inicial do classificador que obteve melhores resultados na classi-
ficação (cdRBDia), para os dados correspondentes à janela temporal de 90 dias. . 64
A.2 Estrutura da RB condicional do melhor classificador (cdRBDia), aprendida a partir
dos dados correspondentes à janela temporal de 90 dias. . . . . . . . . . . . . . . 65
xi
Lista de Tabelas
xii
1Introdução
Contents1.1 Formulação do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 Dados Clínicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3 Principais Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.4 Estrutura do Documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1
1. Introdução
A Esclerose Lateral Amiotrófica (ELA) é uma doença neurodegenerativa fatal caraterizada
por um enfraquecimento muscular progressivo refletindo a degeneração dos neurónios motores
do córtex motor primário, tronco encefálico e medula espinhal. A principal causa de morte na
ELA está relacionada com as complicações respiratórias devido ao enfraquecimento dos mús-
culos respiratórios, provocando a morte por hipoventilação. Apesar de a ELA ser uma doença
incurável na atualidade, sabe-se que a aplicação de técnicas de ventilação não invasivas (VNI)
suavizam os efeitos devastadores da doença, melhorando as condições de vida dos doentes du-
rante a fase de tratamento.
Na última década, a aplicação de técnicas da área da Inteligência Artificial em problemas
reais tem aumentado significativamente, incluindo muitos problemas da área da Medicina, tanto
em problemas de diagnóstico como prognóstico, onde são aplicadas técnicas de mineração de
dados para extrair informação a partir de dados clínicos. Alguns exemplos do trabalho que tem
sido realizado nesta área são a identificação de estados de demência em doentes de Parkinson
e Alzheimer, estudo de doenças cardiovasculares e cancro, gestão de doentes em unidades de
cuidados intensivos, etc. Em ELA os principais estudos focam-se na identificação de fatores
que influenciam a redução do tempo de sobrevivência dos doentes, baseados em estudos po-
pulacionais. No domínio clínico, os dados apresentam informação temporal, ou seja, informação
resultante de várias observações dos doentes. A necessidade de tratar séries de dados tem-
porais deu origem ao desenvolvimento de uma nova área da Inteligência Artificial, a mineração
de dados temporais. Em termos clínicos, o número de observações é relativamente pequeno,
dando origem a séries de dados temporais pequenas, o que permite reduzir a complexidade dos
métodos que tratam este tipo de dados. Adicionalmente é também importante que os modelos
consigam lidar com incerteza nos acontecimentos e que possam ser facilmente interpretados
pelos clínicos. Os modelos gráficos probabilísticos (MGP) são muito utilizados porque reúnem
todas estas condições. Os MGP representam distribuições de probabilidade conjunta através de
grafos. Cada nó do grafo corresponde a uma, ou a um conjunto de variáveis aleatórias e as liga-
ções representam as relações probabilísticas entre as variáveis. O grafo especifica a fatorização
da probabilidade conjunta, sobre um conjunto de variáveis, num produto de distribuições condici-
onais, cada uma dependendo apenas de um subconjunto de variáveis. As Redes de Bayes (RB)
são MGP em que o grafo é dirigido, expressando relações de dependência entre as variáveis
aleatórias. As Redes de Bayes dinâmicas (RBD) podem ser vistas como uma extensão às RB
para conseguir lidar com as caraterísticas temporais do conjunto de dados, onde é tida em conta
a dependência de uma observação num dado instante de tempo, das observações dos instantes
anteriores.
Neste trabalho, o principal objetivo é o desenvolvimento de uma nova abordagem baseada em
MGP dinâmicos, para prever insuficiência respiratória de doentes com ELA, usando janelas tem-
2
1.1 Formulação do Problema
porais de 90, 180 e 365 dias.
1.1 Formulação do Problema
O problema em estudo consiste em determinar, com base em dados clínicos, se um doente
que respira sem dificuldade no instante atual i, estará em insuficiência respiratória num instante
i + k, onde k corresponde a um intervalo de 90, 180 e 365 dias. Num contexto de aprendizagem
automática, trata-se de um problema de classificação, visto que não queremos saber o número
de dias até o doente entrar em falha respiratória, mas sim se daqui a um período de k dias o
doente está num estado de insuficiência respiratória.
1.2 Dados Clínicos
Neste trabalho são utilizados dados resultantes da observação de 517 doentes de ELA na
unidade Neuromuscular do Hospital de Santa Maria em Lisboa, durante um período de 10 anos.
Os dados são anónimos não comprometendo a privacidade dos doentes. O intervalo de tempo
entre observações consecutivas é de aproximadamente 3 meses. O conjunto de dados contêm
no total 29 atributos que contêm informação estática (dados demográficos dos doentes) e infor-
mação temporal (resultados da execução de testes respiratórios e avaliações clínicas). Exemplos
de atributos estáticos são o género, idade do doente nos primeiros sintomas da doença, locali-
zação dos primeiros sintomas (forma da doença), histórico familiar de doença do neurónio motor
(MND) tempo entre os primeiros sintomas e a primeira avaliação clínica, índice de massa cor-
poral, etc. Exemplos de atributos com informação temporal são a determinação da capacidade
vital (VC), isto é, a quantidade máxima de ar que uma pessoa consegue expelir dos pulmões
após uma inspiração máxima, e a capacidade vital forçada (FVC) do doente, as concentrações
parciais de oxigénio (SpO2, PO2) a pressão máxima de inspiração e expiração (MIP/MEP), uma
escala de avaliação funcional dos doentes de ELA (ALS-FRS) com uma pontuação máxima de
40, incluindo uma avaliação respiratória (ALS-FRS-R) com uma subpontuação respiratória (R).
1.3 Principais Contribuições
As principais contribuições deste trabalho são as seguintes:
• Implementação de três classificadores dinâmicos baseados em RBD.
• Aplicação dos classificadores implementados ao problema de prognóstico de insuficiên-
cia respiratória em doentes de ELA. O melhor dos três classificadores alcançou precisão,
sensibilidade e especificidade de 93.9%, 92.6%e 94.3%, respetivamente.
3
1. Introdução
• Desenvolvimento de uma aplicação computacional baseada na arquitetura Modelo-Vista-
Controlador, com uma interface simples para permitir ao utilizador experimentar os classifi-
cadores e visualizar os resultados obtidos de forma simples e rápida.
1.4 Estrutura do Documento
O documento está estruturado da seguinte forma. No Capítulo 2 é feita uma revisão da Li-
teratura. É dada uma explicação da Esclerose Lateral Amiotrófica e são apresentados alguns
dos métodos probabilísticos, baseados em grafos, utilizados na extração de conhecimento a par-
tir dos dados, nomeadamente, as Redes de Bayes e Redes de Bayes dinâmicas. São também
apresentados, resumos de alguns dos trabalhos realizados que utilizam estes métodos em pro-
blemas de classificação na área da Medicina e de alguns trabalhos realizados na Esclerose Late-
ral Amiotrófica. No Capítulo 3 é apresentada a metodologia adotada na realização do trabalho e
são descritos, detalhadamente, os três classificadores baseados em RBD implementados neste
trabalho. Por fim, são apresentados e discutidos os principais resultados obtidos. A aplicação
desenvolvida neste trabalho é apresentada no Capítulo 4. É dada uma breve explicação sobre a
arquitetura da aplicação e interface. Para terminar, no Capítulo 5 são apresentadas as principais
conclusões obtidas com a realização deste trabalho e alguns tópicos a serem explorados em
trabalhos futuros.
4
2Revisão da Literatura
Contents2.1 Esclerose Lateral Amiotrófica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.2 Mineração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.3 Trabalho Relacionado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.4 Sumário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5
2. Revisão da Literatura
2.1 Esclerose Lateral Amiotrófica
A Esclerose Lateral Amiotrófica (ELA) é uma doença neurodegenerativa fatal caraterizada por
um enfraquecimento muscular progressivo refletindo a degeneração dos neurónios motores do
córtex motor primário, tronco encefálico e medula espinhal [3]. “Amiotrófica” refere-se à atrofia
das fibras musculares e “Esclerose Lateral” ao endurecimento do trato corticoespinhal lateral e
anterior. Os neurónios motores nestas áreas degeneram e são substituídos por gliosis, uma al-
teração reativa não específica das células gliais, em resposta à deterioração do sistema nervoso
central [4].
A principal causa de morte na ELA resulta das complicações respiratórias resultantes do enfra-
quecimento dos músculos respiratórios. Geralmente os doentes falecem de hipoventilação [5].
As causas da doença são desconhecidas. Estudos recentes mostram que não existe uma as-
sociação consistente entre um fator ambiental específico e o risco de desenvolver a doença [3].
Apenas o facto de a pessoa ser fumadora pode estar provavelmente associado com o desenvol-
vimento da doença.
A ELA é caraterizada de acordo com a localização dos primeiros sintomas e se se trata de um
caso esporádico, ou se já existe um histórico familiar da doença para um determinado doente.
Apesar de existir esta divisão da doença de acordo com os primeiros sintomas do doente, sabe-
se que com a evolução da doença, os doentes acabam por sentir todos os sintomas das diversas
formas de ELA. Nas secções seguintes são apresentados os diversos tipos de ELA e os trata-
mentos mais utilizados para suavizar o impacto da doença na vida dos doentes.
Cerca de 5% dos casos da doença apresentam-se com insuficiência respiratória sem terem sin-
tomas específicos dos diversos tipos. Estes doentes apresentam hipoventilação noturna tais
como dispneia, ortopneia, insónias, dores de cabeça matinais, sonolência excessiva durante o
dia, baixa capacidade de concentração e alterações de humor [3].
2.1.1 Primeiros sintomas nos membros superiores ou inferiores
Cerca de dois terços dos doentes de ELA têm esta forma da doença e apresentam sintomas
relacionados com o enfraquecimento muscular, onde os sintomas podem começar, distalmente
ou proximalmente, nos membros superiores ou inferiores. Gradualmente a hipertrofia dos mús-
culos é acompanhada de rigidez e de exagero de reflexos, afetando a destreza manual e a forma
de andar do doente. Também é comum os doentes sentirem fasciculações, isto é, contrações
musculares ligeiras, involuntárias, ritmicas e indolores. Normalmente os doentes com esta forma
da doença sobrevivem entre três a cinco anos.
6
2.2 Mineração de Dados
2.1.2 Início da doença na zona da medula
Doentes com esta forma da doença geralmente apresentam dificuldade na articulação e pro-
núncia das palavras. Em alguns casos, antes de sentirem dificuldades em falar, podem também
sentir dificuldade em engolir sólidos e líquidos. Quase todos os doentes com este tipo da do-
ença desenvolvem sialorreia que consiste na secreção excessiva ou muito abundante de saliva.
Também é comum os doentes sentirem-se fracos e com problemas de equilíbrio, escorregando
e caíndo facilmente. Com este tipo os doentes tendem a sobreviver entre dois a três anos. Isto
porque o enfraquecimento dos músculos faciais afeta a respiração do doente mais cedo. Deste
modo, é mais complicado decidir a altura ideal para recorrer a mecanismos de respiração assis-
tida, recorrendo-se apenas aos testes clássicos de função respiratória [5].
2.1.3 Herediteriedade
Apesar da maioria dos casos de ELA serem esporádicos, alguns casos apresentam-se com
histórico familiar. Nos casos esporádicos a idade média dos primeiros sintomas varia entre os
55 e 65 anos. Apenas 5% dos casos têm os primeiros sintomas antes dos 30 anos [6]. Com
histórico familiar os primeiros sintomas surgem cerca de uma década mais cedo. A maioria dos
casos com histórico familiar está relacionada com a mutação do gene SOD1 [7].
2.1.4 Tratamentos
Embora a ELA seja atualmente uma doença incurável, muitos dos sintomas que surgem com
o decorrer da doença são tratáveis, e os seus efeitos podem ser suavizados, mantendo a auto-
nomia dos doentes para o maior período de tempo possível. Devido aos efeitos devastadores
da doença deve ser oferecido apoio psicológico aos doentes e aos seus familiares o mais cedo
possível. Para aliviar os sintomas provenientes da insuficiência respiratória, anteriormente des-
critos, recorre-se à aplicação de técnicas de ventilação não invasivas (VNI). Está comprovado
que a aplicação de VNI em doentes com ELA aumenta o tempo de sobrevivência e melhora a
qualidade de vida [5].
A dificuldade de engolir e os problemas que daí advém, nomeadamente, má nutrição, perda de
peso e desidratação, são comuns em doentes com ELA. Um tratamento adequado para atenuar
as consequências destes problemas na qualidade de vida dos doentes inclui o aconselhamento
de uma dieta, a transformação dos alimentos sólidos em líquidos e o ensino de técnicas especiais
para engolir [3].
2.2 Mineração de Dados
Nesta secção são introduzidos métodos de mineração de dados baseados em modelos grá-
ficos probabilísticos (MGP). Na Secção 2.2.1 é dada uma breve explicação sobre MGP. Como
7
2. Revisão da Literatura
método estático apresentamos a Rede de Bayes (RB) na Secção 2.2.2 e como método dinâ-
mico a Rede de Bayes dinâmica (RBD) na Secção 2.2.8. O modo como é feita a aprendizagem
das RBs e RBDs dos dados é descrito nas secções 2.2.3 e 2.2.9, respetivamente. Na Sec-
ção 2.2.4 é explicado como funciona um classificador baseado em RB. São apresentados dois
classificadores baseados em RB: Naive Bayes na Secção 2.2.5 e Tree Augmented Naive Bayes
na Secção 2.2.6. Na Secção 2.3 são descritos trabalhos relacionados na área da Medicina que
utilizam estes métodos e trabalhos de investigação na ELA.
2.2.1 Modelos Gráficos Probabilísticos
Em modelos gráficos probabilísticos as distribuições de probabilidade são representadas atra-
vés de grafos. Cada nó do grafo corresponde a uma variável aleatória, ou a um conjunto de
variáveis aleatórias, e as ligações representam as relações probabilísticas entre essas variáveis.
O grafo pode ser dirigido, em que as ligações tem uma direcção específica indicada pelas setas,
ou não dirigido, onde a direcção das ligações não é relevante. Grafos dirigidos são úteis para
expressar relações causais entre as variáveis aleatórias, enquanto que, grafos não dirigidos são
melhores para expressar restrições entre elas. O grafo especifica a factorização da probabilidade
conjunta, sobre um conjunto de variáveis, num produto de distribuições condicionais, cada uma
dependendo apenas de um subconjunto de variáveis.
A utilização de modelos probabilísticos gráficos têm as seguintes vantagens:
• Permitem a visualização da estrutura do modelo probabilístico de uma forma simples e
podem ser usados para projetar e motivar novos modelos.
• Fornecem uma perspetiva das propriedades do modelo, como por exemplo, as proprieda-
des de independência condicional.
As Redes de Bayes são um exemplo da utilização de modelos gráficos para a representação
das distribuições de probabilidade. Este método é descrito com maior detalhe na secção se-
guinte. Apesar das variáveis aleatórias poderem ser discretas ou contínuas, apenas vamos focar
o caso em que elas são discretas.
2.2.2 Redes de Bayes
As Redes de Bayes (RB) [8] são muito úteis para descrever situações, em que existe um grau
de incerteza nas causas dos acontecimentos. Para descrever estas situações, onde a causa-
lidade assume um papel importante, é fundamental o uso de probabilidades na descrição dos
vários acontecimentos. As RB são definidas por dois componentes, um grafo dirigido e acíclico e
um conjunto de tabelas de probabilidades condicionais. O grafo representa as relações causais
entre as várias variáveis. Cada nó do grafo corresponde a uma, ou a um conjunto, de variáveis
8
2.2 Mineração de Dados
Figura 2.1: Exemplo simples de uma Rede de Bayes.
HF,F HF,¬F ¬HF ,F ¬HF,¬FCP 0.8 0.5 0.7 0.1¬CP 0.2 0.5 0.3 0.9
Tabela 2.1: Probabilidades condicionais para a variável CP.
aleatórias. As variáveis podem ser discretas ou contínuas. As relações causais são representa-
das através das setas que ligam cada par de variáveis. Para uma melhor compreensão das RB
e do modo como é feita a decomposição da probabilidade conjunta, num produto das probabili-
dades condicionais, é apresentado um exemplo de uma RB com quatro variáveis Booleanas na
Figura 2.1. O diagrama da figura permite ter um conhecimento das relações entre as diversas
variáveis, como por exemplo, ter cancro do pulmão é influenciado pelo facto de existir um caso da
doença num familiar, ou se a pessoa é ou não fumador. Para especificar a distribuição de proba-
bilidade é necessário atribuir as probabilidades a todos os nós raiz (nós sem predecessores) e as
probabilidades condicionais a todos os nós não raiz, dadas todas as possiveis combinações de
valores dos seus predecessores diretos (nós pai). Na Tabela 2.1 está um exemplo da atribuição
das probabilidades à variável cancro do pulmão (CP).
Como as variáveis são Booleanas assumem apenas dois valores possíveis, zero quando o sím-
bolo de negação ¬ precede o nome da variável e o valor um caso contrário. Cada coluna da
Tabela 2.1 é uma multinomial θijk, onde i representa a variável em questão, j corresponde à
j-ésima configuração dos valores dos pais da variável representada por i e k corresponde ao
k-ésimo valor dessa mesma variável. Tendo em conta o exemplo da tabela 2.1, as j configu-
rações possíveis dos valores dos pais da variável CP são: (HF = F = 1); (HF = 1, F = 0);
(HF = 0, F = 1) e (HF = F = 0), colunas 1,2,3 e 4 da Tabela 2.1 respetivamente. k corres-
ponde ao k-ésimo valor da variável CP, neste exemplo, k = 1 ou k = 2 consoante a variável CP
assuma o primeiro valor (CP = 1) ou o segundo valor (CP = 0) representados, respetivamente,
nas linhas 1 e 2 da Tabela 2.1. A probabilidade conjunta de uma RB é dada pelo produto das
9
2. Revisão da Literatura
probabilidades de todos os nós do grafo condicionados pelos seus predecessores diretos (nós
pai). Deste modo, a probabilidade conjunta da rede do exemplo da Figura 2.1 é dada por:
PB(HF,F,CP,EP ) = P (HF )× P (F )× P (CP |HF,F )× P (EP |CP ). (2.1)
Uma RB é um triplo B = (X,G,Θ) onde:
• X = (X1, . . . , Xn) é um vetor aleatório onde cada variável aleatória Xi tem um domínio
finito.
• G = (X,E) é um grafo acíclico dirigido (GAD) com nós em X e arcos E representando
dependências diretas entre as variáveis.
• Θ = {θijk}i∈{1,...,n},j∈{1,...,qi},k∈{1,...,ri} são os parâmetros que especificam as distribuições
locais da rede:
PB(Xi = xik|ΠXi = wij) = θijk, (2.2)
onde ΠXirepresenta o conjunto (possivelmente vazio) dos pais de Xi em G. O número de
possíveis configurações de pais (vetor dos valores dos pais), de cada nó Xi é representado
por qi. A atuais configurações dos pais são ordenadas (arbitrariamente) e representadas
por wi1, . . . , wiqi e dizemos que wij é a j-ésima configuração de ΠXi , com j ∈ {1, . . . , qi}.
Generalizando para um grafo com n variáveis, a probabilidade conjunta é dada por:
PB(T ) =
n∏i=1
P (Xi|ΠXi). (2.3)
As probabilidades a calcular nas RB restringem-se apenas às dos nós raiz, e às condicionais
de todos restantes nós dadas todas as combinações possíveis de valores dos seus nós pai.
Esta redução dos cálculos das probabilidades necessárias à definição da distribuição de proba-
bilidade conjunta é possível devido às assunções de independência feitas nas RB, através da
interpretação causal dos seus arcos. Deste modo, qualquer variável dado o valor dos seus pais
é condicionalmente independente das variáveis que não são suas descendentes no grafo. Esta
é aliás uma das principais vantagens das RB. Tendo em conta o exemplo da Figura 2.1, dado
o valor da variável Cancro do Pulmão (CP), a variável Exame Positivo (EP) é independente dos
valores das variáveis Histórico Familiar (HF) e fumador (F). Isto porque dado o valor da variável
CP, denominada a evidência, as variáveis HF e F não trazem nenhuma informação adicional ao
resultado da variável EP. E em relação às variáveis HF e F, são independentes? A resposta é sim
se o valor da variável CP for conhecido e não caso contrário. De seguida explicamos o porquê
desta resposta apresentando com maior detalhe as assunções de independência nas RB, com
base no conceito de caminho d-connecting [9]. Para compreendermos melhor este conceito, na
Figura 2.2 estão representados os três tipos possíveis de conexão entre três nós vizinhos numa
10
2.2 Mineração de Dados
Figura 2.2: Três tipos possíveis de conexão entre três nós vizinhos numa Rede de Bayes: a)linear, b) convergente e c) divergente.
RB.
Os tipos de conexão linear, convergente e divergente estão representados na Figura 2.2 a), b) e
c), respetivamente.
Um caminho de q para r é d-connecting em relação aos nós evidência E = {e1, . . . , en}, onde
q 6= r 6= ei, se para todos os nós interiores i no caminho:
1. São lineares ou divergentes e não são membros de E.
2. São convergentes e i ou um dos seus descendentes está em E.
Sendo assim, uma variável Xi é dependente de uma variável Xj numa RB, se existe um caminho
d-connecting de Xi para Xj dado uma evidência E. Logo, Xi e Xj são independentes condicio-
nados a E caso não exista tal caminho entre elas.
Considerando a probabilidade conjunta P (X1, . . . , Xn) sobre todas as variáveis da RB e conside-
rando a distribuição condicional de uma variável Xi condicionada a todas as restantes variáveis,
os fatores que permanecem são a probabilidade condicional P (Xi|ΠXi) para o nó Xi e as pro-
babilidades condicionais para qualquer nó Xk que tem Xi como pai. A condicional P (Xi|ΠXi)
depende dos pais de Xi, enquanto que, as condicionais P (Xk|ΠXk) dependem dos pais de Xk
exceto Xi. O conjunto de nós que inclui os pais, os filhos e os pais dos filhos de um nó Xi é
chamado de Markov blanket de Xi. Deste modo, a distribuição condicional de uma variável Xi,
condicionada às restantes variáveis, é dependente apenas das variáveis do seu Markov blanket.
2.2.3 Aprender a estrutura da Rede de Bayes
Aprender uma RB consiste em encontrar o grafo acíclico dirigido (GAD) que melhor se adapta
ao conjunto de dados, com o objetivo de representar de uma forma precisa a distribuição de
probabilidade conjunta que gerou os mesmos. Como existe um enorme número de possíveis
estruturas de rede em função do número total de variáveis, o problema de encontrar a melhor es-
trutura não pode ser resolvido em tempo polinomial. Na realidade, a aprendizagem da RB ótima
11
2. Revisão da Literatura
na sua formulação mais geral é NP-completa [10]. Mesmo tentando encontrar uma solução apro-
ximada trata-se de um problema NP-completo [11]. Por este motivo, a estrutura aprendida da
RB é frequentemente restringida a uma árvore, a única subclasse de RB onde a aprendizagem
da estrutura ótima é feita em tempo polinomial. Por consequência, as metodologias alternativas
adotadas para resolver o problema de aprender a estrutura da RB baseiam-se em métodos heu-
rísticos de procura, que restringem o espaço de procura utilizando uma função de pontuação φ,
que guia a procura. Esta função avalia uma certa estrutura de rede atribuindo-lhe um valor, para
que, posteriormente possa ser comparada a outras estruturas. O método de procura heurística
escolhe a estrutura de rede B, dado o conjunto de dados T , que maximiza o valor φ(B, T ). Para
a procura ser eficiente é de extrema importância que a função de pontuação seja decomponível
na estrutura da rede, ou seja, que possa ser escrita como uma soma de pontuações locais φi
dependente apenas em cada nó Xi e nos seus pais ΠXi, e que são da forma:
φ(B, T ) =
n∑i=1
φi(ΠXi , T ). (2.4)
Esta propriedade da função φ tem a vantagem de não exigir que todas as pontuações de todos
os nós Xi sejam recalculados, quando é efetuada uma alteração a um nó Xi de B através da
inserção, remoção ou inversão do sentido de um arco que passa por Xi. Apenas a pontuação
local ao nó Xi, φi, necessita ser atualizada.
Exemplos de funções de pontuação decomponíveis baseados na teoria da informação são: Log-
likelihood (LL) e Minimum Description Length (MDL) [12]; exemplos de funções de pontuação
Bayesianas são: K2 [13], Bayesian Dirichlet (BD) e suas variantes (BDe e BDeu) [14].
Os algoritmos heurísticos frequentemente utilizados neste tipo de problema, com este tipo de
funções de pontuação decomponíveis, são os de procura local gananciosa. Um exemplo é o
método Greedy Hill Climber (GHC), que em cada iteração tenta melhorar a pontuação dada a
uma certa estrutura, do seguinte modo:
1. Começa com uma rede inicial, a qual pode ser vazia, aleatória, ou construída através do
conhecimento do domínio do problema.
2. Em cada iteração o algoritmo tenta melhorar a pontuação da rede atual, aplicando as se-
guintes operações locais:
(a) Adição ou remoção de arcos.
(b) Inversão do sentido dos arcos.
3. Atualiza a pontuação das redes resultantes da aplicação das operações locais, e a que tiver
melhor pontuação é estabelecida como a rede atual.
4. O algoritmo repete-se até nenhuma variação da rede conseguir melhorar a pontuação.
12
2.2 Mineração de Dados
2.2.4 Classificador baseado numa Rede de Bayes
Considere uma Rede de Bayes B que especifica uma distribuição de probabilidade conjunta
PB(A1, . . . , An, C) dado um conjunto de dados e onde C corresponde à variável da classe. Dado
um conjunto de atributos a1, . . . , an, o classificador baseado na Rede de Bayes B devolve o valor
c que maximiza a probabilidade PB(c|a1, . . . , an).
A classificação usando RB é feita considerando apenas os atributos relevantes para a variável
da classe C, ou seja, os atributos de que C depende. Dados todos os valores dos atributos
relevantes, C torna-se independente dos restantes atributos. Por consequência, um classifica-
dor baseado numa RB tem em conta apenas os valores das variáveis dos quais C depende.
No procedimento da classificação assume-se que o valor de C é desconhecido e o valor das
restantes variáveis relevantes conhecidos. Para cada possível valor da variável C é calculada a
probabilidade conjunta de todas as variáveis instanciadas. O valor de C que der origem à maior
probabilidade é escolhido como resultado da classificação.
Repare que, em ambos os classificadores, NB e TAN, todos os atributos são tidos em conta no
processo de classificação porque como existe uma ligação do nó da classe para cada atributo,
todos os atributos são relevantes para a variável da classe. Classificadores com esta propriedade
são denominados augmented naive Bayes.
Na Secção 2.2.5 é apresentado o classificador Naive Bayes (NB), a forma mais simples de um
classificador baseado em RB. No classificador NB a estrutura é fixa, isto é, não existem ligações
entre os atributos, apenas uma ligação do nó da classe para cada atributo. Sendo assim, todos
os atributos são assumidos como independentes. Na Secção 2.2.6 é apresentado o classificador
Tree Augmented Naive Bayes (TAN), uma extensão em árvore à estrutura do classificador NB.
Neste caso, cada atributo pode receber no máximo a ligação de um outro atributo, sem contar
com a ligação vinda da variável da classe.
2.2.5 Classificador Naive Bayes
O classificador NB assume que os atributos são todos independentes entre si, e que todos
são dependentes da classe. Este classificador funciona do seguinte modo:
1. Assuma-se queB é uma rede com n variáveis,D é um conjunto de dados com as instâncias
devidamente classificadas, e cada instância composta por n observações a = (a1, . . . , an)
para as n variáveis.
2. Assumindo que existe uma variável da classe C com k valores possíveis, c1, c2, . . . , ck, O
classificador calcula a probabilidade P (ci|a1, a2, . . . , an), 1 ≤ i ≤ k, e classifica a instância
a de acordo com o valor ci de C que deu origem à maior probabilidade.
13
2. Revisão da Literatura
3. Pelo Teorema de Bayes:
P (ci|a) =P (a|ci)× P (ci)
P (a), (2.5)
e como P (a) é constante para todas as classes, apenas precisamos de maximizar
P (a|ci)× P (ci). (2.6)
Quando P (ci) não é conhecido, supomos que todas as classes são equiprováveis e por
consequência apenas maximizamos P (a|ci).
4. Tendo em conta a independência entre os atributos, P (a|ci) pode ser facilmente calculado
da seguinte forma:
P (a|ci) =
n∏i=1
P (ak|ci) = P (a1|ci)× P (a2|ci)× . . .× P (an|ci), (2.7)
onde a probabilidade P (a|ci) pode ser facilmente estimada através do conjunto de treino,
do seguinte modo: se os atributos são categóricos então P (ak|ci) corresponde ao número
de observações com o valor ci para C em D que tem o valor ak para o atributo k, a dividir
pelo número de observações em D com o valor ci para a variável da classe C.
5. Para atribuir o valor de C à instância a, a Equação (2.6) é calculada para cada ci, sendo a
classificado com o valor ci que maximiza a probabilidade calculada em (2.6).
2.2.6 Classificador Tree Augmented Naive Bayes
O classificador NB desperta grande interesse por parte dos investigadores, devido à sua sim-
plicidade e aos bons resultados que ele obtém na classificação, apesar das suas assunções
irreais de independência face à complexidade dos problemas reais [15]. Desta maneira, foram
propostas várias melhorias ao classificador NB, entre as quais surge as Tree Augmented Naive
Bayes (TAN). As redes TAN são uma extensão à estrutura do classificador NB, onde as assun-
ções de independência entre os atributos deixam de ser tão fortes. Nas redes TAN, o nó do grafo
que diz respeito à classe alvo aponta diretamente para cada atributo, tal como no classificador
NB, mas cada atributo pode ainda receber no máximo uma ligação vinda de outro atributo, permi-
tindo a representação das relações entre os atributos através de uma estrutura em árvore. Deste
modo, à exceção da raiz, todos os nós têm exatamente um nó como pai. Um exemplo de uma
rede TAN é apresentado na Figura 2.3.
Repare que, na rede da Figura 2.3 o nó etiquetado com a letra C é o nó que representa a classe
alvo e o nó etiquetado com A1 é o nó escolhido para raiz dos atributos com dependência em
forma de árvore.
O max span tree é o algoritmo utilizado para construir a árvore que representa as relações entre
os atributos numa rede TAN tendo em conta o conjunto de dados. O procedimento divide-se nos
seguintes passos:
14
2.2 Mineração de Dados
Figura 2.3: Exemplo de uma rede TAN.
1. Calcular Ip(Xi;Xj |Z) para cada par de atributos i 6= j; A função IP (X;Y |Z) é a informação
mútua entre X e Y condicionada a Z e é definida por:
IP (X;Y |Z) =∑
X,Y,Z
P (X,Y, Z)logP (X,Y |Z)
P (X|Z)P (Y |Z). (2.8)
Esta função mede a informação que Y fornece sobre X conhecido o valor de Z.
2. Construir um grafo completo não dirigido, que tem como vértices os atributos da rede e
cada arco pesado com o valor calculado em (2.8) para o respetivo par de variáveis que este
liga.
3. Construir uma árvore que una todos os vértices e que maximize a soma dos pesos dos
seus arcos.
4. Transformar a árvore resultante do passo anterior, numa árvore dirigida escolhendo arbi-
trariamente um atributo para ser raiz e colocando todos os arcos a apontar para fora do
atributo escolhido.
5. Construir a rede TAN adicionando o vértice respeitante à variável da classe e um arco deste
vértice para cada atributo.
A complexidade temporal do algoritmo acima descrito é linear no número de instâncias pre-
sentes no conjunto de dados e quadrático no número de variáveis da RB. Esta complexidade é
determinada pelo cálculo dos pesos dos arcos, onde temos de calcular a expressão na Equação
(2.8) para todos os pares de vértices.
2.2.7 Inferência numa Rede de Bayes
O objetivo da inferência numa RB B consiste em calcular a probabilidade PB(XU |XE), onde
XU corresponde ao conjunto de variáveis não observadas, as quais pretendemos conhecer o
seu valor, e XE ao conjunto de variáveis instanciadas, denominadas de evidência. Frequente-
mente, XU corresponde a uma única variável. Dada a probabilidade conjunta sobre um conjunto
de variáveis, podemos facilmente responder a qualquer questão sobre o valor de uma variável,
15
2. Revisão da Literatura
marginalizando-a sobre o valor das restantes variáveis. A marginalização é feita da seguinte
forma:
P(X4=d) =∑a,b,c
P (a, b, c, d) =∑
a∈dom(X1)
∑b∈dom(X2)
∑c∈dom(X3)
P (X1 = a,X2 = b,X3 = c,X4 = d),
(2.9)
onde d é fixo e corresponde ao valor atribuído à variável X4 e a, b e c assumem os valores
possíveis dos domínios das variáveis X1, X2 e X3, respetivamente. Deste modo, a probabilidade
de X4 ter o valor d é dada pelo somatório de todas as possíveis combinações de valores das
restantes variáveis. A probabilidade condicional P (X4 = d|X2 = b) é calculada utilizando o
Teorema de Bayes:
P (X4 = d|X2 = b) =P (b, d)
P (b)=
∑a,c P (a, b, c, d)∑a,c,d P (a, b, c, d)
. (2.10)
No numerador, o somatório é feito apenas sobre os valores das variáveis X1 e X3 porque X2
está instanciada e X4 faz parte da pergunta.
2.2.7.A Método de Eliminação de Variáveis
O método de Eliminação de Variáveis [16] é um método exato muito utilizado na inferência
em RBs. Este método é apresentado tendo em conta a RB B da Figura 2.4.
Figura 2.4: Exemplo de uma RB retirada de [1]. A variável E não é utilizada para não se confundircom a evidência.
16
2.2 Mineração de Dados
A RB B especifica a probabilidade conjunta na forma fatorizada:
P (A,B,C,D, F,G) = P (A)P (B|A)P (C|A)P (D|A,B)P (F |B,C)P (G|F ). (2.11)
Supondo que queríamos marginalizar todas as variáveis desta distribuição de probabilidade
conjunta, teríamos:
∑A,B,C,D,F,G
P (A)P (B|A)P (C|A)P (D|A,B)P (F |B,C)P (G|F ). (2.12)
Com o objetivo de reduzir o número de multiplicações escrevemos a expressão numa forma
em que seja avaliada eficientemente, tirando partido da propriedade distributiva da soma pela
multiplicação. A expressão pode ser escrita da seguinte forma:
∑A
P (A)∑B
P (B|A)∑C
P (C|A)∑D
P (D|B,A)∑F
P (F |B,C)∑G
P (G|F ). (2.13)
Trabalhando a expressão da direita para a esquerda temos:
∑A
P (A)∑B
P (B|A)∑C
P (C|A)∑D
P (D|B,A)∑F
P (F |B,C)ΛG−>F (F ), (2.14)
onde ΛG−>F (F ) =∑
G P (G|F ). A notação ΛG−>F (F ) significa um termo que depende da variá-
vel F e que vai do somatório sobre a variável G para o somatório sobre F . Para reduzir o número
de cálculos tentamos mover o mais para a esquerda possível, com a restrição de que todas as
variáveis que aparecem no termo devem estar incluídas no somatório correspondente. Depois
do fator ΛG−>F (F ) ser movido para o somatório sobre F , a variável G pode ser removida. Assim,
no próximo passo temos:
∑A
P (A)∑B
P (B|A)∑C
P (C|A)ΛF−>C(B,C)∑D
P (D|B,A), (2.15)
onde ΛF−>C(B,C) =∑
F P (F |B,C)ΛG−>F (F ). Como este fator depende das variáveis B e C,
é movido para o somatório em C porque C têm um maior índice na ordem de eliminação. Depois
do fator ser movido para o somatório correto a variável F pode ser eliminada. O procedimento
é repetido até todas as variáveis estarem marginalizadas. Este método tem uma complexidade
temporal exponencial no tamanho do maior fator gerado. Deste modo, a ordem de eliminação
das variáveis utilizada é fundamental para o seu desempenho, visto que, uma má ordem de
eliminação pode originar a geração de fatores enormes e, por consequência, comprometer o
desempenho do método.
Murphy [1] mostra que a utilização de uma estrutura em árvore na inferência, denominada de
Junction Tree, permite o cálculo das n marginais em tempo O(n), sendo n o número de variáveis
da rede. De seguida são descritos os passos necessários para construir uma Junction Tree
a partir de qualquer grafo e o procedimento utilizado para calcular as marginais através dessa
17
2. Revisão da Literatura
mesma estrutura. A ideia base consiste em armazenar na árvore os termos gerados durante a
eliminação das variáveis, para que estes possam ser reutilizados, evitando assim a repetição dos
mesmos cálculos.
2.2.7.B Construção da Junction Tree
Para construir uma Junction Tree a partir de um grafo são necessários os seguintes passos:
1. Moralização do grafo: Para moralizar um grafo é necessário ligar os nós que partilham pelo
menos um nó filho. A direção dos arcos é retirada. A Figura 2.5 apresenta o grafo não
dirigido resultante da moralização do grafo da Figura 2.4.
Figura 2.5: O grafo resultante de moralizar o grafo da Figura 2.4. O arco adicionado na moraliza-ção está a tracejado.
2. Triangulação do grafo: Um grafo para ser triangular não pode conter ciclos com mais de
três vértices sem ter um arco que não faça parte do ciclo e que una dois vértices do ciclo.
Para triangular um grafo começa-se com todos os n vértices não numerados, o contador i
inicializado com o valor n e uma ordem de eliminação Π predefinida. Enquanto existirem
vértices não numerados:
• vi = Π(i), onde vi é o i-ésimo vértice a ser eliminado segundo Π.
• Formar um conjunto Ci composto por vi e pelos seus vizinhos, ou seja, todos os
vértices ligados por um arco a vi, e que ainda não estão eliminados.
• Se necessário, adicionar arcos de modo a que todos os pares de vértices em Ci este-
jam ligados.
• Eliminar vi e decrementar i em 1 unidade até que i = 1.
Exemplos da triangulação do grafo da Figura 2.4 utilizando as ordens de eliminação Π =
(A,F,D,C,B,G) e Π = (A,B,C,D, F,G) estão representadas na Figura 2.6 e na Fi-
gura 2.7, respetivamente. Neste último exemplo não foram adicionados quaisquer arcos,
18
2.2 Mineração de Dados
significando que o grafo da Figura 2.4 já é triangular porque tem uma ordem de eliminação
perfeita.
Figura 2.6: Eliminação dos nós do grafo da Figura 2.5 utilizando a ordem de eliminação π =(A,F,D,C,B,G). A tracejado estão os arcos adicionados para que todos os pares de vérticesde Ci estejam ligados.
Figura 2.7: Eliminação dos nós do grafo da Figura 2.5 utilizando a ordem de eliminação π =(A,B,C,D, F,G).
3. Construção da árvore de eliminação: A árvore de eliminação é construída a partir dos
conjuntos gerados na triangulação do grafo, conectando Ci a Cj , onde j corresponde ao
maior número utilizado na etiquetação dos vértices em Ci\{vi}.
Cada conjunto corresponde a um clique no grafo, ou seja, um subconjunto de vértices tal
que, todos os pares de vértices estão ligados por um arco.
Os cliques podem não ser máximos. Para que sejam máximos, os conjuntos redundantes
têm de ser removidos durante a triangulação. Quando Cj é gerado, verifica-se se já existe
algum conjunto Ci, tal que, Cj ⊂ Ci. Se existir tal conjunto Cj não é considerado na
construção da árvore de eliminação.
19
2. Revisão da Literatura
4. Construção da Junction Tree a partir da árvore de eliminação: Se os nós da árvore de
eliminação criada no passo anterior correspondem a cliques máximos, então a Junction
Tree pode ser obtida da seguinte forma:
• Adiciona-se um arco entre Ci e Cj se Ci ∩ Cj 6= 0. O peso atribuído a este arco é
|Ci ∩ Cj |, ou seja, o número de vértices presentes em ambos os conjuntos.
• Constrói-se uma árvore que inclua todos os conjuntos e maximize a soma dos pesos
dos seus arcos.
Na Figura 2.8 está ilustrada a Junction Tree resultante do grafo da Figura 2.4 com a ordem
de eliminação das variáveis Π = (A,B,C,D, F,G).
Figura 2.8: Junction Tree para o grafo da Figura 2.4 construída usando a ordem de eliminaçãoπ = (A,B,C,D, F,G).
2.2.7.C Cálculo das marginais através da Junction Tree
Os métodos de inferência que utilizam uma Junction Tree como estrutura de dados diferem,
essencialmente, na forma como é feita a passagem das mensagens entre os nós da árvore. Em
ambas as abordagens assume-se que:
• Sij corresponde ao separador entre os cliques i e j, ou seja, às variáveis que estão pre-
sentes em ambos os cliques.
• Cada clique tem um potencial φ associado, igual à multiplicação de todos os termos asso-
ciados ao clique. Como exemplo temos o clique ABD da árvore da Figura 2.8, que contém
os termos P (A), P (B|A) e P (D|A,B). Neste caso, φ(ABD) = P (A)P (B|A)P (D|A,B).
• O potencial no separador Sij , φ(Sij), é denominado de mensagem. Mensagem de i para j,
µi−>j , se o potencial no separador foi atualizado por i, e mensagem de j para i, µj−>i, se
o potencial no separador foi atualizado por j.
• A atualização do potencial em j para incluir a mensagem que vem de i é feita da seguinte
forma:
20
2.2 Mineração de Dados
φ∗j =
∑i\Sij
φ(i)
φ(Sij)φ(j). (2.16)
As duas abordagens utilizadas são a passagem de mensagens em paralelo e em série que
são descritas de seguida.
• Passagem de mensagens em paralelo: Em cada passo, todos os nós da árvore colecionam
em paralelo todas as mensagens dos seus nós vizinhos atualizando o seu potencial da
seguinte forma:
φ∗j = [∏
i∈vizinhos(j)
µi−>j ]φ(j). (2.17)
Após recebidas todas as mensagens dos seus nós vizinhos, o nó j pode enviar para todos
os k vizinhos, o produto de todas as mensagens recebidas dos seus vizinhos exceto a do
vizinho k:
µj−>k =
∑j\Sjk
φ(j)
µk−>j. (2.18)
Nesta abordagem, como todos os nós executam os cálculos em cada passo, a sua comple-
xidade temporal é O(n2), onde n corresponde ao número de nós da árvore, enquanto que
a abordagem seguinte consegue calcular todas as n marginais em duas passagens pela
árvore, ou seja, com uma complexidade temporal O(n) [1].
• Passagem de mensagens em série: Esta abordagem está dividida em duas fases. Na
primeira o fluxo de mensagens é dos nós folha para o nó raiz da árvore. Um nó genérico j
coleciona as mensagens dos seus filhos:
φ∗j = [∏
i∈filhos(j)
µi−>j ]φ(j). (2.19)
Depois, o nó j passa a mensagem para o seu único pai, k, do seguinte modo:
µj−>k =∑j\Sjk
φ(j). (2.20)
A Equação (2.20) está simplificada porque µk−>j = 1 (todas as mensagens são inicializa-
das a 1.)
Na segunda fase, cada nó coleciona a mensagem vinda do seu único pai e passa a mensa-
gem a todos os seus filhos, sendo o fluxo de mensagens do nó raiz para os nós folha. Esta
fase é também designada de distribuição de evidência. O nó j calcula o seu novo potencial
da seguinte forma:
21
2. Revisão da Literatura
φ∗j = φjµk−>j . (2.21)
De seguida, o nó j envia a seguinte mensagem para cada um dos seus i filhos:
µj−>i =
∑j\Sij
φ∗(j)
µi−>j. (2.22)
2.2.8 Redes de Bayes Dinâmicas
Uma Rede de Bayes Dinâmica (RBD) pode ser vista como uma extensão às RBs, visto que
permite lidar com as caraterísticas temporais de um conjunto de dados. As RBD têm a vantagem
de conseguir representar a evolução temporal de um conjunto de variáveis aleatórias de uma
forma compacta. Por consequência são introduzidos diferentes instantes de tempo, e em cada
instante existe um modelo que representa o estado do sistema, sobre o conjunto de variáveis
relevantes nesse instante de tempo. Seja X = {X1, . . . , Xn} o conjunto de atributos de todo o
processo, X(t)i a variável aleatória que denota o valor do atributo Xi no instante de tempo t e
X(t) o conjunto de variáveis aleatórias Xi que caraterizam o estado do sistema no instante t.
Como as RBD modelam processos que evoluem ao longo do tempo, tem de ser especificada
uma distribuição de probabilidade para todas as variáveis do processo, ou seja, para as variáveis
X(0)∪X(1) . . .∪X(T ), onde T representa o número máximo de instantes de tempo. A especifica-
ção desta distribuição de probabilidade é uma tarefa complexa, mas pode ser simplificada tendo
em conta duas premissas:
1. Hipótese de Markov: as variáveis X(t+1) não dependem diretamente das variáveis X(t′)
para todo o instante t′ < t. Por consequência P (X(t+1)|X(0), . . . , X(t)) = P (X(t+1)|X(t)).
2. Hipótese de estacionariedade do processo: a probabilidade condicional P (X(t+1)|X(t)) é
independente de t.
Dadas estas premissas, uma RBD [17] que define uma distribuição de probabilidade conjunta
sobre todas as variáveis do processo é um par (B0, B→) onde:
• B0 é uma RB que especifica uma distribuição sobre as variáveis X(0) que representa o
estado inicial do sistema.
• B→ é um modelo de transição representado por uma Rede de Bayes Condicional (RBC) so-
bre as variáveis X(t) ∪X(t+1) que especifica a probabilidade condicional PB→(X(t+1)|X(t))
para todo o t. Numa RBC as ligações existentes são das variáveis do instante t para as
variáveis do instante t+ 1. Não são permitidas ligações no sentido inverso. As variáveis do
instante t não têm pais e são denominadas de variáveis de entrada.
22
2.2 Mineração de Dados
Figura 2.9: Exemplo de uma Rede de Bayes Dinâmica.
Na Figura 2.9 está ilustrada um exemplo simples de uma RBD com apenas três variáveis X1,
X2 e X3. A RB B0 e a RBC B→ estão ilustradas em a) e b), respetivamente. Tendo em conta o
exemplo da Figura 2.9, a RB B0 especifica a distribuição inicial sobre as variáveis X1, X2 e X3 e
a RB B→ a seguinte probabilidade de transição:
PB→(X(1)|X(0)) =
n∏i=1
PB→(X(1)i |ΠX
(1)i
), (2.23)
onde n corresponde ao número de variáveis (neste exemplo n = 3). As probabilidades de transi-
ção têm a mesma expressão para todos os instantes de tempo.
Uma RBD pode ser vista como uma representação compacta de todas as possíveis trajetórias
do processo, podendo ser desenrolada para cada instante t > 0.
Figura 2.10: Rede de Bayes dinâmica desenrolada em três instantes de tempo.
Na Figura 2.10 é apresentado o resultado de desenrolar a RBD da Figura 2.9 em três instantes
de tempo. No instante t = 0, os pais de X(0)i são aqueles presentes na RB inicial B0. Nos
instantes t com 1 ≤ t ≤ 2 os pais de X(t)i correspondem aos nós pai de X(t)
i na RB B→.
Dada uma RBD, a distribuição conjunta sobre as variáveis {X(0), . . . , X(T )} é dada por:
PB(X(0), . . . , X(T )) = PB0(X(0))
T−1∏t=0
PB→(X(t+1)|X(t)), (2.24)
23
2. Revisão da Literatura
onde PB→(X(t+1)|X(t)) é obtido da Equação (2.9).
Numa RBD uma variável pode ter uma ligação para si própria em instantes de tempo diferentes.
Podemos encontrar este tipo de ligação na Figura 2.10, onde as variáveis X1 e X3 têm ligações
para elas próprias em instantes de tempo consecutivos. Numa RB este tipo de ligação não pode
existir, visto que, não são permitidos ciclos no grafo.
A RBD do exemplo é estacionária porque a estrutura da RBC é a mesma para todos os instan-
tes de tempo, para mais, respeita a hipótese de Markov, visto que, as variáveis presentes num
instante de tempo são influenciadas diretamente apenas pelas do instante de tempo anterior.
Estas restrições são feitas por causa de problemas de eficiência. Existem problemas onde têm
de ser analisadas séries de dados temporais longas, em que a frequência de observações é
muito grande, e por consequência, as restrições acima descritas são tidas em conta para tornar
possível a sua computação em tempo eficiente. Um exemplo deste tipo de problemas é a aná-
lise da bolsa, um problema na área da Economia. Porém, existem problemas onde as séries de
dados temporais são curtas, como é o caso dos problemas que lidam com dados clínicos, em
que o número de observações é baixo. Nestes problemas são possíveis alguns relaxamentos
às hipóteses de Markov e de estacionariedade para que estes possam ser resolvidos com maior
eficácia, tendo em conta a complexidade dos problemas reais. Uma alteração da complexidade
do problema seria considerar que as variáveis presentes num instante t dependem diretamente,
não apenas das variáveis do instante t − 1, mas também das variáveis do instante t − k, para
algum k fixo. Sistemas que respeitam esta propriedade são denominados de sistemas Semi-
Markovianos.
A estrutura da RBC pode também não ser a mesma em instantes temporais diferentes, tornando-
se numa rede não estacionária. As alterações à estrutura da RBC podem ser originadas pela
inclusão ou exclusão de arcos, ou pela modificação dos sentidos dos arcos existentes.
A secção seguinte explica como é feita a aprendizagem da RBD, estacionária ou não estacioná-
ria, a partir de um conjunto de dados.
2.2.9 Aprender a estrutura da Rede de Bayes dinâmica
O método de aprendizagem das RBD de um conjunto de dados difere consoante o tipo de
RBD, isto é, se esta é estacionária ou não estacionária. No caso em que as RBDs são estacio-
nárias, a aprendizagem pode ser feita utilizando as mesmas técnicas utilizadas na aprendizagem
das RB descritas na Secção 2.2.3, os mesmos métodos de procura e as mesmas funções de
pontuação com alterações simples [17]. As funções de pontuação continuam a ser decompo-
níveis na estrutura da rede permitindo que a RB B0 seja aprendida independentemente da RB
B→ [17]. A RB B→ é aprendida exatamente da mesma forma como é aprendida uma RB para
um conjunto de amostras de transições presente no conjunto de dados. Para cada transição são
aplicadas as operações locais à estrutura da rede com a finalidade de aumentar a sua pontua-
24
2.2 Mineração de Dados
ção. Este procedimento repete-se até a pontuação da estrutura da rede convergir.
Para RBDs não estacionárias o método de aprendizagem é diferente, como a estrutura da rede
pode mudar entre diferentes instantes de tempo, pretendemos estimar um conjunto de redes em
vez de uma rede apenas. Uma abordagem possível seria estimar uma RB para cada instante
de tempo, mas esta abordagem pode não funcionar bem porque se o número de observações
é baixo em cada instante de tempo, a reconstrução precisa da estrutura correta pode ser difícil
ou impossível. Por outro lado, aprender cada rede separadamente pode conduzir a estruturas
de redes muito diferentes em diferentes instantes de tempo. Sendo assim, uma alternativa con-
siste em encontrar a RB inicial e o conjunto de alterações à estrutura da rede inicial para cada
transição que melhor descrevem os dados [18].
2.2.10 Inferência em Redes de Bayes dinâmicas
A forma mais simples de fazer inferência numa RBD consiste em desenrolar a RBD para
t instantes de tempo desejados e de seguida aplicar qualquer um dos métodos de inferência
utilizados em RB, a cada uma das redes estáticas resultantes. Um dos algoritmos utilizados na
inferência exata em RBDs é o Interface [1]. Este algoritmo utiliza sempre a mesma Junction Tree,
construída a partir da RBC. De seguida é dada uma explicação de como funciona o algoritmo.
2.2.10.A Algoritmo Interface
O algoritmo interface utiliza apenas os nós num instante de tempo que têm filhos no instante
temporal seguinte para separar o passado do futuro [1]. Estes nós são designados de forward
interface. Os nós no instante t que têm pais no instante t− 1 são designados de backward inter-
face. De uma maneira geral ambos os nós forward interface e backward interface são designados
por nós interface. A Junction Tree é construída removendo do grafo da RBC, todos os nós não
interface e os seus arcos do primeiro instante de tempo. Para maior detalhe ver a Secção 2.2.7.B
que explica como se constrói uma Junction Tree a partir de um grafo. A única restrição é os nós
interface do instante t− 1 e t, designados por It−1 e It, respetivamente, têm de formar um clique
cada um. Isto pode ser assegurado adicionando arcos ao grafo moralizado entre todos os nós
em It−1 e de forma análoga para It. Depois de construídas todas as árvores, uma para cada
instante de tempo desejado, podemos juntá-las através dos seus nós interface, como ilustrado
na Figura 2.11.
A inferência pode ser feita em cada árvore separadamente, como nas RB estáticas. A troca
das mensagens entre árvores é feita através dos nós interface, em duas passagens, a primeira
da árvore mais à esquerda para a mais à direita e a segunda da árvore mais à direita para a
árvore mais à esquerda, tendo em conta a Figura 2.11. De seguida são descritos os cálculos
efetuados em cada uma das passagens:
• Primeira passagem:
25
2. Revisão da Literatura
Figura 2.11: Junção das várias árvores através dos nós interface. It são os nós interface para oinstante de tempo t e Nt os nós não interface desse instante. Dt é o clique em Jt que contémIt−1. Ct corresponde ao clique em Jt que contém It. As caixas retangulares representam osseparadores, sendo os seus domínios It.
1. Todos os potenciais (dos cliques e separadores) são inicializados a 1.
2. Em Jt−1, extrair o potencial em Ct−1, e marginaliza-se para It−1. Depois multiplica-se
pelo potencial de Dt.
3. Multiplicar as CPDs para cada nó no instante t pelo respetivo potencial em Jt, apli-
cando a evidência quando necessário.
4. Colecionar a evidência na raiz da árvore Ct.
5. Devolver todos os potenciais (dos cliques e separadores) em Jt.
Repare que, mesmo depois de colecionar a evidência na raiz Ct da árvore, nem todos os
cliques em Jt viram a evidência. É necessário distribuir a evidência de Ct para calcular a
distribuição sobre todos os nós de Jt. Este passo é executado na segunda passagem.
• Segunda passagem:
1. Como entrada temos ft|t que contém todos os potenciais dos cliques e separadores
de todos os nós de Jt, e bt+1|T , que contém os potenciais dos cliques e separadores
sobre todos os nós em Jt+1.
2. De bt+1|T , extrair o potencial para Dt+1, e marginalizá-lo para It.
3. Atualizar o potencial deCt em Jt absorvendo do potencial deDt+1 em Jt+1 da seguinte
forma:
φ∗Ct= φCt
∑Dt+1\Ct
φDt+1∑Ct\Dt+1
φCt
. (2.25)
4. Distribuir a evidência da raiz Ct.
5. Devolver todos os potenciais dos cliques e separadores.
26
2.3 Trabalho Relacionado
A complexidade temporal do algoritmo está entre O(KI+1) e O(KI+D), onde I corresponde
ao número de nós da forward interface, D é o número de nós não observados por instante de
tempo e K o número máximo de valores possíveis de cada nó [1].
2.3 Trabalho Relacionado
Nesta Secção são apresentados alguns dos trabalhos realizados relacionados com a ELA
Secção 2.3.1 e com a utilização de MGP em problemas de classificação na área da medicina
Secção 2.3.2, sendo dada maior importância à utilização de RB e RBD.
2.3.1 Trabalho Relacionado em Esclerose Lateral Amiotrófica
Apesar da ELA ser atualmente uma doença incurável, têm sido realizados trabalhos no sen-
tido de minimizar os efeitos devastadores da doença e com o objetivo de encontrar novas es-
tratégias para o tratamento [19]. Atualmente, o riluzole é o único agente terapêutico eficaz no
tratamento, prolongando a sobrevida dos doentes pelo menos 3 a 6 meses. No entanto, o atraso
do diagnóstico compromete seriamente a eficácia do tratamento. Têm sido também realizados
vários estudos [20] [21] [22], com o objetivo de perceber os fatores que impedem a realização
do diagnóstico atempadamente e de apresentar soluções para este problema. De seguida são
apresentados alguns dos trabalhos relacionados neste âmbito.
Vucic et al. [19] resumem os estudos feitos recentemente acerca da evolução e das funções
do organismo durante a doença, fundamentalmente com as alterações que são provocadas pela
doença. Avanços na genética permitiram a descoberta de 16 novos genes associados à ELA e à
identificação de mais de 50 mutações para cada um deles. Uma das descobertas mais importan-
tes foi da relação do gene C9ORF72 com a doença, visto que este aparece em mais de 40% dos
casos hereditários de ELA e em mais de 20% dos casos esporádicos. Esta descoberta permitiu
perceber melhor o desenvolvimento da doença e os mecanismos que a provocam, permitindo o
desenvolvimento de novas estratégias de tratamento. Neste contexto, o estudo de tratamentos
baseados em substituição de células tornou-se numa área ativa de investigação em doenças
neurodegenerativas, incluindo a ELA. Experiências realizadas em modelos de ratos transgénicos
mostram que a severidade da degeneração dos neurónios motores é proporcional aos níveis da
proteína TDP-43, sugerindo um papel importante desta proteína na regulação da severidade da
ELA.
Pinto et al. [5] efetuaram testes de função respiratória para detetar atempadamente sinais de
insuficiência respiratória em doentes de ELA. Insuficiência respiratória define-se na ELA como
sendo o aumento de CO2 no sangue arterial (PCO2 > 45 mmHG). Dos 199 doentes analisados,
27
2. Revisão da Literatura
131 apresentavam a forma da doença que tem início nos membros e 68 a forma da doença com
início na zona da medula. Apenas 24 doentes apresentavam sintomas de insuficiência respira-
tória. As medições efetuadas em cada doente foram a capacidade vital forçada (FVC), pressões
máximas de expiração e inspiração (PEmax e PImax), pressão na inspiração aos 100 ms (P0.1)
e a amplitude da resposta do nervo frénico motor à estimulação elétrica percutânea. Da análise
estatística através do modelo de regressão logística, verificou-se que a resposta do nervo frénico
à estimulação elétrica é discriminativa para previsão de insuficiência respiratória nas duas formas
da doença, com especificidade, sensibilidade e valor preditivo negativo altos, mas com valor pre-
ditivo positivo baixo, ou seja, quando os valores de resposta do nervo frénico são normais existe
uma grande incerteza na previsão de insuficiência respiratória.
Para avaliar o efeito de NIV na qualidade de vida e no aumento da sobrevida dos doentes
com ELA, foi realizado um estudo [23] com 41 doentes, dos quais 22 já tinham sido submetidos
a NIV. Os doentes foram avaliados de 2 em 2 meses e escolhidos aleatoriamente para lhes ser
administrada NIV, quando apresentavam dificuldade em respirar, com pressão máxima de inspi-
ração menor do que 60%. Foi realizado o teste generalizado de Wilcoxon, sendo usada como
covariável o nível de enfraquecimento da medula. Concluí-se que a aplicação de NIV melhora a
qualidade de vida e a sobrevida em doentes com ELA. Em doentes com enfraquecimento normal
a moderado do funcionamento da medula, o aumento mediano do número de dias de sobrevida
é de 205 dias, valor este muito maior ao obtido com o riluzole (2 a 3 meses). Doentes com enfra-
quecimento severo no funcionamento da medula apenas têm um aumento da qualidade de vida.
Nzwalo et al. [20] realizaram um estudo para identificar os fatores que provocam o atraso do
diagnóstico de ELA. Foram utilizados os registos clínicos de 120 doentes com ELA. As variáveis
utilizadas neste estudo foram a idade (< 45 vs ≥ 45 anos), género, forma da doença, especi-
alidade do médico que avaliou o doente (neurologista ou não neurologista), intervalo de tempo
desde o início da doença até à primeira consulta, segunda consulta e momento em que foi feito
o diagnóstico (< 12 vs ≥ 12 meses). Para identificar as variáveis relacionadas com o atraso no
diagnóstico, foi utilizado o método de regressão logística multivariada. Verificou-se que quando
a avaliação do doente é feita por um neurologista na primeira ou segunda consulta, existe menor
atraso (< 12 meses) no diagnóstico da ELA (p < 0, 05). A probabilidade de ter um diagnóstico
atrasado (≥ 12 meses) é maior em doentes com idade igual ou inferior a 45 anos (p < 0, 05). O
género do doente e a forma da doença com início na zona da medula estão independentemente
associadas a um menor atraso no diagnóstico (p < 0, 05). O atraso deve-se principalmente ao
reencaminhamento tardio do doente para um especialista adequado (neurologista).
No estudo de Cellura et al. [21], foram utilizados os registos clínicos de 260 potenciais doen-
28
2.3 Trabalho Relacionado
tes com ELA. Dos 260 doentes, 65 tinham a forma da doença que tem início na zona da medula
e 195 tinham a forma da doença que tem início nos membros superiores ou inferiores. Foram
recolhidos dados relativos ao número de especialistas consultados antes de ser consultado um
neurologista, os diagnósticos feitos antes de ser diagnosticada ELA, atraso desde o início da
doença até ao diagnóstico correto, e do tempo de atraso atá ao diagnóstico correto (devido a um
diagnóstico incorreto na primeira consulta). O método de análise estatística utilizado foi o da re-
gressão logística multivariada. Verificou-se que a mediana do tempo entre o início da doença e o
diagnóstico correto era de 11 meses (p = 0, 97), não existindo uma diferença significativa para as
duas formas da doença. Um diagnóstico incorreto na primeira consulta atrasa significativamente
o alcance do diagnóstico correto, num tempo mediano de 15 meses (p < 0, 001). O atraso do
diagnóstico correto não é encurtado quando o doente é visto primeiramente por um neurologista,
resultado que contraria o resultado obtido no estudo feito por Nzwalo et al. [20].
Gupta et al. [22] desenvolveram um modelo estatístico para prever o risco de desenvolvimento
de ELA para diminuir o tempo do diagnóstico. O diagnóstico de ELA é difícil no início da doença
porque os seus sintomas são semelhantes aos de muitas outras doenças. Para além disso, o
diagnóstico é baseado em técnicas que demoram alguns meses a serem efetuadas, nomea-
damente, exames neurológicos, eletrofisiológicos e radiológicos. Para a construção do modelo
foram utilizados 44 doentes esporádicos de ELA e 29 indivíduos saudáveis (sem hipertensão,
diabetes ou problemas cardíacos), que serviram para controlo. Das 13 variáveis independentes
analisadas, apenas 5 se revelaram significativas para prever o risco de ELA, após ter sido feita
uma análise estatística usando regressão logística (p < 0, 05). As 5 variáveis significativas são:
serum CCL2, CCL2 mRNA, VEGFA mRNA, consumo de álcool e tabaco. O modelo obtido acerta
em 90,4% dos diagnósticos. A sensibilidade e especificidade do modelo são de 93,2% e de
86,2%, respetivamente. No trabalho realizado por Amaral [24] foram construídos três modelos
de prognóstico de insuficiência respiratória em doentes com ELA (usando Naive Bayes), baseado
em janelas temporais de 90, 180 e 365 dias e atingem axatidões de 78.48%, 71.42%, e 72.27%,
respetivamente.
2.3.2 Trabalho Relacionado em Classificação utilizando MGP
Apesar de as RB e as RBD serem métodos muito utilizados em problemas de classificação
na área da medicina, não encontrámos nenhum trabalho relacionado da aplicação destes méto-
dos na classificação de doentes com ELA. Sendo assim, focámos a nossa pesquisa na aplicação
destes métodos em outras doenças, incluindo as doenças de Parkinson e Alzheimer que também
fazem parte das doenças neurodegenerativas mais importantes.
Morales et al. [25] utilizam os classificadores NB e Máquinas de Vetores de Suporte (MVS),
29
2. Revisão da Literatura
com o objetivo de discriminar os doentes com Parkinson (DP) que mantêm capacidade cognitiva
intacta (PCCI), daqueles que apresentavam pequenas alterações cognitivas (PPAC) e daque-
les que estão já num estado de demência (PED). Adicionalmente, extraiu-se as variáveis mais
relevantes relacionadas com o estado de demência na DP, de acordo com o previsto pelos clas-
sificadores. Os dados utilizados consistem em 45 doentes (27 homens e 18 mulheres) 14 PED,
15 PPAC e 16 PCCI. Neste estudo foram utilizadas 112 variáveis por doente, relativas à espes-
sura do córtex cerebral e ao volume das estruturas subcorticais obtidas através de ressonância
magnética. Foram realizados quatro estudos, três assumem a variável da classe, C, como sendo
binária, para distinguir entre os seguintes pares de grupos de doentes: PPAC vs PCCI, PPAC vs
PED e PED vs PCCI. O quarto estudo teve como objetivo construir um único classificador para
classificar o doente tendo em conta os três grupos. Foram aplicados os seguintes métodos de
classificação: NB e MVS sem técnica de seleção de variáveis; Naive Bayes Seletivo (NBS) que
resulta na junção do NB com uma técnica de seleção de variáveis que testa a independência
entre cada variável Xi e a variável da classe C calculando para cada Xi: 2NI(Xi, C), onde N
corresponde ao tamanho da base de dados e I(Xi, C) à informação mútua entre as variáveis Xi
e C (Apenas as variáveis que passaram no teste foram usadas na aprendizagem do classifica-
dor); NB com técnica de seleção de variáveis baseada na correlação (SVC-NB), onde se escolhe
um subconjunto de variáveis tendo em conta o nível de intercorrelação entre as variáveis Xi e
C, e as pontuações mais altas são atribuídas aos subconjuntos que contêm variáveis altamente
correlacionadas com C e têm uma baixa correlação entre elas; A validação dos modelos é efetu-
ada através do procedimento k-fold Cross Validation, onde k tinha o valor 5. Os resultados deste
estudo mostram que os classificadores SVC-NB e NBS são os que apresentam melhor desem-
penho na classificação dos doentes com DP nas diversas categorias que representam os seus
estados cognitivos. Um resultado também interessante deste estudo é o facto dos classificadores
terem maior precisão (diferença significativa) nos casos em que a variável da classe é binária,
visto que em geral é mais simples discriminar entre duas classes do que conseguir um bom clas-
sificador multiclasse e em exemplos com muitas variáveis comuns em problemas clínicos.
Para o diagnóstico de doentes de Alzheimer [26] foi utilizada uma RB. Os dados utilizados
neste estudo foram obtidos através de medições das estruturas do cérebro realizadas através
da ressonância magnética, em conjunto com variáveis clínicas. A RB é composta por 17 variá-
veis discretas mais a variável da classe que tem cinco valores possíveis, (consoante o estado
de demência do doente). Os dados foram recolhidos de 25 indivíduos. O conjunto de treino é
composto por 15 indivíduos e o conjunto de teste composto pelos restantes indivíduos. A RB foi
construída apartir do conjunto de treino através da função de pontuação BD e do método K2 de
procura heurística. O método K2 é uma simplificação do método GHC, onde é introduzida uma
ordem para os nós da rede. Neste estudo verificou-se que as RB são uma boa abordagem para
30
2.3 Trabalho Relacionado
problemas de classificação. As RB têm a vantagem de suportar métodos eficientes de inferência
e de conseguir representar associações multivariadas não lineares entre as variáveis.
As RB foram utilizadas em [27] para aprender as dependências entre atributos obtidos de
uma base de dados de fetos com diferentes frequências cardíacas. Neste estudo é comparado o
desempenho de duas RBs: uma construída através do conhecimento do domínio e outra criada
automaticamente a partir do conjunto de dados. A base de dados armazena as medições efetua-
das para as alterações morfológicas para cada feto. Existem no total 12 variáveis discretas, mais
uma variável da classe que representa o estado do feto e que também é discreta. O conjunto de
dados é composto por 830 medições para cada uma das variáveis de 9 fetos diferentes. Para
a RB que foi aprendida através do conjunto de dados foi utilizada a função de pontuação e o
método de procura heurístico K2 para encontrar a melhor estrutura da rede. Os principais resul-
tados deste estudo mostram que as duas abordagens apresentam desempenhos semelhantes,
aproximadamente 80% e 60% de sensibilidade e especificidade, respetivamente. As duas abor-
dagens apresentam também precisões idênticas. A aprendizagem automática da estrutura da
RB dá origem a redes com menos arcos, que conduzem a uma especificação mais eficiente das
probabilidades condicionais.
Em [28] foi estudada a conectividade de várias estruturas do cérebro através das RBD. Os da-
dos utilizados dizem respeito às medições efetuadas à atividade das diversas regiões do cérebro,
durante a execução de uma determinada tarefa. A atividade de uma região do cérebro é dada
pela média das séries temporais provenientes da ressonância magnética para essa região. Deste
modo, cada nó da RBD corresponde a uma região de interesse do cérebro. A estrutura da rede
foi aprendida utilizando o método de amostragem Markov Chain Monte Carlo (MCMC) e a função
de pontuação BD. A rede resultante é estacionária e Markoviana. A robustez desta abordagem
foi mostrada através de experiências com dados sintéticos e com duas bases de dados reais. Na
geração da RBD, o número de regiões do cérebro variou entre 3 e 8 e o comprimento da série
temporal de dados variou de 100 a 600 instantes de tempo cobrindo um total de 300 segundos.
Os principais resultados obtidos neste estudo mostram que as RBDs são mais promissoras e
precisas no estudo da conectividade das várias regiões do cérebro do que os métodos aplicados
anteriormente, incluindo as RB e o método Granger causality mapping (GCM). As RBD superam
as RB porque conseguem lidar com a caraterística temporal dos dados. Conseguem também
modelar conexões recorrentes, caraterística muito importante em sistemas biológicos.
Em [29] foi apresentada uma RBD como método eficaz para demonstrar o enfraquecimento
da conectividade do cérebro em doentes de Parkinson, através da realização de tarefas de mo-
vimento. Neste estudo foram identificadas três regiões de interesse do cérebro, e os dados
31
2. Revisão da Literatura
correspondem às medições efetuadas para cada uma delas através da ressonância magnética.
Existem seis nós para cada instante de tempo da RBD. Três correspondem às regiões de inte-
resse do cérebro definidas através de variáveis contínuas com uma distribuição Gaussiana, os
restantes três nós são relativos aos sinais de entrada que modelam o comportamento dos do-
entes a realizar as tarefas. As variáveis respetivas dos nós de entrada são discretas e seguem
distribuições multinomiais. A RBD é estacionária e respeita a hipótese de Markov. A aprendi-
zagem da estrutura da rede é feita através do método de amostragem MCMC e os grafos são
amostrados de acordo com a função de pontuação MDL.
A comparação de RBDs estacionárias e não estacionárias foi realizada em [30], no prognós-
tico da mortalidade em unidades de cuidados intensivos (UCI). Para cada doente admitido na
UCI foi feito um registo diário desde o dia de admissão até ao dia em que o doente deixou a UCI.
A base de dados é composta por 11418 registos de 1449 doentes admitidos em 40 UCI diferen-
tes. Cada registo é composto por 31 variáveis, 8 estáticas e 23 com caraterísticas temporais. A
variável da classe indica se o doente sobreviveu ou morreu. As variáveis contínuas foram discre-
tizadas. Os dados foram particionados num conjunto de treino com 949 doentes e num conjunto
de teste com 500 doentes. As RBDs estacionária e não estacionária foram aprendidas apartir
do conjunto de treino utilizando a função de pontuação BD e o método de procura heurístico
GHC. Para aprender a rede não estacionária, o conjunto de treino foi dividido em 33 subcon-
juntos, onde a duração do internamento dos doentes pertencentes ao mesmo subconjunto é a
mesma. Deste modo foi aprendida uma rede para cada subconjunto. Sendo assim, existe uma
rede diferente para cada instante de tempo e cada instante representa um dia. No total existem
33 instantes de tempo. No caso da rede estacionária, a variável da classe pertence ao instante
de tempo n para um doente com n − 1 registos e que se manteve vivo até ao dia n. Neste caso
foi escolhida uma janela temporal com 5 instantes de tempo, onde no quinto instante de tempo
apenas está a variável da classe. Foram escolhidos todos os valores das variáveis temporais
para quatro instantes consecutivos. Os resultados obtidos mostram que a performance da RBD
não estacionária supera a da RBD estacionária para o caso em que temos um conjunto de treino
grande. A combinação de modelos estacionários e não estacionários pode conduzir a um melhor
desempenho em problemas de prognóstico do que a utilização de cada um deles em separado.
Para fazer o prognóstico da doença da apneia do sono [31] foi também utilizada uma RBD
aprendida automaticamente a partir dos dados. Os dados utilizados são provenientes de me-
dições feitas de frequência cardíaca (FC), volume do peito (VP), concentração de oxigénio no
sangue (COS) e o estado do sono (ES). Estas medições foram efetuadas 34000 vezes para um
doente de apneia do sono. A variável ES é discreta e as restantes são contínuas. Todas as
variáveis contínuas foram discretizadas. A ordem das variáveis é dada pela ordem natural das
32
2.4 Sumário
observações. A RBD resultante é semi-Markoviana, visto que, a variável VP(t+1) não depende
apenas da variável VP(t), mas também da variável VP(t−1). A RBD também é não estacioná-
ria porque a sua estrutura é alterada ao longo do tempo. A estrutura é aprendida a partir do
conjunto de dados através da função de pontuação K2 modificada para lidar com observações
que não são distribuídas independentemente. O modelo foi gerado usando as primeiras 27000
observações e foi usado para gerar as últimas 7000 observações, para se poder avaliar o seu
desempenho. Os resultados obtidos mostram que as RBD são um método expressivo, adequado
à modelação de séries de dados temporais, fazer previsões, simulações e controlo em domínios
em que temos algum conhecimento prévio. São modelos explicativos do domínio e não apenas
um modelo descritivo. Facilitam a representação e aquisição de conhecimento e são modelos
capazes de lidar com incerteza.
Charitos et al. [32] apresentam uma RBD para resolver o problema de diagnóstico de pneu-
monia associada à ventilação (PAV) em doentes internados na unidade de cuidados intensivos.
O desempenho obtido pela RBD é comparado ao desempenho de uma RB estática já existente
para resolver o mesmo problema. Neste trabalho é utilizada uma base de dados temporais re-
lativos a 2410 doentes para a construção do modelo dinâmico. Cada instância corresponde à
observação de um doente durante um dia na unidade de cuidados intensivos. As probabilida-
des e a estrutura da RBD são obtidas através de especialistas com conhecimento no domínio
do problema. A RBD é Markoviana. Cada instante de tempo na rede tem 30 variáveis e repre-
senta 24 horas. A inferência é feita através do algoritmo Interface [1], uma extensão ao algoritmo
Junction Tree [1]. O desempenho da RBD é avaliado para uma amostra de 20 doentes do total
de um grupo de 487 doentes admitidos na unidade de cuidados intensivos por um período de
10 ou mais dias. Dos 20 doentes, 5 estavam diagnosticados com PAV. Destes 5 doentes foram
usados os dados recolhidos desde o dia da admissão até ao dia que foi diagnosticado PAV. Para
cada um destes 5 doentes, foram escolhidos 3 doentes com o mesmo sexo, mesmo número de
dias com ventilação e presentes na mesma enfermaria e que não tinham PAV. Os principais re-
sultados obtidos mostram que a RBD é melhor para distinguir entre doentes com PAV daqueles
que não têm PAV comparativamente à RB estática. O diagnóstico tendo em conta o historial do
doente apresenta melhor desempenho do que no modelo que utiliza uma RB estática, onde o
diagnóstico é feito tendo em conta apenas as observações atuais.
2.4 Sumário
Neste Capítulo é dada uma breve descrição da Esclerose Lateral Amiotrófica. São abordados
alguns dos métodos probabilísticos baseados em grafos utilizados na extração de conhecimento,
a partir de grandes conjuntos de dados, nomeadamente, as RB e as RBD. A aprendizagem das
33
2. Revisão da Literatura
RB e RBD a partir dos dados e a maneira de como é feita a inferência em cada uma delas
são também explicadas neste capítulo. Os classificadores NB e TAN, baseados em RB são
introduzidos neste Capítulo. É feito um resumo de alguns dos trabalhos realizados na área da
medicina, mais especificamente, na aplicação destes métodos em problemas de classificação.
Também são apresentados alguns trabalhos efetuados em ELA.
34
3Prever Insuficiência Respiratória
em Doentes de ELA
Contents3.1 Descrição dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.2 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.3 Classificador dinâmico baseado em RBD . . . . . . . . . . . . . . . . . . . . . 413.4 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.5 Discussão dos resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.6 Sumário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
35
3. Prever Insuficiência Respiratória em Doentes de ELA
Para o prognóstico de insuficiência respiratória em doentes com ELA, foi implementado um
método de classificação dinâmico baseado em RBD, com o objetivo de identificar quais os do-
entes que estarão em insuficiência respiratória no instante de tempo seguinte ao instante da
avaliação. O tempo decorrido entre instantes consecutivos corresponde a cada uma das janelas
temporais consideradas: 90, 180 ou 365 dias. Contrariamente aos métodos estáticos de classi-
ficação NB e RB, onde cada observação do doente é assumida independente das restantes, o
método dinâmico assume que uma observação de um doente, num dado instante, depende das
observações do mesmo doente realizadas anteriormente. Os dados utilizados na classificação
são descritos de seguida.
3.1 Descrição dos Dados
Os dados utilizados encontram-se no formato de valores separados por vírgulas e separados
em três ficheiros, um para cada uma das janelas temporais de 90, 180 e 365 dias. A seleção das
observações por doente e a divisão dos dados por janela foram realizados num trabalho ante-
rior [24]. Os dados resultam do seguimento de 517 doentes com ELA na unidade Neuromuscular
do Hospital de Santa Maria em Lisboa, durante um período de 10 anos. O conjunto de dados
contêm no total 29 atributos correspondentes à informação demográfica, resultados da execução
de testes respiratórios e avaliações clínicas dos doentes, mais a variável da classe Evolução que
assume dois valores possíveis: 1 se o doente entra num estado de insuficiência respiratória e
necessita da aplicação de NIV; 0, se respira sem problemas. Das 30 variáveis, 23 são contínuas
e 7 são discretas. A estrutura dos dados está representada no exemplo da Figura 3.1, onde
temos 10 observações para 3 doentes distintos.
Figura 3.1: Exemplo da estrutura dos dados.
Cada linha da tabela representa uma observação diferente. A primeira coluna identifica o
doente a que pertence a observação, e as restantes colunas o valor observado para cada uma
das variáveis. A última coluna corresponde à variável da classe. Os doentes com identificadores
36
3.2 Metodologia
1, 2 e 3 têm três, quatro e duas observações, respetivamente. Repare que, a última observação
dos doentes com identificadores 2 e 3, tem o valor 1 para a variável da classe (Evolução). Isto
significa que os doentes 2 e 3 entraram num estado de insuficiência respiratória, numa janela
de k dias, onde k corresponde à janela temporal do respetivo conjunto de dados. Na Tabela 3.1
são apresentados os detalhes dos dados para as diferentes janelas temporais. Embora pos-
sam existir observações do mesmo doente estas são usadas ou em treino ou em teste e nunca
simultaneamente em treino e teste.
K (dias) Nr. Observações Valores em falta (%) Com Evolução Sem Evolução90 1487 32,43 337 1150180 1410 32,2 518 892365 1277 31,73 754 523
Tabela 3.1: Detalhes dos dados por janela temporal (90, 180 e 365 dias).
3.2 Metodologia
Na classificação dos doentes de ELA, explicada com maior detalhe na Secção 3.2.2 foram uti-
lizados alguns dos classificadores estáticos implementados no WEKA [33] e três classificadores
dinâmicos baseados em RBD implementados nesta tese a partir da implementação dos classifi-
cadores base do WEKA. Estes três últimos classificadores são as principais contribuições deste
trabalho. Na Secção 3.3 são introduzidos os classificadores baseados em RBD e apresentadas
as diferenças entre os três classificadores implementados. A metodologia utilizada encontra-se
esquematizada na Figura 3.2.
Figura 3.2: Plano de trabalho adotado para a classificação dos doentes de ELA. Para equilibrar onúmero de instâncias pertencente a cada classe, foi aplicada a técnica Synthetic Minority Over-sampling Technique (SMOTE) [2], explicada na Secção 3.2.3.
Antes da classificação ser executada, os dados foram submetidos a um pré processamento,
que está descrito na Secção 3.2.1.
37
3. Prever Insuficiência Respiratória em Doentes de ELA
3.2.1 Pré processamento
Na classificação assume-se que os conjuntos de dados têm o mesmo número de observa-
ções por doente, não têm valores em falta e são discretos. Para tal, foram aplicadas algumas
transformações aos dados, descritas de seguida.
3.2.1.A Seleção das observações
A seleção das observações por doente pode ser feita de duas formas. A primeira consiste em
especificar um intervalo através da definição dos seus limites inferior e superior. Por exemplo, se
definirmos o intervalo com limite inferior igual a dois e limite superior igual a quatro, são esco-
lhidas a segunda, terceira e quarta observações para todos os doentes com pelo menos quatro
observações. Os doentes com menos de quatro observações são removidos. A segunda forma
consiste em selecionar as últimas N observações de cada doente (N > 0). Neste caso são esco-
lhidas as últimas N observações dos doentes com pelo menos N observações, sendo removidos
os restantes. Na Figura 3.3 e 3.4 são exemplificadas a seleção das observações dos doentes
através da definição de um intervalo e a seleção das últimas N observações, respetivamente.
Figura 3.3: Exemplo da seleção das observações dos doentes através da definição de um inter-valo. Neste exemplo os limites inferior e superior são definidos como 2 e 4, respetivamente. Àesquerda está representado um exemplo de um conjunto de dados e à direita o conjunto resul-tante de aplicar a operação de seleção.
No exemplo da Figura 3.3, apenas o doente com identificador 3 não foi removido porque era
o único que tinha pelo menos quatro observações, tendo sido escolhidas as suas segunda, ter-
ceira e quarta observações conforme o especificado pelo intervalo. No exemplo da Figura 3.4,
o único doente removido foi o com identificador 2 porque era o único que tinha menos de três
observações. Dos restantes, foram selecionadas as últimas três. Como o doente 1 tem apenas
três observações, selecionar as suas últimas três é o mesmo que selecionar as suas primeiras
três observações. Depois de algumas experiências, nomeadamente, a seleção das primeiras
três, das primeiras cinco, das terceira, quarta e quinta observações, das últimas quatro e das
últimas três, verificou-se que a seleção das primeiras cinco observações conduziam aos melho-
res resultados. Na Tabela 3.2 estão descritos os conjuntos de dados para cada janela temporal,
38
3.2 Metodologia
Figura 3.4: Exemplo da seleção das últimas N observações de cada doente. Neste exemplo,N = 3. À esquerda está representado um exemplo de um conjunto de dados e à direita oconjunto resultante de aplicar a operação de seleção.
depois de selecionadas as primeiras cinco observações para cada doente.
K (dias) Nr. Observações Valores em falta (%) Com Evolução Sem Evolução90 575 32,57 41 534180 535 32,67 79 456365 485 32,53 175 310
Tabela 3.2: Detalhes dos dados por janela temporal (90, 180 e 365 dias), depois de selecionadasas primeiras 5 observações de cada doente.
3.2.1.B Substituição dos valores em falta e discretização dos dados
Para reduzir a complexidade do problema, todos os atributos contínuos foram discretizados.
Na Tabela 3.3 estão representados os intervalos definidos para cada uma das variáveis contí-
nuas. O método utilizado foi o da discretização não supervisionada implementada no Weka [33].
O número máximo de intervalos permitido foi estabelecido em três. Antes da discretização,
todos os valores em falta foram substituídos. A estratégia utilizada está implementada no Weka
e consiste em substituir os valores, no caso de atributos numéricos, com a média dos valores
presentes no conjunto de treino para esse atributo, e com a moda dos valores, no caso de ser
um atributo nominal.
3.2.2 Classificação
Na classificação foram utilizados os classificadores estáticos NB, RB com os métodos de
procura GHC, K2 e TAN, implementados no WEKA e três classificadores dinâmicos baseados
em RBD. Para evitar a adaptação dos classificadores aos conjuntos de dados (overfitting), foi
utilizado o método de validação cruzada. Neste método o conjunto de dados é dividido em k
subconjuntos. Cada subconjunto k é utilizado para teste uma única vez. Em cada iteração, o
classificador é treinado com os k − 1 subconjuntos e testado com o subconjunto k. Os resulta-
dos finais são obtidos através da média dos resultados obtidos para cada subconjunto de teste.
39
3. Prever Insuficiência Respiratória em Doentes de ELA
Atributo IntervalosBMI ≤ 24, 6; 24, 6− 31, 5;> 31, 5Age at onset ≤ 46, 7; 46, 7− 64, 3;> 64, 31st symptoms - 1st visit ≤ 81, 4; 81, 4− 162, 7;> 162, 7ALS-FRS ≤ 18, 3; 18, 3− 28, 7;> 28, 7ALS-FRS-R ≤ 25; 25− 36;> 36ALS-FRSb ≤ 4; 4− 8;> 8R ≤ 9, 3; 9, 3− 10, 7;> 10, 7SpO2mean ≤ 93, 7; 93, 7− 96, 5;> 96, 5SpO2min ≤ 59, 7; 59, 7− 77, 3;> 77, 3SpO2< 90 ≤ 12, 6; 12, 6− 25, 3;> 25, 3Dips/h<4 ≤ 31, 4; 31, 4− 62, 9;> 62, 9VC ≤ 64, 1; 64, 1− 98, 2;> 98, 2FVC ≤ 46, 7; 46, 7− 91, 4;> 91, 4MIP ≤ 47, 4; 47, 4− 87, 7;> 87, 7MEP ≤ 76, 1; 76, 1− 136, 1;> 136, 1P0.1 ≤ 113, 8; 113, 8− 213, 4;> 213, 4PO2 ≤ 80, 4; 80, 4− 96, 8;> 96, 8PCO2 ≤ 35, 3; 35, 3− 42, 5;> 42, 5PhrenMeanLat ≤ 6, 4; 6, 4− 9;> 9PhrenMeanAmpl ≤ 0, 5; 0, 5− 0, 9;> 0, 9PhrenMeanArea ≤ 5; 5− 9, 6;> 9, 6
Tabela 3.3: Intervalos de discretização obtidos para as variáveis contínuas.
Os subconjuntos foram criados automaticamente pelo Weka para os classificadores estáticos e
manualmente para os classificadores dinâmicos. A criação manual dos subconjuntos foi neces-
sária para garantir que todas as observações de um doente estivessem presentes no mesmo
subconjunto.
3.2.3 SMOTE
Como existem muito mais instâncias pertencentes à classe que não tem evolução do que à
classe com evolução, foi aplicado SMOTE [2] ao conjunto de treino, uma técnica de criação de
instâncias sintéticas através da amostragem da classe minoritária, tendo em conta os k vizinhos
mais próximos. O objetivo da aplicação desta técnica é equilibrar o número de instâncias perten-
centes a cada uma das classes. Um dos parâmetros utilizados é a percentagem de SMOTE que
indica o número de instâncias que pretendemos criar. Por exemplo, se tivermos 10 instâncias da
classe minoritária e se a percentagem de SMOTE for 100%, o número de instâncias da classe
minoritária passa para o dobro, ou seja, passa a ser 20. A percentagem de SMOTE foi calculada
de forma a igualar o número de instâncias em cada classe, através da seguinte expressão:
PSMOTE =(max−min) ∗ 100
min, (3.1)
onde max e min correspondem ao número de instâncias da classe maioritária e minoritária,
respetivamente. SMOTE foi aplicado apenas se min ≥ 2. As instâncias são criadas através da
40
3.3 Classificador dinâmico baseado em RBD
diferença dos valores da instância em consideração e dos valores do seu vizinho mais próximo.
A diferença é multiplicada por um número aleatório entre 0 e 1 e é adicionada à instância em
consideração. O número de vizinhos utilizado foi 5.
3.2.4 Avaliação
Na avaliação do desempenho do classificador recorre-se frequentemente à matriz confusão
para analisar quão bem o classificador discrimina as instâncias de diferentes classes. Um exem-
plo de uma matriz de confusão para um problema onde a variável da classe assume dois valores
possíveis: C e ¬C é apresentado na Tabela 3.4. Verdadeiros positivos (VP) são as instâncias
positivas corretamente classificadas. Verdadeiros negativos (VN) são as instâncias negativas
corretamente classificadas. Falsos positivos (FP) são instâncias negativas classificadas como
positivas e falsos negativos (FN) são instâncias positivas classificadas como negativas.
C ¬CC VP FN¬C FP VN
Tabela 3.4: Exemplo de uma matriz confusão.
Um classificador ideal é aquele que consegue discriminar corretamente todas as instâncias,
ou seja, cujo o número de FP e FN da sua matriz confusão é igual a zero.
A precisão do classificador é medida através da razão entre o número de instâncias classificadas
corretamente e o número total de instâncias, e é dada pela seguinte expressão:
precisao =V P + V N
V P + V N + FP + FN. (3.2)
A sensibilidade do classificador diz respeito à quantidade de instâncias classificadas como per-
tencentes à classe C de entre todas as instâncias que verdadeiramente têm esse valor. É calcu-
lada através da seguinte equação:
sensibilidade =V P
V P + FN. (3.3)
A especificidade é a taxa de VN, ou seja, o número de instâncias classificadas como não per-
tencentes à classe C de entre todas as que não pertencem verdadeiramente à classe C e é
calculada da seguinte forma:
especificidade =V N
V N + FP. (3.4)
3.3 Classificador dinâmico baseado em RBD
A principal diferença entre um classificador dinâmico baseado em RBD (cdRBD) e os clas-
sificadores estáticos descritos nas Secções 2.2.5 2.2.6, é o facto de o classificador dinâmico
41
3. Prever Insuficiência Respiratória em Doentes de ELA
assumir que uma observação num determinado instante depende das observações dos instan-
tes anteriores. Um cdRBD é composto por uma RB inicial (RBI) e uma RB condicional (RBC). O
diagrama UML do cdRBD implementado nesta tese está representado na Figura 3.5.
Figura 3.5: Diagrama UML com uma visão geral da hierarquia de classes do classificador dinâ-mico.
A RBI é aprendida utilizando um dos métodos de aprendizagem de RB implementados no
Weka, nomeadamente, TAN, GHC ou K2. Na aprendizagem da RBI são utilizadas todas as
instâncias do primeiro instante de tempo. A RBC é aprendida com o método GHC dinâmico.
Este método difere do método GHC descrito na Secção 2.2.3 nos seguintes aspetos:
• São permitidas apenas as operações de adição e remoção de arcos;
• Apenas são permitidos arcos das variáveis do instante de tempo t para as variáveis do
instante de tempo t+ 1.
A aprendizagem da RBC é feita através de um conjunto de T − 1 amostras de transição, onde
T corresponde ao número de instantes de tempo. A RBC é constante para todos os instantes de
tempo. Na aprendizagem de ambas as redes podem ser utilizadas qualquer uma das funções
de pontuação implementadas no Weka, nomeadamente, BDeu, MDL, AIC e função de pontu-
ação baseada na entropia Secção 2.2.3. O método de construção das amostras de transição
é explicado na próxima Secção. A Secção 3.3.2 explica como é feita a classificação. As dife-
rentes implementações de um classificador baseado em RBD, nomeadamente, o classificador
dinâmico baseado em RBD padrão (cdRBDp), o classificador dinâmico baseado em RBD com
arcos no mesmo instante de tempo (cdRBDia) e o classificador baseado em RBD com os arcos
42
3.3 Classificador dinâmico baseado em RBD
frequentes (cdRBDfa), são descritos nas Secções 3.3.3, 3.3.4 e 3.3.5, respetivamente. As várias
implementações diferem apenas na estratégia utilizada na aprendizagem da RB condicional.
3.3.1 Amostras de transição
Para simplificar a construção das amostras de transição, todas as instâncias são separadas
pelos respetivos instantes de tempo e guardadas num vetor com tamanho T , onde T corres-
ponde ao número de instantes de tempo. Na Figura 3.6 é mostrado um exemplo de um vetor de
instâncias para N doentes com T observações.
Figura 3.6: Exemplo de um vetor de N instâncias organizadas em T instantes de tempo.
As amostras de transição são construídas unindo, para todo o i ∈ {0, ..., T − 2}, os conjuntos
de instâncias dos instantes i e i+ 1, como está exemplificado na Figura 3.7.
Figura 3.7: Exemplo da construção de uma instância da amostra de transição, através da junçãodas instâncias de dois instantes de tempo consecutivos. A amostra de transição é obtida atravésda repetição do procedimento, para todas as instâncias.
Cada instância de uma amostra de transição é obtida da seguinte forma:
1. O atributo da classe da instância que pertence ao instante de tempo i e o identificador da
43
3. Prever Insuficiência Respiratória em Doentes de ELA
instância que pertence ao instante i+ 1 são removidos;
2. Juntam-se os atributos das duas instâncias numa nova instância;
3. Em cada atributo é colocado um prefixo no nome a indicar o instante de tempo a que
pertence.
É através do prefixo colocado no nome das variáveis que o método de procura da RB con-
dicional consegue selecionar apenas os arcos das variáveis do instante i para as variáveis do
instante i+ 1.
3.3.2 Classificação
A classificação com o classificador dinâmico, é feita de modo semelhante à classificação com
classificadores estáticos, sendo escolhido o valor da variável da classe que dá origem à maior
probabilidade como resultado da classificação. O método utilizado para calcular a probabilidade
é explicado com base no exemplo da Figura 3.8, onde são dadas N instâncias, e a variável da
classe assume k valores possíveis. A lista de instâncias recebida, corresponde ao conjunto de
Figura 3.8: Ilustração do método utilizado para a classificação de um doente com o classifica-dor dinâmico, tendo em conta todas as suas observações. Neste exemplo cada doente tem Nobservações e variável da classe assume k valores possíveis.
observações de um determinado doente, em que todos os valores são observados exceto o valor
da classe para o último instante de tempo. As instâncias utilizadas para o cálculo da probabilidade
com a RB condicional são juntas recorrendo ao mesmo procedimento utilizado na criação de
instâncias para as amostras de transição (Figura3.7). Como todos os valores da variável da
classe são conhecidos em todos os instantes exceto no último, as probabilidades obtidas na
entrada do vetor respetiva ao valor da classe observado são multiplicadas. O resultado obtido
é multiplicado pela probabilidade de ser observado, no último instante, cada um dos k valores
possíveis da variável da classe. O valor k que der origem à maior probabilidade é escolhido
como resultado da classificação. As probabilidades calculadas para cada valor da classe, tendo
em conta a estrutura da rede e os valores observados foram obtidos através das funcionalidades
44
3.4 Resultados
implementadas no Weka, onde é permitido aceder às tabelas de probabilidade condicionais de
cada nó da rede, e obter a sua probabilidade dada a configuração de valores dos seus nós pai.
3.3.3 Classificador cdRBDp
Este classificador aprende, para cada amostra de transição, uma RB utilizando o método
GHC dinâmico descrito anteriormente. A aprendizagem da RB em cada amostra de transição
tem como ponto de partida a estrutura da RB aprendida na amostra de transição anterior. A RBC
corresponde à RB resultante na última amostra de transição. Neste classificador, a RBC tem
apenas os arcos que ligam variáveis do instante i para o instante i+ 1.
3.3.4 Classificador cdRBDia
A ideia subjacente a este classificador consiste em adicionar os arcos que ligam variáveis do
mesmo instante de tempo à RBC. O classificador começa por aprender a RBC da mesma forma
que o classificador cdRBDp, e de seguida, aprende uma RB para cada instante de tempo, com o
objetivo de obter os arcos que ligam variáveis do mesmo instante, tendo em conta apenas o con-
junto de instâncias desse mesmo instante. A estrutura da RB aprendida para um dado instante
tem como ponto de partida a RB aprendida no instante anterior, convergindo quando tiverem
sido aprendidas para todos os instantes de tempo. De seguida são adicionados todos os arcos
da RB à RBC, no instante i+ 1, sendo utilizada a funcionalidade do Weka que permite modificar
os conjuntos de nós pai para cada nó da RB e de voltar a estimar as tabelas de probabilidades
condicionais para refletir essas alterações. A aprendizagem dos dois tipos de arcos é feita de
forma independente.
3.3.5 Classificador cdRBDfa
Ao contrário dos classificadores anteriores, este classificador aprende uma nova RB para
cada amostra de transição. Os arcos de cada RB obtida são contabilizados numa matriz de
dimensão N ×N , onde N corresponde ao número de atributos. Todas as entradas da matriz são
inicializadas a zero. Por cada arco aprendido na RB atualiza-se o contador respetivo na matriz.
Depois de aprendidas as RB para todos os instantes de tempo, são selecionados apenas os
arcos que apareceram em pelo menos metade das RB aprendidas, para fazerem parte da RBC.
Posteriormente, são aprendidos e adicionados os arcos que ligam variáveis do mesmo instante
de tempo à RBC, seguindo o mesmo procedimento utilizado no cdRBDia.
3.4 Resultados
Os resultados da classificação, para os conjuntos de dados correspondentes às janelas tem-
porais de 90, 180 e 365 dias são apresentados nas Figuras 3.9, 3.10 e 3.11, respetivamente. A
45
3. Prever Insuficiência Respiratória em Doentes de ELA
função de pontuação utilizada foi MDL. Na aprendizagem das RB, cada nó da rede podia ter no
máximo dois pais. Nos classificadores dinâmicos, o método de procura utilizado na aprendiza-
gem da RBI foi a TAN e na aprendizagem da RBC o GHC dinâmico.
3.5 Discussão dos resultados
Os resultados obtidos são bastante animadores, melhorando significativamente em relação
aos resultados obtidos no trabalho anterior [24] onde foi abordado o mesmo problema e utilizado o
mesmo tipo de dados. O classificador cdRBDia é o que apresenta melhor desempenho, tendo em
conta os critérios de avaliação utilizados (precisão, sensibilidade e especificidade) para os dados
de todas as janelas temporais. O classificador que consegue obter um desempenho próximo do
classificador cdRBDia é o cdRBDfa, tendo também em conta todos os critérios de avaliação e
todas as janelas temporais. Estes dois classificadores superam os restantes com uma margem
bastante confortável (mais de 10% em todos os conjuntos de dados). O classificador cdRBDp
é o que apresenta um desempenho mais baixo de entre os classificadores dinâmicos. Este
classificador, dos três dinâmicos, é o único que não inclui os arcos que ligam variáveis no mesmo
instante de tempo na RBC, revelando a elevada importância da presença deste tipo de arcos
na RBC, fazendo com que o classificador alcance um melhor desempenho na classificação. Os
classificadores dinâmicos mostram ter uma maior capacidade para identificar os doentes com
evolução, caraterística muito importante para o problema abordado neste trabalho.
3.6 Sumário
Neste Capítulo foram introduzidos os três classificadores dinâmicos baseados em RBD im-
plementados utilizando o Weka. O classificador cdRBDp contém apenas os arcos entre variáveis
de instantes diferentes na RBC, enquanto que, os classificadores cdRBDia e cdRBDfa também
incluem, na RBC, os arcos sobre variáveis do mesmo instante de tempo. O classificador cdRBDfa
difere do cdRBDia porque na RBC apenas estão os arcos que apareceram, pelo menos em, me-
tade das RB aprendidas. As várias etapas da classificação também são descritas neste Capítulo,
entre elas, o processamento dos dados, a seleção das observações e a validação dos classifica-
dores. O desempenho dos classificadores foi avaliado tendo em conta a precisão, sensibilidade
e especificidade. No final do Capítulo são apresentados e discutidos os principais resultados
obtidos.
46
3.6 Sumário
Figura 3.9: Resultados da classificação para os dados correspondentes à janela temporal de 90dias. Foram utilizados os classificadores dinâmicos cdRBDp, cdRBDia e cdRBDfa e os classifi-cadores estáticos NB, GHC, TAN e K2.
Figura 3.10: Resultados da classificação para os dados correspondentes à janela temporal de180 dias.
47
3. Prever Insuficiência Respiratória em Doentes de ELA
Figura 3.11: Resultados relativos ao desempenho dos classificadores obtidos na classificaçãoutilizando os dados correspondentes à janela temporal de 365 dias.
48
4Aplicação
Contents4.1 Arquitetura da aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.2 Interface com o utilizador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514.3 Sumário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
49
4. Aplicação
Foi desenvolvida uma aplicação computacional para permitir testar os diferentes modelos de
classificação obtidos para prever insuficiência respiratória em doentes de ELA e visualizar os re-
sultados obtidos. A arquitetura escolhida para a aplicação foi a Modelo-Vista-Controlador (MVC).
Esta arquitetura permite desacoplar o modelo de toda a lógica de interação com o utilizador, tor-
nando a aplicação mais flexível e facilmente integrada com outros sistemas. O modelo pode ser
facilmente modificado através da inclusão de novas funcionalidades ou da alteração das funcio-
nalidades existentes, com um impacto mínimo nos restantes módulos da aplicação. A arquitetura
é descrita com maior detalhe na Secção 4.1. Durante o desenvolvimento da aplicação, uma das
considerações foi a possibilidade da aplicação poder ser utilizada na classificação de diferentes
problemas com dados diferentes, desde que o formato de entrada dos dados seja respeitado. Na
Secção 4.2 são explicadas as interações mais importantes com a aplicação.
4.1 Arquitetura da aplicação
Na Figura 4.1 estão representados os principais módulos da aplicação, as principais intera-
ções entre eles e de que forma é respeitada a arquitetura MVC.
Figura 4.1: Esquema com a arquitetura da aplicação.
Os três módulos principais da aplicação são:
• Vista: Conjunto de páginas JSP geradas dinamicamente no servidor com os dados atuali-
zados para serem mostrados ao cliente. É através destas páginas que o utilizador interage
com a aplicação;
• Controladores: Java Servlets que correm no servidor aplicacional Tomcat 7.0 e que per-
mitem a geração das páginas JSP. Os Servlets são a ponte entre o cliente e o modelo.
Recebem o pedido HTTP do cliente, manipulam os dados do modelo necessários para
50
4.2 Interface com o utilizador
atender o pedido e preparam a resposta para ser enviada para o cliente e mostrada numa
página JSP;
• Modelo: Corresponde à funcionalidade essencial da aplicação e que envolve a manipulação
dos dados, nomeadamente, os classificadores dinâmicos implementados neste trabalho, as
funcionalidades do Weka que serviram de suporte à criação dos classificadores e toda a
comunicação com a base de dados abstraída pelo Weka.
4.2 Interface com o utilizador
A aplicação disponibiliza uma interface simples para permitir ao utilizador testar os vários
classificadores de forma simples e rápida. A interface contém apenas o essencial para que os
vários classificadores possam ser experimentados e para que os resultados sejam facilmente
visualizados. De seguida é dada uma breve explicação de como deve ser utilizada a aplicação.
Na Figura 4.2 está ilustrado o ecrã da aplicação para fazer o carregamento do ficheiro com os
dados para o servidor. Para escolher o ficheiro de dados de um diretório local e confirmar o seu
carregamento para o servidor são clicados os botões assinalados em (1) e (2), respetivamente.
No ecrã do processamento dos dados, ilustrado na Figura 4.3, é possível visualizar os dados na
Tabela identificada em (1). Os dados são atualizados à medida que é realizado o processamento.
O número de observações por doente e os limites inferior e superior do intervalo de tempo são
especificados em (2). A escolha dos filtros a serem aplicados nos dados e das variáveis pretendi-
das para a classificação está ilustrada em (3) e (4), respetivamente. O pedido de processamento
dos dados é efetuado depois de clicado o botão em (5). No caso de ser necessário recuperar
os dados originais tem de ser clicado o botão em (6). Na Figura 4.4 estão ilustrados os passos
necessários para ser efetuada a classificação. O classificador é escolhido tendo em conta uma
das opções da caixa de seleção assinalada em (1). Os parâmetros do classificador são definidos
em (2). Tendo estes sido escolhidos procede-se à classificação clicando em (3). A organização
dos resultados é apresentada na Figura 4.5. Os resultados obtidos, os detalhes do classificador
e dos dados utilizados na classificação são apresentados em (1). Em (2), são mostradas as
estruturas das redes.
4.3 Sumário
Neste Capítulo foi introduzida a aplicação desenvolvida durante o trabalho. A arquitetura
escolhida para a aplicação foi a Modelo-Vista-Controlador, para tornar a aplicação mais flexível e
fácil de ser integrada em outros sistemas. Foi também dada uma breve explicação das possíveis
interações do utilizador com a aplicação, através da apresentação dos principais ecrãs.
51
4. Aplicação
Figura 4.2: Ecrã da aplicação utilizado para carregar os dados no servidor.
Figura 4.3: Ecrã da aplicação utilizado para processar os dados.
52
4.3 Sumário
Figura 4.4: Ecrã da aplicação utilizado para escolher o classificador e os vários parâmetros.
Figura 4.5: Ecrã da aplicação onde são apresentados os resultados obtidos na classificação.
53
4. Aplicação
54
5Conclusões e Trabalho Futuro
55
5. Conclusões e Trabalho Futuro
Neste trabalho foi abordado o problema de prever insuficiência respiratória em doentes de
ELA, tendo em conta janelas temporais de 90, 180 e 365 dias. O problema foi tratado como um
problema de classificação, num contexto de aprendizagem automática. Os dados utilizados são
reais, obtidos através do acompanhamento de 517 doentes de ELA na unidade Neuromuscular
do Hospital de Santa Maria em Lisboa. Antes de serem utilizados na classificação, os valores em
falta nos dados foram todos preenchidos. Para cada atributo numérico, foram preenchidos os va-
lores em falta desse atributo, com a média dos valores nos dados para esse atributo. Os valores
em falta dos atributos nominais foram preenchidos com a moda dos valores, de forma análoga.
As variáveis contínuas foram discretizadas com o método de discretização não supervisionado
implementado no Weka, onde podiam ser obtidos no máximo, 3 intervalos de discretização para
cada variável. Para evitar a adaptação aos dados, os classificadores foram treinados e testados
através do método de validação cruzada (k = 10). A aplicação de SMOTE ao conjunto de treino,
para equilibrar o número de instâncias em cada uma das classes teve um impacto positivo nos
resultados obtidos, visto que, no nosso caso existia uma grande diferença no número de instân-
cias em cada classe.
Para lidar com o problema seguimos uma estratégia dinâmica, ou seja, uma estratégia na
qual todo o histórico de observações de um doente é tido em conta. Deste modo, assume-se que
uma observação de um doente num determinado instante depende de todas as observações
anteriores do mesmo doente. Nos classificadores estáticos as caraterísticas temporais dos da-
dos não são modeladas, ou seja, observações de um doente em diferentes instantes de tempo
são vistas como observações de doentes diferentes. Para ser testado o desempenho de uma
estratégia dinâmica no problema abordado, foram implementados três classificadores dinâmicos
baseados em RBD. O melhor classificador alcançou uma precisão, sensibilidade e especificidade
de 93.9%, 92.6% e 94.3%, respetivamente. Neste trabalho, os resultados obtidos pelos classi-
ficadores dinâmicos superaram os resultados obtidos pelos classificadores estáticos NB, TAN,
GHC e K2, mostrando uma maior eficácia da estratégia dinâmica em relação aos métodos estáti-
cos, para este problema. O classificador cdRBDp foi o que obteve piores resultados, de entre os
três classificadores dinâmicos, com um desempenho próximo ao dos classificadores estáticos. O
classificador cdRBDp é o único que não tem os arcos que ligam variáveis do mesmo instante de
tempo na RBC, revelando ser muito importante a inclusão deste tipo de arcos na RBC, para um
melhor desempenho dos classificadores.
Como a utilização dos classificadores dinâmicos baseados em RBD obtiveram bons resul-
tados, futuramente podem ser experimentadas novas variantes deste tipo de classificadores. A
estrutura da RBC pode variar para diferentes instantes de tempo. Os arcos presentes na RBC
podem ligar variáveis, não só do mesmo instante e de instantes consecutivos, mas também
56
variáveis mais distantes no tempo. Poderiam ser desenvolvidos novos métodos de procura e
funções de pontuação para tentar encontrar novas relações entre as variáveis e, por consequên-
cia, melhorar os resultados obtidos. Uma abordagem possível para a procura da estrutura das
redes seria efetuar uma procura em árvore, onde as melhores N alternativas seriam guardadas.
Quando não fosse possível melhorar a pontuação da rede encontrada, recomeçava-se da alter-
nativa mais promissora. O parâmetro N podia variar com o nível de profundidade na árvore.
Teriam de ser adotadas estratégias para controlar o fator de ramificação muito elevado neste tipo
de problema. A discretização dos dados foi feita automaticamente pelo o Weka, mas poderia ser
feita através do conhecimento do domínio do problema. Poderiam também ser aplicadas técnicas
de seleção de variáveis e novas formas de substituir os valores em falta no conjunto de dados.
57
5. Conclusões e Trabalho Futuro
58
Bibliografia
[1] K. P. Murphy, “Dynamic bayesian networks: representation, inference and learning,” Ph.D.
dissertation, University of California, Berkeley, 2002.
[2] N. V. C. et. al., “Synthetic minority over-sampling technique,” Journal of Artificial Intelligence
Research, vol. 16, pp. 321–357, 2002.
[3] L. C. Wijesekera and P. N. Leigh, “Amyotrophic lateral sclerosis.” Orphanet journal of rare
diseases, vol. 4, p. 3, Jan. 2009.
[4] S. N. Rowland LP, “Amyotrophic lateral sclerosis.” The New England Journal of Medicine,
2001.
[5] S. Pinto, A. Turkman, A. Pinto, M. Swash, and M. de Carvalho, “Predicting
respiratory insufficiency in amyotrophic lateral sclerosis: the role of phrenic nerve
studies.” Clinical neurophysiology : official journal of the International Federation of
Clinical Neurophysiology, vol. 120, no. 5, pp. 941–6, May 2009. [Online]. Available:
http://www.ncbi.nlm.nih.gov/pubmed/19342290
[6] A. S. HaverKamp LJ, Appel V, “Natural history of amiotrophic lateral sclerosis in a database
population. Validation of a scoring system and a model for survival prediction,” 1995.
[7] M. Cudkowicz, M. Qureshi, and J. Shefner, “Measures and markers in amyo-
trophic lateral sclerosis.” NeuroRx : the journal of the American Society for
Experimental NeuroTherapeutics, vol. 1, no. 2, pp. 273–83, Apr. 2004. [Online]. Avai-
lable: http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=534944&tool=pmcentrez&
rendertype=abstract
[8] J. Pearl, Probablistic Reasoning in Intelligent Systems: Networks of Plausible Inference.
Morgan Kaufmann Publishers, 1988.
[9] E. Charniak, “Bayesian networks without tears.” AI magazine, 1991. [Online]. Available:
http://www.aaai.org/ojs/index.php/aimagazine/article/viewArticle/918
59
Bibliografia
[10] G. F. Cooper, “The computational complexity of probabilistic inference using bayesian belief
networks,” Artificial Intelligence, vol. 42, no. 23, pp. 393 – 405, 1990. [Online]. Available:
http://www.sciencedirect.com/science/article/pii/000437029090060D
[11] P. Dagum and M. Luby, “Approximating probabilistic inference in bayesian belief networks is
np-hard,” Artif. Intell., vol. 60, no. 1, pp. 141–153, 1993.
[12] W. Lam and F. Bacchus, “Learning Bayesian Belief Networks: an Approach Based on the
MDL Principle,” Computational Intelligence, vol. 10, no. 3, pp. 269–293, Aug. 1994. [Online].
Available: http://doi.wiley.com/10.1111/j.1467-8640.1994.tb00166.x
[13] G. F. Cooper and E. Herskovits, “A Bayesian method for the induction of probabilistic
networks from data,” Machine Learning, vol. 9, no. 4, pp. 309–347, Oct. 1992. [Online].
Available: http://link.springer.com/10.1007/BF00994110
[14] D. Chickering, D. Heckerman, and C. Meek, “A Bayesian approach to learning Bayesian
networks with local structure,” Proceedings of the Thirteenth . . . , pp. 80–89, 1997. [Online].
Available: http://dl.acm.org/citation.cfm?id=2074236
[15] P. Domingos and M. Pazzani, “On the optimality of the simple Bayesian classifier under
zero-one loss,” Machine learning, vol. 130, pp. 103–130, 1997. [Online]. Available:
http://link.springer.com/article/10.1023/A:1007413511361
[16] N. Zhang and D. Poole, “A simple approach to Bayesian network computations,” in
Proceedings of the Tenth Canadian Conference on Artificial Intelligence, 1994, pp. 171–178.
[17] N. Friedman, K. Murphy, and S. Russell, “Learning the structure of dynamic
probabilistic networks,” Proceedings of the Fourteenth, vol. 0, 1998. [Online]. Available:
http://dl.acm.org/citation.cfm?id=2074111
[18] J. Robinson and A. Hartemink, “Learning non-stationary dynamic Bayesian networks,”
The Journal of Machine Learning, vol. 11, pp. 3647–3680, 2010. [Online]. Available:
http://dl.acm.org/citation.cfm?id=1953047
[19] S. Vucic, J. D. Rothstein, and M. C. Kiernan, “Advances in treating amyotrophic lateral
sclerosis: insights from pathophysiological studies,” Trends in Neurosciences, vol. 37, no. 8,
pp. 433 – 442, 2014. [Online]. Available: http://www.sciencedirect.com/science/article/pii/
S016622361400085X
[20] H. Nzwalo, D. de Abreu, M. Swash, S. Pinto, and M. de Carvalho, “Delayed diagnosis
in als: The problem continues,” Journal of the Neurological Sciences, vol. 343, no. 12,
pp. 173 – 175, 2014. [Online]. Available: http://www.sciencedirect.com/science/article/pii/
S0022510X14003736
60
Bibliografia
[21] E. Cellura, R. Spataro, A. C. Taiello, and V. L. Bella, “Factors affecting the diagnostic delay
in amyotrophic lateral sclerosis,” Clinical Neurology and Neurosurgery, vol. 114, no. 6,
pp. 550 – 554, 2012. [Online]. Available: http://www.sciencedirect.com/science/article/pii/
S0303846711003921
[22] P. Gupta, S. Prabhakar, S. Sharma, and A. Anand, “A predictive model for amyotrophic
lateral sclerosis (als) diagnosis,” Journal of the Neurological Sciences, vol. 312, no. 12,
pp. 68 – 72, 2012. [Online]. Available: http://www.sciencedirect.com/science/article/pii/
S0022510X11005181
[23] S. C. Bourke, M. Tomlinson, T. L. Williams, R. E. Bullock, P. J. Shaw, and
G. J. Gibson, “Effects of non-invasive ventilation on survival and quality of life
in patients with amyotrophic lateral sclerosis: a randomised controlled trial,” The
Lancet Neurology, vol. 5, no. 2, pp. 140 – 147, 2006. [Online]. Available: http:
//www.sciencedirect.com/science/article/pii/S1474442205703264
[24] P. M. Amaral, “Prognostic prediction in patients with Amyotrophic Lateral Sclerosis using data
mining techniques,” 2012.
[25] D. a. Morales, Y. Vives-Gilabert, B. Gómez-Ansón, E. Bengoetxea, P. Larrañaga,
C. Bielza, J. Pagonabarraga, J. Kulisevsky, I. Corcuera-Solano, and M. Delfino, “Predicting
dementia development in Parkinson’s disease using Bayesian network classifiers.”
Psychiatry research, vol. 213, no. 2, pp. 92–8, Aug. 2013. [Online]. Available:
http://dx.doi.org/10.1016/j.pscychresns.2012.06.001
[26] Y. Sun, S. Lv, and Y. Tang, “Construction and Application of Bayesian Network in Early
Diagnosis of Alzheimer Disease’s System,” in 2007 IEEE/ICME International Conference
on Complex Medical Engineering. Ieee, May 2007, pp. 924–929. [Online]. Available:
http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=4381875
[27] S. Dash, J. G. Quirk, and P. M. Djuric, “Learning dependencies among fetal heart
rate features using Bayesian networks.” Conference proceedings : Annual International
Conference of the IEEE Engineering in Medicine and Biology Society. IEEE Engineering
in Medicine and Biology Society. Conference, vol. 2012, pp. 6204–7, Jan. 2012. [Online].
Available: http://www.ncbi.nlm.nih.gov/pubmed/23367346
[28] J. C. Rajapakse and J. Zhou, “Learning effective brain connectivity with dynamic Bayesian
networks.” NeuroImage, vol. 37, no. 3, pp. 749–60, Sep. 2007. [Online]. Available:
http://www.ncbi.nlm.nih.gov/pubmed/17644415
61
Bibliografia
[29] J. Li, Z. J. Wang, and M. J. McKeown, “Dynamic bayesian networks (dbns) demonstrate
impaired brain connectivity during performance of simultaneous movements in parkinson’s
disease,” in ISBI, 2006, pp. 964–967.
[30] M. Kayaalp, G. F. Cooper, and G. Clermont, “Predicting ICU mortality: a comparison of
stationary and nonstationary temporal models.” in Proceedings / AMIA Annual Symposium.,
no. 1, Jan. 2000, pp. 418–22. [Online]. Available: http://www.pubmedcentral.nih.gov/
articlerender.fcgi?artid=2243937&tool=pmcentrez&rendertype=abstract
[31] P. Dagum and A. Galper, “Forecasting sleep apnea with dynamic network models,” in
Proceedings of the Ninth international conference, 1993, pp. 64–71. [Online]. Available:
http://dl.acm.org/citation.cfm?id=2074481
[32] T. Charitos, L. C. van der Gaag, S. Visscher, K. a.M. Schurink, and P. J. Lucas, “A dynamic
Bayesian network for diagnosing ventilator-associated pneumonia in ICU patients,” Expert
Systems with Applications, vol. 36, no. 2, pp. 1249–1258, Mar. 2009. [Online]. Available:
http://linkinghub.elsevier.com/retrieve/pii/S0957417407005805
[33] M. Hall, E. Frank, G. Holmes, B. Pfahringer, P. Reutemann, and I. H. Witten, “The WEKA
data mining software: An update,” SIGKDD Explor. Newsl., vol. 11, no. 1, pp. 10–18, Nov.
2009.
62
AAppendix A
63
A. Appendix A
Nó Nós paiGender Evolution; MIPBMI Evolution; PatternMND Evolution; PO2Age at onset Evolution; PO2El Escorial reviewed criteria Evolution; Onset formOnset form Evolution; ALS-FRSbEnvolved segment - 1st symptoms Evolution; Onset formEvolution patternB Evolution, MND1st symptoms - 1st visit Evolution ;ALS-FRS-RALS-FRS EvolutionALS-FRS-R Evolution; ALS-FRSALS-FRSb Evolution; ALS-FRS-RR Evolution; ALS-FRS-RSpO2mean Evolution; PatternSpO2min Evolution; GenderSpO2<90 Evolution; GenderDips/h<4 Evolution; GenderPattern Evolution; GenderVC Evolution; MEPFVC Evolution; VCMIP Evolution; P0.1MEP Evolution; Onset formP0.1 Evolution; VCPO2 Evolution; MIPPCO2 Evolution; RPhrenMeanLat Evolution; PatternPhrenMeanAmpl Evolution; MIPPhrenMeanArea Evolution; PhrenMeanAmplEvolution
Tabela A.1: Estrutura da RB inicial do classificador que obteve melhores resultados na classifica-ção (cdRBDia), para os dados correspondentes à janela temporal de 90 dias.
64
Nó Nós pai (Ti) Nós pai (Ti+1)Gender Gender; SpO2<90 Evolution; MIP; ALS-FRSBMI BMI; SpO2<90 Evolution; Pattern; ALS-FRSMND MND; SpO2<90 Evolution PO2; ALS-FRSAge at onset Age at onset; SpO2<90 Evolution; PO2; ALS-FRSEl Escorial revi-ewed criteria
El Escorial reviewed criteria;SpO2<90
Evolution; Onset form; ALS-FRS
Onset form Onset form; SpO2<90 Evolution; ALS-FRSb; ALS-FRSEnvolved segment- 1st symptoms
Envolved segment - 1st symp-toms
Evolution; Onset form; ALS-FRS
Evolution patternB Evolution patternB; SpO2<90 Evolution; MND; ALS-FRS1st symptoms - 1stvisit
1st symptoms - 1st visit;SpO2<90
Evolution; ALS-FRS-R; ALS-FRS
ALS-FRS ALS-FRS-R; ALS-FRS EvolutionALS-FRS-R ALS-FRS-R; SpO2<90 Evolution; ALS-FRSALS-FRSb ALS-FRSb; Onset form Evolution; ALS-FRS-R; ALS-
FRSR R; Age at onset Evolution; ALS-FRS-R; ALS-
FRSSpO2mean SpO2mean; ALS-FRS Evolution; Pattern; ALS-FRSSpO2min ALS-FRS; SpO2min Evolution; Gender; ALS-FRSSpO2<90 SpO2<90 Evolution; Gender; ALS-FRSDips/h<4 SpO2<90 Evolution; Gender; ALS-FRSPattern Pattern; PCO2 Evolution; Gender; ALS-FRSVC PhrenMeanAmpl; Gender Evolution; MEP; ALS-FRSFVC FVC; ALS-FRS-R Evolution; VC; ALS-FRSMIP MIP; ALS-FRS-R Evolution; P0.1; ALS-FRSMEP MEP; SpO2min Evolution; Onset form; ALS-FRSP0.1 Gender; Evolution VC; ALS-FRSPO2 Gender; SpO2min Evolution; MIP; ALS-FRSPCO2 PCO2 R; Evolution; R; ALS-FRSPhrenMeanLat Evolution; Pattern; ALS-FRSPhrenMeanAmpl MEP Evolution; MIP; ALS-FRSPhrenMeanArea SpO2<90 Evolution; PhrenMeanAmpl;
ALS-FRSEvolution PCO2; Gender
Tabela A.2: Estrutura da RB condicional do melhor classificador (cdRBDia), aprendida a partirdos dados correspondentes à janela temporal de 90 dias.
65
A. Appendix A
66