Marcelo Bassani de Freitas...5.8 Resultados dos métodos de seleção de instâncias para os TAs da casa de Ordonez. Os métodos de subset já fornecem os atributos para a base de

SISTEMA DE PREDIÇÃO DE ESTADOS DETRANSDUTORES PARA AMBIENTES INTELIGENTES

Por

Marcelo Bassani de Freitas

Dissertação de Mestrado

Universidade Federal de Pernambuco

[email protected]

www.cin.ufpe.br/~posgraduacao

RECIFE2015

www.cin.ufpe.br/~posgraduacao

Universidade Federal de Pernambuco

Centro de InformáticaPós-graduação em Ciência da Computação

Marcelo Bassani de Freitas

SISTEMA DE PREDIÇÃO DE ESTADOS DETRANSDUTORES PARA AMBIENTES INTELIGENTES

Trabalho apresentado ao Programa de Pós-graduação em

Ciência da Computação do Centro de Informática da Univer-

sidade Federal de Pernambuco como requisito parcial para

obtenção do grau de Mestre em Ciência da Computação.

Orientador: George Darmiton da Cunha Cavalcanti

RECIFE2015

Catalogação na fonte

Bibliotecária Jane Souto Maior, CRB4571

F866s Freitas, Marcelo Bassani de

Sistema de predição de estados de transdutores para ambientes inteligentes / Marcelo Bassani de Freitas. – Recife: O Autor, 2015. 72 f.: il., fig., tab. Orientador: George Darmiton da Cunha Cavalcanti.

Dissertação (Mestrado) – Universidade Federal de Pernambuco. CIn, Ciência da computação, 2015.

Inclui referências.

1. Inteligência artificial. 2. Reconhecimento de padrões. 3. Aprendizagem de máquina. I. Cavalcanti, George Darmiton da Cunha (orientador). II. Título. 006.3 CDD (23. ed.) UFPE MEI 2015160

Dissertação de Mestrado apresentada por Marcelo Bassani de Freitas à PósGraduação

em Ciência da Computação do Centro de Informática da Universidade Federal de

Pernambuco, sob o título “Sistema de Predição de Estados de Transdutores para

Ambientes Inteligentes” orientada pelo Prof. George Darmiton da Cunha Cavalcanti

e aprovada pela Banca Examinadora formada pelos professores:

______________________________________________ Profa. Patricia Cabral de Azevedo Restelli Tedesco Centro de Informática/UFPE ______________________________________________ Prof. Francisco Madeiro Bernardino Junior Escola Politécnica de Pernambuco / UPE _______________________________________________ Prof. George Darmiton da Cunha Cavalcanti Centro de Informática / UFPE Visto e permitida a impressão. Recife, 26 de agosto de 2015. ___________________________________________________ Profa. Edna Natividade da Silva Barros Coordenadora da PósGraduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco.

I dedicate this dissertation to all my family, friends and

professors who were part of my journey.

Agradecimentos

Gostaria de agradecer a minha família por me apoiar e proporcionar as condiçõesnecessárias para que eu pudesse seguir com meus estudos até essa etapa da minha vida.

Gostaria de agradecer aos meus amigos que me proporcionaram muitos momentos dealegria e felicidade e me deram força para continuar.

Gostaria de agradecer aos meus primos Hansenclever e Flávia pelo imensa ajuda e ótimacompanhia ao longo desses anos. Sem vocês, teria sido muito mais difícil.

Por fim, gostaria de agradecer aos meus professores que me ensinaram e me motivaramdesde a escolha pela área de exatas até esse momento.

Anyone who thinks the sky is the limit, has limited imagination.

—JAMES MAXWELL, ENCHANTRESS

Resumo

Nos Ambientes Inteligentes, os dispositivos colaboram entre si para auxiliar o usuário deforma não intrusiva. Uma forma de auxílio é antecipar as ações do usuário e realizá-las por eleou facilitar a sua realização. Esse trabalho propõe um framework para a predição das ações dousuário pelo aprendizado do seu comportamento e hábitos enquanto ele interage com o AmbienteInteligente. As ações do usuário é considerada como sendo a troca do valor de um transdutor(sensor ou atuador). A interação do usuário com o Ambiente Inteligente produz o contexto que éutilizado para a predição das ações. O preditor é um algoritmo de classificação supervisionadaque aprende os padrões de comportamento do habitante do Ambiente Inteligente. Portanto, asolução proposta pode prover um serviço personalizado e adaptativo ao invés de um conjuntode regras predefinido por humanos. O preditor trabalha apenas com um transdutor alvo e paraprever valores de mais transdutores, mais preditores devem ser treinados. A solução proposta éprojetada para funcionar automaticamente sem a necessidade de interferência humana. Isso fazcom que o habitante do Ambiente Inteligente sinta-se mais confortável já que sua privacidadeestará protegida. Todas as informações para treinar o preditor podem ser obtidas diretamentedos transdutores do Ambiente Inteligente. Não existe a necessidade de anotação manual dosdados e nem dados extras como tipo do transdutor, localização do transdutor ou objeto ao qual otransdutor está acoplado. Isso aumenta a facilidade de instalação dos transdutores no AmbienteInteligente. A saída do preditor pode tanto controlar diretamente um atuador ou ser enviadaa um agente de software. Esse agente pode verificar condições de segurança ou requisitos degerenciamento de energia antes de tomar a decisão. O foco desse trabalho é a geração de umabase de dados com os dados do contexto para o treinamento do preditor responsável por decidirse o transdutor alvo deverá ou não mudar seu valor. Vários parâmetros são considerados como otamanho do período de treinamento, quantidade de ativações passadas que serão consideradase quais são os transdutores mais relevantes para a predição. A solução proposta atinge umamelhora significativa para todos os transdutores estudados e a maioria das combinações deparâmetros da geração da base de dados possuem resultados melhores que o caso base. Alémdisso, os nossos resultados são superiores às outras soluções da literatura.

Palavras-chave: Ambiente Inteligente. Computação Ubíqua. Ambient Assisted Living. Con-trole Inteligente. Aprendizagem de Máquina.

Abstract

Smart environments possess devices that collaborate to help the user non-intrusively. Onepossible aid smart environment offer is to anticipate user’s tasks and perform them on his/herbehalf or facilitate the action completion. In this work, we propose a framework that predictsuser’s actions by learning his/her behavior when interacting with the smart environment. Theuser actions are considered as being the value change of a transducer (sensor or actuator). Theuser interaction with the smart environment produces the context used to predict the actions. Thepredictor is a supervised classification algorithm that learns the smart environment inhabitantbehavior patterns. Therefore, the proposed solution can provide a personalized and adaptiveservice instead of a human predefined set of rules. The predictor works with only one transducerand to predict the values of several transducers, more predictors must be trained. The proposedsolution is designed to work automatically without the need of human interference. That makesthe smart environment inhabitant more comfortable since his/her privacy is protected. All theinformation needed to train the predictor can be obtained directly from the smart environmenttransducers. There is no need for manual data annotation or extra data such as transducertype, transducer location or which object the transducer is attached to. This facilitates thetransducer installation in the smart environment. The predictor output can either control directlyan actuator or be sent to an software agent. This software agent can check for security orenergy constraints before making the decision. This work focus on prepare datasets and traina predictor that is responsible to decide whether a target transducer value should be changedor not. Several parameters are considered such as the training period size, amount of previoustransducer activations considered and which are the most relevant transducers for the prediction.Our solution achieves a significant improvement for all target transducers studied and mostcombinations of parameters yields better results than the base case. Our results are superior toother solutions in the literature.

Keywords: Smart Environment. Ubiquitous Computing. Ambient Assisted Living. IntelligentControl. Machine Learning.

Lista de Figuras

2.1 Árvore gerada pelo algoritmo Active LeZi (ALZ) para a predição de sequências.Os números entre parênteses indicam as frequências das sequências e são utiliza-dos para calcular as distribuições de probabilidade. Fonte: GOPALRATNAM;COOK (2007). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.2 Árvore de decisão gerada pelo algoritmo Sequence Prediction via Enhanced

Episode Discovery (SPEED) para a sequência ABbDCcaBCbdcADaBAdab. Osnúmeros entre parênteses indicam as frequências das sequências e são utilizadospara calcular as distribuições de probabilidade. Fonte: ALAM; REAZ; ALI (2012). 21

3.1 Visão geral do sistema de predição proposto que é composto por três módulos:Módulo de Geração de Dados, Módulo de Aprendizagem e Módulo de Predição.O sistema é responsável por predizer a ação do transdutor alvo a partir de dadosdo Ambiente Inteligente. Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . 24

3.2 O Módulo de Aprendizagem utiliza os dados produzidos pelo Módulo de Geraçãode Dados (Γ) para treinar um preditor F que será utilizado pelo Módulo dePredição. Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.3 O Módulo de Geração de Dados é responsável por transformar os dados dostransdutores do ambiente inteligente T em uma base de dados Γ para o Módulode Aprendizagem. Além disso, ele fornece uma lista de transdutores relevantesR a predição. Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.4 Processo de transformação de dados em snapshots. Os dados dos transdutoresdo ambiente inteligente (a) são convertidos para snapshots que representam oestado do ambiente inteligente no tempo Tx. As ações dos transdutores (c) sãoderivadas diretamente do transdutor alvo (A4). Fonte: autor. . . . . . . . . . . . 28

3.5 Encadeamento de snapshots para considerar diferentes pontos do tempo emuma única instância. A parte (a) mostra um exemplo com M = 3 instânciase espaçamento T = 2 snapshots. A parte (b) mostra o esquema geral dessaestratégia. Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.6 Exemplo de seleção de atributos no qual os atributos dentro das caixas azuisforam selecionados para compor a nova base de dados. Os atributos podem serprovenientes de qualquer snapshot. Fonte: autor. . . . . . . . . . . . . . . . . 32

3.7 O Módulo de Predição transforma os dados dos transdutores relevantes do ambi-ente inteligente (R) e os submete ao preditor F para obter ação do transdutoralvo. Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.1 Sensores da casa do projeto CASAS situado em Kyoto. As estrelas indicam ondeestão os Transdutor Alvos (TAs) selecionados para essa casa inteligente (L005,L008 e M012). Fonte: COOK; SCHMITTER-EDGECOMBE et al. (2009). . . 40

4.2 Sensores da casa do projeto CASAS situado em Aruba. As estrelas indicamonde estão os TAs selecionados para essa casa inteligente (D001, D002 e D004).Fonte: COOK; SCHMITTER-EDGECOMBE et al. (2009). . . . . . . . . . . . 40

5.1 Variação do parâmetro D do método proposto pela AUC para cada TA. Aquantidade de dias de treinamento varia de 1 a 5 dias. O restante dos dados sãoutilizados para o teste. Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . . 45

5.2 Análise da variação de M pela AUC para cada TA. Quanto maior o valor deM, mais informação do passado está sendo considerada e mais atributos estãopresentes na base de dados. Fonte: autor. . . . . . . . . . . . . . . . . . . . . . 46

5.3 Análise da variação dos métodos de reamostragem pela Area Under an ROC

Curve (AUC) para cada TA. As colunas azuis (Original (Orig)) são os dados dereferência para cada TA já que nenhum método de reamostragem foi aplicadonesses casos. Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5.4 Análise da influência de cada um dos parâmetros separados por TA. As barrasindicam o quando da variação dos dados é explicada por cada um dos parâmetrosdo método proposto e suas combinações. Fonte: autor. . . . . . . . . . . . . . 48

5.5 O caso base (barra azul) e o ganho (verde) para cada TA. Os traços azuis indi-cam a porcentagem das combinações de parâmetros que produziram resultadosmelhores que o caso base. Fonte: autor. . . . . . . . . . . . . . . . . . . . . . 49

5.6 Resultados dos métodos de seleção de instâncias para os TAs da casa de Aruba.Os métodos de subset já fornecem os atributos para a base de dados. Para osmétodos de ranking as bases de dados foram montadas de forma incremental.Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

5.7 Resultados dos métodos de seleção de instâncias para os TAs da casa de Kyoto.Os métodos de subset já fornecem os atributos para a base de dados. Para osmétodos de ranking as bases de dados foram montadas de forma incremental.Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

5.8 Resultados dos métodos de seleção de instâncias para os TAs da casa de Ordonez.Os métodos de subset já fornecem os atributos para a base de dados. Para osmétodos de ranking as bases de dados foram montadas de forma incremental.Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5.9 Distribuição dos resultados dos TAs da casa Ordonez agrupados por classificador.A variação dos resultados dos classificadores é causada unicamente pela mudançado conjunto de parâmetros dos classificadores. Fonte: autor. . . . . . . . . . . 58

5.10 Ranking dos melhores resultados dos classificadores para os TAs da casa Ordo-nez. São exibidas as 50 maiores AUCs para cada TA exceto para o TA Bedroom

para o qual foram mostradas 300. Fonte: autor. . . . . . . . . . . . . . . . . . 605.11 Distribuição dos resultados dos TAs da casa de Aruba agrupados por classificador.

A variação dos resultados dos classificadores é causada unicamente pela mudançado conjunto de parâmetros dos classificadores. Fonte: autor. . . . . . . . . . . 62

5.12 Ranking dos melhores resultados dos classificadores para os TAs da casa deAruba. São exibidas as 50 maiores AUCs para cada TA. Fonte: autor. . . . . . 63

5.13 Distribuição dos resultados dos TAs da casa de Kyoto agrupados por classificador.A variação dos resultados dos classificadores é causada unicamente pela mudançado conjunto de parâmetros dos classificadores. Fonte: autor. . . . . . . . . . . 65

5.14 Ranking dos melhores resultados dos classificadores para os TAs da casa deKyoto. São exibidas as 50 maiores AUCs para cada TA. Fonte: autor. . . . . . 66

Lista de Tabelas

2.1 Exemplo de 3 snapshots de um Ambiente Inteligente com 4 transdutores (t1 . . . t4).Durante a predição cada linha é uma instância e cada coluna é um atributo. Fonte:autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4.1 Sensores disponíveis na casa Ordonez e seus respectivos tipos. Os três sensoresselecionados para serem os TAs estão em negrito. Fonte: ORDONEZ; TOLEDO;SANCHIS (2013). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.2 Métodos de reamostragem utilizados nesse trabalho e a direção que eles sãoutilizados (aumento ou diminuição). Fonte: autor. . . . . . . . . . . . . . . . . 42

4.3 O número de instâncias de cada uma das classes (trocar e manter) após a execuçãode cada método de Reamostragem e para cada TA. A classe trocar é indicada porT e a classe manter é indicada por M. Os dados foram obtidos para os valores:D = 5 e M = 1. Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.1 Variação dos dias de treinamento (D) para cada TA. Os maiores valores da AUCpara cada TA estão em negrito. Fonte: autor. . . . . . . . . . . . . . . . . . . . 45

5.2 Variação da AUC gerada pela mudança da quantidade de ativações de transduto-res que são consideradas (M) para cada TA. Quanto maior o valor de M, maisinformação do passado está sendo considerada e mais atributos estão presentesna base de dados. Os maiores resultados da AUC para cada TA estão em negrito.Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

5.3 Variação dos métodos de reamostragem para cada TA. O método de referênciaé o Orig já que nenhum método de reamostragem foi aplicado nessas bases detreinamento. Os maiores resultados da AUC para cada TA estão em negrito.Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

5.4 Os melhores valores dos parâmetros do método proposto para cada TA juntocom o ganho e a quantidade de combinações que melhoram o caso base. Fonte:autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5.5 Comparação de número de atributos e AUC dos resultados antes e depois daseleção de atributos. O número de atributos da base de dados sem a seleção é ode M10 e a AUC é a da melhor combinação obtida na Seção 5.1. Fonte: autor. . 56

5.6 Melhores resultados de cada classificador para cada TA das 3 casas analisadas.Os melhores resultados para cada TA estão em negrito. Fonte: autor. . . . . . . 67

5.7 Ganho, em relação a etapa de seleção de atributos, obtido pela variação dosclassificadores. O pouca melhora pode ser explicada pelo fato dos parâmetrosdo método proposto terem sido otimizados para o KNN (K = 1). Fonte: autor. . 67

Lista de Acrônimos

EC Elemento Contextual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

AmI Ambient Intelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

TA Transdutor Alvo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

ALZ Active LeZi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

SPEED Sequence Prediction via Enhanced Episode Discovery . . . . . . . . . . . . . . . . . . . . . . 9

IPAM Incremental Probabilistic Action Modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

FLC Controlador Lógico Fuzzy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .22

PIR Passive Infrared . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .38

WSU Washington State University . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

CASAS Center for Advanced Studies in Adaptive Systems . . . . . . . . . . . . . . . . . . . . . . . . . . 39

Orig Original . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

RU Resample Undersample

RUNR Resample Undersample No Replacement

RO Resample Oversample

SMT SMOTE

SS SpreadSubsample

ROC Reciver Operating Characteristics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

AUC Area Under an ROC Curve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

ANOVA Analysis of Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

MSI Método de Seleção de Instâncias

Sumário

1 Introdução 16

2 Trabalhos Relacionados 192.1 Predição de sequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.1.1 Active LeZi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.1.2 Sequence Prediction via Enhanced Episode Discovery (SPEED) . . . . 202.1.3 Incremental Probabilistic Action Modeling (IPAM) . . . . . . . . . . . 20

2.2 Snapshot multi-objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3 Método proposto 243.1 Módulo de Geração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.1.1 Geração de snapshots . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.1.2 Divisão Temporal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.1.3 Encadeamento de snapshots . . . . . . . . . . . . . . . . . . . . . . . 293.1.4 Balancear classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.1.5 Seleção de atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.2 Módulo de Predição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.3 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.3.1 Interfaces da solução . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.3.2 Aquisição de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.3.3 Utilização da resposta do preditor . . . . . . . . . . . . . . . . . . . . 34

3.4 Método iterativo e incremental . . . . . . . . . . . . . . . . . . . . . . . . . . 353.5 Solução utilizando bases de dados offline . . . . . . . . . . . . . . . . . . . . . 363.6 Escolha de algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4 Protocolo dos experimentos 384.1 Bases de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.1.1 ADLs Recognition Using Binary Sensors . . . . . . . . . . . . . . . . 384.1.2 Smart Apartment Single Resident Testbed . . . . . . . . . . . . . . . . 394.1.3 Smart Home Aruba . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.2 Parâmetros do método proposto . . . . . . . . . . . . . . . . . . . . . . . . . 414.2.1 Divisão temporal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.2.2 Encadeamento de snapshots . . . . . . . . . . . . . . . . . . . . . . . 414.2.3 Balanceamento de classes . . . . . . . . . . . . . . . . . . . . . . . . 414.2.4 Seleção de atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.2.5 Avaliação do preditor . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5 Resultados 445.1 Parâmetros de construção da base de dados . . . . . . . . . . . . . . . . . . . 44

5.1.1 Quantidade de dados de treinamento (D) . . . . . . . . . . . . . . . . . 445.1.2 Consideração do passado (M) . . . . . . . . . . . . . . . . . . . . . . 455.1.3 Balanceamento de classes . . . . . . . . . . . . . . . . . . . . . . . . 465.1.4 Ganho e influência dos parâmetros . . . . . . . . . . . . . . . . . . . . 47

5.2 Seleção de Atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505.3 Classificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

6 Conclusão 686.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

Referências 71

161616

1Introdução

A Computação Ubíqua é tida como a terceira era computacional. A primeira era foia do mainframe onde um único computador era operado por diversas pessoas. A segunda erafoi a da computação pessoal na qual cada pessoa possuía um computador. Estamos vivendoum período de transição entre a segunda e a terceira era computacional [WEISER; BROWN(1997)]. Apesar do número de dispositivos computacionais ter crescido na vida das pessoas,ainda precisamos, para atingir a terceira era computacional como definida por Mark Weiser, queo poder computacional seja distribuído nos objetos do cotidiano e que esses objetos cooperempara facilitar a vida das pessoas.

Além disso, temos o princípio de transparência da Computação Ubíqua. Este é diferenteda transparência da Computação Pervasiva a qual busca que os dispositivos computacionaissejam invisíveis aos olhos. Na computação ubíqua esse princípio diz respeito a atenção periféricado usuário. Os dispositivos computacionais não devem fazer parte da atenção principal dousuário, ele deve manter o foco em sua tarefa1 e não na interação com os dispositivos que oestão auxiliando. Os dispositivos podem ser visíveis aos olhos do usuário porém, não deve tomarmuito da sua atenção. Esse princípio não é tão restritivo quanto parece. Em alguns momentosda realização de uma tarefa é permitido que os dispositivos façam parte da atenção central dousuário, mas isso deve ocorrer pelo menor período de tempo possível. Os dispositivos devemter a capacidade de migrar fácil e rapidamente da atenção central para a atenção periférica dousuário [WEISER; BROWN (1997)].

A Ciência de Contexto (Context Awareness) é uma área que está muito atrelada aComputação Ubíqua. Os sistemas sensíveis ao contexto são capazes de adaptar sua operaçãoao contexto no qual eles estão inseridos sem a intervenção explícita do usuário. A usabilidade,efetividade e a satisfação do usuário podem ser melhoradas quando o contexto do ambiente élevado em consideração [BALDAUF (2007)].

Existem várias definições do que vem a ser o Contexto na literatura. Apesar de não sertão recente, a definição de [DEY (2001)] ainda é uma das mais aceitas: "Qualquer informação

1Nesse trabalho a palavra tarefa será utilizada como sinônimo de atividade e será considerada como um conjuntocoeso e coerente de ações correlacionadas com um determinado objetivo.

17

que pode ser usada para caracterizar a situação de entidades (ex: pessoa, lugar ou objeto) quesão consideradas relevantes para a interação entre o usuário e a aplicação, incluindo o usuário ea aplicação".

Outra definição é a de VIEIRA; TEDESCO; SALGADO (2009) que diz que o contexto éum conjunto de informações que pode ser utilizado definir uma situação em que ocorra interaçãoentre um usuário e uma aplicação. Existem dois conceitos diferentes definidos pelos autores:(1) Elemento Contextual (EC) que é qualquer dado, informação ou conhecimento que permitecaracterizar uma entidade em um domínio e (2) o contexto entre um agente e uma aplicação éo conjunto de ECs instanciados que são necessários para apoiar a tarefa atual. Além disso, oselementos que compõem o contexto devem ter uma relação de relevância com a tarefa que oagente está executando.

Podemos classificar o contexto como Físico (externo) e Lógico (interno) [BALDAUF(2007)]. O primeiro diz respeito ao contexto que pode ser medido por sensores, por exemplo:localização, luminosidade, movimento, som e temperatura. Já o contexto lógico é especificadopelo usuário ou inferido pelo monitoramento das interações do usuário, por exemplo: objetivos,tarefas, interesses e estado emocional.

Os sistemas que utilizam contexto podem ser divididos em duas áreas do conhecimento:(1) Ciência do Contexto (Context Awareness), na qual os sistemas são capazes de sentir o contextono qual eles estão inseridos, normalmente são sistemas de monitoramento; (2) Sensibilidade aoContexto (Context Sensitive), na qual os sistemas, além de sentirem o contexto, adaptam a suaoperação a mudanças no contexto. O conceito de Sensibilidade ao contexto é mais recente que oconceito de Ciência de Contexto, portanto a distinção entre essas duas áreas não é muito clara naliteratura e por esse motivo muitos sistemas sensíveis a contexto ainda são chamados de sistemascientes de contexto. Nesse trabalho iremos propor um sistema sensível ao contexto.

Recentemente, temos o conceito de Ambient Intelligence (AmI) que junta a ComputaçãoUbíqua e a Sensibilidade ao Contexto com outras áreas como a Computação Pervasiva, aInteligência Artificial. A AmI visa melhorar os ambientes compostos por smart devices etransdutores com o intuito de auxiliar o usuário nas suas tarefas. Os transdutores são dispositivosque podem detectar eventos ou mudanças no ambiente (sensores) ou podem controlar ummecanismo ou sistema (atuadores) ou podem ter as funções de sensor e atuador ao mesmotempo. O termo transdutor, portanto, é utilizado para se referir a sensores e/ou atuadores. Osambientes inteligentes podem permitir o controle do ambiente de forma mais fácil pelo usuário;fornecer lembretes ou informações para facilitar a realização de uma tarefa; descobrir e monitoraras atividades do usuário para uma posterior análise de rotina; e antecipar ações do usuário erealizá-las por ele. Esse trabalho foca na última possibilidade. Portanto é proposto um sistemaque possa prever as ações do usuário e permitir que essas ações sejam realizadas pelo ambienteinteligente para que o usuário não se preocupe com isso. Uma tarefa é composta de diversasações, com a automatização de uma ou várias ações de uma tarefa o usuário passa a ter umnúmero menor de ações para fazer e ele tem um foco maior na tarefa realizada e não nas ações

18

que ele precisa desempenhar para completar a tarefa.Existem outros trabalho que buscam resolver esse problema utilizando outras abordagens.

Dada uma sequência de eventos (ativações de transdutores) x1,x2,x3, . . . ,xn, um algoritmodeve prever o evento xn+1 a partir dos dados observados. Essa abordagem é chamada depredição de sequência e é usada na literatura nos trabalhos [GOPALRATNAM; COOK (2007);BHATTACHARYA; DAS (2002); DAVISON; HIRSH (1998); ALAM; REAZ; ALI (2012)].

DOCTOR; HAGRAS; CALLAGHAN (2005); DOCTOR; CALLAGHAN; HAGRAS(2005) exploraram o problema de antecipar as ações do usuário usando outra abordagem. Elesusam os estados do Ambiente Inteligente S1,S2,S3, . . . ,Sn como fonte de dados e predizeros próximos valores de vários transdutores xn+1,yn+1, . . . ,zn+1. Um estado de um AmbienteInteligente é uma coleção de valores de transdutores em um tempo específico (at ,bt , . . . ,ct).

Esse trabalho propõe um framework que prediz a ação do usuário pelo aprendizado doseu comportamento quando interagindo com transdutores de um Ambiente Inteligente. Portanto,ele pode prover um serviço personalizado e adaptativo ao invés de usar um conjunto de regraspredefinidas por humanos. A solução proposta prediz o valor de um único transdutor xn+1

dado o estado atual do Ambiente Inteligente Sn. O algoritmo de predição é treinado comum conjunto inicial de estados do Ambiente Inteligente (S1,S2,S3, . . . ,Sm) onde m < n. Naabordagem proposta, um preditor é treinado para cada Transdutor Alvo (TA).

A solução proposta é projetada para funcionar automaticamente sem a necessidade deinterferência humana. Isso faz com que o habitante do Ambiente Inteligente sinta-se mais confor-tável já que sua privacidade estará protegida. Todas as informações para treinar o preditor podemser obtidas diretamente dos transdutores do Ambiente Inteligente. Não existe a necessidadede anotação manual dos dados e nem dados extras como tipo do transdutor, localização dotransdutor ou objeto ao qual o transdutor está acoplado. Isso aumenta a facilidade de instalaçãodos transdutores no Ambiente Inteligente.

A saída do preditor pode tanto controlar diretamente um atuador ou ser enviada aum agente de software. Esse agente pode verificar condições de segurança ou requisitos degerenciamento de energia antes de tomar a decisão. No caso do TA ser um sensor, o agente desoftware pode notificar o usuário ou controlar outros dispositivos para conseguir que o sensortenha o valor predito. O agente pode também utilizar informações específicas sobre o AmbienteInteligente para otimizar a conclusão das tarefas e auxiliar o usuário de uma forma mais complexae completa. Além disso, o treinamento do preditor pode ser feito tanto online como offline.

Esse trabalho está organizado da seguinte maneira. A solução proposta é detalhadano Capítulo 3. As bases de dados utilizadas para os testes são explicadas no Capítulo 4. NoCapítulo 4, também é mostrado o protocolo dos experimentos e os resultados no Capítulo 5. Aconclusão é feita no Capítulo 6, no qual são apontados alguns trabalhos futuros.

191919

2Trabalhos Relacionados

Existem outros trabalhos que visam prever quando um transdutor será ativado. Adefinição geral do problema a ser resolvido é: dado um transdutor Xn (ou um conjunto detransdutores), descobrir o próximo valor do transdutor Xn+1 utilizando o contexto do AmbienteInteligente como fonte de dados. Serão mostradas duas abordagens para esse problema: (1)predição de sequências e (2) snapshots multi-objetivo.

2.1 Predição de sequências

Nessa abordagem, é utilizado o conceito de sequência de eventos. Um evento é umaativação de um transdutor. Por exemplo M012→ ON, D004→ CLOSE ou L002→ OFF .Portanto a formulação do problema é um pouco diferente: Dada uma sequência de eventose1,e2,e3, . . . ,en, prever o evento en+1 a partir do histórico de eventos. Assim, conhecendo oevento en+1 sabemos qual transdutor será ativado e qual será o seu valor.

2.1.1 Active LeZi

O algoritmo Active LeZi (ALZ) [GOPALRATNAM; COOK (2007)] foi desenvolvidopara resolver esse problema. Ele utiliza o algoritmo LZ78 de compressão de texto baseado emdicionário para analisar a sequência de ativações e gerar um modelo de Markov com informaçõesde frequência de ocorrência de cada ativação. Essas frequências são utilizadas pelo preditor paraobter as probabilidades a posteriori de cada ativação. O ALZ introduz uma janela deslizante detamanho variável para diminuir a perda de dados do LZ78. A Figura 2.1 mostra a árvore geradapara a sequência aaababbbbbaabccddcbaaaa.

Para predizer o próximo evento da sequência com o modelo criado pelo ALZ, a proba-bilidade da ocorrência de cada evento na sequência é calculada e a resposta é o evento com amaior probabilidade.

O algoritmo ALZ foi testado com um conjunto de dados sintéticos e conseguiu prevercorretamente 86% dos eventos. Porém, quando esse algoritmo foi submetido a dados reais da

2.1. PREDIÇÃO DE SEQUÊNCIAS 20

Figura 2.1: Árvore gerada pelo algoritmo ALZ para a predição de sequências. Osnúmeros entre parênteses indicam as frequências das sequências e são utilizados paracalcular as distribuições de probabilidade. Fonte: GOPALRATNAM; COOK (2007).

Casa Inteligente do projeto MavHome da Universidade do Texas em Arlington, ele obteve apenas47% de acerto.

2.1.2 Sequence Prediction via Enhanced Episode Discovery (SPEED)

Outro algoritmo para resolver o problema de predição de sequências é o Sequence

Prediction via Enhanced Episode Discovery (SPEED) [ALAM; REAZ; ALI (2012)]. Essealgoritmo considera que o comportamento humano dentro de um Ambiente Inteligente podeser definido por episódios distintos. Um episódio consiste de todas as ações entre a ativaçãode um transdutor e a desativação do mesmo. Dentro de cada episódio, podem existir outrossub-episódios.

Os dados dos episódios são armazenados em uma árvore de decisão que possui umajanela de tamanho variável e igual ao tamanho do maior episódio. Para cada evento adicionado naárvore, o algoritmo atualiza a frequência das sequências dentro do episódio. O SPEED constróium modelo de Markov a partir da árvore de decisão e utiliza as frequências para calcular asdistribuições de probabilidade de cada evento para tomar suas decisões. A Figura 2.2 mostra aárvore gerada pelo SPEED para a sequência ABbDCcaBCbdcADaBAdab. Nessa sequência asletras maiúsculas representam um evento ON e as minúsculas um evento OFF. Os números entreparênteses indicam as frequências das sequências.

O algoritmo SPEED foi avaliado com os mesmos dados utilizados para testar o ALZ eobteve uma taxa de acerto de 88.3%. A causa de melhora na taxa de acerto é atribuída ao fato doSPEED ser baseado em no comportamento humano dentro de um Ambiente Inteligente.

2.1.3 Incremental Probabilistic Action Modeling (IPAM)

O algoritmo Incremental Probabilistic Action Modeling (IPAM) [DAVISON; HIRSH(1998)] também resolve o problema de predição de sequências, porém ele foi desenvolvido

2.2. SNAPSHOT MULTI-OBJETIVO 21

Figura 2.2: Árvore de decisão gerada pelo algoritmo SPEED para a sequênciaABbDCcaBCbdcADaBAdab. Os números entre parênteses indicam as frequências das

sequências e são utilizados para calcular as distribuições de probabilidade. Fonte: ALAM;REAZ; ALI (2012).

para predizer comandos de terminais UNIX. Esse algoritmo assume que cada comando (evento)depende apenas do comando anterior. Assim, o tamanho da sequência é sempre dois. O históricode interações do usuário é usado para contar o número de vezes que cada comando é utilizadoantes de outro. E assim é calculada a probabilidade de um futuro comando. A implementação éfeita através de uma tabela de n×n mostrando a probabilidade de ir de um comando para outro.

Para que a predição seja adaptativa um método incremental é utilizado. Isso é feito com aatribuição de pesos maiores para os eventos mais recentes. Isso é feito com o uso de uma funçãode decaimento exponencial, na qual as ocorrências mais recentes tem um impacto completo e oseventos mais antigos tem uma contribuição decrescente de acordo com o tempo de ocorrência.Dada a tabela de probabilidades anterior e uma outra tabela contendo probabilidades de dadosrecentes, uma nova tabela pode ser calculada com a média ponderada das duas tabelas na quala soma dos pesos é 1. Essa nova tabela é utilizada para a predição e o comando com a maiorprobabilidade é escolhido.

O algoritmo inicia com uma tabela vazia que indica que todos os comandos são igual-mente prováveis. E essa tabela é atualizada a cada comando utilizado pelo usuário.

O algoritmo foi testado em a base de dados de comandos csh Greenberg [GREENBERG(1988)] e teve uma acurácia preditiva de 39.9%.

2.2 Snapshot multi-objetivo

Nessa abordagem é utilizado o conceito de snapshot que é o conjunto de valores de todostransdutores do Ambiente Inteligente em um determinado instante. A Tabela 2.1 mostra umexemplo com 3 snapshots de um Ambiente Inteligente com 4 transdutores (t1 . . . t4). Cada linhada tabela é um snapshot.

O objetivo do problema de Snapshot multi-objetivo ainda é prever um conjunto de valoresde transdutores. Porém a formulação do problema é um pouco diferente: Dado um snapshot Sn,


Time t1 t2 t3 t408:01 ON ON OFF ON08:07 OFF OFF OFF ON08:35 ON OFF ON OFF

Tabela 2.1: Exemplo de 3 snapshots de um Ambiente Inteligente com 4 transdutores(t1 . . . t4). Durante a predição cada linha é uma instância e cada coluna é um atributo.

Fonte: autor.

prever o valor de múltiplos transdutores (t1, t2, t3, . . . , tx)n+1 a partir do histórico de snapshots

S1,S2,S3, . . . ,Sm onde m < n. Essa abordagem é chamada de multi-objetivo pois são preditos osvalores de múltiplos transdutores de uma vez.

Após monitorar o usuário dentro de um Ambiente Inteligente e coletar os dados dostransdutores, é necessário categorizar esses dados em um conjunto de funções de pertinênciafuzzy que quantifica os valores dos transdutores em rótulos como, por exemplo, normal, frio,quente. Uma estratégia de clusterização dupla combinando o fuzzy-C-Means e clusterizaçãohierárquica é usada para extrair as funções de pertinência fuzzy dos dados do usuário.

As funções de pertinência fuzzy são combinadas com os dados do Ambiente Inteligenteobtidos anteriormente para a extração de regras fuzzy que definem o comportamento do usuário.As regras são de múltiplas entrada e múltiplas saídas que descrevem o relacionamento entrey = (y1,y2,y3, . . . ,yk) e y = (x1,x2,x3, . . . ,xn) com o seguinte formato:

if x1 is A(l)1 and . . . and xn is A(l)

n ,

then y1 is B(l)1 and . . . and yk is B(l)

k ,

onde l = 1,2,3, . . . ,M, onde M é o número de regras e l é o índice da regra.Com as regras fuzzy prontas, o Controlador Lógico Fuzzy (FLC) passa a atuar sobre os

transdutores alvo do Ambiente Inteligente. Com isso, é iniciada a fase de adaptação na qual oconjunto de regras fuzzy é modificado para se adaptar ao comportamento do usuário. Sempre queo usuário não estiver satisfeito com alguma ação do FLC, ele deverá desfazer essa ação. Assim,o FLC pode modificar as regras fuzzy já existentes ou criar uma nova regra.

O FLC foi testado no Ambiente Inteligente iDorm [POUNDS-CORNISH; HOLMES(2002)] que é um dormitório inteligente situado na University of Essex. Duas abordagensforam utilizadas nesse Ambiente Inteligente: (1) regras fuzzy do tipo 1 [DOCTOR; HAGRAS;CALLAGHAN (2005)] e (2) regras fuzzy do tipo 2 [DOCTOR; CALLAGHAN; HAGRAS(2005)]. O período de testes foi de 5 dias com o monitoramento do usuário ocupando os 3primeiros dias e o funcionamento junto com a adaptação de regras ocorrendo nos últimos dias.O FLC com regras fuzzy do tipo 2 trata melhor as incertezas e consequentemente requer menosadaptações de regras. Porém, nas duas abordagens, a intervenção do usuário foi alta no início edepois estabilizou-se. Os dois FLC aprenderam 149 regras durante o período de monitoramento.Na fase de adaptação, o FLC com regras fuzzy do tipo 1 criou 354 regras novas e o FLC com


regras fuzzy do tipo 2 criou 196. Portanto o segundo FLC foi capaz de se adaptar com um númeromenor de interações do usuário.

242424

3Método proposto

A solução proposta nesse trabalho consiste em um sistema de predição das ações deum TA a partir da análise da rotina do usuário utilizando o contexto do Ambiente Inteligente.O sistema é composto por três módulos: (1) Módulo de Geração de Dados, (2) Módulo deAprendizagem e (3) Módulo de Predição como mostrado na Figura 3.1.

Figura 3.1: Visão geral do sistema de predição proposto que é composto por trêsmódulos: Módulo de Geração de Dados, Módulo de Aprendizagem e Módulo de Predição.

O sistema é responsável por predizer a ação do transdutor alvo a partir de dados doAmbiente Inteligente. Fonte: autor.

O Módulo de Geração de Dados (1) possui duas responsabilidades. A primeira, eprincipal, é transformar os dados obtidos dos transdutores presentes no Ambiente Inteligente (T )em uma base de dados para o Módulo de Aprendizagem (2). Os valores dos transdutores definemo contexto do Ambiente Inteligente e podem ser chamados de dados contextuais ou atributoscontextuais. O processo de construção dessa base de dados possui fases que representa os dadoscomo estados do Ambiente Inteligente; divide temporalmente os dados obtidos; considera opassado de ativações dos transdutores; certifica-se que a base de dados terá quantidade similar deexemplos de cada ação do TA; e seleciona os melhores dados para a predição. A geração da basede dados é voltada para o TA que foi informado ao sistema, ou seja, é a ação do TA que será aclasse de cada instância.

25

A segunda responsabilidade do Módulo de Geração de Dados (1) é o descobrimento dequais são os melhores atributos para a predição do valor do TA (R). Essa informação será usadapelo Módulo de Predição. A definição dos melhores atributos é feita durante a última fase dessemódulo (Seleção de atributos). Esse módulo será detalhado na Seção 3.1.

O Módulo de Aprendizagem é responsável por treinar um preditor (classificador) quedecide se o valor do TA deve ser mudado ou não. Como o TA é um transdutor binário (podeassumir apenas 2 valores) as possíveis ações para o TA são mudar de valor ou manter o valoratual. O treinamento do preditor é feito com os dados produzidos pelo Módulo de Geração deDados como mostrado na Figura 3.2 e o preditor gerado é utilizado pelo Módulo de Predição.

Figura 3.2: O Módulo de Aprendizagem utiliza os dados produzidos pelo Módulo deGeração de Dados (Γ) para treinar um preditor F que será utilizado pelo Módulo de

Predição. Fonte: autor.

O preditor pode ser qualquer algoritmo de classificação supervisionada encontrado naárea de Aprendizagem de Máquina. Portanto a fase de Treinamento do preditor do Módulo deAprendizagem varia de acordo com o algoritmo utilizado podendo ser, por exemplo, o cálculodos pesos de uma rede neural, a criação de uma árvore de decisão, o simples armazenamento dosdados (lazy learning), entre outros.

O Módulo de Predição é responsável por produzir a saída do sistema – ação do trans-dutor – para o Ambiente Inteligente. Para isso ele precisa receber os atributos contextuaisdo Ambiente Inteligente, transformá-los no formato dos dados utilizados no treinamento efornecê-los ao preditor. Esse módulo é detalhado na Seção 3.2.

O sistema proposto não requer a intervenção de pessoas para seu funcionamento. Aanotação dos dados é feita automaticamente a partir dos valores do TA. Essa é uma grandevantagem com relação ao Reconhecimento de Atividades que requer uma fase de anotaçãonormalmente cara e/ou intrusiva. A forma de anotação adotada (explicada na fase Geração desnapshots) não é intrusiva e não expõe informações do usuário a outras pessoas, preservandoassim a sua privacidade.

Não é feita nenhuma restrição de domínio de aplicação da solução e ela pode ser usadaem qualquer Ambiente Inteligente. O sistema necessita apenas ser informado de qual é o TA,acessar aos dados contextuais do Ambiente Inteligente e uma forma de entregar as ações do TApreditas pelo sistema. Normalmente, os dados contextuais são fornecidos por sensores, smart

objects e outros dispositivos computacionais que estão presentes no Ambiente Inteligente.A predição de ações de cada TA é feita independentemente de outras predições. Portanto,

o processo é explicado para apenas um TA podendo ser generalizado para outros TAs.

3.1. MÓDULO DE GERAÇÃO DE DADOS 26

3.1 Módulo de Geração de Dados

O primeiro passo do Módulo de Geração de Dados é a obtenção dos dados das ativaçõesdos transdutores do Ambiente Inteligente T . Esses dados T consistem, normalmente, em IDdo transdutor e valor do transdutor. Opcionalmente, o tempo de ativação do transdutor podeser usado para aumentar a quantidade de informação disponível na base de dados. Esse estágioproduz uma base de dados com as informações das ativações dos transdutores na ordem que elesocorreram.

Figura 3.3: O Módulo de Geração de Dados é responsável por transformar os dados dostransdutores do ambiente inteligente T em uma base de dados Γ para o Módulo de

Aprendizagem. Além disso, ele fornece uma lista de transdutores relevantes R a predição.Fonte: autor.

O Módulo de Geração de Dados possui cinco fases como mostrado na Figura 3.3.A fase de Geração de snapshots constrói uma base de dados que representa os dados dostransdutores como uma sequencia de estados do Ambiente Inteligente. As fases seguintesdividem a base de dados em diversos períodos de tempo (Divisão Temporal), consideramo histórico recente de ativações de transdutores (Encadeamento de snapshots), resolvem oproblema de desbalanceamento (Balancear classes) e selecionam os melhores dados para apredição (Seleção de atributos). Essas fases são explicadas da Seção 3.1.1 a Seção 3.1.5. A basede dados resultante do Módulo de Geração de Dados Γ é usada pelo Módulo de Aprendizagempara o treinamento do preditor e a lista de atributos contextuais relevantes R é utilizada peloMódulo de Predição.

O Módulo de Geração de Dados também é responsável por transformar a informaçãocontextual T (dados dos transdutores) em ECs. Essa transformação ocorre na fase de Seleçãode atributos que seleciona quais são as melhores informações contextuais para serem utilizadaspelo Módulo de Predição.

Os dados T que o Módulo de Geração de Dados recebe do Ambiente Inteligente podeassumir vários formatos. Nesse trabalho, bases de dados com dois formatos diferentes sãoutilizadas. Exemplos desses formatos são mostrados abaixo.


Formato dos dados dos transdutores em Ordonez

Start time End time Location Type Place

------------ ------------- -------- -------- -----

Dia 21:14:21 Dia 00:21:49 Seat Pressure Living

Dia 00:22:57 Dia 00:22:59 Door PIR Living

Dia 00:23:14 Dia 00:23:17 Door PIR Kitchen

Formato dos dados dos transdutores WSU CASAS

Tempo Transdutor Valor

---------------------------------------------

2008-04-01 09:28:07 L010 ON

2008-04-01 09:28:07 L008 ON

2008-04-01 09:28:36 L003 OFF

2008-04-03 09:24:19.707734 M001 OFF

2008-04-03 09:24:20.661578 M014 ON

2008-04-03 09:24:20.947587 M008 OFF

2008-04-03 09:24:21.097519 M023 OFF

O formato mais utilizado é o do WSU CASAS e por esse motivo ele foi escolhido comoo formato padrão utilizado nesse trabalho. O formato de Ordonez pode ser facilmente convertidopara o formato escolhido transformando cada linha em duas, uma para ON e outra para OFF.

3.1.1 Geração de snapshots

A predição é baseada nos diversos snapshots do Ambiente Inteligente. Cada snapshot éum estado do Ambiente Inteligente em um instante de tempo Ti. Ou seja, um snapshot é umacoleção de valores de todos os transdutores em um tempo específico (Ti). Esses snapshots sãoimportantes pois os valores do TA estão relacionados a eles. E o preditor é responsável poraprender esse relacionamento.

Uma mudança de valor de um único transdutor representa uma mudança de estado doAmbiente Inteligente e, consequentemente, um novo snapshot é criado.

Essa fase (Geração de snapshots) transforma os dados obtidos diretamente dos trans-dutores em uma lista ordenada de snapshots do Ambiente Inteligente conforme a explicação aseguir.

Os dados obtidos dos transdutores possuem, normalmente, o seguinte formato: <times-tamp> <identificador> <valor> como mostrado na Figura 3.4.(a). No procedimento de criação desnapshots, cada transdutor é colocado em uma coluna com o TA ocupando a última coluna. Osvalores dos transdutores são coletados para formar o primeiro snapshot (Sinit) – o estado inicial.


Figura 3.4: Processo de transformação de dados em snapshots. Os dados dostransdutores do ambiente inteligente (a) são convertidos para snapshots que representam oestado do ambiente inteligente no tempo Tx. As ações dos transdutores (c) são derivadas

diretamente do transdutor alvo (A4). Fonte: autor.

Os snapshots subsequentes são criados para cada mudança de valor dos transdutoresseguindo três passos: (1) o snapshot anterior é copiado, (2) o novo valor do transdutor substituiseu valor anterior e (3) o timestamp do snapshot é atualizado com o tempo de ativação dotransdutor (Ti). Esse procedimento é ilustrado na Figura 3.4.(a) e Figura 3.4.(b).

A frequência de coleta de dados não é fixa. Ela depende de quando um transdutor mudade valor e isso está relacionado ao comportamento do usuário no Ambiente Inteligente. Portanto,não é possível impor relações entre os Tis como por exemplo a linearidade. A única relação entreos timestamps é: Tx > Ty⇔ x > y.

Para obter os comandos para controlar o TA, seus valores são convertidos para ações decontrole de transdutores que são utilizadas como classe da base de dados (Ci). As ações do TAsão mostradas na Figura 3.4.(c). Já que os transdutores utilizados são binários, as possíveis açõessão mudar o valor do TA ou manter o valor anterior inalterado, ou seja, Ci ∈ {mudar,manter}.

Para aumentar a informação disponível para o preditor, outras colunas adicionais podemser derivadas do timestamp (Ti) como, por exemplo, o dia da semana.

Faiyaz Doctor et al. [DOCTOR; HAGRAS; CALLAGHAN (2005); DOCTOR; CAL-LAGHAN; HAGRAS (2005)] criam um snapshot apenas quando um TA muda de valor pois umalgoritmo de múltiplos objetivos é utilizado. A predição nesse trabalho é feita apenas para umTA. Se essa mesma ideia fosse utilizada, seria obtido um número muito pequeno de instâncias eisso levaria a um período de treinamento muito longo.

A saída desse módulo é uma base de dados com vetores no seguinte formato:< T1,OFF,ON,OFF,ON,manter > referente a S1, sendo manter a classe dessa instância. Oformato dos snapshots na base de dados é mostrado abaixo onde dow é o dia da semana e hms éo tempo com apenas hora, minuto e segundo.


Formato dos snapshots

Tempo dow hms A1 A2 A3 A4 Classe

-------------------------------------------------------------

2012-Nov-12 1:53:39 2 1:53:39 OFF OFF OFF OFF MANTER

2012-Nov-12 1:53:57 2 1:53:57 OFF OFF OFF OFF TROCAR


2012-Nov-12 1:55:09 2 1:55:09 OFF ON OFF OFF MANTER






2012-Nov-12 9:40:17 2 9:40:17 OFF OFF OFF ON MANTER

3.1.2 Divisão Temporal

A quantidade de dados (snapshots) que precisa ser coletada para o treinamento dopreditor é uma das maiores preocupações quando trabalha-se com predição e classificação.

Temos que considerar o compromisso entre quantidade de dados e tempo de coleta.Normalmente, quanto maior a quantidade de instâncias disponíveis ao treinamento do preditor,melhor é a qualidade da predição. Mas, por outro lado, para obter muitos dados precisa-se de umperíodo de treinamento muito longo e, consequentemente, o controle inteligente do AmbienteInteligente demorará mais para começar.

Nesse problema, tanto a qualidade da predição quanto o rápido inicio do controleinteligente são importante. Portanto, não podemos simplesmente maximizar um em detrimentodo outro. É preciso escolher o menor período de treinamento que resulte em uma prediçãosatisfatória.

A quantidade de dados de treinamento é, tradicionalmente, escolhida em função daquantidade total de dados disponíveis na base de dados. Porém, nesse trabalho, escolhemosutilizar o “dia” (D) como medida de tamanho do período de treinamento. Pois ele é mais intuitivopara esse problema. Além disso, o tamanho do período de treinamento pode ser definido commais precisão e fica mais fácil para o usuário saber quando o Módulo de Predição será iniciado.

Essa fase é responsável por criar uma base de dados contendo os snapshots para o treinaro preditor. Logo, “D” (tamanho do período de treinamento) é um parâmetro a ser avaliado paracada TA. Essa nova base de dados será utilizada pela fase seguinte.

3.1.3 Encadeamento de snapshots

Snapshots individuais não representam bem as atividades do usuário dentro de umAmbiente Inteligente. As ações do usuário não são independentes umas das outras. Essas ações


possuem uma sequência, uma relação temporal entre elas. Uma ação final (TA) é o resultado deações anteriores. Portanto, as ações anteriores são importante para a predição da ação do TA.Por exemplo, ligar um chuveiro pode depender da ativação do sensor de movimento do corredor,do sensor da porta do banheiro e do sensor do interruptor de luz do banheiro.

A importância das ativações passadas é reforçada por trabalhos relacionados que baseiamsuas soluções inteiramente em sequências de ativações. Eles usam algoritmos de mineração desequencias para predizer o valor do TA [GOPALRATNAM; COOK (2007); BHATTACHARYA;DAS (2002); DAVISON; HIRSH (1998); ALAM; REAZ; ALI (2012)].

Uma estratégia simples mas efetiva para considerar as ativações passadas dos transdutoresem uma base de dados é combinar snapshots em uma única instância com informação dediversos instantes no tempo, lembrando que as diferenças de tempo entre os Tis não são fixas edependem do interação do usuário com os transdutores do Ambiente Inteligente. Cada snapshot

Sn é agrupado com seus M−1 snapshots imediatamente anteriores (Sn−1, . . . ,Sn−M−1) com oespaçamento de T snapshots entre eles totalizando M snapshots.

A nova instância produzida por essa estratégia terá a classe Cn, a classe do snapshot Sn.A Figura 3.5.(a) mostra um exemplo e a Figura 3.5.(b) mostra o esquema geral.

Figura 3.5: Encadeamento de snapshots para considerar diferentes pontos do tempo emuma única instância. A parte (a) mostra um exemplo com M = 3 instâncias e espaçamento

T = 2 snapshots. A parte (b) mostra o esquema geral dessa estratégia. Fonte: autor.

O valor de M determina o número de atributos da base de dados. Existe um compromissona escolha desse valor. Valores pequenos para M levam em consideração um curto período detempo fornecendo menos informação por instância mas produzem bases de dados com poucosatributos. Por outro lado, valores grandes de M fornecem mais informação em cada instânciamas produzem bases de dados com muitos atributos.

A “Maldição da Dimensionalidade” [BELLMAN; OSBORN (1957)] diz que aprendereficientemente a partir de uma base de dados com muitos atributos requer uma enorme quantidadede dados de treinamento (snapshots). Além de requerer um período de treinamento muito longo.Similarmente, o efeito de Hughes ou fenômeno de Hughes [HUGHES (1968)] diz que dado umaquantidade fixa de dados de treinamento, o poder de predição reduz com o aumento do númerode atributos. Por isso, a escolha do valor de M é importante.


3.1.4 Balancear classes

O procedimento de criação de snapshots reflete o comportamento humano em umAmbiente Inteligente. Por esse motivo, é impossível garantir que será obtido o mesmo númerode snapshots para cada classe (ação) do TA. Portanto, a Geração de snapshots pode produzirbases de dados nas quais uma classe possui muito mais exemplos do que a outra. Bases de dadoscom essa característica são chamadas de bases de dados desbalanceadas.

O desempenho de preditores é, normalmente, fraco sob condições desbalanceadas [ES-TABROOKS; JO; JAPKOWICZ (2004)]. De acordo com ESTABROOKS; JO; JAPKOWICZ(2004), temos duas categorias de soluções para esse problema: (1) a abordagem interna, aqual cria ou modifica preditores existentes para tratar o problema do desbalanceamento e (2) aabordagem externa, a qual usa preditores existentes e não modificados mas reamostra as bases dedados de treinamento. A abordagem interna é difícil de implementar e é dependente do preditorutilizado. Visto que a solução proposta é projetada para funcionar com qualquer preditor, asolução externa é adotada por ser mais versátil.

Balancear classes é responsáel por gerar bases de dados com um número similar deinstancias pertencendo a cada classe usando RM [HALL et al. (2009); CHAWLA et al. (2002)]nos dados de treinamento (snapshots).

3.1.5 Seleção de atributos

Em relação ao conhecimento da relevância dos atributos que são necessários para apredição da ação do TA, temos duas possibilidades: (1) nenhum conhecimento prévio e (2)conhecimento de uma lista de atributos relevantes, não redundantes e não ambíguos. A segundaopção é mais fácil de ser tratada e tem um menor custo computacional visto que um menornúmero de transdutores precisam ser monitorados quando comparado com a primeira opção naqual todos os transdutores devem ser monitorados. Porém, estabelecer previamente os atributospode impossibilitar a predição da ação do TA pois alguns atributos (valores de transdutores)podem não existir no Ambiente Inteligente no qual o preditor esteja atuando. Portanto, a segundaopção deixaria o sistema de predição dependente do Ambiente Inteligente e isso fere um dosprincípios da solução proposta.

Quando não sabemos quais atributos são relevantes para a predição da ação do TA,estamos trabalhando com toda e qualquer informação de contexto disponível. Isso pode serinviável computacionalmente e certamente acarretará em um desperdício de recursos computa-cionais. Além disso, a tarefa de predição se torna mais difícil pois existirão atributos que emnada contribuirão para a predição. Por exemplo, a lista de processos que estão ativos em umcomputador dificilmente será útil para determinar quando um abajur deve ser ligado. Outrosatributos podem ser simplesmente redundantes, por exemplo, um sensor de luminosidade e umalâmpada que estão em um mesmo cômodo e funcionando corretamente provavelmente terãovalores redundantes. Portanto é muito importante que seja feito uma pré-processamento para

3.2. MÓDULO DE PREDIÇÃO 32

selecionar os atributos que são relevantes para a nossa predição antes de treinarmos o preditor.Esse pré-processamento é chamado de Seleção de Atributos (Feature Selection) na área deaprendizagem de máquina.

Normalmente, a predição é melhorada após a Seleção de Atributos. E quando isso nãoocorre ela permite que a predição seja feita com menos atributos a custa de uma pequena perdana qualidade.

A fase de Seleção de atributos atua sobre os atributos de cada snapshot e não sobre ostransdutores como mostrado no exemplo da Figura 3.6. Portanto, a eliminação de um transdutorda base de dados só ocorre caso nenhum atributo daquele transdutor seja selecionado. Noexemplo da Figura 3.6 o transdutor A3 estaria sendo eliminado da base de dados.

Mesmo que uma base de dados com um grande número de atributo seja criada da fasede Encadeamento de snapshots (Seção 3.1.3) ainda podemos ter uma quantidade moderada deatributos após a Seleção de atributos.

Figura 3.6: Exemplo de seleção de atributos no qual os atributos dentro das caixas azuisforam selecionados para compor a nova base de dados. Os atributos podem ser

provenientes de qualquer snapshot. Fonte: autor.

3.2 Módulo de Predição

O Módulo de Predição possui duas interfaces com o Ambiente Inteligente: (1) receber osatributos contextuais do Ambiente Inteligente R e (2) retornar a ação predita pelo classificadorcomo mostrado na Figura 3.7.

Figura 3.7: O Módulo de Predição transforma os dados dos transdutores relevantes doambiente inteligente (R) e os submete ao preditor F para obter ação do transdutor alvo.

Fonte: autor.

De posse do classificador treinado pelo Módulo de Aprendizagem, o processo de prediçãoirá monitorar o Ambiente Inteligente para prever o valor do TA. Não é necessário monitorar todos

3.3. CONSIDERAÇÕES FINAIS 33

os dados contextuais do Ambiente Inteligente como foi feito no Módulo de Geração de Dados.Apenas os atributos contextuais definidos como relevantes pela fase de Seleção de Atributos doMódulo de Geração de Dados (Seção 3.1.5) serão considerados. Isso diminui a carga da rede doAmbiente Inteligente, o custo computacional e torna o processo de predição mais rápido.

Para usar o preditor, precisamos de instâncias de teste com o mesmo formato das instân-cias usadas para treinar o preditor. Portanto, os dados coletados dos transdutores são submetidosàs fases de Geração de Snapshots (Seção 3.1.1) e Consideração do Passado (Seção 3.1.3). Quandoas instâncias estiverem no formato correto, elas são submetidas ao preditor que decide se o valordo TA deve ser mudado (classe). Esse processo é mostrado na Figura 3.7.

3.3 Considerações finais

Nas seções seguintes, discutimos sobre as interfaces da solução proposta com relação ainterface dela com o Ambiente Inteligente. Em particular focamos na aquisição de dados e nouso da resposta do preditor. Mostramos também como podemos fazer um treinamento iterativo eincremental e como a solução funciona de forma offline. E ao final explicamos sobre a escolhados algoritmos utilizados pela solução.

3.3.1 Interfaces da solução

Os ambientes inteligentes podem ser bastante diferentes. A solução proposta nessecapítulo foi desenvolvida para ser utilizada em qualquer Ambiente Inteligente cujas interfacespossam ser atendidas.

Os pontos de interface da solução proposta com os ambientes inteligentes são as caixasbrancas da Figura 3.1. O acoplamento maior está na aquisição de dados do contexto e na entregada ação do TA.

3.3.2 Aquisição de dados

A abordagem de aquisição de dados em sistemas sensíveis ao contexto, como em umAmbiente Inteligente, pode ser implementada de três maneiras como relatadas em BALDAUF(2007):

Acesso direto a dispositivos Nessa modalidade o código de acesso aos dispositivos computaci-onais estão dentro da aplicação levando a um forte acoplamento.

Infraestrutura de middleware Essa abordagem introduz uma arquitetura de camadas paraesconder os detalhes de baixo nível do acesso aos dispositivos. Com isso o código docliente não precisa ser modificado e a reusabilidade é simplificada pelo encasulamento doacesso ao hardware.

3.3. CONSIDERAÇÕES FINAIS 34

Servidores de contexto Permite que múltiplos clientes acessem os dados dos dispositivos re-motamente. A coleta de dados é feita nos servidores de contexto para facilitar o acessoconcorrente. Além disso uma boa parte do custo computacional é transferida dos clientespara os servidores de contexto.

Winograd em [WINOGRAD (2001)] apresenta mais três formas de aquisição de contexto:

Widgets É um componente que provê uma interface pública para o acesso ao hardware facili-tando a reusabilidade. Por causa desse encapsulamento é possível fazer a troca de widgets

por um que fornece o mesmo tipo de dado do contexto. Normalmente são controlados porum gerenciador de widgets.

Serviços de rede Essa solução é parecida com o servidor de contexto. Mas ao invés de umservidor global, são utilizadas técnicas de descoberta para achar serviços na rede quefornecem os dados do contexto.

Blackboard model Esse modelo apresenta uma visão orientada aos dados. É uma propostaassimétrica na qual os processos mandam mensagens para uma mídia compartilhada e seregistram para ser notificado quando um evento específico ocorrer. Isso facilita a adição denovas fontes de dados contextuais. Porém o servidor central de mensagens pode tornar-seum gargalo.

Independentemente da forma utilizada, é possível que o Módulo de Geração de Dados eo Módulo de Predição tenham acesso aos dados que necessitam.

3.3.3 Utilização da resposta do preditor

Existem duas formas de usar a saída do preditor em um Ambiente Inteligente: (1)controlar diretamente o TA com as ações do preditor e (2) reportar a ação predita a um agente desoftware. A primeira maneira é mais simples e direta. As ações de mudança são enviadas ao TApara que ele troque seu valor.

A segunda forma permite que um agente de software possa realizar ações mais complexasou verificações utilizando conhecimento externo e dados do contexto. Ele pode verificar se a açãodo TA compromete a segurança do Ambiente Inteligente. Por exemplo, verificar se um fogãopode ser ligado ou em caso de vazamento de gás evitar que lâmpadas sejam acesas. O consumode energia também pode ser levado em conta antes de realizar a ação sobre o TA. Muitosambientes inteligentes prezam pela redução do consumo de energia e o agente de software podeverificar se existe outras ações mais econômicas que podem gerar um resultado semelhante. Porexemplo, o agente de software poderia abrir uma cortina ao invés de acender uma lâmpada.

Outra possível forma de atuação do agente de software é quando o TA é um sensor. Jáque um sensor não pode ser controlado diretamente, o agente pode realizar alguma ação sobre oAmbiente Inteligente que mude o valor do sensor para o valor predito pela solução proposta ouinformar ao usuário para que ele próprio tome uma ação que mude o valor do sensor.

3.4. MÉTODO ITERATIVO E INCREMENTAL 35

3.4 Método iterativo e incremental

Esse método visa encontrar o menor conjunto de dados que permitem que ação do TApossa ser predita com um nível de confiança previamente estabelecido. Para isso, os módulos dasolução proposta (Figura 3.1) são alternados enquanto a confiança desejada não for alcançadamas sem que a ação do TA seja entregue ao Ambiente Inteligente. A confiança da solução é ovalor da métrica utilizada para a sua avaliação. As fases do método são: 1) Módulo de Geraçãode Dados, 2) Módulo de Aprendizagem e avaliação e 3) entrega da ação do TA ao AmbienteInteligente. O método e suas fases serão explicados nos parágrafos seguintes.

Durante a primeira fase, precisamos obter uma quantidade de dados do contexto doAmbiente Inteligente que nos permita prever com um bom grau de certeza a ação do TA. Apósum número inicial de dados ter passado pelo Módulo de Geração de Dados, podemos iniciar afase 2, executar o Módulo de Aprendizagem e avaliar o desempenho do Módulo de Prediçãomas sem entregar a resposta do preditor ao Ambiente Inteligente.

Nessa segunda fase, para cada dado contextual obtido, faremos uma avaliação e podere-mos ter três situações: (1) a nossa previsão pode estar correta e a confiança do sistema aumenta,(2) a nossa previsão é um falso positivo, ou seja, nosso algoritmo previu erroneamente a mudançade valor do TA e (3) a nossa previsão é um falso negativo, ou seja, o TA mudou de valor maso nosso algoritmo não foi capaz de prever a troca. Nas duas últimas situações a confiança doalgoritmo decresce.

Após alguns testes, devemos verificar se o nosso algoritmo está com uma confiançasatisfatória. Caso o Módulo de Predição ainda esteja errando muito, devemos utilizar os dados dafase 2 (avaliação) juntamente com os dados da fase 1 (coleta) para fazermos um novo treinamentodo algoritmo de predição (Módulo de Aprendizagem). Caso a confiança esteja satisfatória, onosso algoritmo já esta apto a prever mas mudanças dos valores do TA e podemos iniciar a fase3. Na fase 3 o Módulo de Predição executa de acordo com o que foi aprendido e entrega asrespostas do preditor ao Ambiente Inteligente.

Mesmo na fase 3 podemos continuar a verificação da confiança do nosso algoritmo sepudermos verificar a corretude da ação do TA. Uma forma de fazer isso é verificar se uma açãotomada foi desfeita pelo usuário. Mas isso deve ser feito de forma cautelosa pois existem casosonde não é possível diferenciar se uma ação foi tomada e desfeita ou se o ocorrido foi um fluxonormal de acontecimentos. Por exemplo, podemos ter tomado a decisão de trocar o dispositivo Xdo estado A para o estado B e o usuário pode não ter gostado dessa automatização e ter voltadoo dispositivo X para o estado A. Contrariamente, podemos ter corretamente trocado do estado Apara o B e o usuário pode ter completado o fluxo normal de acontecimentos trocando do estadoB para o A. Caso estivermos na primeira situação precisamos diminuir a confiança do nossoalgoritmo e amentá-la se estivermos na segunda situação.

Outra forma de executar testes e ajustar a confiança do preditor dentro da fase 3 (execução)é a utilização dos falsos negativos. Pode ser que a ação que estamos tentando antecipar ocorra

3.5. SOLUÇÃO UTILIZANDO BASES DE DADOS OFFLINE 36

sem que o nosso algoritmo tenha previsto. Quando isso ocorrer, devemos diminuir confiança doalgoritmo e guardar os dados atuais para para um futuro re-treinamento.

A forma mais segura de obter informação sobre a corretude de uma ação é conseguindoa opinião do usuário. Porém devemos ter cuidado e sempre ter em mente o princípio datransparência da computação ubíqua e utilizar por pouco tempo a atenção central do usuário eser o menos intrusivo possível.

É importante termos formas de avaliação do nosso algoritmo na fase 3 (execução) pois arotina das pessoas é mutável e distribuição de probabilidade dos dados pode sofrer alterações e oalgoritmo deve ser ajustado.

Apresentamos um exemplo para ilustrar o método. Nesse exemplo período inicial detreinamento é de 1 dia (fase 1) e o período de avaliação é de dois dias (fase 2). Portanto, duranteo primeiro dia de execução o sistema apenas obtém os dados contextuais. Ao final do período osdados são submetidos ao Módulo de Geração de Dados e a base de dados gerada é utilizada paratreinar o preditor no Módulo de Aprendizagem. Nos próximos dois dias, as respostas do preditorsão avaliadas e a sua confiança é computada. Caso a confiança seja satisfatória as respostas dopreditor do Módulo de Predição podem ser entregues ao Ambiente Inteligente (fase 3). Casocontrário os dados da fase aquisição de dados e da fase de avaliação são agrupados formandouma base de dados de três dias e o método iterativo retorna a fase de treinamento do preditor eum novo período de dois dias de avaliação é iniciado (fase 2).

Como as ações da fase 2 não são entregues ao Ambiente Inteligente, as fases 1 e 2 podemser realizadas offline.

3.5 Solução utilizando bases de dados offline

Os dados de necessários ao Módulo de Geração de Dados (ver Figura 3.3) podem serobtidos de forma independente da solução proposta e armazenados offline para serem utilizadosposteriormente. O Módulo de Geração de Dados e o Módulo de Aprendizagem não preci-sam ser executado em conjunto com um Ambiente Inteligente. Essas execuções podem estarcompletamente desacopladas.

Apenas o Módulo de Predição precisa ter acesso online ao Ambiente Inteligente parareceber os dados e entregar a saída do preditor (3.7). E ele está pronto para ser iniciado apósreceber a lista de atributos contextuais relevantes da fase de Seleção de Atributos do Módulo deGeração de Dados e o preditor treinado do Módulo de Aprendizagem.

A vantagem da execução offline é tornar desnecessário sobrecarga de um dispositivo doAmbiente Inteligente para realizar o processamento que pode, inclusive, ser feito na Nuvem.

3.6. ESCOLHA DE ALGORITMOS 37

3.6 Escolha de algoritmos

A ausência de suposição e restrição sobre os dispositivos que compõem o AmbienteInteligente não nos permite definir quais são as fontes de dados e nem as suas funções dedistribuição de probabilidade dos dados. Portanto não temos informações sobre a estrutura dabase de dados gerada pela fase de Consideração do Passado (Seção 3.1.3) do Módulo de Geraçãode Dados.

O teorema do “No Free Lunch” [WOLPERT; MACREADY (1997)] nos mostra quenenhum algoritmo de aprendizagem de máquina é mais eficiente que os demais em todas as basesde dados. Portanto não é possível escolher algoritmos de Balanceamento de dados, Seleção deAtributos e de predição que funcionarão bem para todas as possíveis bases de dados geradas peloMódulo de Geração de Dados. Essa escolha deve ser feita de forma dependente dos dados. É aestrutura e a distribuição de probabilidades da base de dados que indicarão quais são os melhoresalgoritmos a serem utilizados. Os algoritmos que realizam essas escolhas estão fora do escopodesse trabalho e são sugeridos como trabalhos futuros.

383838

4Protocolo dos experimentos

Para a avaliação do sistema de aprendizagem proposto no Capítulo 3, utilizaremosbases de dados públicas de ambientes inteligentes. Esse trabalho utiliza dados de três casasinteligentes distintas. Apesar de serem voltadas para o reconhecimento de atividades, elas podemser utilizadas nesse trabalho pois se as anotações das atividades forem ignoradas, os dadosrestantes são os dados de ativações dos transdutores. As bases de dados serão detalhadas nasseções seguintes.

4.1 Bases de dados

A escolha de quais transdutores seriam utilizados como Transdutores Alvos (TA) foifeita visando minimizar o número de interações feitas pelo usuário. Portanto, os transdutoresescolhidos foram os que eram mais utilizados pelo usuário, ou seja, os que tinham um maiornúmero de ativações. Essa estratégia tem o efeito colateral de selecionar transdutores com muitosdados disponíveis e provavelmente necessitando de um período de treinamento menor.

As bases de dados possuem períodos de coleta variados. Para deixa-los mais uniformes epara evitar uma disparidade muito grande na análise, escolhemos reduzir as bases muito grandespara 30 dias de coleta de dados.

4.1.1 ADLs Recognition Using Binary Sensors

Essa base de dados foi produzida no trabalho de ORDONEZ; TOLEDO; SANCHIS(2013) e contém informação sobre as ADLs realizadas por um usuário em sua própria casa decinco cômodos na qual a coleta de dados foi realizada por uma Wireless Sensor NetworkWSN.

A coleta de dados foi realizada de 12/11/2012 até 02/12/2012 com um total de 2333ativações de sensores. A cassa possui 12 sensores de 5 tipos diferentes: Passive Infrared (PIR),Magnetic, Flush, Pressure e Eletric. As informações de localização, tipo e objeto ao qual o sensorestava acoplado foram ignoradas. Os sensores e seus tipos estão relacionados na Tabela 4.1. Emnegrito estão os três sensores que foram utilizados como TAs.

4.1. BASES DE DADOS 39

Sensor TipoShower PIRBasin PIRDoor Kitchen PIRDoor Bathroom PIRDoor Bedroom PIRMaindoor MagneticFridge MagneticCupboard MagneticToilet FlushSeat PressureBed PressureMicrowave Electric

Tabela 4.1: Sensores disponíveis na casa Ordonez e seus respectivos tipos. Os trêssensores selecionados para serem os TAs estão em negrito. Fonte: ORDONEZ;

TOLEDO; SANCHIS (2013).

4.1.2 Smart Apartment Single Resident Testbed

Esse conjunto de dados, do trabalho de COOK; SCHMITTER-EDGECOMBE et al.(2009) do projeto Washington State University (WSU) Center for Advanced Studies in Adaptive

Systems (CASAS), representa as ativações de sensores de um apartamento inteligente situadoem Kyoto [COOK; SCHMITTER-EDGECOMBE et al. (2009)] desde 25 de Outubro de 2007 a31 de Maio de 2008. O apartamento foi ocupado por apenas uma pessoa durante esse período.Os dados de eventos nos quais havia mais de uma pessoa no apartamento foram removidos (de10h as 15h de cada dia).

Os sensores utilizados estão mostrado na Figura 4.1. Dentre eles temos sensores demovimento (M01 ... M41), de temperatura (T01 ... T03), de portas (D001 ... D007), deinterruptores de luzes (L001 ... L011). Os sensores escolhidos para servirem de TA foram L005,L008 e M012.

4.1.3 Smart Home Aruba

Essa smart home é situada em Aruba e também faz parte do projeto WSU CASAS.Ela foi ocupada por uma mulher cujos filhos e netos a visitavam frequentemente. A smart

home possui 39 sensores ao todo. Ela contém sensores de fechamento de porta (D001, D002 eD004), sensores de movimento (M001 ... M031) e sensores de temperatura ( T001 .. T005). Aorganização do sensores é mostrado na Figura 4.2.

4.1. BASES DE DADOS 40

Figura 4.1: Sensores da casa do projeto CASAS situado em Kyoto. As estrelas indicamonde estão os TAs selecionados para essa casa inteligente (L005, L008 e M012). Fonte:

COOK; SCHMITTER-EDGECOMBE et al. (2009).

Figura 4.2: Sensores da casa do projeto CASAS situado em Aruba. As estrelas indicamonde estão os TAs selecionados para essa casa inteligente (D001, D002 e D004). Fonte:

COOK; SCHMITTER-EDGECOMBE et al. (2009).

4.2. PARÂMETROS DO MÉTODO PROPOSTO 41

4.2 Parâmetros do método proposto

Os dados obtidos diretamente dos transdutores dificilmente podem ser usados para treinaro preditor efetivamente. Eles precisam ser transformados como mostrado no Módulo de Geraçãode Dados para serem mais úteis. A base da representação dos dados é o snapshot mas alémdisso devemos fazer outras escolhas para a geração das bases de dados dos experimentos como aquantidade de dados e como balancear as classes.

4.2.1 Divisão temporal

A quantidade de dados é uma das maiores preocupações quanto se trabalha com clas-sificação e predição. Vários tamanhos de bases foram estudados para mostrar a sua influênciana qualidade da predição. Como explicado na fase Divisão Temporal, a divisão dos dados foibaseado em um período de tempo fixo: o dia.

Não é fácil definir a quantidade de dados de treinamento. Quantidades maiores normal-mente levam a melhores predições mas levam mais tempo para serem coletadas atrasando oinício do Módulo de Predição. Para estudar esse compromisso a fase Divisão Temporal varia aquantidade de dados (D) de 1 a 5 dias. A menor base de dados contém os dados das ativaçõesdos transdutores durante o primeiro dia e a maior contém os dados dos 5 primeiros dias.

4.2.2 Encadeamento de snapshots

A representação dos dados como sequências de snapshots como explicado na faseEncadeamento de snapshots gera uma preocupação com relação ao número de atributos da basede dados resultante. Números grandes de M geram instâncias com mais informações mas gerambases de dados com muitos atributos. Para avaliar o impacto de M na qualidade da predição,seu valor é variado entre 1 e 10 (M = 1, . . . ,10) e o valor de T é mantido em 1 para minimizar adiminuição do número de instâncias.

4.2.3 Balanceamento de classes

Como discutido na fase Balancear classes, a base de treinamento precisa passar porum método de reamostragem para atingir o balanceamento das classes do TA e melhorar odesempenho da predição. Os métodos de reamostragem funcionam em duas direções. Elespodem aumentar o número de instâncias da classe minoritária (oversampling) ou diminuir aquantidade de exemplos da classe majoritária (undersampling). Também existem métodosde reamostragem que combinam oversampling com undersampling para produzir classes comtamanho similares. Os métodos de reamostragem cobrem todas essas abordagens e são mostradosna Tabela 4.2 junto com a infromação de direção em relação ao tamanho original da base dedados (aumentar ou diminuir)


Acrônimo Método DireçãoOrig Nenhum NenhumaRU Resample [HALL et al. (2009)] Diminuição

RUNR Resample [HALL et al. (2009)] Diminuição sem reposiçãoRO Resample [HALL et al. (2009)] Aumento

SMT SMOTE [CHAWLA et al. (2002)] AumentoSS SpreadSubsample [HALL et al. (2009)] Diminuição

Tabela 4.2: Métodos de reamostragem utilizados nesse trabalho e a direção que eles sãoutilizados (aumento ou diminuição). Fonte: autor.

Base D001 D002 D004 L005 L008 M012 Bedroom Kitchen Living# instâncias 32193 32193 32193 6913 6913 7930 1142 1142 1142

Orig T 6 8 86 46 8 12 180 256 362M 32187 32185 32107 6867 6905 7918 962 886 780

RU T 5 7 86 50 7 10 192 272 345M 6 8 86 41 8 14 167 240 378

RUNR T 5 7 86 46 7 10 180 256 345M 6 8 86 45 8 14 179 256 378

SS T 6 8 86 46 8 12 180 256 362M 6 8 86 46 8 12 1801 256 362

SMT T 32193 32193 32193 6912 6913 7929 1141 1142 1142M 32187 32185 32107 6867 6905 7918 962 886 780

RO T 32205 32202 32136 6899 6943 7941 990 918 750M 32169 32167 32077 6834 6867 7894 934 854 809

Tabela 4.3: O número de instâncias de cada uma das classes (trocar e manter) após aexecução de cada método de Reamostragem e para cada TA. A classe trocar é indicadapor T e a classe manter é indicada por M. Os dados foram obtidos para os valores: D = 5

e M = 1. Fonte: autor.

Os métodos Resample requerem o tamanho da amostra como uma porcentagem dotamanho original da base de dados como parâmetro. Para a diminuição, o tamanho da amostraé duas vezes to tamanho da classe minoritária e, para o aumento, duas vezes o tamanho daclasse majoritária. O SMOTE requer, como parâmetro, a porcentagem de instâncias da classeminoritária que serão criadas e esse parâmetro é a proporção da classe majoritária para a classeminoritária. O método SpreadSubsample não requer parâmetros. A Tabela 4.3 mostra o númerode instâncias de cada uma das classes (trocar e manter) após a execução de cada método deReamostragem e para cada TA.

4.2.4 Seleção de atributos

Para trabalhar apenas com os atributos mais relevantes e também diminuir a quantidadede atributos, os métodos de seleção de atributos são utilizados na fase Seleção de atributosdo Módulo de Geração de Dados. Os métodos de seleção de atributos usados possuem duasformas diferentes de atuação. A primeira forma é selecionar subconjuntos de atributos e avaliar


a qualidade deles para assim selecionar o melhor subconjunto de atributos. Porém, para umnúmero grande de atributos, a quantidade de possíveis subconjuntos é enorme e avaliar todosseria muito custoso. Por esse motivo, esse métodos de seleção de atributos utilizam algumalgoritmo de busca no espaço de possíveis subconjuntos.

A outra forma de atuação dos métodos de seleção de atributos é analisar os dados ecalcular uma métrica para cada atributo individualmente. A saída desses métodos é um ranking

de atributos ordenados pela métrica calculada. Existem duas formas de selecionar o subconjuntode atributos a partir do ranking: (1) escolher um número fixo de atributos, assim os X melhoresatributos serão retornados ou (2) escolher um limiar para a métrica calculada, assim todos osatributos cuja métrica for maior que o limiar são incluídos no subconjunto retornado.

Foram escolhidos dois métodos de seleção de atributos para cada abordagem. Os métodosde avaliação de subconjuntos são: CfsSubsetEval [HALL (1998)] e ConsistencySubsetEval [LIU;SETIONO (1996)]. Também foram selecionadas duas estratégias de busca de subconjuntospara serem usadas com cada um desses métodos: busca gulosa e busca genética. Os métodosde ranking escolhidos foram o ChiSquaredAttributeEval e o ReliefFAttributeEval [ROBNIK-SIKONJA; KONONENKO (1997)]. Esses métodos são antigos mas isso não é um problema paraesse trabalho pois a proposta não é utilizar o melhor método de seleção de atributos. A intençãoé mostrar que a utilização dessa técnica traz vantagens para o trabalho. E se melhorarmos ométodo de seleção de atributos melhoraremos os resultados.

4.2.5 Avaliação do preditor

Pelos mesmos motivos expostos na fase Balancear classes, os dados de teste irão possuirclasses desbalanceadas. Isso é um problema para avaliar o desempenho do preditor pois aacurácia preditiva (perdições corretas dividido pelo total de predições) normalmente não ésatisfatória em condições de classes desbalanceadas. Por exemplo, se em 97% dos snapshots deteste a ação do TA é manter o valor atual, um algoritmo que sempre responde manter estariaerrado em apenas 3% dos casos. Essa é uma ótima acurácia mas esse preditor seria inútil porfalharia em detectar as mudanças de valores do TA. Isso indica que a acurácia preditiva não éuma boa métrica para ser utilizada.

Para superar esse problema, a métrica escolhida para medir o desempenho do preditor éa área sob a curva Reciver Operating Characteristics (ROC). Essa métrica é chamada de Area

Under an ROC Curve (AUC) e ela mede o compromisso entre a taxa de falsos positivos e a taxade verdadeiros positivos.

444444

5Resultados

Os resultados são divididos em três partes. Primeiramente analisamos os resultados paraos parâmetros de construção da base de dados D, M e método de reamostragem. Em seguida osmétodos de seleção de atributos são considerados e finalmente são mostrados os resultados daavaliação com diversos classificadores.

5.1 Parâmetros de construção da base de dados

Os parâmetros do método proposto para a construção da base de dados D, M e métodode reamostragem (RM) são analisado inicialmente. Para cada TA selecionado, bases de dadossão construídas de acordo com as fases Geração de snapshots, Divisão Temporal (D varia de 1 a5 dias), Encadeamento de snapshots (M varia de 1 a 10 e T é fixado em 1) e Balancear classes(5 métodos de reamostragem e a base sem reamostragem). O total de combinações geradasnessa etapa é de 300 bases de dados por TA e cada uma delas é classificada com o algoritmoKNN (K = 1). Todos os resultados são comparado com um caso base. O caso base escolhidofoi 1 dia de treinamento (D = 1), sem consideração do passado (M = 1) e nenhum método dereamostragem aplicado.

Para facilitar o entendimento, os parâmetros são analisados independentemente e pos-teriormente a combinação deles é avaliada. Sempre que um parâmetro for variado os outrospermaneceram iguais aos do caso base.

5.1.1 Quantidade de dados de treinamento (D)

Como discutido na fase Divisão Temporal do Módulo de Geração de Dados, uma daspreocupações quando trabalha-se com classificação é a quantidade de dados para o treinamento.Para entender como isso funciona variamos o parâmetro D de 1 a 5 dias e os dias restantesda base de dados são utilizados como dados de teste. A variação gerada pelo parâmetro D émostrada na Figura 5.1 e na Tabela 5.1.

Esse parâmetro do método proposto (D) sozinho provoca quase nenhuma melhora daAUC para os TAs da casa de Aruba (D001, D002 e D004) e da casa Ordonez (Bedroom, Kitchen

5.1. PARÂMETROS DE CONSTRUÇÃO DA BASE DE DADOS 45

1day 2day 3day 4day 5day

0.4

0.5

0.6

0.7

0.8

D001 D002 D004 L005

L008 M012 Bedroom Kitchen

Living

Figura 5.1: Variação do parâmetro D do método proposto pela AUC para cada TA. Aquantidade de dias de treinamento varia de 1 a 5 dias. O restante dos dados são utilizados

para o teste. Fonte: autor.

D001 D002 D004 L005 L008 M012 Bedroom Kitchen Living1 dia 0,546 0,599 0,662 0,647 0,554 0,605 0,750 0,755 0,7402 dias 0,508 0,594 0,664 0,705 0,516 0,627 0,757 0,746 0,7383 dias 0,497 0,508 0,686 0,708 0,576 0,626 0,718 0,764 0,7434 dias 0,460 0,548 0,640 0,697 0,572 0,679 0,738 0,760 0,7365 dias 0,481 0,539 0,651 0,771 0,599 0,444 0,729 0,762 0,741

Tabela 5.1: Variação dos dias de treinamento (D) para cada TA. Os maiores valores daAUC para cada TA estão em negrito. Fonte: autor.

e Living). Porém ele gera uma maior variação da AUC nos TAs da casa de Kyoto (L005, L008 eM012) mostrando que eles trabalham melhor com mais dados exceto pelo quinto dia do M012.Portanto a crença comum de que “quantos mais dados melhor” foi verdadeira apenas para umterço dos TAs.

Considerando a qualidade da predição (valor da AUC) e o tempo de início da predição osmelhores valores de D para os TAs da casa de Aruba e Ordonez são 1 dia de treinamento. Paraos TAs L005 e L008 o melhor valor de D é 4 e para o TA M012 o melhor é 5.

5.1.2 Consideração do passado (M)

A importância das ativações passadas é discutida na fase Encadeamento de snapshots

do Módulo de Geração de Dados e o valor de M é variado para estudarmos como essa faseinfluencia a qualidade da predição. Os valores da AUC para a variação de M são mostrados naFigura 5.2 e na Tabela 5.2.

Os resultados para a variação de M são interessantes pois temos comportamentos bem


M01 M02 M03 M04 M05 M06 M07 M08 M09 M10

0.4

0.5

0.6

0.7

0.8

0.9

1

D001 D002 D004 L005

L008 M012 Bedroom Kitchen

Living

Figura 5.2: Análise da variação de M pela AUC para cada TA. Quanto maior o valor deM, mais informação do passado está sendo considerada e mais atributos estão presentes na

base de dados. Fonte: autor.

diferentes para as casas inteligentes analisada. Na casa de Kyoto não houve melhoria da AUCpara os TAs L008 e L005 e para o TA M012 a melhoria foi pequena. Já para as duas outras casasinteligentes tivemos uma melhora da AUC significante com valores pequenos de M. O valor maisadequado de M, considerando quantidade de atributos na base de dados de treinamento e valorda AUC, para os TAs da casa de Kyoto (L005, L008 e M012) é 1 e para os TAs das outras duascasas é 2. Como os melhores valores de M são pequenos as bases de dados geradas pelo fase deEncadeamento de snapshots não terão uma quantidade grande de atributos.

5.1.3 Balanceamento de classes

A fase de Geração de snapshots do Módulo de Geração de Dados cria bases de dadoscom muito mais instâncias de uma classe (ação do TA) do que de outra. Bases de dados comessas características são de difícil classificação. Portanto a fase 3.1.4 do Módulo de Geraçãode Dados utiliza métodos de reamostragem para deixar as bases de dados de treinamento comnúmeros similares de instâncias de cada classe. A Figura 5.3 e a Tabela 5.3 mostram como aqualidade da predição varia com a aplicação de diversos métodos de reamostragem.

Os resultados da variação dos métodos de reamostragem variaram de acordo com a casainteligente. Os TAs da casa de Aruba, tiveram as maiores melhoras da AUC seguidos pelos TAsda casa de Kyoto. Já na casa de Ordonez, a variação da AUC foi desprezível. Em termos gerais,os métodos de reamostragem que diminuíram o tamanho da base original de treinamento tiveramum desempenho melhor (maior AUC) que os métodos que aumentaram o tamanho da base detreinamento. Isso é vantajoso pois implica em um menor custo computacional para o treinamentodo preditor no Módulo de Aprendizagem e, possivelmente, na execução da predição no Módulo


D001 D002 D004 L005 L008 M012 Bedroom Kitchen LivingM01 0,546 0,599 0,662 0,647 0,554 0,605 0,750 0,755 0,740M02 0,759 0,694 0,778 0,608 0,423 0,558 0,998 0,998 0,987M03 0,506 0,638 0,780 0,603 0,436 0,640 0,961 0,989 0,986M04 0,528 0,595 0,719 0,592 0,449 0,627 0,956 0,985 0,985M05 0,550 0,576 0,680 0,585 0,472 0,588 0,951 0,970 0,966M06 0,604 0,536 0,654 0,601 0,430 0,615 0,925 0,951 0,928M07 0,588 0,559 0,652 0,642 0,527 0,568 0,901 0,907 0,921M08 0,597 0,583 0,640 0,618 0,423 0,565 0,868 0,859 0,898M09 0,527 0,566 0,617 0,603 0,487 0,567 0,827 0,756 0,877M10 0,486 0,560 0,578 0,626 0,446 0,553 0,783 0,626 0,848

Tabela 5.2: Variação da AUC gerada pela mudança da quantidade de ativações detransdutores que são consideradas (M) para cada TA. Quanto maior o valor de M, mais

informação do passado está sendo considerada e mais atributos estão presentes na base dedados. Os maiores resultados da AUC para cada TA estão em negrito. Fonte: autor.

D001 D002 D003 L005 L008 M012 Bedroom Kitchen LivingOrig 0,546 0,599 0,662 0,647 0,554 0,605 0,750 0,755 0,740RU 0,828 0,849 0,717 0,668 0,518 0,670 0,729 0,750 0,731

RUNR 0,767 0,799 0,777 0,686 0,523 0,658 0,733 0,749 0,730SS 0,901 0,780 0,678 0,646 0,582 0,718 0,717 0,724 0,742

SMT 0,661 0,597 0,685 0,644 0,564 0,604 0,750 0,755 0,740RO 0,688 0,611 0,651 0,649 0,525 0,622 0,750 0,756 0,735

Tabela 5.3: Variação dos métodos de reamostragem para cada TA. O método dereferência é o Orig já que nenhum método de reamostragem foi aplicado nessas bases detreinamento. Os maiores resultados da AUC para cada TA estão em negrito. Fonte: autor.

de Predição.

5.1.4 Ganho e influência dos parâmetros

A análise individual dos parâmetros do método proposto feita anteriormente fornece umaboa intuição sobre o funcionamento de cada um. Mas já que casa estratégia mostrou diferentesníveis de melhora da AUC para os TAs, a combinação dos parâmetros também deve ser levadaem consideração.

É importante estudar como cada parâmetro e suas combinações influenciam o resultadofinal para cada TA. Com a Soma dos Quadrados utilizada pela Analysis of Variance (ANOVA)podemos calcular a importância de um fator (parâmetro) como mostrado por JAIN (1981).A variação total obtida nos experimentos pode ser dividida em partes nas quais cada parte éexplicada por um parâmetro ou combinação de parâmetros. A importância de um parâmetro serefere a variação que ele causa nos resultados dos experimentos. Quanto maior a variação, maisimportante e influente o parãmetro é. A Figura 5.4 mostra a importância dos parâmetros e dassuas combinações para cada TA em porcentagem.


D001 D002 D003 L005 L008 M012 Bedroom Kitchen Living

0.4

0.5

0.6

0.7

0.8

0.9

1

AUC

Orig RU RUNR SS SMT RO

Figura 5.3: Análise da variação dos métodos de reamostragem pela AUC para cada TA.As colunas azuis (Orig) são os dados de referência para cada TA já que nenhum método

de reamostragem foi aplicado nesses casos. Fonte: autor.


0%

20%

40%

60%

80%

100%

Inuência

Days M RM Days+M Days+RM M+RM Days+M+RM

Figura 5.4: Análise da influência de cada um dos parâmetros separados por TA. Asbarras indicam o quando da variação dos dados é explicada por cada um dos parâmetros

do método proposto e suas combinações. Fonte: autor.


O parâmetro M do método proposto é o mais influente para os TAs da casa de Ordonez(Bedroom, Kitchen e Living) sendo responsável por explicar quase toda a variação da AUC. Parao TA D001 o M também é o mais influente porém o método de reamostragem (RM) tambémé importante. Para todos os outros TAs a influência é bem variada mas com o método dereamostragem (RM) tendo bastante importância. Isso mostra que todos os parâmetros escolhidossão relevantes para algum TA.

De todas as 300 possíveis combinações de parâmetros, algumas melhoram a AUC do casobase e outras não. A Figura 5.5 mostra o ganho – em verde – obtido pela melhor combinação deparâmetros. O ganho é a diferença entre o caso base – em azul – e o maior valor de AUC obtido.A Figura 5.5 também mostra – em porcentagem – quantas combinações de parâmetros tiveramum resultado melhor que o do caso base. A Tabela 5.4 mostra quais foram as combinações queatingiram o maior ganho.


0.5

0.6

0.7

0.8

0.9

1

AU

C

0%

20%

40%

60%

80%

100%

Com

bin

ações m

elh

ore

sGain Base % > Base

Figura 5.5: O caso base (barra azul) e o ganho (verde) para cada TA. Os traços azuisindicam a porcentagem das combinações de parâmetros que produziram resultados

melhores que o caso base. Fonte: autor.

Os TAs da casa de Ordonez se comportaram de maneira muito semelhante e atingiramos melhores resultados considerando a AUC com valores bem próximos do máximo da AUC queé 1. Esses TAs também foram melhores na quantidade de combinações que melhoraram o casobase com mais de 90%. Além disso, os TAs da casa de Ordonez obtiveram os melhores valoresda AUC para os casos base, cerca de 0,75. Todos os TAs dessa casa atingiram seus máximoscom o M igual a 2.

Os TAs D001 e D002 tiveram os maiores ganhos apesar de de terem uns dos menoresvalores para o caso base. O outro TA da casa de Aruba (D004) não obteve uma AUC tão altacomo D001 e D002 mas teve a maior quantidade de combinações que melhoraram o caso basepara essa casa inteligente. Todos os TAs da casa de Aruba atingiram seus máximos com o método

5.2. SELEÇÃO DE ATRIBUTOS 50

TA Dia M RM AUCBase

MelhorAUC Ganho Qtd melhores

combinaçõesPct melhorescombinações

D001 4 6 RU 0,546 0,932 0,386 236 78.67%D002 1 4 RU 0,599 0,940 0,341 155 51.67%D004 2 6 RU 0,662 0,852 0,190 245 81.67%L005 3 6 RUNR 0,647 0,881 0,234 217 72.33%L008 5 4 SS 0,554 0,822 0,268 141 47.00%M012 1 6 SS 0,605 0,793 0,188 177 59.00%

Bedroom 2 2 Orig 0,750 0,999 0,249 276 92.00%Kitchen 1 2 Orig 0,755 0,998 0,243 280 93.33%Living 4 2 RU 0,740 0,997 0,257 282 94.00%

Tabela 5.4: Os melhores valores dos parâmetros do método proposto para cada TA juntocom o ganho e a quantidade de combinações que melhoram o caso base. Fonte: autor.

de reamostragem RU.Os TAs da casa de Kyoto não tiveram resultados tão bons quanto as duas outras casas

apesar do ganho de L005 e L008 terem sido semelhantes aos da casa de Ordonez. O TA M012teve a pior AUC da melhor combinação apesar de ter tido um bom caso base.

Todos os TAs obtiveram seus melhores resultados com métodos de reamsotragem quediminuíram a quantidade de dados da base de treinamento. Portanto a quantidade de dados parao treinamento do preditor é menor levando a um treinamento mais rápido e com menor custocomputacional. Tanto o parâmetro D quanto o M do método proposto tiveram grande variaçãoquando se trata do melhor caso para cada TA. Porém o M não atingiu valores muito altos, ouseja, as bases de dados geradas pelo fase de Encadeamento de snapshots não tiveram um númerode atributos tão alto.

5.2 Seleção de Atributos

Para estudar o efeito dos métodos de seleção de atributos, os parâmetros do métodoproposto escolhidos para D e RM foram os que atingiram os melhores resultados como mostradona Tabela 5.4. E o valor do parâmetro M foi 10 para que os métodos de seleção de atributostenham uma maior quantidade de atributos para escolher.

Os métodos de seleção atributos baseados em avaliação de subconjuntos de atributos(CfsSubsetEval e ConsistencySubsetEval) já fornecem o melhor subconjunto portanto a mon-tagem da base de dados de treinamento é simplesmente feita com os atributos selecionados.Porém os métodos de ranking (ChiSquaredAttributeEval e ReliefAttributeEval) não fornecem omelhor subconjunto, eles retornam uma lista ordenada de atributos. Portanto a escolha do melhorsubconjunto de atributos não é trivial. Para descobrir qual é o melhor subconjunto foram criadasbases de dados de treinamento com um número incremental de atributos, ou seja, a primeirabase de dados possui apenas o melhor atributo; a segunda base de dados possui os 2 melhores


atributos; a terceira base de dados possui os 3 melhores atributos; e assim por diante até a últimabase de dados que conterá todos os atributos. O número de bases de dados de treinamentogeradas é igual ao número de atributos daquela base com o parâmetro M igual a 10, ou seja, dezvezes o número de atributos da base resultante da fase Geração de snapshots.

Todas a bases de dados de treinamento resultantes dos métodos de seleção de atributossão classificadas com o algoritmo KNN (K = 1) e seus resultados são agrupados por casainteligente e mostrados na Figura 5.6, na Figura 5.7 e na Figura 5.8.

Como pode ser visto na Figura 5.6, o método de seleção mais adequado para o TA D001foi ReliefAttributeEval com 9 dos 11 melhores resultados. Os 6 maiores valores da AUC foramatingidos com 2 a 7 atributos pelos métodos de ranking. Esses resultados representam os pontosmais a esquerda do gráfico. Os métodos de seleção de atributos que fornecem o subconjuntodiretamente não tiveram um bom desempenho. O melhor método desse tipo foi o CfsSubSetEval

utilizando a busca genética que selecionou 152 atributos e atingiu uma AUC de 0,870.Para o TA D002, os 175 melhores resultados foram do método ChiSquaredAttributeEval.

Nesses resultados a AUC variou de 0,806 a 0,800 e o número de atributos variou de 70 a 419.Como pode ser visto na Figura 5.6, esse método foi claramente superior aos demais. O segundomelhor método foi o CfsSubsetEval que teve AUC de 0,758 e selecionou 176 atributos.

Diferentemente dos outros TAs da casa de Aruba, o melhor método de seleção deatributos para o TA D004 foi um método de busca de subconjuntos, o CfsSubsetEval, com aestratégia de busca gulosa, a BestFirst. Esse método selecionou 22 atributos e alcançou umaAUC de 0,872. Podemos ver na Figura 5.6 que, para o TA D004, os métodos de seleção deatributos baseados em ranking tiveram comportamentos opostos com relação ao subconjuntocom 80 atributos: o método RelieveAttributeEval tem bons resultados antes desse ponto e pioradepois dele; E, contrariamente, o ChiSquareAttributeEval tem seus piores resultados antes dos80 atributos.

Em termos gerais, os resultados de D001 foram melhores que os de D004 que, por suavez, foram melhores que os de D002.

A Figura 5.7 mostra os resultados para os TAs da Casa Inteligente de Kyoto. Claramenteos resultados do TA L005 foram superiores aos dos outros TAs, mas isso é consistente com osrestultados apresentados nas seções anteriores.

Para o TA L005 o melhor método foi o ChiSquaredAttributeEval, porém o métodoReliefAttributeEval possui 13 dos 15 melhores resultados. A maior AUC do método ChiSquare-

dAttributeEval foi 0,930 com 35 atributos e a do ReliefAttributeEval foi 0,926 com 24 atributos.Os métodos de busca de subconjunto (CfsSubsetEval e ConsistencySubsetEval) não tiveramresultados tão bons quanto os métodos de ranking e suas AUCs foram por volta de 0,840 e onúmero de atributos variou bastante (4, 16, 80 e 185).

O método ChiSquaredAttributeEval está nas 19 melhores posições do TA L008 seconsolidando como o método mais adequado para esse TA. Os máximos para esse métodoforam alcançados com números bem diferentes de atributos (40, 74 e 174) criando três picos


Figura 5.6: Resultados dos métodos de seleção de instâncias para os TAs da casa deAruba. Os métodos de subset já fornecem os atributos para a base de dados. Para osmétodos de ranking as bases de dados foram montadas de forma incremental. Fonte:

autor.


Figura 5.7: Resultados dos métodos de seleção de instâncias para os TAs da casa deKyoto. Os métodos de subset já fornecem os atributos para a base de dados. Para osmétodos de ranking as bases de dados foram montadas de forma incremental. Fonte:

autor.


no gráfico. A melhor AUC desse método foi de 0,722 alcançada com 40 atributos. O outrométodo de ranking – ReliefAttributeEval – teve quase todos seus resultados piores do que osdo ChiSquaredAttributeEval. Além disso, os métodos baseados em ranking foram claramentesuperiores aos outros métodos. O método ConsistensySubsetEval teve uma AUC de 0,319 e nãoapareceu no gráfico do TA L008.

O TA M012 teve o método ReliefAttributeEval ocupando 21 dos 23 melhores resultadoscom a AUC variando de 0,753 a 0,661 e o número de atributos variando de 4 a 34 nesses 23melhores resultados. Os métodos de busca de subconjuntos utilizando a busca genética tiveramresultados razoáveis com o melhor deles sendo o CfsSubsetEval que selecionou 18 atributos eobteve uma AUC de 0,695.

Na Figura 5.8, os resultados do TA Living foram os mais consistentes nos quais osmétodos de seleção de atributos tiveram resultados semelhantes seguidos do TA Bedroom edepois o TA Kitchen. Os TAs da Casa Inteligente Ordonez junamente com o TA D001 tiveramos melhores resultados entre todos os TAs para os experimentos de seleção de atributos.

No TA Bedroom, o método baseado em ranking ChiSquaredAttributeEval foi melhorque o ReliefAttributeEval para praticamente todos os números de atributos. Eles empataram nosdois primeiros e nos dois últimos experimentos e o método ReliefAttributeEval foi levementesuperior (cerca de 0,003 AUC) nos experimentos com 145, 146 e 147 atributos. O ChiSquare-

dAttributeEval teve 70 dos 72 melhores resultados para o TA Bedroom e sua maior AUC foi de0,974 com apenas 38 atributos. Dos dois métodos de seleção de atributos baseado em busca desubconjunto, o CfsSubsetEval teve melhores resultados com as duas formas de busca e sua maiorAUC foi 0,972 quando selecionou 17 atributos com a busca gulosa.

Para o TA Kitchen, o método ChiSquaredAttributeEval também teve resultados superioresao ReliefAttributeEval entre os experimentos com 7 a 120 atributos. O desempenho do métodoCfsSubsetEval deve ser destacado para o TA Kitchen, pois ele atingiu a terceira posição com abusca gulosa BestFirst (AUC de 0,957 e 28 atributos) e a vigésima posição com a GeneticSearch

(AUC de 0,926 e 50 atributos). O método ChiSquaredAttributeEval ocupa 34 das 37 primeirasposições nos resultados desse TA e em seu melhor resultado alcançou AUC de 0,959 com 47atributos.

No TA Living todos os métodos de seleção de atributos obtiveram bons resultados com225 resultados com AUC acima de 0,900 no total de 302 experimentos de seleção de atributos.Mas o melhor método foi o ChiSquaredAttributeEval que possui os 33 melhores resultadospara esse TA e a maior AUC foi de 0,978 com 28 atributos. Dos métodos de seleção que usambusca de subconjuntos o melhor foi o CfsSubsetEval com a busca gulosa que teve AUC de0,957 quando selecionou 28 atributos. Essa quantidade de atributos foi a menor dentre todos osmétodos baseados em busca de subconjuntos.

Numa visão geral, consideranto todos os TAs, os métodos de seleção de atributosbaseados em ranking tem comportamentos bem diferentes para cada TA. Apesar de todosterem longos patamares com pouca variação na AUC. E todos os picos acontecem para um


Figura 5.8: Resultados dos métodos de seleção de instâncias para os TAs da casa deOrdonez. Os métodos de subset já fornecem os atributos para a base de dados. Para osmétodos de ranking as bases de dados foram montadas de forma incremental. Fonte:

autor.

5.3. CLASSIFICADORES 56

número pequeno de atributos. Para os TAs D001 e M012 os métodos ChiSquaredAttributeEval eReliefAttributeEval possuem resultados bastante próximos.

A diferença é clara entre os métodos de busca BestFirst e GeneticSearch para cadamétodo de seleção de atributos baseado na análise de subconjuntos (CfsSubsetEval e Consis-

tencySubsetEval). Essa diferença sugere que uma busca que considere mais subconjuntos podemelhorar os resultados desses métodos de seleção. Porém uma busca exaustiva no espaço desubconjuntos seria muito demorada por causa da grande quantidade de atributos. É possívelobservar em quase todos os casos que a GeneticSearch seleciona um número maior de atributospara ambos os métodos de seleção de atributos baseado em análise de subconjuntos.

A Tabela 5.5 mostra que a redução do número de atributos foi significativa e a AUCteve pouca mudança – exceto para o TA D002 o qual atingiu seu melhor resultado com AUC de0,806 e 253 atributos selecionados pelo método ChiSquaredAttributeEval. Porém com o mesmométodo selecionando apenas 69 atributos a AUC é de 0,805. Portanto é possível ter praticamentea mesma qualidade da predição com muito menos atributos, reduzindo o custo computacional eo tempo de resposta.

O método de seleção de atributos ChiSquaredAttributeEval se destaca pois obteve omelhor resultado para 6 dos 9 TAs. Além disso os TAs D001 e M012 se destacam na redução deatributos contendo apenas 3 e 6 atributos respectivamente.

Sem seleção Com seleçãoAtributos

M10 AUC Atributos AUC Método deseleção

DiferençaAtributos

DiferençaAUC

D001420

0,932 3 0,981 Relief -417 0,049D002 0,940 253 0,806 ChiSquared -167 -0,134D004 0,852 22 0,872 Cfs -398 0,020L005

8100,881 35 0,930 ChiSquared -775 0,049

L008 0,822 40 0,722 ChiSquared -770 -0,100M012 0,793 6 0,753 Relief -804 -0,040

Bedroom150

0,999 38 0,974 ChiSquared -112 -0,025Kitchen 0,998 47 0,959 ChiSquared -103 -0,039Living 0,997 28 0,978 ChiSquared -122 -0,019

Tabela 5.5: Comparação de número de atributos e AUC dos resultados antes e depois daseleção de atributos. O número de atributos da base de dados sem a seleção é o de M10 e

a AUC é a da melhor combinação obtida na Seção 5.1. Fonte: autor.

5.3 Classificadores

Todas os experimentos feitos até aqui utilizaram o KNN – com K = 1. Porém o classifi-cador também tem um impacto significativo no resultado da predição. Portanto, foram realizadosexperimentos com diferentes algoritmos de classificação e para evitar um viés na análise foramescolhidos classificadores de natureza diferentes e com vários parâmetros diferentes. Os algo-


ritmos escolhidos foram: KNN (lazy learning), J48 (árvore de decisão), PART (aprendizagempor regras), MLP-BP (rede neural artificial), RandomForest (combinação de árvores de decisão),SVM (aprendizagem baseada em Kernel).

A variação de parâmetros de cada um dos classificadores geraram as seguintes quantida-des de experimentos: KNN = 5, J48 = 6, PART = 6, MLP-BP = 240, RandomForest = 291, SVM= 32. Portanto, temos 580 experimentos para cada um dos 9 TAs, totalizando 5,220.

Os classificadores citados foram treinados com as bases de dados que atingiram osmelhores resultados na seleção de atributos para cada TA. Os parâmetros do método proposto D

e RM podem ser vistos na Tabela 5.4 e os parâmetros do método proposto relacionados a seleçãode atributos podem ser vistos na Tabela 5.5.

A Figura 5.9, a Figura 5.11 e a Figura 5.13 mostram a variação de cada classificador paracada TA. A variação é causada unicamente pela modificação dos parâmetros de cada classificador.Portanto essas figuras mostram a sensibilidade dos classificadores nessas bases de dados. Quantomaior a variação da AUC, maior é a sensibilidade do classificador com relação a seus parâmetrospara um determinado TA.

A Figura 5.9 mostra a distribuição dos resultados para os TAs da casa Ordonez paracada classificador. Para o TA Bedroom, os classificadores podem ser divididos em três níveisde variação da AUC: (1) pouca variação (menor que 0,080), que contém os classificadoresKNN, J48 e RandomForest; (2) média variação (aproximadamente 0,180), com os classificadoresMLP-BP e PART; (3) grande variação (0,466), com o SVM. A menor variação da AUC foi noclassificador RandonForest cuja diferença entre a maior e a menor AUC foi apenas de 0,006.Exceto o classificador J48, todos os classificadores atingiram valores de AUC maiores que 0,900para pelo menos uma combinação de parâmetros. Os classificadores KNN e RandomForest

foram os únicos que tiveram todos os seus resultados acima da marca de 0,900.Ainda na Figura 5.9 os resultados da AUC para o TA Kitchen também podem ser divididos

em três categorias. Os classificadores que tiveram baixa variação foram o RandomForest e oKNN com amplitudes menores que 0,041. Com média variação temos os classificadores J48,MLP-BP e PART que tiveram diferenças por volta de 0,200. E a SVM teve a maior variação(0,507). Todos os melhores resultados de cada classificador foram superiores a 0,900 exceto parao RandomForest, porém seu melhor resultado foi de 0,872.

Para o TA Living, na Figura 5.9, tiveram quatro classificadores com variação baixa(menor que 0,048): KNN, J48, PART e RandomForest. A MLP-BP teve uma variação média comuma diferença de 0,246 e novamente a SVM teve a maior variação (0,668). A menor variaçãopara esse TA foi de 0,014 para o KNN. Dentre os melhores resultados de cada classificador, omenor foi o do RandomForest com AUC de 0,942 e o melhor foi o J48 com AUC de 0,982. Issomostra que todos os classificadores conseguiram atingir bons resultados.

É interessante notar na Figura 5.9 que os classificadores KNN e RandomForest tiveramuma variação muito pequena para todos os TAs da casa de Ordonez mostrando que os parâmetrosescolhidos tiveram pouca influência no valor da AUC especialmente para o TA Bedroom. Os


Figura 5.9: Distribuição dos resultados dos TAs da casa Ordonez agrupados porclassificador. A variação dos resultados dos classificadores é causada unicamente pela

mudança do conjunto de parâmetros dos classificadores. Fonte: autor.


classificadores J48, SVM e PART tiveram comportamentos bem diferentes para cada TA apesarda SVM ter tido sempre a maior variação para os três TAs.

Com o objetivo de analisar os melhores resultados para cada TA, apresentamos a Fi-gura 5.10 que mostra o resultado dos 50 melhores classificadores para cada TA da casa Ordonez.O número de classificadores exibidos para o TA Bedroom foi aumentado para 300 pois o Ran-

domForest ocupou as 286 primeiras posições obtendo um ótimo desempenho para esse TA. Osegundo melhor classificador para esse TA foi a MLP-BP. O melhor resultado do RandomForest

foi de 0,981 e da MLP-BP foi de 0,978.O TA Kitchen teve a maior quantidade de classificadores diferentes nas 50 primeiras

posições. Apenas o RandomForest não conseguiu um lugar entre os 50 primeiros que contoucom uma grande quantidade de MLPs. Mas o melhor resultado foi alcançado pelo KNN comuma AUC de 0,959 seguido por uma SVM com AUC de 0,956.

Nos 50 melhores resultados do TA Living, tivemos quatro dos seis classificadores estuda-dos. Os classificadores que ficaram de fora foram a SVM e o RadomForest cujas maiores AUCsforam 0,944 e 9,942 respectivamente. O melhor resultado foi o do J48 cuja maior AUC foi de0,982 seguido de perto pela MPL-BP com AUC de 0,980. A MLP-BP foi o classificador quemais apareceu nos melhores resultados com 41 das 50 maiores AUCs.

A Figura 5.11 mostra a distribuição dos resultados para os TAs da casa de Aruba paracada classificador. Os resultados dos classificadores do TA D001 podem ser divididos em trêscategorias de variação da AUC: (1) baixa variação contendo os classificadores J48, PART eRandomForest os quais obtiveram os mesmos resultados para todos os conjuntos de parâmetros;(2) média variação com a SVM (0,346) e o KNN (0,484); (3) alta variação que foi atingidapela MLP-BP (0,981). É interessante notar que os classificadores KNN e MLP-BP atingiramtanto as menores quanto as maiores AUCs para esse TA. A Figura 5.11 também mostra que osclassificadores KNN, MLP-BP e SVM tiveram os melhores resultados para esse TA. O maiorvalor da AUC para cada um desses classificadores foi superior a 0,981.

Dividindo os resultados do TA D002, temos os classificadores J48 (0,000), MLP-BP(0,002) e RandomForest (0,053) com baixa variação; o classificador PART (0,182) com médiavariação e o KNN (0,306) e a SVM (0,248) com alta variação. Os resultados do TA D002 foramos piores para a casa de Aruba. O melhor resultado foi o do KNN com AUC de 0,806 e o segundomelhor classificador foi o J48 com AUC de 0,682.

Para o TA D004, a divisão em categorias contem o KNN (0,008), o RandomForest (0,043)e o J48 (0,99) com variação baixa; o PART (0,251) com média variação e os classificadoresMLP-BP (0,673) e SVM (0,446) com alta variação. A MLP entrou na categoria de alta variaçãopor causa dos outliers, desconsiderando esses pontos ela teria uma baixa variação. Nesse TA,vários classificadores tiveram resultados próximos de 0,900 mas apenas a SVM conseguiu superaressa marca com AUC de 0,9200. Os classificadores KNN, J48 e MLP-BP tiveram seus melhoresresultados por volta de 0,870 e os maiores resultados para o PART e o RandomForest forampróximos de 0,760.


Figura 5.10: Ranking dos melhores resultados dos classificadores para os TAs da casaOrdonez. São exibidas as 50 maiores AUCs para cada TA exceto para o TA Bedroom para

o qual foram mostradas 300. Fonte: autor.


Nessa casa inteligente, apenas o classificador RandomForest mostrou uma baixa variaçãopara todos os TAs especialmente para o TA D001. Para o TA D001 os classificadores J48 ePART também apresentaram uma baixíssima variação. E, contrariamente, para esse mesmo TA,o KNN e a MLP-BP apresentaram as maiores variações dessa casa. O TA D002 se destaca porum desempenho superior do KNN e estranhos baixos resultados para todas as MLPs. No TAD004, os melhores resultados foram obtidos pelos classificadores com maior variação: SVM eMLP-BP.

Para melhor exibir o desempenho dos melhores classificadores para a cada de Aruba, aFigura 5.12 mostra os 50 melhores resultados para cada TA.

Os classificadores MLP-BP e SVM ocuparam a maioria das 50 primeiras posições e suasmaiores AUCs foram iguais e com valor de 0,990. O outro classificador que entrou na nesseranking foi o KNN cuja AUC foi 0,981. Dos 50 resultados mostrados 2 foram do KNN, 12foram da SVM e 36 da MLP-BP. Os classificadores J48, PART e RandomForest não aparecerampois suas maiores AUCs foram iguais a 0,761.

Nos 50 melhores resultados do TA D002 o único classificador que não apareceu foi aMLP-BP cuja maior AUC foi de 0,501. O melhor resultado foi alcançado pelo KNN com AUC0,806. Esse classificador teve um resultado bastante superior aos demais visto que o segundomelhor classificador, o J48, atingiu uma AUC de 0,682. Essa foi a maior diferença entre oprimeiro e o segundo classificador para todos os TAs estudados. Os resultados do TA D002foram os menores para a casa de Aruba.

No TA D004, apenas a SVM atingiu valores de AUC maiores que 0,900. O segundomelhor classificador foi a MLP-BP atingindo uma AUC de 0,891 e também foi o classificadorque teve o maior número de resultados no ranking como mostrado na Figura 5.12. Exceto oRandomForest, todos os classificadores conseguiram se colocar nos 50 melhores resultados. Amaior AUC do RandomForest foi o,771.

A distribuição dos resultados para casa de Kyoto são mostrados na Figura 5.13. Osresultados do TAs dessa casa, podem ser divididos em três categoria de variação de AUC: (1)baixa, (2) média e (3) alta. Para o TA L005, os classificadores KNN e RandomForest possuemvariação baixa de respectivamente 0,008 e 0,054. Já os classificadores J48 e PART possuemmédia variação de 0,078 e 0,094. E as maiores variações foram para a MLP-BP e a SVMcom 0,644 e 0,510 respectivamente. Apenas dois classificadores – J48 e PART – tiveram seusmelhores resultados abaixo da linha de 0,900. Os outros classificadores tiveram suas maioresAUC em torno de 0,940.

Para o TA L008 as menores variações foram dos classificadores PART (0,053) e Ran-

domForest (0,030) seguidas pelo KNN (0,123) e J48 (0,121) com variação média. E a MLP-BP(0,466) e a SVM (0,560) apresentaram alta variação. Os melhores resultados foram do Ran-

domForest e da SVM que tiveram sua maior AUC em aproximadamente 0,814. As melhoresAUCs dos classificadores KNN e MLP-BP foram em torno de 0,740. Já o J48 e PART tiveramresultados inferiores e seus máximos foram por volta de 0,640.


Figura 5.11: Distribuição dos resultados dos TAs da casa de Aruba agrupados porclassificador. A variação dos resultados dos classificadores é causada unicamente pela



Figura 5.12: Ranking dos melhores resultados dos classificadores para os TAs da casa deAruba. São exibidas as 50 maiores AUCs para cada TA. Fonte: autor.


Nos resultados do TA M012 tivemos três classificadores com baixa variação: PART e J48cujos valores da AUC foram todos iguais a 0.652 portanto a variação foi zero e RandomForest

com variação de 0,027. O KNN e a SVM tiveram uma variação média de 0,306 e 0,280respectivamente. E a maior variação foi de 0,597 da MLP-BP a qual foi responsável pelo melhore o pior resultado para esse TA. Os classificadores MLP-BP, RandomForest e SVM tiveram asmaiores AUCs para esse TA – aproximadamente 0,805. O KNN teve o quarto melhor resultadocom AUC de 0,753 e com a maior AUC de 0,652 o J48 e o PART ficaram empatados na últimaposição.

Podemos perceber que a MLP e a SVM obtiveram variações consideráveis para todos osTAs da casa de Kyoto. E que exceto para o PART no TA L005, os classificadores J48, PARTe RandomForest tiveram variações bem pequenas em todos os TAs dessa casa. O KNN tevevariações diferentes para cada TA.

A Figura 5.14 apresenta os 50 melhores resultados para cada TA da casa de Kyoto.Diferentemente das outas casas, nessa no máximo 3 classificadores apareceram entre os 50melhores resultados, o KNN, a MPL-BP, o RandomForest e a SVM, apesar da MLP não teraparecido nos resultados do L008 e o KNN ter aparecido apenas nos resultados do L005.

Dos 50 melhores resultados para o TA L005, 6 foram da SVM, 5 foram do KNN e 39foram da MLP-BP. A SVM foi o melhor classificador para esse TA e atingiu uma AUC de 0,953.Os classificadores que não apareceram no gráfico foram o J48, com melhor AUC de 0,794, oPART com 0,879 e o RandomForest com 0,900. Esse foi o único TA da casa de Kyoto a terresultados acima de 0,900.

Apenas dois classificadores tiveram resultados dentro das 50 maiores AUCs para o TAL008. A SVM teve o melhor desempenho com AUC de 0,815 porém o melhor resultado doRandomForest foi bem próximo com AUC de 0,813. As maiores AUCs dos classificadoresque não apareceram no gráfico foram: KNN = 0,772, J48 = 0,661, MLP−BP = 0,770 ePART = 0,626. A MLP-BP que teve entre os melhores resultados dos outros TAs dessa casaalcançou apenas a posição 304 para esse TA.

Para o TA M012, temos um empate na primeira colocação entre a MLP-BP e a SVM comAUC de 0,809. O RandomForest atingiu seu melhor resultado com AUC de 0,803 que é um valorbem próximo do melhor resultado para esse TA. Os classificadores que não apareceram dentrodos 50 maiores AUCs tiveram os seguintes melhores resultados: KNN = 0,753, J48 = 0,652e PART = 0,652. A SVM apareceu 7 vezes nos 50 melhores resultados, a MPL 14 vezes e oRandomForest 29.

A Tabela 5.6 mostra os melhores resultados para cada um dos classificadores separadospor TA. A SVM obteve os maiores resultados para 5 dos 9 TAs seguido por KNN e PART com 2melhores resultados. O J48 e o RandomForest foram os melhores para 1 TA cada um. Embora aMLP não ter sido o melhor classificador para nenhum TA não levanta a possibilidade de exclusãodesse classificador pois ela esteve consistentemente entre os 50 primeiros resultados para váriosTAs.


Figura 5.13: Distribuição dos resultados dos TAs da casa de Kyoto agrupados porclassificador. A variação dos resultados dos classificadores é causada unicamente pela



Figura 5.14: Ranking dos melhores resultados dos classificadores para os TAs da casa deKyoto. São exibidas as 50 maiores AUCs para cada TA. Fonte: autor.


Bedroom Kitchen Living D001 D002 D004 L005 L008 M012KNN 0,974 0,959 0,979 0,981 0,806 0,880 0,938 0,722 0,753J48 0,867 0,952 0,982 0,761 0,682 0,860 0,863 0,661 0,652PART 0,978 0,956 0,980 0,990 0,501 0,891 0,946 0,770 0,809MLP-BP 0,959 0,951 0,975 0,761 0,682 0,860 0,879 0,626 0,652RandomForest 0,981 0,872 0,942 0,761 0,623 0,771 0,900 0,813 0,803SVM 0,966 0,956 0,944 0,990 0,676 0,920 0,953 0,815 0,809

Tabela 5.6: Melhores resultados de cada classificador para cada TA das 3 casasanalisadas. Os melhores resultados para cada TA estão em negrito. Fonte: autor.

A Tabela 5.7 apresenta o ganho obtido pela quando considerando outros classificadores.O fator de ter sido utilizado do desempenho do KNN para a escolha dos parâmetros D, M,RM e método de seleção de atributos das etapas anteriores, pode ter sido responsável pelosbons resultados do KNN para diversos TAs e pelo pequeno ganho alcançado pelos outrosclassificadores. Já que os parâmetros do método proposto foram otimizados para o KNN. Mesmoassim os classificadores conseguiram melhorar, mesmo que pouco, os resultados da etapa anteriorem quase todos os casos.

Seleção de Atributos Classificadores GanhoD001 0,981 0,990 0,009D002 0,806 0,806 0,000D004 0,872 0,920 0,048L005 0,930 0,953 0,023L008 0,722 0,815 0,093M012 0,753 0,809 0,056

Bedroom 0,974 0,979 0,005Kitchen 0,959 0,959 0,000Living 0,978 0,982 0,004

Tabela 5.7: Ganho, em relação a etapa de seleção de atributos, obtido pela variação dosclassificadores. O pouca melhora pode ser explicada pelo fato dos parâmetros do método

proposto terem sido otimizados para o KNN (K = 1). Fonte: autor.

Como explicado na Avaliação do preditor, a acurácia preditiva não é a melhor métricapara esse trabalho. Porém ela é utilizada nos trabalhos relacionados e para poder comparar comeles teremos que utilzá-la. A média da acurácia preditiva dos nossos melhores casos (93,1%)é melhor que a de trabalhos anteriores como: IPAM [DAVISON; HIRSH (1998)] (39,9%) eC4.5 [DAVISON; HIRSH (1998)] (38,5%). O Active LeZi [GOPALRATNAM; COOK (2007)]melhorou um pouco o resultado do LeZi Update [BHATTACHARYA; DAS (2002)] e atingiu47%. O algoritmo SPEED [ALAM; REAZ; ALI (2012)] teve o melhor resultado dentre asabordagens de perdição de sequência com 88,3%. Embora os trabalhos comparados tenhamabordagens diferentes, Smart Homes diferentes e, consequentemente, bases de dados distintas,esses resultados mostram que a abordagem proposta superior aos trabalhos relacionados daliteratura.

686868

6Conclusão

Nesse trabalho, foi proposta uma solução para antecipar as ações do usuário e permitirque elas sejam realizadas por ele dentro de um Ambiente Inteligente. Mais especificamente,dado um snapshot do Ambiente Inteligente Sn, o sistema de predição tenta prever qual será opróximo valor de um TA xn+1 a partir dos snapshots observados anteriormente S1,S2,S3, . . . ,Sm,onde m < n. Como cada preditor está associado a apenas um TA, caso seja necessário anteciparos valores de mais TAs, um preditor deverá ser treinado para cada TA.

A solução proposta é um sistema sensível ao contexto que prove um serviço personalizadoe adaptativo ao invés de usar um conjunto de regras predefinidas por alguma pessoa. Além disso,o sistema protege a privacidade do usuário pois funciona automaticamente sem a necessidadede intervenção humana deixando o usuário mais confortável. Todas as informações necessáriaspodem ser obtidas diretamente dos transdutores do Ambiente Inteligente e os dados não precisamser anotados manualmente. O treinamento do preditor pode ser feito online ou offline.

O sistema de predição possui três módulos: (1) o Módulo de Geração de Dados éresponsável por transformar os dados do ambiente inteligente em uma base de dados Γ parao Módulo de Aprendizagem e por descobrir quais são os melhores transdutores para seremutilizados na predição R; (2) o Módulo de Aprendizagem treina um classificador F com osdados do Módulo de Geração de Dados Γ que será utilizado pelo Módulo de Predição; (3) oMódulo de Predição monitora os transdutores relevantes R, e os submete no formato corretopara o preditor F que produz a saída do sistema de predição.

A maioria dos parâmetros do método proposto estão dentro do Módulo de Geração deDados. O parâmetro D define qual o tamanho do período de coleta de dados, em dias. O segundoparâmetro – M – indica o quanto do passado será considerado na predição, ou seja, a quantidadede snapshots anteriores que serão utilizados para compor cada instância da base de dados. Asbases de dados criadas na fazer de Geração de snapshots são desbalanceadas, portanto parafacilitar o trabalho do preditor temos outro parâmetro: os métodos de reamostragem (RM). Oúltimo parâmetro desse módulo são os métodos de seleção de atributos que são responsáveis pordefinir quais são os transdutores mais relevantes R para serem utilizados na predição.

O algoritmo de classificação treinado no Módulo de Aprendizagem e utilizado pelo

6.1. TRABALHOS FUTUROS 69

Módulo de Predição é outro parâmetro do método proposto. Já que nenhum classificador semostra superior para todas a bases de dados (No Free Lunch Theorem), é importante analisarqual preditor tem o melhor resultado para as bases de dados geradas.

Mostramos (na seção Ganho e influência dos parâmetros) que os parâmetros D, M e RM

possuem uma influência significativa para algum TA. Tivemos um ganho grande para todosos TAs estudados. Os métodos de seleção de atributos conseguiram diminuir a quantidade deatributos significativamente com algum ganho ou pouca perda na performance do preditor. Autilização de outros classificadores gerou um ganho no desempenho porém esse ganhou foipequeno, muito provavelmente pelo fato dos parâmetros do método proposto (D, M, RM e métodode seleção de atributos) terem sido otimizados para o KNN (K = 1). Esses bons resultadosmostram que o método proposto está pronto para ser utilizado em ambientes inteligentes.

A acurácia preditiva (porcentagem de acertos) do método proposto é comparada comas abordagens da literatura. A média da acurácia dos melhores casos do nosso método (93,1%)é superior a dos trabalhos relacionados, como: IPAM (39,9%) [DAVISON; HIRSH (1998)] eC4.5 (38,5%) [DAVISON; HIRSH (1998)]. O Active LeZi [GOPALRATNAM; COOK (2007)]melhorou o resultado do LeZi Update [GOPALRATNAM; COOK (2007)] e atingiu 47% deacurácia. O algoritmo SPEED [ALAM; REAZ; ALI (2012)] teve o melhor resultado dostrabalhos relacionados com 88,3%. Embora as abordagens e bases de dados serem diferentes emcada trabalho, esses resultados mostram uma boa performance do método proposto.

6.1 Trabalhos Futuros

O trabalho apresentado possui diversos pontos que ainda podem ser explorados. Omelhores parâmetros do método proposto (D, M, RM e os método de seleção de atributos)foram escolhidos de acordo com a maior AUC alcançada na classificação pelo algoritmo KNN.Portanto, podemos dizer que as bases de dados finais foram otimizadas para o classificador KNN.Acreditamos que isso possa ter diminuído o ganho dos outros classificadores quando foramaplicados a essas bases de dados otimizadas para o KNN. Portanto sugerimos que os parâmetrosdo método proposto sejam otimizados para os outros classificadores estudados. Vale notar que onúmero de experimentos para essas otimizações será muito grande.

Mostramos na seção Ganho e influência dos parâmetros, que a maioria das combinaçõesde parâmetros levam a uma melhora sobre o caso base. Porém sempre estamos interessadosna melhor combinação. E para descobrir quais são os melhores parâmetros foi necessário umagrande quantidade de experimentos pois foram realizados experimentos para cada uma daspossíveis combinações de parâmetros. Para evitar isso, um método de descoberta automáticados parâmetros da solução proposta seria muito interessante. A especificação do problema seria:dada uma base de dados Γ, em formato de snapshots, descobrir quais são os melhores parâmetrosdo método proposto para serem aplicados na base de dados Γ.

Na seção Balancear classes utilizamos os Métodos de Reamostragem para lidar com o

6.1. TRABALHOS FUTUROS 70

problema do desbalanceamento de classes. Seria interessante verificar se Métodos de Seleçãode Instâncias (MSIs) poderiam ser utilizados para resolver esse problema visto que já existemmétodos que automaticamente fornecem o MSI mais adequado dado uma base de dados comoem OLIVEIRA MOURA et al. (2014). Os MSIs escolhem as melhores instâncias de uma basede dados e descartam as outras resultando em uma nova base de dados que representa melhor oproblema.

Na seção Avaliação do preditor, foi escolhida a AUC (área sob a curva ROC) comométrica para esse trabalho. Portanto os resultados obtidos podem ser melhorados utilizando acombinação de classificadores no espaço de curvas ROC como apresentado por KHREICH et al.(2010). Esse trabalho analisa as curvas ROC de classificadores para uma determinada base esugere uma combinação de classificadores que aumente a AUC dos classificadores individuais,melhorando assim o resultado.

Uma extensão da solução proposta seria a predição de uma condição incluindo váriossensores ao invés de prever apenas o valor de um sensor. Por exemplo, podemos estar interessadosna condição “abajur da sala = ON, pressão da almofada do sofá = ON e livro na prateleira = OFF”que representa a leitura de um livro pelo usuário. Essa condição é atômica e sempre que ela forsatisfeita teremos um evento ON de um sensor lógico chamado Leitura_de_livro e OFF casocontrário. A predição funcionaria da forma que foi apresentada para os TAs. A condição pode serde complexidade arbitrária, como por exemplo, “(abajur da sala = ON, pressão da almofada dosofá = ON e livro na prateleira = OFF) OU (leitor de ebook = ON) OU (abajur do quarto = ON,pressão da cama = ON e livro na prateleira = OFF)”. Isso permite que as condições representemtarefas e que as tarefas sejam preditas.

717171

Referências

ALAM, M. R.; REAZ, M. B. I.; ALI, M. SPEED: an inhabitant activity prediction algorithm forsmart homes. IEEE Transactions on Systems, Man and Cybernetics, Part A: Systems andHumans, [S.l.], 2012.

BALDAUF, M. A survey on context-aware systems. International Journal of Ad Hoc andUbiquitous Computing, [S.l.], 2007.

BELLMAN, R. E.; OSBORN, H. A. Dynamic programming and the variation of Green’sfunctions. [S.l.]: RAND Corporation, 1957.

BHATTACHARYA, A.; DAS, S. K. Lezi-update: an information-theoretic framework forpersonal mobility tracking in pcs networks. Wireless Networks, [S.l.], 2002.

CHAWLA, N. V. et al. SMOTE: synthetic minority over-sampling technique. Journal ofArtificial Intelligence Research, [S.l.], 2002.

COOK, D.; SCHMITTER-EDGECOMBE, M. et al. Assessing the quality of activities in a smartenvironment. Methods of information in medicine, [S.l.], 2009.

DAVISON, B. D.; HIRSH, H. Predicting sequences of user actions. In: NOTES OF THEAAAI/ICML 1998 WORKSHOP ON PREDICTING THE FUTURE: AI APPROACHES TOTIME-SERIES ANALYSIS. Anais. . . [S.l.: s.n.], 1998.

DEY, A. K. Understanding and Using Context. Personal and Ubiquitous Computing, [S.l.],2001.

DOCTOR, F.; CALLAGHAN, V.; HAGRAS, H. A type-2 fuzzy embedded agent to realiseambient intelligence in ubiquitous computing environments. Information Sciences, [S.l.], 2005.

DOCTOR, F.; HAGRAS, H.; CALLAGHAN, V. A fuzzy embedded agent-based approach forrealizing ambient intelligence in intelligent inhabited environments. IEEE Transactions onSystems, Man and Cybernetics, Part A: Systems and Humans, [S.l.], 2005.

ESTABROOKS, A.; JO, T.; JAPKOWICZ, N. A multiple resampling method for learning fromimbalanced data sets. Computational Intelligence, [S.l.], 2004.

GOPALRATNAM, K.; COOK, D. J. Online sequential prediction via incremental parsing: theactive lezi algorithm. IEEE Intelligent Systems, [S.l.], 2007.

GREENBERG, S. Using unix: collected traces of 168 users. [S.l.]: University of Calgary, 1988.

HALL, M. A. Correlation-based Feature Subset Selection for Machine Learning. 1998.Tese (Doutorado em Ciência da Computação) — University of Waikato.

HALL, M. et al. The WEKA data mining software: an update. ACM SIGKDD explorationsnewsletter, [S.l.], 2009.

HUGHES, G. P. On the mean accuracy of statistical pattern recognizers. IEEE Transactionson Information Theory, [S.l.], 1968.

REFERÊNCIAS 72

JAIN, R. The Art of Computer Systems Performance Analysis. [S.l.]: Wiley Press, 1981.

KHREICH, W. et al. Iterative Boolean combination of classifiers in the ROC space: anapplication to anomaly detection with hmms. Pattern Recognition, [S.l.], 2010.

LIU, H.; SETIONO, R. A probabilistic approach to feature selection - A filter solution. In:INTERNATIONAL CONFERENCE ON MACHINE LEARNING. Anais. . . [S.l.: s.n.], 1996.

OLIVEIRA MOURA, S. de et al. Choosing instance selection method using meta-learning. In:IEEE INTERNATIONAL CONFERENCE ON SYSTEMS, MAN AND CYBERNETICS(SMC). Anais. . . [S.l.: s.n.], 2014.

ORDONEZ, F. J.; TOLEDO, P. de; SANCHIS, A. Activity Recognition Using HybridGenerative/Discriminative Models on Home Environments Using Binary Sensors. Sensors,[S.l.], 2013.

POUNDS-CORNISH, A.; HOLMES, A. The idorm-a practical deployment of grid technology.IEEE/ACM International Symposium on Cluster Computing and the Grid, [S.l.], 2002.

ROBNIK-SIKONJA, M.; KONONENKO, I. An adaptation of Relief for attribute estimation inregression. In: INTERNATIONAL CONFERENCE ON MACHINE LEARNING. Anais. . .[S.l.: s.n.], 1997.

VIEIRA, V.; TEDESCO, P.; SALGADO, A. C. Modelos e Processos para o desenvolvimento deSistemas Sensíveis ao Contexto. Jornadas de Atualização em Informática, [S.l.], 2009.

WEISER, M.; BROWN, J. S. The Coming Age of Calm Technolgy. In: Beyond Calculation.[S.l.]: Copernicus, 1997.

WINOGRAD, T. Architectures for context. Human-Computer Interaction, [S.l.], 2001.

WOLPERT, D. H.; MACREADY, W. G. No free lunch theorems for optimization. IEEETransactions on Evolutionary Computation, [S.l.], 1997.

Documents

Marcelo Bassani de Freitas...5.8 Resultados dos métodos de seleção de instâncias para os TAs da casa de Ordonez. Os métodos de subset já fornecem os atributos para a base de