70
Dissertação de Mestrado Reconstrução de Sinais em Redes de Sensores sem Fios com Técnicas de Geoestatística Bruno Lopes Vieira [email protected] Orientador: Alejandro C. Frery Maceió, abril de 2010

Tese de Mestrado Bruno

Embed Size (px)

DESCRIPTION

Tese de mestrado em modelagem computacional do conhecimento.

Citation preview

  • Dissertao de Mestrado

    Reconstruo de Sinais em Redes de Sensores sem

    Fios com Tcnicas de Geoestatstica

    Bruno Lopes [email protected]

    Orientador:

    Alejandro C. Frery

    Macei, abril de 2010

  • Bruno Lopes Vieira

    Reconstruo de Sinais em Redes de Sensores sem

    Fios com Tcnicas de Geoestatstica

    Dissertao apresentada como requisito parcial paraobteno do grau de Mestre pelo Curso de Mestradoem Modelagem Computacional de Conhecimentodo Instituto de Computao da Universidade Fede-ral de Alagoas.

    Orientador:

    Alejandro C. Frery

    Macei, abril de 2010

  • Dissertao apresentada como requisito parcial para obteno do grau de Mestre peloCurso de Mestrado em Modelagem Computacional de Conhecimento do Instituto de Com-putao da Universidade Federal de Alagoas, aprovada pela comisso examinadora queabaixo assina.

    Alejandro C. Frery - OrientadorInstituto de Computao

    Universidade Federal de Alagoas

    Eliana S. de Almeida - ExaminadorInstituto de Computao

    Universidade Federal de Alagoas

    Andr Luiz Lins de Aquino - ExaminadorDepartamento de Computao

    Universidade Federal de Ouro Preto

    Macei, abril de 2010

  • Resumo

    As Redes de Sensores sem Fios (RSsF) so conjuntos de dispositivos que obtm amostras defenmenos ambientais, sejam eles naturais (como, por exemplo, temperatura, presso at-mosfrica, intensidade de iluminao, concentrao de substncias em cursos dgua) ouantrpicos (qualidade do ar em sinais de trnsito, presso ao longo de um oleoduto). Essesdispositivos tm despertadomuito interesse, tanto pelas suas potenciais aplicaes quantopelos desafios tericos e tecnolgicos que seu uso otimizado oferece. O objetivo deste traba-lho trata da anlise da reconstruo de sinais nessas redes, com base em tcnicas de geoes-tatstica. Analizam-se trs processos de kriging: simples, ordinrio e bayesiano. Ao simples,analizam-se trs abordagens encontradas na literatura para estimao ou informao do pa-rmetro da mdia e ao bayesiano prope-se uma variante capaz de reduzir o tempo de pro-cessamento necessrio, estimando a mdia por mnimos quadrados generalizados, sendouma constante na inferncia bayesiana. Leva-se em considerao o processo de agrupa-mento dos ns sensores, com simulaes sem agrupamento e com os sensores agrupadospelos algoritmos LEACH e SKATER. O algoritmode kriging bayesiano apresenta osmelhoresresultados qualitativos namaioria dos casos, mas se torna invivel para sistemas que neces-sitem de respostas rpidas. Nesses casos, recomenda-se o algoritmo de kriging ordinrio. Avariante proposta para o kriging bayesiano reduz o tempo de computao, mas no o su-ficiente para sistemas de tempo real. No foram observadas divergncias significativas dequalidade nesta variante.

    i

  • Abstract

    Wireless Sensor Networks are a set o mobile devices wich collect datum from the enviro-ment, independet of kind, and transmit them to a data center wich is responsible for takingdecisions. This work aims to analyze the signal reconstruction in these networks using geo-statistic techniques. Three process of kriging are used: simple, ordinary and bayesian. In thesimple kriging, three approaches were found into the literature, according to the way thatthe mean is estimated, and were evaluated. To the bayesian a new approach is proposed:use general least square to estimate the mean and set it as a constant into the bayesian in-ference. The clustering is taked in considered, using simulations without clusters and withclusters formed by LEACH and SKATER algorithms. The bayesian kriging algorithmpresentsthe best qualitative results in almost all scenarios, but it is not available to systems that re-quire fast aswers. In this case we recommend the ordinary kriging algorithm. The proposedvariant of bayesian kriging reduces the time required, but not enough to real-time systems.There were not observed substancial quality differences in this variant.

    ii

  • Agradecimentos

    iii

  • iv

    Quem, de trs milnios,No capaz de se dar conta

    Vive na ignorncia, na sombra, merc dos dias, do tempo.

    JohannWolfgang vonGoethe

  • Contedo

    I Introduo 1

    II Geoestatstica,Kriging e as Redes de Sensores sem Fios 3

    2.1 Definies iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.2 Modelos de correlao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    2.2.1 Modelo de correlaoMatrn . . . . . . . . . . . . . . . . . . . . . . . . . . 72.2.2 Modelo de correlao exponencial . . . . . . . . . . . . . . . . . . . . . . . 92.2.3 Modelo de correlao esfrico . . . . . . . . . . . . . . . . . . . . . . . . . 92.2.4 Modelo de correlaowave . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    2.3 Variograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.3.1 Variograma terico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.3.2 Variograma emprico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    2.4 Kriging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.4.1 Kriging simples e ordinrio . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.4.2 Kriging bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    2.5 Redes de Sensores sem Fios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.5.1 Agrupamento pelo algoritmo LEACH . . . . . . . . . . . . . . . . . . . . . 212.5.2 Agrupamento pelo algoritmo SKATER . . . . . . . . . . . . . . . . . . . . . 22

    2.6 Relao entre a Geoestatstica e as Redes de Sensores sem Fios . . . . . . . . . . 23

    III Modelagemproposta 25

    3.1 Modelo formulado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.1.1 Sinal de origem amostrado . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.1.2 Processos pontuais e a distribuio dos sensores . . . . . . . . . . . . . . 263.1.3 Reconstruo do sinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.1.4 Validao domodelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    3.2 Implementao na plataforma R . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.3 Ambiente de execuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.4 Resultados esperados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    IV Anlise dos resultados 40

    4.1 Implementao de simulaes Monte Carlo na literatura . . . . . . . . . . . . . 404.2 Critrios para pesquisa reproduzvel . . . . . . . . . . . . . . . . . . . . . . . . . . 414.3 Dados obtidos com a simulao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.4 Anlise da qualidade do sinal reconstrudo . . . . . . . . . . . . . . . . . . . . . . 43

    4.4.1 Anlise do comportamento dos parmetros do modelo . . . . . . . . . . 434.4.2 Anlise do campo gaussiano reconstrudo . . . . . . . . . . . . . . . . . . 45

    4.5 Anlise do tempo necessrio reconstruo do sinal . . . . . . . . . . . . . . . . 474.6 Consideraes acerca dos dados obtidos . . . . . . . . . . . . . . . . . . . . . . . 47

    v

  • CONTEDO vi

    V Resultados e discusses 48

    Referncias bibliogrficas 50

  • Lista de Figuras

    2.1 Exemplos de curvas da correlao Matrn . . . . . . . . . . . . . . . . . . . . . . 82.2 Exemplos de curvas da correlao exponencial . . . . . . . . . . . . . . . . . . . 102.3 Exemplos de curvas da correlao esfrica . . . . . . . . . . . . . . . . . . . . . . 112.4 Exemplos de curvas da correlaowave . . . . . . . . . . . . . . . . . . . . . . . . 122.5 Construo de um variograma terico . . . . . . . . . . . . . . . . . . . . . . . . . 142.6 Examplo de reconstruo por kriging . . . . . . . . . . . . . . . . . . . . . . . . . 172.7 Elementos fundamentais de uma Rede de Sensores sem Fios . . . . . . . . . . . 192.8 Modelo de uma Rede de Sensores sem Fios . . . . . . . . . . . . . . . . . . . . . . 202.9 Clusters de sensores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.10 Clusters gerados pelo LEACH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.11 Sensores espalhados sobre uma superfcie . . . . . . . . . . . . . . . . . . . . . . 222.12 Grafo construdo a partir de 12 sensores . . . . . . . . . . . . . . . . . . . . . . . 232.13 rvore geradoramnima . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.14 Clusters formados pelo algoritmo SKATER . . . . . . . . . . . . . . . . . . . . . . 243.1 Exemplos de campos aleatrios gaussianos . . . . . . . . . . . . . . . . . . . . . 263.2 Exemplos de processo pontual Poisson . . . . . . . . . . . . . . . . . . . . . . . . 283.3 Exemplos de processo pontual Poisson no Homogneo . . . . . . . . . . . . . . 293.4 Perspectiva da funo de intensidade . . . . . . . . . . . . . . . . . . . . . . . . . 303.5 Exemplos de processo pontual SSI . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.6 Exemplos do processo compostoC . . . . . . . . . . . . . . . . . . . . . . . . . . 323.7 Exemplos do processo M2P2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.8 Diagrama ilustrativo da reconstruo dos campos gaussianos . . . . . . . . . . . 353.9 Diagrama ilustrativo do sistema de simulaes . . . . . . . . . . . . . . . . . . . 37

    vii

  • Lista de Tabelas

    4.1 Plataformas de planilhas eletrnicas avaliadas . . . . . . . . . . . . . . . . . . . . 424.2 Geradores de nmeros pseudoaleatrios de planilhas eletrnicas . . . . . . . . 434.3 Vis e EQM dos estimadores do parmetro . . . . . . . . . . . . . . . . . . . . . 444.4 Mdia dos erros absolutos relativos do kriging . . . . . . . . . . . . . . . . . . . . 454.5 Mdia dos erros absolutos relativos por reconstruo . . . . . . . . . . . . . . . . 464.6 Mdia dos erros absolutos relativos por reconstruo commdia . . . . . . . . 47

    viii

  • Lista de Cdigos

    2.1 Algoritmo de kriging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.1 Algoritmo para paralelizao das simulaes . . . . . . . . . . . . . . . . . . . . . 384.1 Reconstruo do campo gaussiano original com base na estimativa . . . . . . . 46

    ix

  • IIntroduo

    You need to prepare your students for the future, not the past.

    Spencer Graves

    R-help (novembro de 2006)

    A necessidade de se monitorar reas nas quais no possvel a superviso humana emtodos os pontos tem se tornado cada vez maior. Isso se d, por exemplo, nomonitora-mento de incndios em florestas e na medio de nveis de concentrao de gases txicos;

    outro ponto a considerar quando a escala no permite interveno humana, como nomo-

    nitoramento da vlvula mitral do corao, utilizandonanosensores e atmesmo quando ela

    pode interferir no resultado, como se d no estudo da vocalizao de anfbios, que pode ser

    alterado em decorrncia da presena do pesquisador.

    Uma dasmais convenientes formas de se obter a automao demonitoramentos o uso

    de Redes de Sensores semFios (RSsF, Akyildiz et al., 2002; Szewczyk et al., 2004; Sarangapani,

    2007; Sohraby et al., 2007; Wu & Tseng, 2007), que consistem num conjunto de ns sensores

    independentes, munidos de dispositivos de sensoreamento e da capacidade de se comuni-

    car, transmitindo os dados tipicamente com algum tipo de agregao a um n especial que,

    por sua vez, os transmitir a uma central de processamento.

    Essa rea ainda recente de pesquisa apresenta diversos problemas em aberto e o Labo-

    ratrio de Computao Cientfica e Anlise Numrica (LaCCAN) da Universidade Federal de

    Alagoas possui diversos estudos relacionados a estas redes. Dentre eles, a anlise de simula-

    dores de RSsF, desenvolvimento de hardware para ns sensores, avaliao do uso de Redes

    de Sensores sem Fios no monitoramento de temperatura de Data Centers, medidas de vida

    til da rede mediante caractersticas energticas, processos de deposio de ns sensores,

    avalio da qualidade da reconstruo de sinais (dados de interesse amostrados) providos

    pelas RSsF, dentre outros.

    1

  • INTRODUO 2

    Esse ltimo o objetivo deste trabalho. Seguindo as conexes apontadas por diversos au-

    tores, como Frery et al. (2010); Alencar-Neto (2008); Aquino et al. (2008); Camilli et al. (2007);

    Frery et al. (2008); Jedermann & Lang (2009); Ni et al. (2009) e Umer et al. (2008), este traba-

    lho visa avaliar a relao entre as Redes de Sensores sem Fios e a geoestatstica no que con-

    cerne reconstruo de sinais.

    Com a geoestatstica, os dados esto atrelados a suas posies geogrficas. Adota-

    se a hiptese de que o sinal (dado de origem amostrado) estacionrio e, a partir desse

    pressuposto, avalia-se a sua reconstruo por alguns processos de kriging (Krige, 1951;

    Diggle & Ribeiro Jr., 2007), com uma de suas verses modificada, proposta no captulo 3.

    Os algoritmos sero analisados atravs de um estudo Monte Carlo de fora bruta

    (Metropolis & Ulam, 1949), analisando-se vis, varincia e erro quadrticomdio apresenta-

    dos (definidos no captulo 3) bem como a viabilidade por tempo computacional necessrio.

    Namaioria dos cenrios avaliados o algoritmoque apresentoumelhores resultados qua-

    litativos foi o kriging bayesiano. Entretanto este necessita de muitos recursos computacio-

    nais e grande tempode computao, o que pode inviabilizar o seu uso em cenrios de tempo

    real. O kriging ordinrio apresenta o segundo melhor resultato qualitativo, porm com ne-

    cessidade de poucos recursos computacionais e processamento de pouco tempo, o que o

    tornamais adequado a este tipo de situao. Para os casos em que for necessrio ter amaior

    qualidade possvel dos dados e o tempo no for fator crucial, uma variante proposta do kri-

    ging bayesiano no apresenta diferenas significativas na qualidade do sinal reconstrudo,

    mas possibilita reduo no tempo necessrio para computao.

    No captulo 2 encontram-se as principais definies necessrias ao trabalho; a modela-

    gem do estudo est definida no captulo 3, com anlise dos dados obtidos no captulo 4 e

    discusso dos resultados e trabalhos futuros no captulo 5.

  • IIGeoestatstica, Kriging e as Redes de

    Sensores sem Fios

    What we have is nice, but we need something very different.

    Robert Gentleman

    Statistical Computing 2003 (junho de 2003)

    A geoestatstica um ramo da estatstica espacial que difere dos demais por associar osdados s suas posies geogrficas (Bivand & Pebesma, 2008;Diggle & Ribeiro Jr., 2007;Le & Zidek, 2006). Dentre suas tcnicas de inferncia, destaca-se o kriging (Krige, 1951), ori-

    ginado nos trabalhos de Daniel G. Krige e Georges Matheron. Sua relao com as Redes

    de Sensores sem Fios tem sido discutida em diversos trabalhos, como os de Alencar-Neto

    (2008); Camilli et al. (2007); Frery et al. (2008); Jedermann & Lang (2009); Ni et al. (2009) e

    Umer et al. (2008).

    Neste captulo sero explanados os conceitos necessrios ao entendimento do kriging

    bem como suas variaes utilizadas nesse trabalho: simples, ordinrio e bayesiano. Em se-

    guida, apresentam-se as definies necessrias ao entendimentodas Redes de Sensores sem

    Fios e os algoritmos de agrupamento (clusterizao) utilizados nos experimentos (LEACH e

    SKATER).

    2.1 Definies iniciais

    Nesta seo so explanados conceitos bsicos de probabilidades que fundamentamo traba-

    lho que se segue, com base nos textos de James (2006) e Diggle & Ribeiro Jr. (2007).

    Definio 1 (Experimento Aleatrio). Um experimento aleatrio consta de uma observao

    repetvel no controlada, com um conjunto limitado de resultados observveis.

    3

  • 2.1. DEFINIES INICIAIS 4

    Definio 2 (Espao Amostral). Dado um experimento aleatrio qualquer, o espao amos-

    tral, dito conjunto , consiste no conjunto de todos os resultados que podem ser observados

    por este experimento.

    Definio 3 (Evento). Seja um conjunto que denota um evento de . Se um con-junto unitrio, diz-se que um evento simples; Pr() = 1, onde o evento dito certo; caso=;, o evento impossvel, isto , Pr(;)= 0.

    Definio 4 (Varivel Aleatria Real). Uma varivel aleatria real X uma funo X : R que mapeia os resultados de um experimento aleatrio na reta, onde representa o espao

    amostral.

    A partir deste ponto, sempre que for referida alguma varivel aleatria, tratar-se- de

    uma Varivel Aleatria Real.

    Definio 5 (Ocorrncia de uma Varivel Aleatria). Seja X : R uma varivel alea-tria. Uma ocorrncia desta varivel aleatria ser um elemento de R mapeado de que

    denota um resultado do experimento aleatrio que X mapeia.

    Definio 6 (Distribuio de uma Varivel Aleatria). Conhecer a distribuio de uma va-

    rivel aleatria X ser capaz de calcular a probabilidade dela estar num conjuntoA formado

    por um nmero arbitrrio de unies e interseces.

    Definio 7 (Funo de Distribuio Acumulada). a funo F (t ) = Pr(X t ), t R quecaracteriza cada distribuio. Possui as seguintes propriedades:

    1. no decrescente, isto , se t1 < t2, ento F (t1) F (t2);

    2. contnua direita, isto , se tn t quando n, ento F (tn) F (t );

    3. limt F (t )= 0 e limtF (t )= 1.

    Definio 8 (Varivel Aleatria Discreta). Uma varivel aleatria X dita discreta se ela

    possui uma quantidade finita ou infinita enumervel de valores possveis. descrita por uma

    funo de probabilidade p(ti )= Pr(X = ti ), i = 1,2, . . . , onden

    i=1 p(ti )= 1 e 0 p(ti ) 1.

    Definio 9 (Varivel Aleatria Contnua). Seja X uma varivel aleatria e F (t ) sua funo

    de distribuio acumulada. A funo de densidade de X dada por f (t ) = F (t )/t , quedefine uma varivel aleatria contnua, se f (t ) existir. Suas propriedades so:

    1. sempre positiva, ou seja f (t ) 0;

    2. sua integral na reta vale 1, entoR

    f (t )dt = 1.

  • 2.1. DEFINIES INICIAIS 5

    Definio 10 (Variveis Aleatrias Distribudas de forma Conjunta). Num experimento

    aleatrio onde o interesse est no comportamento conjunto de duas ou mais variveis ale-

    atrias, a distribuio conjunta dessas variveis aleatrias ser dada, no caso discreto,

    por Pr(X1 = t1 e X2 = t2 e . . . e Xn = tn) = pX1X2 ...Xn (t1i , t2i , . . . , tni ), com o valor do soma-trio

    ni=1 pX1X2 ...Xn (t1i , t2i , . . . , tni ) = 1. No caso contnuo, sejam as variveis aleatrias

    (X1,X2, . . . ,Xn) sua densidade caracterizada por uma funo fX1,X2 ,...,Xn (t1, t2, . . . , tn), onde:

    fX1,X2,...,Xn no negativa;

    fX1,X2 ,...,Xn (t1, t2, . . . , tn)dt1,dt2, . . . ,dtn = 1.

    Neste trabalho sero tratadas apenas de variveis aleatrias contnuas.

    Definio 11 (Esperana de uma Varivel Aleatria). Tambm conhecida por mdia ou

    valor esperado, a esperana de uma varivel aleatria X uma mdia ponderada onde os

    pesos so dados pelas probabilidades Pr(X = t ). De uma forma genrica definida comoE[X ] =

    R

    tF (t )dt . No caso discreto definida como E[X ] = i tip(ti ) e no caso contnuoE[X ]= t f (t )dt, se a integral existir.Definio 12 (Esperana de uma Funo). Seja X uma varivel aleatria e (X ) : R Ruma funo qualquer. A esperana de(X ) dada porE[(X )]=

    R

    (t ) f (t )dt , se a integral

    existir.

    Definio 13 (Esperana do Produto de Transformaes de Variveis Aleatrias). Sejam

    X1, . . . ,Xn variveis aleatrias, a esperana de (X1)(. . . )(Xn), dita E[(X1)(. . . )(Xn)],

    ser a integral(t1)(. . . )(tn) f (t1) f (. . . ) f (tn)dt1d . . .dtn no caso contnuo, se a integral

    existir; no caso discreto ser o somatrio

    i=(t1i )(. . . )(tni ) f (t1i ) f (. . . ) f (tni ).

    Definio 14 (Probabilidade Condicional). Sejam X e Y variveis aleatrias. A probabili-

    dade condicional Pr(X x | Y = y) dada pela frao

    Pr(X x e Y = y)Pr(Y = y) .

    Definio 15 (Esperana Condicional). No caso discreto dada por E[X | Y = y] =x xPr(X = x e Y = y). No caso contnuo, E[X | Y ] =

    R

    x f (x | Y = y)dx, onde, caso X eY possuam distribuio conjunta,

    f (x | Y = y)= fXY (x, y)fY (y)

    .

    Definio 16 (Varincia de uma Varivel Aleatria). Sendo X uma varivel aleatria, o

    valor Var(X )=E[X 2]E2[X ], seE[X 2] existir e a diferena estiver bem definida.

  • 2.1. DEFINIES INICIAIS 6

    Definio 17 (Covarincia dentre Variveis Aleatrias). Sendo X ,Y variveis aleatrias,

    definida por Cov(X ,Y )=E[XY ]E[X ]E[Y ], se as esperanas existirem.

    Definio 18 (Correlao dentre Variveis Aleatrias). A correlao dentre duas variveis

    aleatrias X ,Y dada por Corr(X ,Y )= Cov(X ,Y )pVar(X )Var(Y )

    .

    Definio 19 (Distribuio Gaussiana). Uma varivel aleatria X segue uma distribuio

    gaussiana N (,) de mdia e varincia 2 se possuir funo de densidade

    f (t |,)= 1p2pi

    exp

    { (t )

    2

    22

    }, (2.1)

    ,, onde=RR+ o espao paramtrico, com t R.

    Definio 20 (Distribuio Gaussiana Multivariada). Dada uma coleo de variveis ale-

    atrias X1, . . . ,Xn , elas seguem uma distribuio gaussiana multivariada de mdia =(1, . . . ,n) Rn e matriz de covarincia G simtrica positiva se sua densidade conjunta for

    f (t |,G)= 1(2pi)n/2|G |1/2 exp

    {12(t )G1(t )

    }, (2.2)

    onde | | representa o valor do determinante da matriz apresentada neste.

    Definio 21 (Processo Estocstico). Um processo estocstico {S(x) : x Rd },d 1 constade uma coleo de variveis aleatrias, onde x Rd representa o posicionamento de cadavarivel aleatria S().

    Definio 22 (Processo Estocstico Gaussiano). Para que um processo estocstico {S(x) : x R

    d } seja gaussiano, a distribuio conjunta de S(x),x Rd deve ser gaussiana multivariada.Este processo completamente especificado por suas funes demdia e covarincia, respecti-

    vamente:

    (x)=E[S(x)],Cov{S(xi ),S(x j )}=E[S(xi )S(x j )]E[S(xi )]E[S(x j )].

    Definio 23 (Processo Estocstico Estacionrio). Umprocesso estocstico diz-se estacion-

    rio se suamdia for constante igual a e a covarincia depender apenas da diferena vetorial

    entre xi e x j : Cov{S(xi ),S(x j )} = (u), u = xi x j , assim (u) = Cov{S(z),S(z + u)}; comoCov{S(zi ),S(z j )} = Cov{S(zi +h),S(z j +h)}, pode-se utilizar qualquer valor para z dentro dodomnio admissvel.

    Definio 24 (Processo Estocstico Estacionrio Isotrpico). A propriedade de isotropia

    num processo estocstico {S(x) : x Rd } obtida quando a diferena vetorial dentre duas va-riveis aleatrias dada pela distncia euclidiana. Assim, (xi ,x j ) = (u), com deno-tando distncia euclidiana.

  • 2.2. MODELOS DE CORRELAO 7

    Definio 25 (Campos Aleatrios). Um campo gaussiano definido por um processo esto-

    cstico {S(x) : x Rd }, onde d representa a dimenso do espao. So comumente utilizadospara representar fenmenos naturais, como iluminao, umidade, temperatura etc. Sua ca-

    racterizao se d pela distribuio conjunta de suas variveis aleatrias.

    Definio 26 (Estimador). Um estimador uma funo de variveis aleatrias que, em

    princpio, tenta aproximar o valor verdadeiro de um parmetro de uma distribuio.

    Neste trabalho sempre que for referido um campo gaussiano tratar-se- de um campo

    aleatrio cuja distribuio conjunta de suas variveis aleatrias gaussianamultivariada.

    2.2 Modelos de correlao

    Uma funo paramtrica (u) deve ser definida para o domnio R+ para que cumpra os

    requisitos de uma funo de correlao. Se ela vlida para Rd , ser tambm para Rm ,

    m < d , mas no necessariamente para dimenses maiores.Essas funes costumam decrescer quando u = xi x j aumenta emmodelos estacio-

    nrios e interessante que possuam diferentes graus de suavizao (ver figuras 2.1a e 2.2a).

    Ou seja, que haja fatores que suavizem suas curvas. Seguem informaes sobre alguns mo-

    delos de correlao, aplicados a um processo estocstico gaussiano estacionrio isotrpico

    {S(x) : x R2}.

    2.2.1 Modelo de correlaoMatrn

    O modelo de correlao Matrn um dos mais utilizados na literatura. Ele apresenta duas

    propriedades extremamente interessantes aos estudos de geoestatstica: depende apenas

    do posicionamento geogrfico dos dados e possui um parmetro de suavizao da curva

    entre dois pontos (Diggle & Ribeiro Jr., 2007).

    Sua representao dada na forma

    (u)={2(1)()

    }1 (u

    )K

    (u

    ), (2.3)

    onde K() representa uma funo de Bssel de ordem , > 0 um parmetro de escala,responsvel por dimensionar a distncia, e > 0 o parmetro responsvel pela curva desuavizao dentre os valores, denomina-se ordem.

    A figura 2.1a mostra a curva da correlao deMatrn de acordo com o aumento do valor

    u, onde o quo mais clara for a linha, maior o valor de , com 0,5 2,5, com fixo em0,23. Da mesma forma a figura 2.1b apresenta os resultados com = 2 e 0,1 0,3.

  • 2.2. MODELOS DE CORRELAO 8

    0.0 0.2 0.4 0.6 0.8 1.0

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    u

    (u)

    (a) Variao do parmetro

    0.0 0.2 0.4 0.6 0.8 1.0

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    u

    (u)

    (b) Variao do parmetro

    Figura 2.1: Exemplos de curvas da correlao Matrn onde o parmetro varia de forma quequomais clara for a cor da linha, maior o valor do parmetro

  • 2.2. MODELOS DE CORRELAO 9

    Para= 0,5, a correlaoMatrn reduz-se a exponencial (seo 2.2.2), (u)= exp{u/},e para , (u) exp{(u/)2}, tambm conhecida como funo de correlao gaussi-ana (Handcock &Wallis, 1994).

    Vale ressaltar que correlaes de ordem ou escala diferentes no so comparveis. A

    partir da, sugere-se uma reparametrizao da funo para = 2p.

    2.2.2 Modelo de correlao exponencial

    Assim como omodeloMatrn, o exponencial apresenta umparmetro de suavizao e um

    de escala (Diggle & Ribeiro Jr., 2007). Entretanto, est limitado a 0. (2.5)

    Consoante no possuir parametrizao para suavizao da curva, seu modelo apresenta

    uma grande vantagem: um limitantefinito de distncia. Para valores suficientemente grades

    de distncia, leia-se u > , o valor da correlao ser (u) = 0. Um exemplo de suas curvasest exposto na figura 2.3 com 0,1 0,3.

    Alm de perder flexibilidade pela parametrizao, um outro problema presente o fato

    dessa funo de correlao ser apenas uma vez diferencivel para u = . Isto proporcionadificuldades na estimao por mxima verossimilhana.

  • 2.2. MODELOS DE CORRELAO 10

    0.0 0.2 0.4 0.6 0.8 1.0

    0.2

    0.4

    0.6

    0.8

    1.0

    u

    (u)

    (a) Variao do parmetro

    0.0 0.2 0.4 0.6 0.8 1.0

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    u

    (u)

    (b) Variao do parmetro

    Figura 2.2: Exemplos de curvas da correlao exponencial onde o parmetro varia de formaque quomais clara for a cor da linha, maior o valor do parmetro

  • 2.3. VARIOGRAMA 11

    2.2.4 Modelo de correlao wave

    Modelos nomontonos de correlao so raros. Um exemplo a funoWave,

    (u)=(u

    )1sen

    (u

    ). (2.6)

    Assim como o esfrico, ele tambmuniparametrizadopela escala (). Seu comportamento

    pode ser observado na figura 2.4 com 0,1 0,3.

    0.0 0.2 0.4 0.6 0.8 1.0

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    u

    (u)

    Figura 2.3: Exemplos de curvas da correlao esfrica comvariao doparmetrode formaque quomais clara for a cor da linha, maior o valor e

    Outros modelos de correlao podem tambm ser encontrados na literatura (ver, por

    exemplo, Gneiting, 1997; Schlather, 1999). Entretanto, esses apresentados so os mais utili-

    zados em geoestatstica.

    2.3 Variograma

    Tambm conhecido por semivariogramaou semivarincias, o variograma uma ferramenta

    muito importante geoestatstica. Ele descreve naturalmente estruturas de dependncia

    nummodelo gaussiano e pode ser til como ferramenta de diagnstico nos demais.

  • 2.3. VARIOGRAMA 12

    0.0 0.2 0.4 0.6 0.8 1.0

    0.

    20.

    00.

    20.

    40.

    60.

    81.

    0

    u

    (u)

    Figura 2.4: Exemplos de curvas da correlao wave com variao do parmetro de formaque quomais clara for a cor da linha, maior o valor de

    2.3.1 Variograma terico

    Num processo estocstico o variograma terico dado pela funo V (xi ,x j )= 12Var{S(xi )S(x j )}. No caso de um processo estacionrio (assim como exposto na definio 23) o va-

    riograma se reduz a uma funo de u = ||xi x j || e (u) = Cov{S(x),S(x u)} equivalente,expressa por VY (u) = (0) (u) = 2{1 (u)}, onde 2 a varincia de S(x) e (u) =Corr{S(x),S(xu)}. Como a mdia constante:

    VY (u)=1

    2E

    [{S(x)S(xu)}2

    ]. (2.7)

    2.3.2 Variograma emprico

    Dado um conjunto de variveis aleatrias Yi : i = 1, . . . ,n que modelam os dados do fen-meno mesurado e yi : i = 1, . . . ,n ocorrncias dessas variveis, os valores vi j = 12(Yi Y j )2correspondem a uma estimativa no viesada da semivarincia, tambm denominada vario-

    grama ordinrio.

    O variograma tericoVT ser os pares de distncias e variogramas ordinrios correspon-

    dentes (ui j ,vi j ) : j > i . Graficamente, ele correponde a plotagem dos valores vi j pelas dis-tncias correpondentes (ver exemplo na figura 2.5b, construdo a partir dos pontos amos-

  • 2.4. KRIGING 13

    trados no campo gaussiano da figura 2.5a).

    2.4 Kriging

    Dado S(), que modela um sinal (dado de interesse) ocorrido, porm no observado,pretende-se efetuar predio sobre ocorrncias de uma varivel aleatria T = T (S), ondeT denota o conjunto de variveis aleatrias que sero preditas, S representa o conjunto de

    todos os valores a partir de S(x) e T () a funo de predio.Sejam amostras observadas Y = (y1, . . . , yn) onde cada yi representa uma amostra, com

    possvel rudo, de seu correspondente S(x), num processo estocstico gaussiano estacion-

    rio {S(x) : x R2} com x representando o posicionamento geogrfico. S possui distribuiogaussiana multivarada de vetor de mdias 1, onde 1 um vetor onde todos os elementos

    so 1. Suamatriz de varincia 2R , onde R nn tal que ri j = (||xi x j ||).Da mesma fora Y possui distribuio gaussiana multivariada com vetor de mdias 1 e

    matriz de varincia

    2V = 2(R+v2I )2V = 2R+2I , (2.8)

    com I sendo a matriz identidade.

    Utilizando qualquer funo t de Y tal que T = t (Y ) o erro do preditor pelos mnimosquadrados ser:

    MSE(T )=E[(T T )2] . (2.9)A forma que minimiza esta quantidade dada quando T =E[T | Y ]. Da, tem-se que:

    E[(T T )2]=EY [Var(T | Y )]. (2.10)

    Neste trabalho so analisadas algumas variantes do processo de kriging (Krige, 1951),

    que, de uma forma geral, consistem no resultado de

    S(x)=WwiS(x)dx, (2.11)

    onde S(x) denota o conjunto de amostras,W R2 a janela deR2 que o processo estocs-ticomodela e wi : i = 1, . . . ,n um vetor de pesos, construdos a partir das funes de correla-o, que suavizam a interpolao dentre os pontos (Diggle & Ribeiro Jr., 2007).

  • 2.4. KRIGING 14

    (a) Campo gaussiano com pontos em destaque amostrados

    0 20 40 60 80 100

    010

    20

    30

    40

    u

    V(u

    )

    (b) Variograma emprico

    Figura 2.5: Campo gaussiano com pontos amostrados em 2.5a, a partir dos quais se constrio variograma emprico em 2.5b

  • 2.4. KRIGING 15

    2.4.1 Kriging simples e ordinrio

    Dentre todos os modelos de kriging, o simples apresenta-se como o modelo matemtico

    mais simples. Nele se considera que mdias de grupos dos valores do processo se apro-

    ximam da mdia global. Relaxando-se essa suposio, de forma a permitir que as mdias

    locais possam se distanciar da global, o kriging ordinrio usa uma estimao diferente para

    a mdia.

    Em suma:

    no kriging simples a mdia informada e todos os demais parmetros so tratados

    como conhecidos, entretanto, necessrio acoplar estimadores dos demais parme-

    tros ao preditor;

    no kriging ordinrio, a mdia tratada como parmetro desconhecido, sendo substi-

    tuda pelo estimador por mnimos quadrados

    = (1V 11)11V 1Y . (2.12)

    Alguns autores, entretanto, adotam que no kriging simples a mdia no informada,

    mas computada atravs dos mnimos quadrados ordinrios dos valores amostrados, dito y

    (Diggle & Ribeiro Jr., 2007, pp. 137). Entretanto, essa abordagem pode no resultar em bons

    valores estimados; uma alternativa utilizar os mnimos quadrados generalizados, levando

    em considerao os valores de covarincia dentre as variveis indexadas pelas coordenadas

    amostradas.

    O preditor de kriging para T = S(x) ser

    T =+ r V 1(Y 1), (2.13)

    onde r o vetor tal que ri = (||x xi ||), i = 1, . . . ,n1 e V dado por (2.8). Y possui distri-buio gaussianamultivariada de mdia 1 e matriz de varincia dada por (2.8).

    Da, segue que

    S(x)=+ni=1

    ai (x)(Yi )=[1

    ni=1

    ai (x)

    ]+

    ni=1

    ai (x)Yi . (2.14)

    O preditor por kriging ordinrio pode ser expresso como S(x) =ni=1wi (x)Yi , onde w o vetor de pesos do kriging para o ponto xi . Ou seja, dado um ponto no amostrado xi o

    qual deseja-se reconstruir com base no conjunto de amostras Y , ser computado um vetor

    de pesos w , com a soma de seus elementosn

    i=1wi = 1. Esse vetor de pesos w ser nicopara cada i .

    SeVY () a funo de semivarincia (semivariograma) de umprocesso estocstico gaus-siano estacionrio {S(x) : x R2}, onde x denota o posicionamento geogrfico dos pontos, o

  • 2.4. KRIGING 16

    vetor de pesos para um ponto xi ser dado por

    w1VY (ui ,x1 )+ +wnVY (ui ,xn )=VY (ui ,xi ), (2.15)

    no kriging simples.

    Para o kriging ordinrio, insere-se na equao uma varivel de normalizao . Assim, a

    equao que representa o vetor de pesos w para o kringing ordinrio

    w1VY (ui ,x1)+ +wnVY (ui ,xn )+=VY (ui ,xi ), (2.16)

    onde possui o mesmo valor, independente de i .

    Em ambos os casos o vetor de pesos definido pela resoluo de um sistemade equaes

    baseadas na semivarincia. Da nota-se o impacto do modelo de correlao adotado no

    kriging, que parte da definio de semivarincia e a construo dos pesos de forma aprover

    curvas de variao suaves, determinadas por seus fatores de suavizao ().

    Como os modelos de kriging simples e ordinrio diferem apenas na estimao damdia

    por este ltimo, o kriging simples tambm conhecido como kriging ordinrio com mdia

    (Diggle & Ribeiro Jr., 2007).

    A escolha de um modelo que represente o mais adequadamente o possvel os dados

    crucial para que se obtenha um bom resultado. Da mesma forma, encontrar valores de

    que se aproximem do ideal proporcionar uma reconstruo omais fidedgna o possvel.

    Uma descrio algoritmica do processo de kringing est no cdigo 2.1. Como ilustra-

    o dos resultados que se podem obter atravs das duas tcnicas a figura 2.6 apresenta um

    campo gaussiano em 2.6a com 20 pontos amostrados e reconstrudos por kriging simples e

    ordinrio, respectivamente 2.6b e 2.6c.

    1 S

  • 2.4. KRIGING 17

    (a) Campo aleatrio original

    (b) Reconstruo por kriging simples (c) Reconstruo por kriging ordinrio

    Figura 2.6: Dada uma regio de interesse 2.6a, amostram-se alguns pontos atravs de 20 sen-sores dispostos aleatoriamente e reconstri-se a partir desses dados amostrados por krin-ging simples 2.6b e ordinrio 2.6c

    2.4.2 Kriging bayesiano

    Diferentemente dos modelos anteriores de kriging, o bayesiano no faz nenhuma distin-

    o formal entre os pontos no observados e os parmetros do modelo a serem estimados.

    Conforme Diggle & Ribeiro Jr. (2007), ambos so tratados como variveis aleatrias no ob-

    servadas.

    Seus principais requisitos so:

    conhecimento da distribuio a priori de , onde o espao paramtricodo processo estocstico modelado que, como nos demais, gaussiano estacionrio

    {S(x) : x R2};

    capacidade computacional para a especificao de ummodelo com seus dados a pri-

  • 2.4. KRIGING 18

    ori a serem computados a posteriori.

    Um dado a priori uma informao parametrizada aomodelo. Por sua vez uma a poste-

    riori inferida nomodelo atravs da informao a priori.

    A capacidade computacional citada trata de resolver a seguinte equao:

    Pr( | y)= `(; y)pi()`(; y)pi()d

    , (2.17)

    onde as funes utilizadas so a de verossimilhana,`(; ), e a distribuio apriori,pi(), dadapelo teorema de Bayes (2.18). O parmetro y corresponde aos dados amostrados, ocorrn-

    cias de S(x).

    O Teorema de Bayes diz que

    Pr(A | B)= Pr(B | A)Pr(A)Pr(B)

    . (2.18)

    Neste caso Pr(A) e Pr(B) seriam as probabilidades a priori e Pr(A | B) e Pr(B | A) as probabi-lidades a posteriori.

    No enfoque bayesiano, o modelo pode ser especificado como [Y ,], onde Y representa

    as variveis aleatrias que descrevem o fenmeno a ser reconstrudo (o sinal), so todos

    os parmetros do modelo a serem inferidos e [] denota a distribuio das variveis alea-trias que lhe so parametrizadas. Assim, com os valores a priori de pode-se calcular a

    [Y ,] = [Y | ][], onde a notao | denota condicionalidade dentre as variveis aleatrias.Pelo Teorema de Bayes, apresentado na equao (2.18), chega-se a

    [ | Y ]= [Y | ][][Y ]

    , (2.19)

    onde [Y ] pode ser obtido por

    [Y ]=[Y | ][]d, (2.20)

    induzido pela funo de verossimilhana. As inferncias acerca do parmetro so feitas por

    computao de dados a posteriori, com [ | Y ].Modelando o proposto neste trabalho com o enfoque bayesiano tem-se trs elementos:

    um sinal no observado, S; um conjunto de valores medidos, Y ; e os parmetros domodelo,

    . A especificao do modelo, ento, se d por

    [Y ,S,]= [][S | ][Y | S,]. (2.21)

    Como [] representa os valores a priori de , eles podem ser encarados como a opinio do

    analista dos dados. Sob a aplicao do Teorema de Bayes, equao (2.18),

    [S | Y ]=[S | Y ,][ | Y ]d. (2.22)

  • 2.5. REDES DE SENSORES SEM FIOS 19

    Algoritmicamente, iniciandopelo valor inicial arbitrado, sero computados os valores in-

    feridos. Com estes calculados, os parmetros do modelo so computados (inferncia sobre

    ) e o processo se repete at um limite de convergncia pr-estabelecido.

    Nesse trabalho sero avaliadas computaes com o valor de mdia conhecido e infe-

    rido por mdia ponderada, levando em considero valores inferidos de correlao. Em

    uma abordagem real a uma Rede de Sensores sem Fios (ver seo 2.5), efetua-se um pro-

    cedimento de flood (disperso da solicitao de leitura de dados a todos os sensores que

    a retornaro conforme a modelagem da rede) e esses dados so utilizados para compor a

    mdia.

    2.5 Redes de Sensores sem Fios

    AsRedes de Sensores semFios (RSsF Akyildiz et al., 2002; Szewczyk et al., 2004; Sarangapani,

    2007; Sohraby et al., 2007;Wu & Tseng, 2007) so conjuntos de dispositivosque obtmamos-

    tras de fenmenos ambientais, sejam eles naturais (como, por exemplo, temperatura, pres-

    so atmosfrica, intensidade de iluminao, concentrao de substncias em cursos dgua

    ver figura 2.7) ou antrpicos (qualidade do ar em sinais de trnsito, presso ao longo de um

    oleoduto). Uma vez comessas informaes captadas, elas so transmitidas a umn especial,

    denominado sink que tipicamente efetua algum tipo de agregao de dados, numa comu-

    nicao atravs de redes ad-hoc (Rappaport, 2002; Sarangapani, 2007; Sohraby et al., 2007;

    Wu & Tseng, 2007). Este se responsabiliza por transmitir as informaes coletadas atravs de

    algummeio como a Internete para um centro de tratamento de dados e tomada de decises,

    o qual pode efetuar consultas na rede. Seu funcionamento pode ser modelado conforme o

    diagrama da figura 2.8, modelado por Frery et al. (2010).

    SensoresMeio

    Sink

    Central

    Figura 2.7: Elementos fundamentais de uma Rede de Sensores sem Fios

  • 2.5. REDES DE SENSORES SEM FIOS 20

    NF V S V V F V

    Ry RyD D

    Figura 2.8: Modelo de uma Rede de Sensores sem Fios

    No diagrama supracitado, N representa a natureza, com toda sua infinidade de fatos, F

    o fenmeno de interesse (o sinal, i.e.: iluminao, temperatura, umidade etc.), com todos

    os seus dados em V . Se fosse possvel observar F em toda a sua complexidade, constuir-se-

    a um conjunto de regras ideais R com as quais seria possvel tomar decises ideaisD. Em

    vez disso, utiliza-se um conjunto de sensores S = {S1, . . . ,Sn} que disponibiliza um conjuntode valores V , sob os quais efetuam-se transformaes (i.e.: agregao e fuso de dados)

    que geram um conjunto de dadosV . Nesse ltimo conjunto de dados aplica-se uma funo

    de reconstruo do sinal F que permite idealmente reconstruir o conjunto de valores V

    a partir do qual pode-se construir um conjunto de regras R com as quais se pode tomar

    decises D . Este conjunto D deve ser o mais prximo possvel deD (idealmente iguais).

    Essas redes tm despertado muito in-

    Figura 2.9: Clusters de sensores

    teresse, tanto pelas suas potenciais aplica-

    es quanto pelos desafios tericos e tec-

    nolgicos que seu uso otimizado oferecem.

    Tipicamente aplica-se algumalgoritmopara

    reduzir a quantidade de dados transmitidos

    (Nakamura et al., 2007). Dentre os princi-

    pais motivos para que se efetue esta ope-

    rao, est que a transmisso de dados co-

    mumente a operaomais custosa em ter-

    mos de energia (Akyildiz et al., 2002). As-

    sim,minimizando essas transmisses pode-

    se prolongar o tempo de vida til da rede.

    Bem como esta compactao, h diver-

    sos outros aspectos tecnolgicos, como autoconfigurao, adaptao na ocorrncia de fa-

    lhas e limitaes de energia, aguardando por solues satisfatrias. Uma das formas de oti-

    mizar o consumo de energia utilizar agrupamentos (clusters) de sensores. A tcnica con-

    siste em formar grupos de sensores que transmitem seus dados a um n dentro do grupo,

    para que somente este transmita as informaes ao destino. Os grupos so definidos e

    eleito um dito representante (clusterhead) responsvel por receber as informaes dos de-

    mais sensores e transmit-lo (ver figura 2.9).

  • 2.5. REDES DE SENSORES SEM FIOS 21

    Essa a idia dos algoritmos LEACH e SKATER, dentre diversos outros (ver Akyildiz et al.,

    2002; Heinzelman et al., 2002; Younis & Fahmy, 2004; Assuno et al., 2006; Younis et al.,

    2006; Yoon & Shahabi, 2007; Abbasi & Younis, 2007). O objetivo sempre o mesmo: analisar

    globalmente o estado da rede para formar grupos de sensores e estratgias de fuso de in-

    formaes, diminuindo a redundncia nos dados transmitidos e otimizando o consumo de

    energia. Dessa forma o consumo minimizado nos sensores que apenas transmitem para

    este representante do grupo. Alm disso, pode-se aplicar alguma transformao nesses da-

    dos no nvel dos clusters, como por exemplo no caso de medio de temperatura transmitir

    a mdia de cada grupo, em vez da informao de cada sensor.

    As principais referncias que tratam deste assunto no empregam explicitamente a ana-

    logia existente entre esse problema e o problema de amostragem e reconstruo de sinais.

    Alencar-Neto (2008) e Frery et al. (2008) estabelecem formalmente essa analogia, e propem

    medidas de erro na reconstruo do sinal empregando diferentes tcnicas de amostragem e

    de reconstruo (ambas utilizando clulas de Voronoi).

    A dissertao demestrado deAlencar-Neto

    Figura 2.10: Clusters gerados pelo LEACH,com clusters identificados pelas cores atribu-das aos sensores

    (2008) generaliza esses resultados, conside-

    rando (alm da amostragem e da recons-

    truo por clulas de Voronoi) amostragem

    baseada em funes caractersticas dos sen-

    sores (dando, assim, maior realismo ao es-

    tudo) e kriging simples na reconstruo do

    sinal. Esta ltimamostrouproduzir resulta-

    dos significativamente melhores do que os

    gerados pela reconstruo por Voronoi na

    maioria dos casos.

    2.5.1 Agrupamentopelo algoritmo

    LEACH

    O algoritmo LEACH (Low Energy Adaptive Clustering Hierarchy Heinzelman et al., 2000,

    2002) prope a diviso dos ns sensores numaquantidade pr-definidade clusters. Escolhem-

    se aleatoriamente os clusterheads e os integrantes de cada grupo so definidos atravs de

    uma funo queminimize a distncia entre osmembros de um cluster e seu clusterhead (ver

    figura 2.10).

    Esse processo ocorre numa etapa de configurao, prvia ao inicio do sensoriamento.

    Determina-se uma janela de tempo em que essa configurao permanece at que haja a

    reconfigurao da rede, onde os clusterheads se alternam, numa tentativa de minimizar o

    desgaste desses sensores, visto que eles promovemmais comunicao, gastandomais ener-

    gia.

  • 2.5. REDES DE SENSORES SEM FIOS 22

    Neste protocolo h uma srie de fatores no especificados e ainda h a premissa de que

    cada clusterhead comunica-se diretamente como sink, semnecessitar transmitir dados para

    outros sensores e que estes os repassem (comunicao single-hop). Entretanto, em diversos

    casos esse escopo no retratar uma situao real. Dentre as diversas variaes deste proto-

    colo encontradas na literatura,muitas que desconsideram essa restrio.

    2.5.2 Agrupamento pelo algoritmo SKATER

    Uma outra alternativa para o processo de agrupamento de sensores o protocolo SKATER

    (Spatial Kluster Analysis by Tree Edge Removal Assuno et al., 2006). A abordagem ado-

    tada prover grupos com dados o mais correlacionados o possvel.

    Os sensores so organizados num grafo onde cada um determina um vrtice. As arestas

    so definidas pelo raio de comunicao (ver figura 2.12, que apresenta o grafo correspon-

    dente aos sensores da figura 2.11).

    Figura 2.11: Sensores espalhados sobre uma superfcie

    Dado que um sensor consegue se comunicar com outro, atribui-se um peso a aresta que

    representa a distncia entre os dados amostrados naquele instante pelos sensores. Conside-

    rando esses pesos calcula-se uma rvore geradora (subgrafo contendo todos os vrtices do

    grafo original, enretanto apenas um caminho de um n a outro, conforme a figura 2.13) de

    customnimo (a soma dos pesos das arestas para se percorrer de um vrtice a outro possuir

    o menor valor possvel).

    Dessa rvore subtraem-se as n arestas de maior peso, onde n representa a quantidade

    desejada de clusters. Os subgrafos resultantes conexos definem cada um dos grupos (ver

    figura 2.14). Note-se que os clusterheads no possuem fator determinante na formao dos

    clusters.

  • 2.6. RELAO ENTRE A GEOESTATSTICA E AS REDES DE SENSORES SEM FIOS 23

    1110

    1

    0

    3 2

    5 4

    76

    9

    85,27

    3,02

    1,01

    3,62

    2,51

    4,24

    0,49

    1,61

    3,23

    4,63

    1,77

    1,31

    0,45

    1,65

    1,48

    5,46

    2,76

    4,71

    2,20 1,80

    3,81

    0,56

    2,27

    2,01

    1,97

    1,03

    0,79

    4,56

    1,603,98

    0,26

    0,07 1,52

    2,10

    0,75

    2,83

    1,71

    1,24

    0,75

    3,26

    3,06

    2,47

    3,21

    5,42

    0,17

    0,19

    2,36

    5,72

    2,27

    3,32

    2,95

    2,21

    0,960,82

    1,46

    3,75

    0,86

    Figura 2.12: Grafo construdo a partir de 12 ns sensores (0 a 11)

    1110

    1

    0

    3 2

    5 4

    76

    9

    8

    0,49

    1,61

    1,48

    0,56

    0,79

    0,26

    0,07

    0,750,17

    0,19

    0,96

    Figura 2.13: rvore Geradora Mnima do grafo de sensores da figura 2.12

    Assim, os grupos devero conter os sensores de dados amostradosmais correlacionados.

    Bemcomonoprotocolo LEACH, h etapas de configurao e reconfigurao,paraminimizar

    o desgaste energtico nos clusterheads.

    2.6 Relao entre aGeoestatstica e as Redes de Sensores sem

    Fios

    O objetivo deste trabalho avaliar a conexo entre a geoestatstica e as Redes de Senso-

    res sem Fios, apontada j por Frery et al. (2010); Alencar-Neto (2008); Aquino et al. (2008);

    Camilli et al. (2007); Frery et al. (2008); Jedermann & Lang (2009); Ni et al. (2009); Umer et al.

    (2008). Para tal, no captulo 3 ser construdo ummodelo de simulaes.

    O ambiente simulado o de Redes de Sensores sem Fios nos mais diversos cenrios de

  • 2.6. RELAO ENTRE A GEOESTATSTICA E AS REDES DE SENSORES SEM FIOS 24

    1110

    1

    0

    3 2

    5 4

    76

    9

    8

    0,49

    1,61

    1,48

    0,56

    0,79

    0,26

    0,75

    0,19

    0,96

    Figura 2.14: Diviso dos sensores da figura 2.12 em 3 clusters pelo algoritmo SKATER

    dados. Neles, so aplicados os dois algoritmos de agrupamento definidos na seo 2.5 que

    provem os dados amostrados. Com estes dados, aplicam-se os algoritmos de kriging defi-

    nidos nas sees 2.4.1 e 2.4.2 e os sinais reconstrudos so avaliados.

    Uma proposta de modificao no algorito definido pela seo 2.4.2 tambm efetuada,

    visando no s ganho no resultado do sinal obtido bem como no custo computacional.

  • IIIModelagem proposta

    R may be the wrong tool for the job, but its the wrong job.

    Rolf Turner

    R-help (maio de 2008)

    A avaliao dos algoritmosde reconstruo de sinais apresentadosno captulo 2 foi efetu-ada atravs de simulaesMonteCarlo implementadas na plataforma R. Neste captuloseguem os detalhes da modelagem e implementao do sistema de simulaes e de como

    os dados foram gerados.

    3.1 Modelo formulado

    O cenrio de simulaes foi montado atravs de umprocesso estocstico gaussiano estacio-

    nrio isotrpico {S(x) : x R2}, onde x denota a posio geogrfica das variveis aleatrias.Os dados so amostrados na forma (x, y), onde y representa uma ocorrncia da varivel ale-

    atria S(x).

    Seguem novas definies necessrias a compreenso da implementao domodelo.

    3.1.1 Sinal de origem amostrado

    Os dados utilizados nas simulaes so provenientes de campos aleatrios gaussianos

    {S(x) : x R2} gerados pelos mtodos apresentados por Chan &Wood (1997); Lantuejoul(2002) e Schlather (1999).

    Neste trabalho adotou-se omodeloMatrn (ver seo 2.2.1), citado comomodelo de cor-

    relaomais utilizado em geoestatstica (Bivand & Pebesma, 2008; Diggle & Ribeiro Jr., 2007;

    Le & Zidek, 2006), para as variveis aleatrias do campo gaussiano. Assim, pode-se variar os

    25

  • 3.1. MODELO FORMULADO 26

    parmetros deste modelo de forma a gerar situaes diversas. Os parmetros variados so

    mdia, varincia, coeficiente de suavizao () e escala (). Este ltimo permite modelar,

    dentre outras aplicaes, a intensidade da luz que chega ao solo de uma floresta, em funo

    da densidade da folhagem das rvores (ver Alencar-Neto, 2008).

    A partir deste ponto, sempre que for referido um campo gaussiano ele ter mdia zero

    e varincia unitria. Exemplos de campos aleatrios gaussianos com parmetros variados

    podem ser vistos na figura 3.1.

    (a) = 1 e = 1 (b) = 1 e = 5

    (c) = 5 e = 1 (d) = 5 e = 5

    Figura 3.1: Exemplos de campos aleatrios gaussianos de 100100 pontos, mdia 0 e vari-ncia 1, variando parmetros de suavizao () e escala (), onde utiliza-se uma escala decores para representar a mudana de valores

    3.1.2 Processos pontuais e a distribuio dos sensores

    A distribuio dos sensores segue o modelo proposto por Alencar-Neto (2008); Frery et al.

    (2008), utilizandoprocessos pontuais (Baddeley, 2006) para distribuir os ns sensores. Estes,

  • 3.1. MODELO FORMULADO 27

    somodelos estocsticos que descrevem a distribuio de dados no espao. Para a compre-

    enso do modelo adotado, necessrio incluir algumas definies com base nos textos de

    James (2006); Alencar-Neto (2008), a saber.

    Definio 27 (Processo Estocstico Poisson). Sendo Ekt ,t a notao para k eventos ocorridos

    no intervalo de tempo (t , t +t ], a distribuio de um processo de Poisson pode ser definidacomo Pr(Ek0,t )= (t )ket/k ! Sua caracterizao se d pelo parmetro de intensidade e peloparmetro , com a relao (t )= t , que denota a quantidade esperada de eventos por uni-dade de tempo. As seguintes hipteses seguem da probabilidade acima:

    1. Pr(Ekt ,t+t )= Pr(Ek0,t ), k, t e t ;

    2. Pr(Ek1t1,t1 Ek2t2,t2

    )= Pr(Ek1t1,t1 )Pr(Ek2t2,t2

    ) se (t1,t1] (t2,t2]=;;

    3. limt0

    Pr(Ea0,t )

    Pr(Eb0,t )= 0, com a 2 e b 1.

    Definio 28 (Processos pontuais Homogneos com Independncia). So processos pon-

    tuais onde a quantidade de eventos esperados (parmetro ) constante, ou seja, dado um

    processo {S(x) : x Rd }, (x)=> 0,x Rd .

    A partir deste ponto, considere-se todo processo estocstico com dimenso 2.

    Definio 29 (Distribuio Uniforme). Uma varivel aleatria contnua X : {x R : x } segue a distribuio uniforme se sua densidade for dada pela funo f (t ) =()11(a,b)(t ), com 0 e > 0. p1,p2, . . . ,pn representam os pontos deste processo em um subconjuntoA Rd , onde o nmero de pontos de qualquer conjunto B A, denominado N (B) possuir asseguintes propriedades:

    1. N (B) segue uma distribuio de Poisson de mdia (B) definida porB (u)du, tal que

    (u) constante para todo u B;

  • 3.1. MODELO FORMULADO 28

    2. as variveis aleatrias N (B1), . . . ,N (Bn) so coletivamente independentes se os conjun-

    tos B1, . . . ,Bn forem disjuntos.

    A partir da, um processo pontual Binomial ser um processo pontual de Poisson condicio-

    nado ao nmero de pontos n. Exemplos de processos pontuais Poisson podem ser observados

    na figura 3.2. Estes podem ser encarados como exemplos de processos pontuais binomiais com

    n dado em 3.2a, 3.2b, 3.2c e 3.2d.

    (a) n = 94 pontos (b) n = 95 pontos

    (c) n = 100 pontos (d) n = 94 pontos

    Figura 3.2: Exemplos de um processo pontual de Poisson com = 100

    Definio 33 (Processos pontuais no homogneos). Num processo pontual no homog-

    neo a intensidade do parmetro pode variar de acordo com a rea onde o processo apli-

    cado. Assim possvel construir processos onde a probabilidade de se obter n pontos varie em

    decorrncia da rea de A em questo. Pode-se construir um processo desse tipo definindo sua

    intensidade como uma funo tal que : AR+ comB

  • 3.1. MODELO FORMULADO 29

    Definio 34 (Processo pontual Poisson no homogneo). umconjunto de pontos P1, . . . ,Pn

    localizados num conjunto A R2 tal que o nmero de pontos N (B) de qualquer B A possuias seguintes propriedades:

    1. N (B) segue umadistribuio de Poisson demdia(B) tal que (u) varia de acordo com

    a funo de intensidade : AR+ qualquer que seja u B;

    2. as variveis aleatrias N (B1), . . . ,N (Bn) so coletivamente independentes se os conjun-

    tos B1, . . . ,B2 forem disjuntos.

    Exemplos de um processo de Poisson no homogneo podem ser observados na figura 3.3

    com (x, y)= xex , cujo comportamento pode ser observado na figura 3.4.

    (a) = 10 (b) = 50

    (c) = 75 (d) = 100

    Figura 3.3: Exemplos de um processo pontual de Poisson no Homogneo com (x, y) =xex

  • 3.1. MODELO FORMULADO 30

    Figura 3.4: Perspectiva da funo de intensidade (x, y)= xex

    Definio 35 (Processo Pontual SSI Matrns Simple Sequential Inhibition). Define-se de

    forma iterativa, com tentativas de por n pontos atravs de uma distribuio uniforme de m-

    dia 2n numa regio A. Com um parmetro de distanciamento obrigatrio (raio de inibio)

    r , insere um primeiro ponto em A e efetuam-se at T tentativas para cada um dos n1 pon-tos restantes, sendo estas bem sucedidas se nenhuma das distncias entre este ltimo ponto e

    quaisquer outro for menor ou igual a r , caso contrrio, o ponto descartado. Na figura 3.5

    pode-se observar exemplos de um processo SSI de n = 100, T = 1.000 e raio de inibio vari-ando em r = {0,01, 0,05, 0,10, 0,11}.

    Uma vez definidos esses processos pontuais, pode-se definir o processo composto C

    (Alencar-Neto, 2008; Frery et al., 2008).

    Definio 36 (Processo pontual compostoC ). Objetivandomodelar as possveis situaes de

    deposio de sensores a uma Rede de Sensores sem Fios, o processo composto C (n,), onde

    denomina-se coeficiente de atratividade, implementado como segue, numa rea A R2.

    Independente: processo pontual Binomial definido na regio A, na forma B [n,A].

    Atrativo: composio de dois processos de Poisson, um com intensidade sobre uma rea

    alvo A A e outro com intensidade , sobre a rea A\A, na forma S[n,].

  • 3.1. MODELO FORMULADO 31

    (a) r = 0,01 (b) r = 0,05

    (c) r = 0,10 (d) r = 0,11

    Figura 3.5: Exemplos de um processo pontual de SSI com n = 100 e T = 1.000

    Repulsivo: processo pontual SSI com raio de inibio rmax = n1/2, na forma SSI[n,rmax,A].

    Regular: situao de repulso extrema, quando =.

    Assim, este processo ser definido como

    C (n,)=

    SSI (n,rmax(1e)), se < 0

    B(n), se 0 1S(n,), se > 1.

    (3.1)

    Na figura 3.6 pode-se observar exemplos do processo composto C.

    Dado que para se espalhar sensores sobre grandes regies omeiomais comum o uso de

    avies, os quais depem os ns sensores, modela-se este procedimento atravs do processo

    C . Sob um plano de voo de altura constante, os sensores so depositados gradativamente,

  • 3.1. MODELO FORMULADO 32

    num processo repulsivo (figura 3.6a). Caso sejam lanados muitos sensores de uma nica

    vez, ns tendem a se aglomerar numa parte da regio, conforme um processo atrativo (fi-

    guras 3.6c e 3.6d). Quando no h controle a deposio e esta se d de forma totalmente

    aleatria, caracteriza-se um processo independente (figura 3.6b).

    (a) =10: processo repulsivo (b) = 0: processo independente

    (c) = 10: processo atrativo (d) = 50: processo fortemente atrativo

    Figura 3.6: Exemplos do processo compostoC com n = 100

    Este processo composto C ser um caso particular de um processo mais complexo, o

    M2P2. Seguem as definies necessrias, extradas do trabalho de Ramos et al. (2010).

    Definio 37 (Multilevel Marked Point Process). O processo M2P2(n,,m,rc ,ri ) representa

    diversas possibilidades de deposio de sensores, onde n representa a quantidade de sensores e

    o coeficiente de atratividade, m a quantidade de H-sensors (um grupo pequeno de sensores

    com quantidade menor que a metade do total), rc o raio mximo de comunicao dentre os

    L-sensors (sensores alm dos H-sensors), ri o raio de inibio dentre os H-sensors. Seja um

    nmero pequeno m > 1 de H-Sensors num grupo n >m de L-Sensors num crculo de raio

  • 3.1. MODELO FORMULADO 33

    rc > 0 centrado em cada H-Sensor. Os H-Sensors so depostos e em seguida os L-Sensors sodepostos prximos aosH-Sensors. Seja um processo pontual de Poisson de funo de inten-

    sidade

    (x, y)={ se d((x, y), (hxi ,hyi )) rc ,1 i m,1 caso contrrio,

    onde d uma medida de distncia (neste trabalho, a euclidiana), {(hx1 ,hy1), . . . , (hxm ,hym )}

    so as coordenadas dos H-Sensors e rc o raio mximo de comunicao dos L-Sensors.

    Denote-se este processo por (n m,,rc ,h). O processo M2P2 um processo composto dem amostras de H(m,ri ), osH-Sensors, e nm amostras de(nm,,rc ,h), os L-Sensors. Oprocesso corresponde as seguintes configuraes de :

    =1 processo totalmente binomial,= 0 processo repulsivo para osH-Sensors e binomial para os L-Sensors,

    > 0 processo repulsivo para osH-Sensors e atrativo em torno dosH-Sensors para os L-Sensors.

    (3.2)

    Exemplos dessas situaes podem ser observados na figura 3.7.

    3.1.3 Reconstruo do sinal

    O sinal sera reconstrudo utilizando os algoritmos de kriging definidos nas sees 2.4.1 e

    2.4.2 alm de algumas variantes. So estas:

    kriging simples commdia constante

    kriging simples commdia computada atravs de mnimos quadrados ordinrios

    kriging simples commdia computada por mnimos quadrados generalizados

    kriging ordinrio

    kriging bayesiano

    kriging bayesianomodificado (mdia computada pormnimos quadrados generaliza-

    dos).

    Uma vez com os campos devidamente reconstrudos, utilizar-se-o os valores compu-

    tados pelas funes de kriging dos parmetros e para reconstruir os campos gaussia-

    nos com a mesma funo que os gerou na primeira etapa do processo. Esse processo est

    representado no diagrama da figura 3.8. Da natureza (N ) representa-se numericamente

    um fenmeno de interesse (F representado em V ). Desse fenmeno coletam-se 50 valores

    (R50) em pontos correspondentes s localizaes de sensores depostos (S), nos quais por

  • 3.1. MODELO FORMULADO 34

    (a) =1

    (b) = 0 (c) = 5

    (d) = 15 (e) = 30

    Figura 3.7: Exemplos do processoM2P2, com raio de comunicao 20, raio de sensoriamento5 e 6H-Sensors, para 100 sensores, variando o valor de , onde cadaM denota um L-sensor e umH-sensor

  • 3.2. IMPLEMENTAONA PLATAFORMA R 35

    um algoritmo de agrupamento () sero compostos 6 grupos, totalizando 6 valores de m-

    dia aritmtica de cada grupo (R6). Com esses valores reconstri-se o sinal de origem com a

    computao dos parmetros dos campos gaussianos do sinal de origem ( e , representa-

    dos por ). A partir desses valores reconstrem-se os valores numricos do campo gaussiano

    de origem (R100100).

    NF R100100 S R50 R6 R100100

    Figura 3.8: Diagrama ilustrativo da reconstruo dos campos gaussianos com base nos valo-res inferidos aos parmetros e pelos algoritmos de kriging

    3.1.4 Validao domodelo

    O modelo ser validado atravs do Mtodo de Monte Carlo (Metropolis & Ulam, 1949;

    Murray, 1953; Robert & Casella, 1999), que consiste na repetio exaustiva do procedimento

    utilizando dados diferentes, porm provenientes do mesmo processo. Para aferir a quali-

    dade dos algoritmos,utilizam-se trsmtricas de qualidade: o vis (definio 39), a varincia

    (definio 16) e o Erro Quadrtico Mdio (definio 40).

    Definio 38 (Estimador). Constitui uma funo (ou sistemas de equaes) definida para

    estimar o valor de um ou mais parmetros de uma distribuio D com base nas ocorrncias

    de uma varivel aleatria X que siga a distribuio D.

    Definio 39 (Vis). O vis do estimador , denotado B[], a diferena entre o valor espe-

    rado do estimador e o verdadeiro valor do parmetro: B[]=E[].

    Um estimador cujo vis seja igual a zero e dito no viesado.

    Definio 40 (Erro Quadrtico Mdio EQM). Uma medida que leve em considerao no

    apenas o quanto o valor estimado se distancia do valor verdadeiro como tambm avalie a

    varinca dos valores estimados de grande importancia na avaliao de estimadores. Para

    tal, o Erro Quadrtico Mdio define-se como EQM() = B2[]+Var(). Para um estimadorno viesado, o EQM reduz-se varincia do estimador.

    3.2 Implementao na plataforma R

    Diversos so os trabalhos que trazem tona a problemtica da falta de preciso numrica em

    programas cientficos. Dentre diversos outros, podemos citar os trabalhos de Almiron et al.

    (2009, 2010); Altman &McDonald (2001); Bustos & Frery (2006); Kennedy & Gentle (1980);

  • 3.2. IMPLEMENTAONA PLATAFORMA R 36

    Callaert (2003); Altman et al. (2007); Oliveira & Stewart (2006), que no s avaliam o erro de

    plataformas numricas como apresentam diversos erros que lhes so recorrentes, inclusive

    trabalhos como o de Andel & Yasinac (2006), que avalia imprecises em simuladores de Re-

    des de Sensores sem Fios. Sem a certeza de que os resultados so realistas, uma anlise

    torna-se invivel.

    R (R Development Core Team, 2009) uma linguagem e um ambiente de computao

    funcional com um vasto ferramental de suporte estatstica computacional. um pro-

    jeto da GNU (http://www.gnu.org) sob a licensa GPL (Michaelson, 2004; Ueda, 2005), fa-zendo parte dos programas de cdigo aberto denominados FLOSS (Free/Libre Open Source

    Software). A qualidade de suas propriedades numricas pode ser aferida no trabalho de

    Almiron et al. (2009).

    Em seus repositrios oficiais (http://cran.r-project.org/mirrors.html) possvelencontrar uma vasta quantidade de pacotes que possibilitam incluir novas funes.

    A base inicial das ferramentas de geoestatstica utilizadas nesse trabalho provm do pa-

    cote geoR (Ribeiro Jr. & Diggle, 2001) que implementa os algoritmos de kriging simples, or-

    dinrio e bayesiano. Uma nova verso do algorito de kriging bayesiano tambm proposta

    modificando o j existente para que a mdia seja computada por mnimos quadrados gene-

    ralizados, levando em conta os parmetros de covarincia, e que seja mantida fixa (no ser

    ocorrncia de uma varivel aleatria, conforme definido na seo 2.4.2).

    Para a implementao do algoritmo de agrupamento SKATER utiliza-se o pacote igraph

    (Csardi & Nepusz, 2006), que implementa diversas operaes em grafos, alm de uma con-

    veniente estrutura de dados para armazenamento dos grafos.

    Os dados do sinal de origemprovm de funes para gerar campos aleatrios gaussianos

    do pacote RandomFields (Schlather, 2009) e o ferramental para uso de processos pontuais

    implementado pelo pacote spatstat (Baddeley & Turner, 2005).

    A implementao do processo composto M2P2 a provida por Ramos et al. (2010).

    O sistema de simulaes, ento, efetua as etapas enuciadas abaixo, com elementos refe-

    renciados do diagrama da figura 2.8.

    Gerao do sinal de origem: gera-se um campo aleatrio gaussiano (V ).

    Deposio dos sensores: os sensores so depostos (S).

    Agrupamento dos sensores: executa-se um algoritmo de agrupamento ().

    Amostragem: os dados so coletados na forma (x, y), onde x denota o posicionamento ge-

    ogrfico e y uma ocorrncia da varivel aleatria Y , que representa os dados amos-

    trados no ponto x (V ). Ao se utilizar um algoritmo de agrupamento, cada clusterhead

    efetua uma fuso dos dados de seu cluster e os valores coletados seguem com o posi-

    cinamento geogrfico do clusterhead; apenas a informao fundida transmitida, da

    mesma forma utilizada por Nordio et al. (2010).

  • 3.2. IMPLEMENTAONA PLATAFORMA R 37

    Reconstruo do sinal: o sinal reconstrudo por um algoritmo de kriging (F ).

    Para que os resultados sejam os mais realistas o possvel, so analisados sensores de-

    postos atravs do processo M2P2 com coeficiente de atratividade 1, 0, 5 e 30. Em cadacampo gaussiano os sensores so depostos em suas cinco configuraes; em cada uma das

    configuraes executam-se os dois algoritmos de agrupamento (sees 2.5.1 e 2.5.2), alm

    de uma verso sem considerar agrupamentos; executam-se os trs algoritmos de kriging

    (sees 2.4.1 e 2.4.2); no algoritmo de kriging simples efetua-se a mdia informada, com-

    putada por mnimos quadrados ordinrios e computada por mnimos quadrados generali-

    zados, considerando os valores de covarincia inferidos; no kriging bayesiano efetua-se o

    algoritmo em sua forma tradicional, com mdia informada e com mdia computada por

    mnimos quadrados generalizados consedirando os valores de covarincia inferidos. O di-

    agrama da figura 3.9 ilustra o modo como as simulaes se processam, considerando que

    cada transio (representa pelas setas) deve contemplar todos os parmetros.

    Figura 3.9: Diagrama ilustrativo do sistema de simulaes

  • 3.3. AMBIENTE DE EXECUO 38

    3.3 Ambiente de execuo

    A execuo das simulaes demanda grande poder computacional. Para tornar vivel a exe-

    cuo de um estudo Monte Carlo com as variveis supracitadas utiliza-se de um ambiente

    de computao de alto desempenho.

    O ambiente em questo o cluster de computadores integrado GradeBR-UFAL, inte-

    grado Rede Galileu (integrao dentre supercomputacores de quatro instituies: UFAL,

    UFRJ, PUC-Rio e USP) do Laboratrio de Computao Cientfica e Visualizao da Uni-

    versidade Federal de Alagoas. Este cluster composto de aproximadamente 170 ns com

    dois processadores, cada um destes com quatro ncleos de processamento Intel Nehalem

    (Intel Corporation, 2008), e 24GB de memria RAM. Entretanto o cluster ainda se encontra

    em fase de implantao, no havendo disponibilidade de grande parte de seus ns, nem de

    grades perodos para computaes.

    O sistema de paralelizao das simulaes foi desenvolvido em linguagem C (ver c-

    digo 3.1), utilizando a interface de paralelizao MPI (Walker & Dongarra, 1994). A imple-

    mentao desta interface a OpenMPI (Gabriel et al., 2004), portvel diversas plataformas

    (GNU Linux,MacOS,MicrosoftWindows, BSD e diversosmodelos baseados emUnix). O sis-

    tema operacional utilizado o GNU Linux CentOS (http://centos.org) verso 5.4, kernelverso 2.6.18-164.el5 compilado para x86_64 (arquitetura amd64). O compilador utilizado

    o Intel Compiler verso 11 (http://software.intel.com/en-us/intel-compilers).

    1 cont

  • 3.4. RESULTADOS ESPERADOS 39

    20 Se rank = 021 {22 Se cont >= Total de arquivos23 incompleto

  • IVAnlise dos resultados

    Will Frank Harrell or someone else please explain to me a real application in which this is

    not fast enough?

    Brian D. Ripley

    R-devel (dezembro de 2004)

    UMA vez comos dados da simulaomodelada no captulo 3, procedeu-se a anlise esta-tstica. Como as simualaes foram efetuadas atravs do mtodo de Monte Carlo porFora Bruta (Metropolis & Ulam, 1949; Murray, 1953; Robert & Casella, 1999), analisaram-se

    o vis, a varincia e o erro quadrtico mdio dos estimadores.

    Um aspecto importante na contruo desse processo a defino da ferramenta utili-

    zada para a simulao. Como j apresentado na seo 3.2, a plataforma adotada foi o R

    (R Development Core Team, 2009), devido a suas boas propriedades numricas. O uso de

    outras plataformas foi avaliado, especifiamente plataformas de planilhas eletrnicas.

    4.1 Implementao de simulaesMonte Carlo na literatura

    A literatura sobre simulaes de Monte Carlo extremamente vasta. Uma busca simples

    no ISI Web of Knowledge/Web of Science com a chave monte carlo retorna mais de 100.000

    resultados.

    Encontram-se disponveis diversos estudos que implementam simulaes Monte Carlo

    utilizando planilhas eletrnicas. Dentre diversos outros, pode-se citar trabalhos, como o

    de Li & Low (2010), que apresenta uma nova metodologia para anlise de riscos na sade

    pblica; Tatone & Grasselli (2010) com uma modelagem probabilstica para o tombamento

    de blocos com implementao baseada em planilhas eletrnicas; Schilstra &Martin (2009)

    40

  • 4.2. CRITRIOS PARA PESQUISA REPRODUZVEL 41

    afirma que resultados interessantes de aplicaes simples sempre podem ser obtidos por si-

    mulao deMonteCarlo emplanilhas eletrnicas; Rivard et al. (2009) efetua anlises de ben-

    chmark para um equipamento de braquiterapia; Oscar (2009) modela a vida e crescimento

    da salmonela.

    Um maior destaque se d a trabalhos com grande nmero de citaes, como o de

    Thompson et al. (1992), que extende modelagens da anlise de riscos na sade pblica;

    Lindqvist & Westoo (2000) modelam uma avaliao de riscos ecotoxicolgicos em bacias;

    e o de Vose (1998), que apresenta mtodos para anlise da contaminao de gneros ali-

    mentcios. Esses trs ltimos trabalhos possuem mais de 40 citaes no ISI Web of Kno-

    wledge/Web of Science, sendo os atualmentemais citados em uma busca com a chave spre-

    adsheet monte carlo.

    O uso das planilhas eletrnicas bastante difundido devido a sua facilidade de uso,como

    pode ser visto no stio da European Spreadheet Risks Interest Group (2010). Nele podem ser

    encontrados diversos casos de uso bem como histrias de desastres por erros em planilhas.

    Ao mesmo tempo h diversos artigos na literatura que criticam o uso de planilhas em

    aplicaes estatsticas devido a problemas numricos que lhes so recorrentes (ao exem-

    plo de, dentre diversos outros,McCullough, 2008a,b, 2004, 1999, 1998;McCullough & Heiser,

    2008; McCullough &Wilson, 2005, 2002, 1999; Nash, 2008, 2006). Entretanto, no incio deste

    trabalho apenas foram encontradas disponveis na literatura anlises doMicrosoft Excel at

    a verso 2003 e GNU Gnumeric; nada foi encontrado sobre outras planilhas eletrnicas, a

    exemplo do OpenOffice.org Calc, a mais difundida dentre a comuindade Open Source. Isso

    motiva a uma sria avaliao das propriedades numricas das planilhas eletrnicas antes de

    seu uso.

    4.2 Critrios para pesquisa reproduzvel

    Para que a pesquisa possa ser validada por outros pesquisadores, a mais importante de suas

    caractersticas a reproducibilidade. S atravs da capacidade de reproduzir os experimen-

    tos e verificar a consistncia dos dados se podem avaliar a corretude dos resultados e a per-

    tinncia das concluses.

    O modelo adotado para suprir esta propriedade est detalhado por Koenker & Zeileis

    (2009), almde uma vasta quantidadede informaes disponibilizadaspor Vandewalle et al.

    (2009). As principais caractersticas necessrias s experinciasMonte Carlo so:

    independncia de plataforma de sistema operacional;

    independncia de plataforma de hardware;

    capacidade de reproduzir a sequncia de nmeros pseudoaleatrios;

    boas propriedades numricas.

  • 4.2. CRITRIOS PARA PESQUISA REPRODUZVEL 42

    Efetuou-se esta anlise nas planilhas eletrnicas mais difundidas, cujo contedo deta-

    lhado pode ser obtido no trabalho de Almiron et al. (2010). As plataformas avaliadas, cujas

    verses e arquiteturas de sistema esto apresentadas na tabela 4.1, foram:

    OpenOffice.org Calc (http://www.openoffice.org/product/calc.html)

    Microsoft Excel (http://www.microsoft.com/Excel)

    GNU Gnumeric (http://www.gnome.org/gnumeric)

    NeoOffice NeoCalc (http://neowiki.neooffice.org/index.php/NeoCalc)

    GNUOleo (http://www.gnu.org/software/oleo).

    Plataforma Calc Excel Gnumeric NeoOffice OleoHardware OS 2.4.1 3.0.1 2007 2008 1.8.3 1.9.1 2.2.5 3.0 1.99.16

    Windows ! ! ! !i386

    Ubuntu ! ! ! !

    amd64 Mac OS ! ! ! !

    Tabela 4.1: Plataformas de planilhas eletrnicas avaliadas

    Para avaliar os geradores de nmeros pseudoaleatrios, adotaram-se os princpios de

    Ripley (1990, 1987), que diz que bons geradores de nmeros pseudoaleatrios devem prover

    sequncias numricas com as seguintes propriedades:

    1. devem seguir a distribuio uniforme;

    2. vetores de dimenso moderada de variveis aleatrias diferentes, mas do mesmo ge-

    rador, devem ser coletivamente independentes;

    3. devem ser reproduzveis atravs de poucos parmetros simples de especificar (a se-

    mente), independente do ambiente computacional (hardware, sistema operacional,

    linguagem de programao),

    4. devem ser produzidas rapidamente,

    5. devem possuir longos perodos.

    Apenas atravs destes parmetros, simulaes Monte Carlo j se tornam inviveis em

    planilhas eletrnicas, visto que apenas numa delas h documentao e possibilidade de in-

    formar a semente (Excel 2007). De acordo com sua documentao, o gerador de nmeros

    pseudoaleatrios implementado seria o de Wichmann & Hill (1982), entretanto, seguindo

    a mesma metodologia de McCullough (2008a), pde-se verificar que essa informao est

    incorreta. O gerador tambm no corresponde a nova verso deste gerador proposta por

  • 4.3. DADOS OBTIDOS COM A SIMULAO 43

    Calc Excel 2007 Excel 2008 Gnumeric NeoOffice Oleo

    Documentao N S-incorreta N S N NSemente N S N N N N

    Tabela 4.2: Documentao e disponibilidade de informar a semente em geradores de nme-ros pseudoaleatrios de planilhas eletrnicas

    Wichmann & Hill (2006). A situao dos geradores dessas planilhas est resumida na ta-

    bela 4.2.

    No ambiente adotado, o R, h diversos geradores de nmeros pseudoaleatrios imple-

    mentados. O gerador atualmente padro e utilizado neste trabalho o Mersenne-Twistter

    (Matsumoto & Nishimura, 1998), que possui todas as propriedades supracitadas, com um

    perodo de 2199371.

    4.3 Dados obtidos com a simulao

    Os dados resultantes do ensaio Monte Carlo foram os campos gaussianos reconstrudos, o

    valor dos parmetros e e o valor estimado para a mdia, nos casos em que esta no foi

    informada.

    Para garantir a fidelidade nos valores a serem comparados, uma vez com os parme-

    tros estimados os campos gaussianos so reconstrudos atravs da mesma funo que os

    gerou. O valor das mdias tambm utilizado na reconstruo e analisado isoladamente.

    Essa ltima anlise se torna relevante uma vez que, excesso do kriging ordinrio que pos-

    sui estimador prprio para a mdia, os algoritmos so flexveis no modo como a mdia

    computada. Tanto ela pode ser informada como estimada por padro atravs de mnimos

    quadrados generalizados. Essa operao pode ter custo computacional invivel sistemas

    de tempo real.

    4.4 Anlise da qualidade do sinal reconstrudo

    Conforme apontado por Diggle & Ribeiro Jr. (2007), o modelo de correlaoMatrn omais

    utilizado por apresentar comportamento de interesse a diversos cenrios e possuir para-

    metrizao no s de distanciamento () como tambm de suavizao de suas curvas ().

    Assim sendo, as anlises deste trabalho consideram esse modelo de correlao.

    4.4.1 Anlise do comportamento dos parmetros domodelo

    Para a estimao dos parmetros e necessrio informar um ponto de partida para o

    algoritmo. Em ambos os casos o valor informado foi 0,5, que, nos resultados onde se obteve

  • 4.4. ANLISE DA QUALIDADE DO SINAL RECONSTRUDO 44

    dados suficientes para anlise (100 replicaes), coincidiu com o valor real do parmetro .

    O valor encontrado pelo estimador do parmetro foi este informado como partida (valor

    correto). Os resultados das estimativas do parmetro encontram-se na tabela 4.3.

    Kriging

    Agrupamento Simples Ordinrio Bayesiano

    Vis EQM Vis EQM Vis EQM

    0,267981 11.26781 1,2875495 2.101374 0,07658597 0.007924418LEACH 6,98646 120,6482 8,78553 172,2060 2,135116 4,571751SKATER 3,47729 48,02378 274.238 81109 1,193697 8.668885

    Tabela 4.3: Vis e EQM dos estimadores do parmetro para o valor real de = 5 e = 0,5

    Nos cenrios avaliados, o modo como amdia foi informada no influenciou na estima-

    tiva do parmetro . O kriging bayesiano apresentou resultado qualitativo muito superior

    aos demais. O estimador utilizado pelo kriging ordinrio apresenta desvio muito grande, se

    comparado aos outros algoritmos.

    No caso do algoritmode agrupamento LEACH, a ordemdequalidade se repete, conforme

    a tabela. As diferenas qualitativas no estimador de so bastante acentuadas, reforando

    a qualidade superior nos dados providos pelo kriging bayesiano. Os resultados do algoritmo

    de agrupamento SKATER so superiores qualitativamente aos do LEACH, mas consideravel-

    mente inferiores aos sem agrupamento, excesso do kriging ordinrio, que apresenta uma

    estimativa totalmente desviada do valor correto neste cenrio.

    Dentre os trs tipos de kriging avaliados quanto a este estimador do parmetro , o kri-

    ging bayesiano apresentou os melhores resultados. Estes resultados so melhores ainda ao

    no se utilizar algoritmos de agrupamento. Para o caso com algoritmo de agrupamento,

    o SKATER apresenta os melhores resultados, excesso do kriging ordinrio, que apresenta

    umvis extremamente alto, indicandopossveis problemas do estimador como cenrio ava-

    liado. Note-se que o comportamentodo estimador utilizadopelo kriging bayesiano sem uso

    de algoritmo de agrupamento, mesmo sendo inferior aos demais, no apresenta vis muito

    alto.

    Como formade se obter umamedida unificadade qualidade,utiliza-se o ErroQuadrtico

    Mdio (EQM ver definio 40). Neste, obtm-se uma conceituao que leva emconta o vis

    e a varincia.

    Em todos os casos o estimador utilizado pelo kriging bayesiano apresenta resultados

    qualitativamentemuito superiores ao demais algoritmos. O destaque aindamaior quando

    no se usa algoritmo de agrupamento, onde o EQM reduz-se para menos de 102. exces-

    so dos resultados sem uso de algoritmo de agrupamento, onde o kriging ordinrio supera

    os do kriging simples, este apresenta resultados superiores aos daquele. Os resultados do

    algoritmo SKATER so superiores aos do algoritmo LEACH, mas bastante inferiores se com-

  • 4.4. ANLISE DA QUALIDADE DO SINAL RECONSTRUDO 45

    parados aos sem uso de algoritmo de agrupamento.

    4.4.2 Anlise do campo gaussiano reconstrudo

    A anlise dos campos gaussianos reconstrudos divide-se em duas fases. Na primeira,

    analizam-se os dados de interpolao provenientes das funes de kriging;na outra, os cam-

    pos so reconstrudos com base nas estimativas dos parmetros.

    Amedida de qualidade adotada neste trabalho amesmausada porAlencar-Neto(2008):

    o erro absoluto relativo, descrito como

    = 1104

    100i , j=1

    g (i , j ) g (i , j )g (i , j ) , (4.1)

    onde g representa o campo gaussiano original e g o campo gaussiano recostrudo.

    Campos reconstrudos por kriging

    A mdia dos erros absolutos relativos oriundos dos campos reconstrudos pelo processo de

    kriging em cada um dos cenrios avaliados esto expostas na tabela 4.4.

    Kriging Simples commdia: Sem cluster LEACH SKATER

    Informada 1,767403e-06 1,677676e-06 2,518104e-06Mnimos Quadrados Ordinrios 1,660393e-06 1,484805e-06 2,296276e-06Mnimos Quadrados Generalizados 1,672886e-06 1,555376e-06 2,299960e-06

    Kriging Ordinrio commdia:

    Inferida 1,545347e-06 1,572371e-06 4,322422e-06

    Kriging Bayesiano commdia:

    Inferida 1,565611e-06 2,567227e-06 3,256432e-06Mnimos Quadrados Generalizados 1,565611e-06 2,567227e-06 3,256432e-06

    Tabela 4.4: Mdia dos erros absolutos relativos dos campos reconstrudos pelo processo dekriging com = 0,5 e = 5

    Os trs tipos de kriging apresentam resultados de prximos. Sem o uso de algoritmo

    de agrupamento e para o algoritmo LEACH, o kriging ordinrio apresenta os melhores re-

    sultados qualitativos no sinal reconstrudo. Para o algoritmo SKATER, o kriging bayesiano

    apresenta os melhores resultados.

    Concordantemente aos resultados anteriores, os menores valores de de so obtidos

    sem o uso de algoritmo de agrupamento. Dentre os dois algoritmos avaliados, o LEACH

    apresenta os melhores resultados.

  • 4.4. ANLISE DA QUALIDADE DO SINAL RECONSTRUDO 46

    Campos reconstrudos a partir dos parmetros estimados

    Comos valores dos parmetros estimados, o campo gaussianooriginal foi reconstrudo atra-

    vs damesma funo que o gerou, conforme o algoritmoapresentadono cdigo 4.1. Se g a

    funo que gera o campo gaussiano com os valores reais do parmetro (), a mesma funo

    com os parmetros estimados () constituir a funo g , estimador de g ().

    Para g computam-se asmesmas anlises efetuadas nos parmetros (vis, varincia e erro

    quadrticomdio).

    1 Para cada simulacao efetuada2 {3 campo

  • 4.5. ANLISE DO TEMPONECESSRIO RECONSTRUODO SINAL 47

    Kriging Simples commdia: Sem cluster LEACH SKATER

    Mnimos Quadrados Ordinrios 4,750628e-08 1,546162e-06 8,08544e-07Mnimos Quadrados Generalizados 2,46977e-07 1,546162e-06 7,73929e-07

    Kriging Ordinrio commdia:

    Inferida 1,671397e-07 1,857702e-06 8,08544e-07

    Kriging Bayesiano commdia:

    Inferida 1,671397e-07 3,302198e-06 1,872057e-07Mnimos Quadrados Generalizados 1,671397e-07 3.302198e-06 1.375265e-06

    Tabela 4.6: Mdia dos erros absolutos relativos dos campos reconstrudos pelos parmetrosinferidos para = 0,5 e = 5 e mdia = 100

    4.5 Anlise do tempo necessrio reconstruo do sinal

    Redes de Sensores sem Fios so utiliadas nos mais diversos cenrios e, dentre diversos ou-

    tros, muitos envolvemdeteco de riscos iminentes, bem como incndios em florestas, con-

    centrao de gases txicos (Akyildiz et al., 2002; Sha et al., 2006; Lloret et al., 2009). Nessas

    aplicaes, o tempo necessrio reconstru do sinal crucial, dado que a funo do sis-

    tema o combate ao fator, que em pouco tempo se propaga atingindo propores cada vez

    maiores.

    Assim sendo, no basta que a tcnica utilizada para a reconstruo do sinal seja efici-

    ente na qualidade dos dados, mas que seja eficaz no tempo de reconstruo. Este problema

    est referenciado em diversos trabalhos, dentre os quais, os de Sha et al. (2006); Lloret et al.

    (2009); Fierens (2009) e Tsow et al. (2009).

    importante ressaltar que isso se d a depender dos recursos computacionais. Mesmo

    que atualmente no haja alternativa disponvel, possvel que em alguns anos, com o au-

    mento do poder computacional disponvel, esse tpico seja preterido.

    4.6 Consideraes acerca dos dados obtidos

    Em virtude da alta demanda computacional requerida pelo processo de kriging bayesiano

    e do fato do cluster da GradeBR-UFAL no ter sido entregue, foram realizadas simulaes

    de poucos cenrios. Entretanto, encontra-se em andamento a simulao de diversos outros

    cenrios que faro parte de um trabalho resultante desta pesquisa, a ser publicado.

  • VResultados e discusses

    It was simple, but you know, its always simple when youve done it.

    Simone Gabbriellini

    R-help (agosto de 2005)

    A anlise dos dados do captulo 4 permitiu observar amaior qualidade dos dados geradospelo algoritmo de kriging bayesiano na maioria dos cenrios avaliados. Entretantoele no apresenta bom comportamento com o algoritmo LEACH. Neste cenrio o kriging

    simples apresentou os melhores resultados.

    Algo a se considerar que nem sempre sua utilizao vivel em decorrncia de sua

    necessidade de alto poder computacional (ver seo 4.5). exemplo, sistemas de tempo real

    no so suscetveis a computaes de longos perodos de tempo; necessrio que a reao

    seja imediata solicitao.

    O sinal reconstrudo diretamento pelos algoritmosde kriging apresentamaior qualidade

    que os gerados pela mesma funo utilizada para a construo dos campo gaussianos de

    amostras, informando as estimativas dos parmetros e . Esta ltima situao, excesso

    da emque se utiliza o kriging bayesiano, necessita demenor tempo de computao,uma vez

    que a interpolao no necessita ser efetuada, basta estimar os parmetros e inform-los

    funo que gera campos gaussianos.

    O kriging que necessita de menor tempo para estimao dos parmetros e reconstruo

    do campo gaussiano o ordinrio. Os parmetros e estimados no apresentam resul-

    tados superiores ao kriging simples, mas os resultados da reconstruo dos campos gaussi-

    anos superior ao kriging simples em todos os cenrios avaliados que no o do algoritmo

    LEACH.

    O kriging ordinrio, ento, apresenta os melhores resultados na relao qualidade dos

    parmetros estimados / tempo de execuo, uma vez que no se conseguiu obter execu-

    48

  • 4.6. CONSIDERAES ACERCA DOS DADOS OBTIDOS 49

    o de reconstruo por kriging bayesiano em menos de uma hora e trinta minutos, numa

    das estaes especificadas no capitulo 3. importante ainda considerar que os exemplos

    simulados neste trabalho possuam apenas 100 100 pontos; num caso real esse nmeropode ser de escalas bem maiores, o que pode elevar muito o tempo de execuo. Mesmo

    os resultados do kriging bayesiano sendo em geral superiores qualitativemente, ele s pode

    ser utilizado quando houver grande poder computacional e/ou no houver necessidade de

    resultados rpidos.

    Para o kriging bayesiano foi avaliada uma variante proposta neste trabalho, que consiste

    na incluso da informao a priori do parmetro de mdia, transformada numa constante

    para o sistema de reconstruo. Essa abordagem possibilitou reduo no tempo necessrio

    de processamento, uma vez que a computao da mdia deixa de ser por inferncia baye-

    siana e passa a ser efetuada por mnimos quadrados ge