Entropia da Informa ̧c ̃ao Conjunta em Distribui ̧c ̃oes Bivariadas

Embed Size (px)

DESCRIPTION

Este resumo tem como objetivo obter um resultado para o cálculo de entropia conjunta entre duascoordenadas de uma variavel aleatóoria bidimensional parametrizada por uma função densidade de probabilidade ou não. Tal passo faz parte de um esforço para obter a entropia e a informação mútua de uma variável aleatóoria bidimensional modelada por Modelo de Misturas.

Citation preview

  • Entropia da Informacao Conjunta em Distribuicoes Bivariadas

    Adelino Pinheiro Silva

    2015, v-0.0

    Resumo

    Este resumo tem como objetivo obter um resultado para o calculo de entropia conjunta entre duascoordenadas de uma variavel aleatoria bidimensional parametrizada por uma funcao densidade deprobabilidade ou nao. Tal passo faz parte de um esforco para obter a entropia e a informacao mutuade uma variavel aleatoria bidimensional modelada por Modelo de Misturas.

    No presente texto sao apresentadas tecnicas de modelagem e visualizacao de dados baseados emGaussianas bidimensionais, tecnicas de extracao da entropia da informacao e um breve estudocomparativo entre os metodos.

    Palavras-chaves: Entropia da Informacao, Entropia Conjunta, Gaussiana Bidimensional.

    Gaussiana Bidimensional

    Um distribuicao gaussiana bidimensional (ou bivariada) nao singular de variaveis [XY ]T pode serrepresentada da forma (KAY, 2006):

    f(x, y) = 12piXY

    1 2 exp

    ( 12(1 2)

    [(x X)2

    2X+ (y Y )

    2

    2Y 2(x X)(y Y )

    XY

    ])(1)

    Onde e a correlacao entre as variaveis X e Y , o vetor de medias e a matriz variancia conforme:

    =(XY

    ), =

    (2X XY

    XY 2Y

    )

    Por tratar-se de uma funcao densidade de probabilidade (pdf - probability density function) ela obedecea`s seguintes propriedades:

    f(x, y)dxdy = 1 e f(x, y) 0

    No plano xy as curvas de nvel da funcao densidade de probabilidade formam elipses obtidas quando oargumento da exponencial e constante, ou seja:

    1(1 2)

    [(x X)2

    2X+ (y Y )

    2

    2Y 2(x X)(y Y )

    XY

    ]= K2

    Onde K pode ser escolhido como um multiplo do desvio padrao (CASELLA; BERGER, 2011), e ovalor da probabilidade sobre a curva de nvel pode ser encontrado da forma:

    p(K) = 12piXY

    1 2 exp

    (K

    2

    2

    )

    1

  • Figura 1 Gaussiana Bivariada, superfcie da pdf e curvas de nvel.

    Observando as elipses e possvel obter os valores dos semi-eixos maiores e menores e o angulo de rotacaoa partir dos autovalores e autovetores ~v da matriz 1.

    Para a pdf tem-se as probabilidades marginais definidas da forma:

    f(x) =

    f(x, y)dy e f(y) =

    f(x, y)dx

    Resultando em:

    f(x) = 12piX

    exp

    (12

    (x X)22X

    )e f(y) = 1

    2piYexp

    (12

    (y Y )22Y

    )

    E as probabilidades condicionadas, conforme (CASELLA; BERGER, 2011) e (KAY, 2006):

    f(x|y) = f(x, y)f(y) =

    1X

    2pi(1 2)exp( 12(1 2)

    [(x X)2

    2X (y Y )

    2

    2Y 2(x X)(y Y )

    XY

    ])e

    f(y|x) = f(x, y)f(x) =

    1Y

    2pi(1 2)exp( 12(1 2)

    [(x X)

    2

    2X+ (y Y )

    2

    2Y 2(x X)(y Y )

    XY

    ])

    Na solucao encontrada, nota-se que, se a correlacao entre x e y = 0, tem-se f(y|x) = f(y) ef(x|y) = f(x).

    Entropia da Informacao e Informacao mutua

    A definicao proposta por Shannon (1948) de entropia da informacao para uma funcao densidade deprobabilidade contnua f(x) e:

    H(X) =

    f(x)log(f(x))dx = 12(1 + log(2pi)) +12 log(

    2X) (2)

    [email protected] O Anexo B apresenta a origem dos parametros da elipse a partir de X , Y e

    2

  • A unidade de medida da entropia da informacao depende da base do logaritmo aplicado, para ologaritmo de base dois a unidade de entropia sera bit, para o logaritmo natural a unidade de entropiasera nat (natural unit of information - unidade natural de informacao) e para logaritmo de base 10 odecibel [dB]. Para uma funcao gaussiana bivariada f(x, y) tem-se sua entropia da forma:

    H(X,Y ) =

    f(x, y)log(f(x, y))dxdy = (1 + log(2pi)) + 12 log(||) (3)

    A entropia condicionada de uma variavel aleatoria X em relacao a Y e calculada como:

    H(X|Y ) =

    f(x, y)log(f(x, y)f(y)

    )dxdy (4)

    A figura 2 a seguir (GUYON et al., 2008) relaciona a entropia de duas variaveis aleatorias com asentropias conjunta, condicionada e a informacao mutua, a ultima definida como:

    I(X,Y ) =

    f(x, y)log(f(x, y)f(x)f(y)

    )dxdy (5)

    Como colocado por Guyon et al. (2008), a informacao mutua mede a dependencia entre as variaveisX e Y , ela desaparece se e somente se f(y, x) = f(y)f(x), que e o caso em que as probabilidadeconjunta das variaveis X e Y pode ser fatorada em suas probabilidades marginais, que e a condicao deindependencia.

    Ainda e possvel obter entre as probabilidades marginais de X e Y a entropia cruzada, neste textodenotada como:

    H(X Y ) =

    f(x)log (f(y)) (6)

    A entropia cruzada entre duas pdfs mede a quantidade media de nats necessaria para identificarum acontecimento de um mesmo conjunto de probabilidade, se um esquema de codificacao e baseadoem uma funcao densidade de probabilidade f(y) em vez da verdadeira distribuicao f(x). A entropiacruzada tambem pode ser definida da forma:

    H(X Y ) = H(X)DKL(X||Y )

    Onde DKL(X||Y ) e a divergencia de Kullback-Leibler entre as variaveis X e Y e pode ser obtida daforma:

    DKL(X||Y ) =

    f(x)log(f(x)f(y)

    )(7)

    A divergencia de Kullback-Leibler e uma metrica assimetrica entre as probabilidades de X e Y quemede quanto de informacao e perdida quando utiliza-se f(y) para aproximar f(y) (GUYON et al.,2008).

    O trabalho de Shaw (1981) descreve as propriedades de taxa de entropia de sistemas dinamicosnao-lineares. Se a taxa de variacao da entropia de um sistema e conhecido e possvel determinar seo sistema opera em regime caotico, caso a taxa de entropia e maior que zero, ou nao caotico, comtaxa de variacao de entropia menor que zero. Uma taxa de variacao de entropia positiva pode serinterpretada como um ganho de informacao e permite refinar as informacoes sobre suas condicoesiniciais desconhecidas alem de fornecer um limite de desempenho complementar para modelos de sinalestocastico lineares.

    A informacao mutua tambem pode ser obtida das entropias, que para uma gaussiana bivariada assumea forma:

    I(X,Y ) = H(X) +H(Y )H(X,Y ) = 12 log( 1

    1 2)

    3

  • I(X,Y )H(X|Y ) H(Y |X)

    H(X,Y )

    H(X) H(Y )

    Figura 2 Ilustracao da Entropia e Informacao mutua

    Nota-se que para uma funcao gaussiana bivariada a informacao mutua esta relacionada com a correlacaoentre as dimensoes X e Y . Ainda e possvel obter a entropia cruzada e a divergencia de Kullback-Leiblerentre duas distribuicoes normais unidimensionais da forma:

    H(X Y ) = 12

    (log(2pi)

    2X + (y X)2

    2Y+ 2 log

    (Y2X

    ))

    DKL(X||Y ) = 12

    (2X + (y X)2

    2Y 1 + log

    (2Y2X

    ))

    Para casos em que a relacao entre as variaveis aleatorias X e Y nao e uma correlacao linear ou que aprobabilidade conjunta nao possa ser descrita como uma gaussiana bivariada, o valor da informacaomutua nao e tao simples de ser obtido.

    11

    I(X,Y )

    2

    (0, 0)

    1.5

    1

    0.5

    0.50.5

    Figura 3 Relacao entre a correlacao e Informacao mutua I(X,Y )

    Tecnicas para Calculo de Informacao mutua

    Para estimar entropia e a informacao mutua de variaveis aleatorias discretas basta aplicar diretamentea definicao de Shannon (1948). Entretanto, para variaveis aleatorias contnuas amostradas, que e oescopo do presente texto, faz-se necessaria a aplicacao de um metodo de estimacao de densidade,podendo ser nao parametrica como histograma, ou parametrica como um modelo e mistura.

    Ainda e possvel calcular a informacao mutua I(X,Y ) entre X e Y de forma direta como Fraser eSwinney (1986) ou Bernhard e Kubin (1994), ou atraves do calculo das entropias proprias H(X), H(Y )

    4

  • e conjunta H(X,Y ). Nestes casos a estimacao da entropia pode ser por histograma das probabilidades,conjunta e marginal (GONCALVES, 2008), ou por parametrizacao das pdfs marginais f(x) e f(y) econjunta f(x, y) por um modelo de mistura de gaussianas (GMM - Gaussian Mixture Model) (HUBERet al., 2008).

    A estimacao de densidade de probabilidade nao parametrica e realizada pela ponderacao de uma funcaode nucleo (ou kernel). Silverman (1986) e Scott (2015) mostram que a densidade de probabilidadeestimada f(x) e definida da forma:

    f(x) = 1Nh

    Ni=1

    K

    (x xih

    )

    Onde N e o numero de amostras da variavel aleatoria e h o intervalo do domnio de x que a funcaokernel K(x) abrange. Para o caso em que a funcao K(x) e uma distribuicao uniforme com h constante,f(x) sera o histograma das N amostras.

    Para uma boa estimacao nao-parametrica Silverman (1986) e Scott (2015) obtem o valor h que e alargura otima que minimiza o erro quadratico medio, considerando uma funcao kernel gaussiana, emantem uma relacao de compromisso entre o vies e a variancia da densidade estimada. Tal regra econhecida como Regra de Referencia Normal.

    hi =( 4d+ 2

    ) 1d+4

    sin 1d+4 i = 1, ..., d (8)

    Onde d e o numero de dimensoes da amostra e si a variancia amostral da dimensao i. Goncalves (2008)propoe para variaveis aleatorias bidimensionais um valor de hot, igual para as duas dimensoes na forma:

    h 0, 85 min(s2X + s2Y

    2

    ) 12

    ,I(X) + I(Y )

    2

    n 16 (9)Onde I(i) = Q3(i) Q1(i) e a diferenca entre o terceiro e o primeiro quartil da dimensao i. Desta forma,a entropia a partir da funcao densidade estimada f(x) e calculada da forma:

    H(X) = Ni=1

    f(xi) log(f(xi)hX

    )

    H(X,Y ) = Nii=1

    Njj=1

    f(xi, yj) log(f(xi, yj)hXhY

    )(10)

    Ressalta-se que na equacao acima o intervalo pode ser igual nas duas dimensoes, com hX = hY e quef(xi) e f(xi, yj) sao as densidades estimadas, e tem como propriedade sua integral igual a 1.

    Uma estimacao parametrica da funcao densidade de probabilidade (pdf) de [XY ]T pode ser feitaatraves de uma mistura de K pdfs ponderadas (MCLACHLAN; PEEL, 2004), para o caso particularde uma mistura de Gaussianas tem-se:

    f(x, y) =Ki=1

    piN (x, y;i,i) (11)

    Onde N (x, y;i,i) e uma pdf normal no formato da equacao 1 e f(x, y) e um modelo de mistura degaussianas (GMM) que pode ser obtido a partir dos dados pelo algoritmo EM ou suas variacoes como

    5

  • EM ou fuzzy-EM2. Assim, tem-se a entropia do modelo de misturas como sendo:

    H(X,Y ) =

    Ki=1

    piN (x, y;i,i)log(

    Ki=1

    piN (x, y;i,i))dxdy

    Que pode ser reescrito da forma:

    H(X,Y ) = Ki=1

    piN (x, y;i,i)log(

    Ki=1

    piN (x, y;i,i))dxdy (12)

    Devido a extracao do logaritmo a entropia nao mantem relacao de linearidade, em consequencia disto,para calcular a entropia de uma GMM Huber et al. (2008) aproxima calculo do logaritmo por umaserie de Taylor; e na solucao da integral da equacao 12 Huber et al. (2008) apresenta os limites superiore inferior para o calculo da entropia e propoe uma expansao por serie de Taylor para o logaritmo,sendo os limites inferior Hi(X,Y ), superior Hs(X,Y ), e a expansao de ordem zero H0(X,Y ) pode sercalculado como:

    Hi(X,Y ) = Ki=1

    pilog

    Kj=1

    pjzij

    onde zij = N (i;j ,i + j) (13)

    Hs(X,Y ) =Ki=1

    pi (log(pi) + 12 log

    ((2pie)D|i|

    ))(14)

    e

    H0(X,Y ) = Ki=1

    pilog

    Nj=1

    pjN (Xi, Y i;j ,j) (15)

    E a expansao de segunda ordem H2(X,Y ) pode ser calculado como:

    H2(X,Y ) = H0(X,Y )Ki=1

    pi2 F (Xi, Y i) i (16)

    Onde e a operacao de matrix contradiction3 e F (x, y) e definido como:

    F (x, y) = 1f(x, y)

    Nj=1

    pj1j

    (1

    f(x, y)

    (x Xjy Y j

    )(f(x, y))T+

    (x Xjy Y j

    )(1j (x j)

    )T I)N (Xj , Y j ;j ,j)(17)

    E o gradiente f(x, y) pode ser calculado da forma:

    f(x, y) =[x

    x

    Ki=1

    piN (x, y;i,i) y x

    Ki=1

    piN (x, y;i,i)]T

    Resultando em:

    f(x, y) =Ki=1

    pi1i

    (x Xjy Y j

    )N (x, y;i,i) (18)

    Ainda sobre tecnicas para obtencao da entropia e da informacao mutua de um modelo parametrizadoe possvel, conhecido o limites das variaveis xi x xf e yi y yf , discretizar os intervalos2 Para mais informacoes consulte a revisao sobre GMMs3 c = AB =

    i

    jAij Bij

    6

  • nas series x[j] e y[i], respectivamente em N e M intervalos de largura hx e hy; e avaliar o modelode mistura na equacao discretizada como fH(x[j], y[i]) = f(x[j], y[i]) log(f(x[j], y[i])). Conhecida amatriz fH(x[j], y[i]) calcula-se a integral bidimensional atraves de uma tecnicas de integracao comotrapezoidal4

    H(X,Y ) = hxhy6N1j=1

    M11=1

    (fH(x[j], y[i]) + 2fH(x[j + 1], y[i])+

    2fH(x[j], y[i+ 1]) + fH(x[j + 1], y[i+ 1]))(19)

    Ou pela regra do13 de Simpson como sendo:

    H(X,Y ) = hxhy36N1j=1

    M11=1

    (F[i, j]A) (20)

    Sendo a operacao de matrix contradiction entre as matrizes F[i, j] e A definidas como:

    F[i, j] =

    fH(x[j], y[i]) fH(x[j]+x[j+1]

    2 , y[i]) fH(x[j + 1], y[i])fH(x[j], y[i]+y[i+1]2 ) fH(

    x[j]+x[j+1]2 ,

    y[i]+y[i+1]2 ) fH(x[j + 1],

    y[i]+y[i+1]2 )

    fH(x[j], y[i+ 1]) fH(x[j]+x[j+1]2 , y[i]) fH(x[j + 1], y[i+ 1])

    e A =1 4 14 16 4

    1 4 1

    A tecnica descrita por Fraser e Swinney (1986) e posteriormente aprimorada por Bernhard e Kubin(1994) consiste na divisao do plano onde delimitam-se as variaveis aleatorias [XY ]T em retangulosequiprovaveis onde cada eixo e dividido em sua mediana. Se a distribuicao de probabilidade for uniformeem um retangulo da subdivisao e computada a entropia ou informacao mutua, se a probabilidade naofor uniforme cada eixo e novamente dividido em suas medianas com cada eixo dividido em 2m divisoese o plano divido em 4m retangulos, onde m e o numero de particoes.

    x

    y

    (0, 0) 1 2 3 4

    1

    2

    3

    4

    0 1

    2 3

    0 1

    2 3

    x

    y

    (0, 0) 1 2 3 4

    1

    2

    3

    4

    0 1

    2 3

    0 1

    2 3

    0 1

    2 3

    Figura 4 No plano da direita uma subdivisao G2 divide cada eixo em 4 partes e o plano em 16retangulos enquanto na subdivisao G3 da esquerda cada eixo e dividido em 8 e o plano em 64

    retangulos. Na direita temos hachurado R2(0, 3) e na esquerda R3(0, 3, 1).

    Em seu trabalho Fraser e Swinney (1986) ainda define cada divisao por Gm, conforme indicado nafigura 4, Rm(Km) um sub conjunto de amostras que compoe a divisao Gm, e Km e o ndice ordenado(i, j) das 4m particoes, com i indexando as subdivisoes em x e j as subdivisoes em y. Associado a cadaparticao Gm tem-se as sequencias im e hm que convergem respectivamente para I(X,Y ) e H(X,Y )

    im =Km

    PXY (Rm(Km))log(

    PXY (Rm(Km))PX(Rm(Km)) PY (Rm(Km))

    )(21)

    4 O metodo de integracao por quadratura de Gauss-Legendre tambem pode ser utilizado e sera tema de uma exploracaomais profunda.

    7

  • G0

    G1

    G2

    G3

    0 1 2 3

    0

    0 1 2 3

    1

    0 1 2 3

    2

    0 1 2 3

    3

    0 1 2 3

    0

    0 1 2 3

    0 1 2 3

    1

    0 1 2 3

    2

    0 1 2 3

    3

    Figura 5 Na arvore da direita a subdivisao G2 divide 16 retangulos uniformes enquanto G3 daesquerda tem-se 19 retangulos uniformes. Na direita temos hachurado R2(0, 3) e na esquerda

    R3(0, 3, 1).

    ehm =

    Km

    PXY (Rm(Km))log (PXY (Rm(Km))) (22)

    Onde PXY e a funcao massa de probabilidade (pmf - Probability Mass Function) gerada da subdivisaodos eixos. Para uma subdivisao de ordem m que gera uma distribuicao uniforme nos eixos x e y, tem-se:

    PX(Rm(Km)) = PY (Rm(Km)) =(1

    2

    )mficando

    im = m log(4) +Km

    PXY (Rm(Km))log (PXY (Rm(Km))) = m log(4) + hm

    A organizacao de Gm pode ser realizada como uma matriz ou arvore hierarquica, ficando a informacaomutua escrita da forma:

    I(X,Y ) = 1N0

    F (R0(K0)) log(N0)

    Se a sub estrutura F (Rm(Km)) for uniforme tem-se:

    F (Rm(Km)) = N(Rm(Km))log (N(Rm(Km))) (23)

    Se F (Rm(Km)) nao for uniforme tem-se:

    F (Rm(Km)) = N(Rm(Km))log(4) +3j=0

    F (Rm+1(Km, j)) (24)

    Onde N0 e o numero total de amostras e N(Rm(Km)) e o numero de amostras na subestruturaRm(Km). Para a entropia H(X,Y ) tem-se as mesmas equacoes alterando a equacao 24 para o caso denao uniformidade de F (Rm(Km)) para:

    F (Rm(Km)) =3j=0

    F (Rm+1(Km, j)) (25)

    Para determinar a uniformidade de F (Rm(Km)) utiliza-se o teste 2 com intervalo de confianca de20% onde:

    N = N(Rm(Km)), ai = N(Rm+1(Km, i)) e bi,j = N(Rm+2(Km, i, j))

    23 =[

    169

    1N

    3i=0

    (ai N4

    )2]< 1, 547 (26)

    215 =

    256225

    1N

    3j=0

    3i=0

    (bi,j N16

    )2 < 1, 287 (27)8

  • Caso as duas desigualdades sejam falsas F (Rm(Km)) e nao uniforme.O aprimoramento de Bernhard e Kubin (1994) consiste em nao utilizar a recursao, construdo a arvorede dados sem subdividir todo o plano mas apenas dividindo os retangulos nao uniformes. Desta formabasta construir a arvore como da figura 5 e calcular a informacao mutua e entropia pelas mesmasregras utilizadas por (FRASER; SWINNEY, 1986).

    Comparacao entre as Tecnicas

    Para comparacao entre as tecnicas para o calculo da entropia conjunta em variaveis aleatorias bidimen-sionais foram implementados os seguintes cenarios:

    No domnio uniformemente distribudo 25 X 25, 25 Y 25, 1 X 5, 1 Y 5 e1 1 foram geradas 150 configuracoes de amostras, sendo 10 diferentes para formar 4, 8 ou 16grupos(clusters) de gaussianas bidimensionais; contendo 750, 2.500, 5.000, 10.000 ou 25.000 amostrasponderadas aleatoriamente em cada clusters; totalizando 150 cenarios, descritos a seguir, com suaslegendas indicadas entre parenteses. A tabela 2 no anexo C indica detalhes de cada ndice de cenario.

    Em cada cenario calculou-se a entropia e o tempo de execucao com as seguintes tecnicas:

    1. Calculo dos limites inferior e superior conforme as equacoes 13 e 14 de (HUBER et al., 2008)(HS(X,Y ) e HI(X,Y )).

    2. Calculo atraves de histograma com:

    a) h diferente para cada dimensao e calculado conforme equacao 8 de (SILVERMAN, 1986) e(SCOTT, 2015) (HH1(X,Y )).

    b) h igual para as duas dimensoes e calculado conforme equacao 9 de (GONCALVES, 2008)(HH2(X,Y ));

    3. Obtencao da entropia por (HUBER et al., 2008) a partir do GMM nas situacoes:

    a) Expansao de ordem zero pela equacao 15 (HG0(X,Y ));b) Expansao de segunda ordem pela equacao 16(HG2(X,Y ));

    4. Obtencao da entropia por integracao do GMM nas situacoes:

    a) Metodo trapezoidal pela equacao 19 para h = h conforme equacao 8 (SILVERMAN, 1986)e (SCOTT, 2015) (HT1(X,Y ));

    b) Metodo trapezoidal pela equacao 19 para h = h/8, conforme equacao 8, diferente para cadadimensao e calculado conforme (SILVERMAN, 1986) e (SCOTT, 2015) (HT2(X,Y ));

    c) Metodo de 1/3 de Simpson pela equacao 20 para h = h conforme equacao 8 (SILVERMAN,1986) e (SCOTT, 2015) (HS1(X,Y ));

    d) Metodo de 1/3 de Simpson pela equacao 20 para h = h/8, conforme equacao 8, diferente paracada dimensao e calculado conforme (SILVERMAN, 1986) e (SCOTT, 2015) (HS2(X,Y ));

    5. Calculo recursivo conforme equacao 22 (FRASER; SWINNEY, 1986) (HR1(X,Y ));

    Realizado o calculo da entropia nos 150 cenarios indicados foi contabilizado o tempo para obtencao doresultado e o valor de entropia computado por cada tecnica. Para fins de comparacao entre os valoresde entropia, o resultado de cada cenario foi normalizado entre 0 e 1 utilizando respectivamente oslimites inferiores e superiores de entropia das equacoes 14 e 15 obtidas dos parametros de geracao dosdados.

    A figura 6 apresenta o tempo gasto, em escala logartmica de base 10, para o calculo da entropia.Inicialmente nota-se que a tecnica nao parametrica baseada em histograma e sensvel ao tamanhoda amostra enquanto as demais apresentam variacoes com o numero de clusters utilizado no calculo

    9

  • do GMM. Conforme esperado, estimar um GMM e tao demorado quanto o tamanho da amostra e onumerode misturas, como esperado (vide figura 7).

    Quando somado o tempo para obtencao do GMM a`s tecnicas de estimacao da entropia tem-se queestas tornam-se extremamente dependentes do tempo de estimacao do GMM (figura 7), e neste cenarioas tecnicas baseadas em histograma e a recursiva foram mais satisfatorias, entretanto, a ultima aindaapresentou um tempo na ordem de 100 vezes maior que a primeira.

    Para avaliar o desempenho de cada tecnica foi definido um ndice de desempenho do calculo em relacaoa sua eficiencia como a quantidade percentual de cenarios em que uma determinada tecnica de obtencaoda entropia conjunta resultou entre os valores de estimativa inferior e superior. calculou-se tambem,para cada tecnica o erro quadratico medio (EQM), medido em nats, para os cenarios em que o valorda entropia ultrapassou os limites inferiores e superiores de entropia conjunta, indicando o quanto umareferida tecnica se distanciou, nos casos em que esteve fora dos limites teoricos das equacoes 13 e 14. Atabela 1 indica os valores obtidos.

    Figura 6 Tempo para o calculo da entropia.

    Figura 7 Tempo para o calculo do Modelo de Mistura de Gaussianas.

    10

  • Figura 8 Resultado normalizado do calculo da entropia.

    Tabela 1 Eficiencia no calculo da Entropia

    Tecnica HH1 HH2 HG0 HG2 HT1 HT2 HS1 HS2 HR1Eficiencia 50.0 % 51.3 % 0 % 18.0 % 72.7 % 73.3 % 71.3 % 73.3 % 0 %

    EQMsup[Np] 0.062 0.064 0 11.314 0.176 0.023 0.033 0.024 5.209EQMinf [Np] 0 0 2.581 0.070 0.074 0 0.003 0 35.205

    Tempo medio [ms] 1,3 1,3 0,6 2,4 9,1 504,6 36,4 2025,7 267,7

    Consideracoes finais

    Naturalmente este pequeno resumo sobre entropia conjunta nao busca esgotar o assunto mas sim servircomo referencia para calculos em dados bidimensionais normalmente distribudos ou nao.

    Levando em consideracao a relacao de compromisso entre tempo de calculo, eficiencia e valor do erro;as tecnicas HH1(X,Y ) e HH2(X,Y ) podem ser consideradas como melhores.Em relacao as tecnicas exploradas vale ressaltar que em caso de um modelo parametrico os resultadossao mais satisfatorios apesar do custo computacional de obtencao do modelo, pois sao independentesdo numero de amostras e possuem tempo de execucao razoavel, como por exemplo a tecnica HS1(X,Y ),que possui tempo medio na ordem de 36 ms com eficiencia de 71,3 % e erros inferior e superior de0.003 e 0.033 Np.

    Como proposta de continuidade o autor gostaria de incluir:

    Exploracao de diferentes cenarios no calculo de entropia conjunta. Exploracao dos trabalhos para obtencao a partir de tecnicas nao parametricas, estudo mais

    aprofundado para obtencao de um GMM com mais eficiencia e velocidade.

    Um aprofundamento das tecnicas de Huber et al. (2008) devido a velocidade e baixa sensibilidadeao tamanho da amostra;

    Aprofundamento das tecnicas baseadas em histograma e em formas de acelerar os algoritmosparametricos mais eficientes no calculo da entropia como proposto por Bernhard e Kubin (1994).

    Exploracao dos trabalhos de Nemenman, Shafee e Bialek (2001), Beirlant et al. (1997), Miller(2003) e Lesniewicz (2014).

    11

  • Exploracao no calculo de entropia cruzada, divergencia de Kullback-Liebler e informacao mutuaem diferentes sinais de voz.

    Referencias

    BEIRLANT, J. et al. Nonparametric entropy estimation: An overview. International Journal ofMathematical and Statistical Sciences, THESAURUS PUBLISHING, v. 6, n. 1, p. 1739, 1997. Citadona pagina 11.

    BERNHARD, H.-P.; KUBIN, G. A fast mutual information calculation algorithm. To appear in Proc.EUSIPCO, Citeseer, v. 94, p. 1, 1994. Citado 4 vezes nas paginas 4, 7, 9 e 11.

    CASELLA, G.; BERGER, R. Inferencia estatstica-traducao da 2 edicao norteamericana. CentageLearning, 2011. Citado 2 vezes nas paginas 1 e 2.

    DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern classification. [S.l.]: John Wiley & Sons., 2004.Citado na pagina 15.

    FRASER, A. M.; SWINNEY, H. L. Independent coordinates for strange attractors from mutualinformation. Physical review A, APS, v. 33, n. 2, p. 1134, 1986. Citado 3 vezes nas paginas 4, 7 e 9.

    GONCALVES, L. Entropia de Renyi e informacao mutua de Cauchy-Schwartz aplicadas ao algoritmode selecao de variaveis MIFS-U: um estudo comparativo. Dissertacao (Mestrado) Dissertacao demestrado em Engenharia Eletrica Pontifcia Universidade Catolica do Rio de Janeiro, RJ, Brasil., 2008.Disponvel em: .Citado 2 vezes nas paginas 5 e 9.

    GUYON, I. et al. Feature extraction: foundations and applications. [S.l.]: Springer, 2008. Citado napagina 3.

    HUBER, M. F. et al. On entropy approximation for gaussian mixture random vectors. In: IEEE.Multisensor Fusion and Integration for Intelligent Systems, 2008. MFI 2008. IEEE InternationalConference on. [S.l.], 2008. p. 181188. Citado 4 vezes nas paginas 5, 6, 9 e 11.

    KAY, S. Intuitive probability and random processes using MATLAB. [S.l.]: Springer Science &Business Media, 2006. Citado 2 vezes nas paginas 1 e 2.

    LESNIEWICZ, M. Expected entropy as a measure and criterion of randomness of binary sequences.Przegl ad Elektrotechniczny, v. 90, n. 1, p. 4246, 2014. Citado na pagina 11.

    MCLACHLAN, G.; PEEL, D. Finite mixture models. [S.l.]: John Wiley & Sons, 2004. Citado napagina 5.

    MILLER, E. G. A new class of entropy estimators for multi-dimensional densities. In: IEEE. Acoustics,Speech, and Signal Processing, 2003. Proceedings.(ICASSP03). 2003 IEEE International Conferenceon. [S.l.], 2003. v. 3, p. III297. Citado na pagina 11.

    NEMENMAN, I.; SHAFEE, F.; BIALEK, W. Entropy and inference, revisited. arXiv preprintphysics/0108025, 2001. Citado na pagina 11.

    SANTOS, R. J. Um curso de geometria analtica e algebra linear. Belo Horizonte: DM-ICEx-UFMG,2007. Citado na pagina 13.

    SCOTT, D. W. Multivariate density estimation: theory, practice, and visualization. [S.l.]: John Wiley& Sons, 2015. Citado 2 vezes nas paginas 5 e 9.

    12

  • SHANNON, C. A mathematical theory of distribution. Bell Syst Techn, v. 27, p. 623, 1948. Citado 2vezes nas paginas 2 e 4.

    SHAW, R. Strange attractors, chaotic behavior, and information flow. Zeitschrift fur NaturforschungA, v. 36, n. 1, p. 80112, 1981. Citado na pagina 3.

    SILVERMAN, B. W. Density estimation for statistics and data analysis. [S.l.]: CRC press, 1986.Citado 2 vezes nas paginas 5 e 9.

    ANEXO A Algumas Relacoes Matematicas Utilizadas

    12pia

    ex22a2 dx = 1

    12pia

    e(xb)22a2 dx = 1

    x2pia

    e(xb)22a2 dx = b

    x22pia

    e(xb)2a2 dx = b2 + a2

    ANEXO B Equacao da Curva de Nvel da Gaussiana Bivariada

    Dada a equacao de uma conica do tipo:

    Ax2 +Bxy + Cy2 +Dx+ Ey + F = 0

    Para B < 4AC tem-se a equacao geral da elipse, seu angulo de rotacao, pela equacao geral e 45 paraA = C e para A 6= C, 0 se B = 0 e tg(2) = B/(A C) se B 6= 0. Para elipses nao rotacionadas comsemi-eixo x igual a a e semi-eixo y igual a b tem-se as equacoes, respectivamente, para centrada naorigem e centrada no ponto (x0, y0), como sendo (SANTOS, 2007):

    x2

    a2+ y

    2

    b2= R2 ou (x x0)

    2

    a2+ (y y0)

    2

    b2= R2

    Nas equacoes acima, para R = 1, os semi-eixos x e y medem, respectivamente, a e b. No exemplo dafigura 9 ao alterar o valor de R a elipse expande sua area ou contrai de acordo com multiplos dossemi-eixos.

    x

    y

    22 44

    2

    2

    e2

    e1

    (a) Duas elipses centradas na origem,

    e1 : x2

    22 + y2 = 12 e e2 : x

    2

    22 + y2 = 22

    x

    y

    22 4 61

    1

    3e2

    e1

    (b) Duas elipses centradas em (2, 1),e1 : (x2)

    2

    22 +(y1)2 = 12 e e2 : (x2)2

    22 +(y1)2 = 22

    Figura 9 Exemplo de elipses nao rotacionadas.

    13

  • Para elipse rotacionada por uma matriz de rotacao R() tem-se os valores x e y rotacionados daforma: [

    x

    y

    ]=[cos() sen()sen() cos()

    ][xy

    ]

    Assim temos a equacao da elipse como sendo:

    x2

    a2+y2

    b2= R2

    (cos2()a2

    + sen2()b2

    )x2+

    (sen2()a2

    + cos2()b2

    )y2+2sen()cos()

    ( 1a2

    + 1b2

    )xy = R2

    A equacao geral da elipse pode ser escrita na forma parametrica com a e b, respectivamente, comosemi-eixos maior e menor, e o angulo de rotacao da elipse, e (x0, y0) como:{

    x(t) = x0 + a cos(t)cos() b sen(t)sin()y(t) = y0 + a cos(t)sin() + b sen(t)cos()

    x

    y

    2, 22

    3, 02

    42

    = 30

    Figura 10 Elipse rotacionada da equacao 7x2

    64 +13y264 6

    3xy64 = 1

    Manipulando a equacao do expoente da gaussiana com media em (0, 0) tem-se:

    [x y

    ] [ 2X XYXY

    2Y

    ]1 [xy

    ]= 1(1 2)

    [x2

    2X+ y

    2

    2Y 2xyXY

    ]= K2

    Na equacao acima K indica quantos multiplos do desvio padrao que a elipse de nvel abrange.Expandindo a equacao anterior tem-se o expoente da gaussiana bivariada como sendo:

    x2

    2X(1 2)+ y

    2

    2Y (1 2) 2xyXY (1 2) = K

    2

    Comparando esta com a equacao anterior da elipse rotacionada tem-se:1

    2X(12)= cos

    2()a2 +

    sen2()b2

    12Y (12)

    = sen2()a2 +

    cos2()b2

    2XY (12) = 2sen()cos()

    ( 1a2 +

    1b2

    )Desta forma, obtem-se as equacoes da elipse de nvel da gaussiana bivariada rotacionada por angulo e com semi-eixo x igual a a e semi-eixo y igual a b da forma:

    Se = 0 => = 0

    Se 6= 0 =>

    Se (X = Y ) => = sign() 45Se (X 6= Y ) => = 12 tg1

    (2XY(2X2Y )

    )14

  • a =

    (1 2)2XYtg()X + Y

    b =

    (1 2)X2YX tg()Y

    A matriz , simetrica e positiva definida, ainda pode ser decomposta em seus autovalores e autovetores(ou valores singulares) na forma R1 = S, onde a matriz S e diagonal como os autovalores de e ascolunas da matriz R sao os autovetores de (DUDA; HART; STORK, 2004).

    [2X XY

    XY Y

    ][cos() sen()sen() cos()

    ]=[a2 00 b2

    ]

    ANEXO C Tabela com dados dos cenario.

    Tabela 2 Tabela de relacao do ndice do cenario com o numero de amostras e o numero de clusters.

    Indice Amostras Clusters Indice Amostras Clusters Indice Amostras Clusters

    1 a 10 750 4 51 a 60 2500 16 101 a 110 10000 811 a 20 750 8 61 a 70 5000 4 111 a 120 10000 1621 a 30 750 16 71 a 80 5000 8 121 a 130 25000 431 a 40 2500 4 81 a 90 5000 16 131 a 140 25000 841 a 50 2500 8 91 a 100 10000 4 141 a 150 25000 16

    15

    ResumoGaussiana BidimensionalEntropia da Informao e Informao mtuaTcnicas para Clculo de Informao mtuaComparao entre as TcnicasConsideraes finaisRefernciasAlgumas Relaes Matemticas UtilizadasEquao da Curva de Nvel da Gaussiana BivariadaTabela com dados dos cenrio.