40
Estima¸c˜ ao de Parˆ ametros 1 I Classificador ´otimo: necess´ ario conhecer de antem˜ ao I as probabilidades a priori I as densidades condicionais das classes I Caso real t´ ıpico: I conhecimento muito geral da situa¸ ao I amostra dos exemplos a serem classificados I Como usar de alguma maneira essa informa¸ ao para construir o classificador 1 Aprendizagem de M´ aquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

I Classi cador otimo: necess ario conhecer de antem~aofatc/AM/Estimacao-Parametros.pdf · Estima˘c~ao de Par^ametros1 I Classi cador otimo: necess ario conhecer de antem~ao I as

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

  • Estimação de Parâmetros1

    I Classificador ótimo: necessário conhecerde antemão

    I as probabilidades a prioriI as densidades condicionais das classes

    I Caso real t́ıpico:I conhecimento muito geral da situaçãoI amostra dos exemplos a serem classificados

    I Como usar de alguma maneira essa

    informação para construir o classificador

    1Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Estimação de Parâmetros2

    I Abordagem posśıvel: usar os exemplospara estimar

    I as probabilidades a prioriI as densidades condicionais das classes

    I usar essas estimativas como se fossem os

    verdadeiros valores

    2Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Estimação de Parâmetros3

    I Dificuldades dessa abordagem: estimaçãoda funções densidades das classes

    I O número de exemplos (pre-classificados)em geral é pequeno

    I dificuldades são grandes quando adimensionalidade do vetor de atributos égrande

    3Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Estimação de Parâmetros4

    I Simplificação do Problema:I supor que p(x|ωi) ∼ N(µi ,Σi)I os parâmetros µi ,Σi são desconhecidos

    I Em vez de precisar estimarI uma função desconhecida p(x|ωi)I é necessário estimar os parâmetros µi ,Σi

    I Abordagens para a estimação deparâmetros:

    I máxima verossimilhançaI estimação Bayesiana

    4Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Estimação com Máximo de Verossimilhana5

    I Prinćıpio Geral: c amostras D1, . . . ,DcI Cada amostra corresponde a uma das c

    classes

    I Os exemplos da amostra Dj são

    constrúıdos independentemente segundo a

    função p(x|ωi)I Esses exemplos são resultados de variáveis

    aleatórias independentes e identicamente

    distribud́as5Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Estimação com Máximo de Verossimilhana6

    I Suposição: p(x|ωi) tem uma formaparamétrica conhecida

    I p(x|ωi) é determinada unicamente pelovalor de um vetor de parâmetros θi

    I Exemplo: p(x|ωi) ∼ N(µi ,Σi) ondeθi = (µi ,Σi)

    I Notação: p(x|ωi ,θi) em vez de p(x|ωi)

    6Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Estimação com Máximo de Verossimilhana7

    I Problema: usar as informações fornecidas

    pelas amostras para estimar θ1, . . ., θcI Suposição: os parâmetros das diferentes

    classes são independentes

    I As amostras Di não são informativos para

    θj

    7Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Estimação com Máximo de Verossimilhana8

    I c problemas independentes da seguinte

    forma:

    I usar o conjunto de treinamento D cujos

    exemplos são constrúıdos

    independentemente a partir da função

    densidade de probabilidade p(x|ωi) paraestimar θ

    8Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Estimação com Máximo de Verossimilhana9

    I D = {x1, . . . , xn}: amostra de nexemplos independentes

    I Então P(D|θ) =n∏

    k=1

    p(xk |θ)

    I P(D|θ) verossimilhança de θ em relaçãoao conjunto de exemplos

    I A estimativa de máxima verossimilhança

    de θ é o valor θ̂ que maximiza P(D|θ)I θ̂ é o valor de θ mais compat́ıvel com os

    exemplos observados9Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Estimação com Máximo de Verossimilhana10

    10Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Estimação com Máximo de Verossimilhana11

    I Observação: é mais fácil trabalhar com o

    logaritmo da verossimilhança do que com

    a própria verossimilhança

    I Como o logaritmo é monotonicamente

    crescente, o θ que maximiza a

    log-verossimilhança tambm maximiza a

    verossimilhança

    11Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Estimação com Máximo de Verossimilhana12

    I Seja θ=

    θ1. . .θd

    e seja ∇θ o operadorgradiente ∇θ =

    ∂∂θ1

    . . .∂∂θd

    I Função log-verossimilhança:

    l(θ) = lnP(D|θ)

    12Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Estimação com Máximo de Verossimilhana13

    I Estimativa de máxima verossimilhança de

    θ: θ̂= arg maxθ

    l(θ)

    I l(θ) = lnP(D|θ) = ln∏k=1

    p(xk |θ) =

    n∑k=1

    ln p(xk |θ)⇒

    13Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Estimação com Máximo de Verossimilhana14

    I ∇θl(θ) =n∑

    k=1

    ∇θ ln p(xk |θ)

    I A estimativa de máxima verossimilhança

    de θ é obtida do conjunto de d equações

    ∇θl(θ) = 0

    14Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Distribuição normal univariada15

    I Distribuição normal univariada

    p(x ,θ) =1√

    2πσ2exp

    [−1

    2

    (x − µσ

    )2]θ=

    σ2

    )

    15Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Distribuição normal univariada16

    I D = {x1, . . . , xn}: conjunto deaprendizagem

    I ln (p(xk |θ)) =

    ln

    (1√

    2πσ2exp

    [−1

    2

    (x − µσ

    )2])=

    −12

    ln (2πσ2)− 12σ2

    (xk − µ)2

    16Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Distribuição normal univariada17

    I Assim: ∇θ ln (p(xk |θ)) =[∂∂µ

    (−12 ln (2πσ

    2)− 12σ2

    (xk − µ)2)

    ∂∂(σ2)

    (−12 ln (2πσ

    2)− 12σ2

    (xk − µ)2) ] =[

    1σ2

    (xk − µ)− 1

    2σ2+ (xk−µ)

    2

    2(σ2)2

    ]I Estimativa de máxima verossimilhança de

    θ deve satisfazer:

    ∇θl(θ) =n∑

    k=1

    ∇θ ln p(xk |θ) = 0

    17Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Distribuição normal univariada18

    I Então:n∑

    k=1

    1σ̂2(xk − µ̂)− 1

    2σ̂2+ (xk−µ̂)

    2

    2(σ̂2)2

    = 0I

    ∑nk=1 1σ̂2(xk − µ̂)∑nk=1− 12σ̂2 +

    (xk−µ̂)2

    2(σ̂2)2

    = [ 00

    ]

    I

    [µ̂

    σ̂2

    ]=

    [1n

    ∑nk=1 xk

    1n

    ∑nk=1(xk − µ̂)2

    ]

    18Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Distribuição normal univariada19

    I µ̂ =1

    n

    n∑k=1

    xk

    I σ̂2 =1

    n

    n∑k=1

    (xk − µ̂)2

    19Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Distribuição normal multivariada20

    I D = {x1, . . . , xn}: conjunto deaprendizagem

    I p(xk |θ) =1

    (2π)d2 |Σ|

    12

    exp[−12(xk − µ)

    ′Σ−1(xk − µ)

    ]I θ=

    Σ

    )I |Σ−1| = 1

    |Σ|20Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Distribuição normal multivariada21

    I ln p(xk |θ) =−12 ln

    ((2π)d

    |Σ−1|

    )− 12(xk − µ)

    ′Σ−1(xk − µ)

    I ∇θ ln (P(xk |θ)) =

    [∂∂µ lnP(xk |θ)∂

    ∂Σ−1 lnP(xk |θ)

    ]I

    ∂∂µ lnP(xk |θ) = Σ

    −1(xk − µ)

    I (calculo matricial: ddx

    (x′Mx)

    =

    (M + M′)x = 2Mx (se M é simétrica))

    21Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Distribuição normal multivariada22

    I ln p(xk |θ) = −12 ln(

    (2π)d

    |Σ−1|

    )−

    12tr(

    Σ−1(xk − µ)′(xk − µ)

    )I (algebra matricial:

    (xk − µ)′Σ−1(xk − µ) =

    tr(

    (xk − µ)′Σ−1(xk − µ)

    )=

    tr(

    Σ−1(xk − µ)′(xk − µ)

    )I (algebra matricial:

    tr(ABC ) = tr(CAB) = tr(BCA)22Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Distribuição normal multivariada23

    I∂

    ∂Σ−1 lnP(xk |θ) =−12(|Σ−1|(2π)d× 0×|Σ

    −1|−(2π)d |Σ−1|Σ|Σ−1|2

    +(xk − µ)(xk − µ)′)

    =

    −Σ2 +12(xk − µ)(xk − µ)

    I (algebra matricial:

    tr(ABC ) = tr(CAB) = tr(BCA)

    I (calculo matricial: ∂∂B tr(ABC ) =∂∂B tr(BCA) = (CA)

    ′= A

    ′C′)

    23Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Distribuição normal multivariada24

    I ∇θ ln (P(xk |θ)) =[Σ−1(xk − µ)

    −Σ2 +12(xk − µ)(xk − µ)

    ]I Estimativa de máxima verossimilhança de

    θ deve satisfazer:

    ∇θl(θ) =n∑

    k=1

    ∇θ ln p(xk |θ) = 0

    24Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Distribuição normal multivariada25

    I

    n∑k=1

    [Σ̂−1(xk − µ̂)

    −Σ̂2 +12(xk − µ̂)(xk − µ̂)

    ]=[

    00

    ]

    I

    [µ̂)

    Σ̂

    ]=

    1

    n

    n∑k=1

    xk

    1

    n

    n∑k=1

    (xk − µ̂)(xk − µ̂)′

    25Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Distribuição normal multivariada26

    I µ̂=1

    n

    n∑k=1

    xk

    I Σ̂ =1

    n

    n∑k=1

    (xk − µ̂)(xk − µ̂)′

    26Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Distribuição de Bernoulli multivariada27

    I Seja D = {x1, . . . , xn} n exemplos da

    classe ω onde xk =

    xk1

    ...

    xki...

    xkd

    , xki ∈ {0, 1},θi = P [xki = 1|ω], e1− θi = P [xki = 0|ω]

    27Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Distribuição de Bernoulli multivariada28

    I Probabilidade condicional

    P(xk |θ) =d∏i=1

    θxkii (1− θi)

    1−xki

    θ=

    θ1...

    θi...

    θd

    28Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Distribuição de Bernoulli multivariada29

    I lnP(xk |θ) = lnd∏i=1

    θxkii (1− θi)

    1−xki =

    d∑i=1

    [xki ln θi + (1− xki) ln (1− θi)]

    I ∇θ ln (P(xk |θ)) =

    ∂∂θ1

    lnP(xk |θ)...

    ∂∂θi

    lnP(xk |θ)...

    ∂∂θd

    lnP(xk |θ)

    29Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Distribuição de Bernoulli multivariada30

    I ∇θ ln (P(xk |θ)) =

    xk1θ1− 1−xk11−θ1...

    xkiθi− 1−xki1−θi...

    xkdθd− 1−xkd1−θd

    I Estimativa de máxima verossimilhança de

    θ deve satisfazer:

    ∇θl(θ) =n∑

    k=1

    ∇θ ln p(xk |θ) = 0

    30Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Distribuição de Bernoulli multivariada31

    I Entãon∑

    k=1

    xk1θ̂1− 1−xk1

    1−θ̂1...xkiθ̂i− 1−xki

    1−θ̂i...xkdθ̂d− 1−xkd

    1−θ̂d

    = 0

    I

    ∑nk=1(

    xk1θ̂1− 1−xk1

    1−θ̂1)

    ...∑nk=1(

    xkiθ̂i− 1−xki

    1−θ̂i)

    ...∑nk=1(

    xkdθ̂d− 1−xkd

    1−θ̂d)

    = 031Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Distribuição de Bernoulli multivariada32

    I

    ∑nk=1 xk1θ̂1

    − n−∑n

    k=1 xk11−θ̂1

    ...∑nk=1 xkiθ̂i− n−

    ∑nk=1 xki

    1−θ̂i...∑n

    k=1 xkdθ̂d

    − n−∑n

    k=1 xkd1−θ̂d

    = 0

    I

    ∑nk=1 xk1 − θ̂1

    ∑nk=1 xk1 − nθ̂1 + θ̂1

    ∑nk=1 xk1

    ...∑nk=1 xki − θ̂i

    ∑nk=1 xki − nθ̂i + θ̂i

    ∑nk=1 xki

    ...∑nk=1 xkd − θ̂d

    ∑nk=1 xkd − nθ̂d + θ̂d

    ∑nk=1 xkd

    = 0

    32Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Distribuição de Bernoulli multivariada33

    I

    θ̂1...

    θ̂i...

    θ̂d

    =

    1n

    ∑nk=1 xk1...

    1n

    ∑nk=1 xki...

    1n

    ∑nk=1 xkd

    I θ̂ =

    1

    n

    n∑k=1

    xk

    33Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Funções discriminantes - densidade normal34

    I Funções discriminantes populacionais:

    gi(x) = ln p(x|ωi) + lnP(ωi)I Se p(x|ωi) ∼ N(µ,Σi)

    I gi(x) = −1

    2(x− µi)

    ′Σ−1i (x− µi)−

    d

    2ln 2π − 1

    2ln |Σi | + lnP(ωi)

    34Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Funções discriminantes - densidade normal35

    I Σi arbitrário: somente o termod2 ln 2π

    pode ser ignorado

    I gi(x) = x′Wix + w

    ′ix + wi0

    I onde Wi = −12Σ−1i , wi = Σ

    −1i µi ,

    wi0 = −12µ′iΣ−1i µi − 12 ln |Σi | + lnP(ωi)

    I Regra de classificação: classificar x comoda classe r se r = arg max

    i=1,...,cgi(x)

    35Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Funções discriminantes amostrais36

    I Vetor de médias amostral: x̄i =1

    ni

    ni∑k=1

    xik

    I Matriz de covariâncias amostral:

    Si =1

    ni − 1

    ni∑k=1

    (xik − x̄i)(xik − x̄i)′

    36Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Funções discriminantes amostrais37

    I Funções discriminantes amostrais:

    ĝi(x) = x′Ŵix + ŵ

    ′ix + ŵi0

    I onde Ŵi = −12S−1i , ŵi = S

    −1i x̄i ,

    ŵi0 = −12x̄′iS−1i x̄i − 12 ln |Si | + lnP(ωi)

    I Regra de classificação: classificar x comoda classe r se r = arg max

    i=1,...,cĝi(x)

    37Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Funções discriminantes - densidade normal38

    I Σi = Σ: as matrizes de covariâncias detodas as classes so idênticas

    I |Σi | e d2 ln 2π podem ser ignoradosI Funções discriminantes populacionais

    gi(x) = w′ix + wi0

    I onde wi = Σ−1i µi ,

    wi0 = −12µ′iΣ−1i µi + lnP(ωi)

    I Regra de classificação: classificar x comoda classe r se r = arg max

    i=1,...,cgi(x)

    38Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Funções discriminantes amostrais39

    I Vetor de médias amostral: x̄i =1

    ni

    ni∑k=1

    xik

    I Matriz de covariâncias amostral:

    Si =1

    ni − 1

    ni∑k=1

    (xik − x̄i)(xik − x̄i)′

    I Matriz de covariâncias amostrais

    combinadas:

    SCom =(n1 − 1)S1 + . . . + (nc − 1)Sc

    n1 + . . . + nc − c39Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho

  • Funções discriminantes - densidade normal40

    I Funções discriminantes amostrais

    ĝi(x) = ŵ′ix + ŵi0

    I onde ŵi = S−1Comµi ,

    wi0 = −12µ′iS−1Comµi + lnP(ωi)

    I Regra de classificação: classificar x comoda classe r se r = arg max

    i=1,...,cĝi(x)

    40Aprendizagem de Máquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho