9
F : R m R n F (X )=(f 1 (X ),...,f n (X )) JF(x 1 ,...,x n )= f 1 f n 0 = ∂f 1 ∂x 1 ··· ∂f 1 ∂xm ∂fn ∂x 1 ··· ∂fn ∂xm m = n (f 1 ,...,fn) (x 1 ,...,xm) = det ∂f 1 ∂x 1 ··· ∂f 1 ∂xm ∂fn ∂x 1 ··· ∂fn ∂xm

Notas Hessiana

  • Upload
    roquete

  • View
    46

  • Download
    4

Embed Size (px)

Citation preview

  • Matriz Hessiana e Aplicaes

    Sadao Massago

    Dezembro de 2010

    Sumrio

    1 Introduo 1

    2 Matriz Jacobiana 1

    3 Matriz hessiana 2

    4 Taylor de primeira e segunda ordem 2

    5 Classicao dos pontos crticos 3

    A Procedimeno da demonstrao do Teorema 5.5 7

    B Taylor de ordem qualquer 8

    1 Introduo

    Sabemos que uma funo real de uma varivel poder ser aproximado por Taylor de segunda ordem na

    qual costuma apresentar uma preciso melhor do que o uso somente das primeiras derivadas. O Taylor

    de segunda ordem tambm permite obter critrios de classicao dos pontos crticos no degenerados

    atravs da segunda derivada. No caso das funes reais de vrias variveis tambm apresenta os

    resultados similares, mas a segunda derivada uma matriz, o que aumentar a complexidade.

    2 Matriz Jacobiana

    Dado uma funo vetorial de vrias variveis F : Rm Rn com F (X) = (f1(X), . . . , fn(X)), arepresentao matricial da derivada, quando existe, denominada de matriz Jacobiana denido

    como sendo JF(x1, . . . , xn) =

    f1...

    fn

    =

    f1x1

    f1xm.

    .

    .

    .

    .

    .

    .

    .

    .

    fnx1

    fnxm

    . Quando m = n, a matriz jacobiana uma matriz quadrada e o seu determinante

    (f1,...,fn)(x1,...,xm)

    = det

    f1x1

    f1xm.

    .

    .

    .

    .

    .

    .

    .

    .

    fnx1

    fnxm

    denominado defuno jacobiana. Os livros de clculo costumam designar a funo jacobiana simplesmente como

    jacobiana.

    1

  • Exemplo 2.1. Obter a matriz jacobiana de F (x, y) =(x2y, x

    y, x y

    ).

    Soluo: JF (x, y) =

    x2yxy

    x y

    =

    2xy x2

    1y

    xy2

    1 1

    .Exemplo 2.2. Obter a funo jacobiana de F (x, y) =

    (xy, x

    y

    ).

    Soluo: JF (x, y) =

    [xyxy

    ]=

    [y x1yxy2

    ]. Assim, a funo jacobiana

    (xy,xy )(x,y)

    = det JF (x, y) =

    det

    [y x1yxy2

    ]= x

    y x

    y= 2x

    y.

    3 Matriz hessiana

    Dada uma funo real de vrias variveis, f : Rn R, a matriz jacobinana (derivada) do gradi-ente (que funo vetorial) denominado de matriz hessiana de f . Assim, Hessf(x1, . . . , xn) =

    J

    fx1.

    .

    .

    fxn

    =

    2fx1x1

    2fxnx1.

    .

    .

    .

    .

    .

    .

    .

    .

    fx1xn

    2fxnxn

    .A matriz hessiana sempre uma matriz quadrada. O determinante da matriz hessiana denomi-

    nado de funo hessiana que no pode ser confundido com a matriz hessiana. Nos livros de clculo,

    a funo hessiana costuma ser referenciado simplesmente de hessiana.

    Exemplo 3.1. Obter a matriz e a funo hessiana da funo f(x, y) = x2y3.

    Soluo: f(x, y) = (2xy3, 3x2y2) =[

    2xy3

    3x2y2

    ]e a matriz hessiana Hessf(x, y) = J

    [2xy3

    3x2y2

    ]=[

    2y3 6xy2

    6xy2 6x2y

    ]. A funo hessiana detHess(f)(x, y) = det

    [2y3 6xy2

    6xy2 6x2y

    ]= 12x2y4 36x2y4 =

    24x2y4.Observao 3.2. Como conseqncia do Teorema de Schwartz, quando a matriz hessiana for contnua,

    ele ser uma matriz simtrica.

    4 Taylor de primeira e segunda ordem

    Seja f : Rn R, uma funo real de vrias variveis. O Taylor de ordem 2 (que pode ser obtidopelo uso de Taylor do caso de uma varivel sobre a reta P + t(X P )) dado por

    f(P + H) = f(P ) + f(P ), H + 12hessf(P )H,H + R2 onde lim

    nR2||H||2 = 0 e H = X =

    XP = (x1, . . . ,xn) um vetor. O resto do Taylor de segunda ordem envolve derivadas parciaisde ordem 3, o que no entraremos em detalhes.

    No caso de uma varivel, o reso de Taylor de ordem n o (n+ 1)-simo termo do Taylor, com a

    derivada calculado no ponto desconhecido entre P e P +H. Isto vale tambm para o caso de vrias

    variveis, mas os termos de Taylor de ordem maior ou igual a 3 requer o uso da forma combinatorial,

    enquanto que at a segunda ordem, poder ser escrito atravs da expresso vetorial e matricial.

    No caso da funo de uma varivel, o Taylor de primeira ordem

    2

  • f(P + H) = f(P ) + f(P ), H > +R1 com R1 = 12Hessf(ZH)H,H para algum ponto ZH nosegmento que liga P a P + H. No entanto, obter um bom limitante superior para R1 requer o uso

    da norma matricial.

    Exemplo 4.1. Obter o Taylor de segunda ordem de f(x, y) = exy sen(y x) em torno de (0, 0).Soluo: Como a funo tem as derivadas de qualquer ordem, a segunda derivada contnua e a

    matriz hessiana ser simtrica.

    f(0, 0) = 0

    f(x, y) = (exy sen(y x) exy cos(y x),exy sen(y x) + exy cos(y x))=(exy (sen(y x) cos(y x)) ,exy (sen(y x) + cos(y x)))de modo que f(0, 0) = (0 1, 0 + 1) = (1, 1).

    Hessf(x, y) = (F (x, y)) =[exy (sen(y x) cos(y x))exy (cos(y x) sen(y x))

    ].

    Temos,

    2fxx

    =(exy(sen(yx)cos(yx)))

    x= exy (sen(y x) + cos(y x))+exy ( cos(y x) + sen(y x)) =

    2exy sen(y x).2fyx

    =(exy(sen(yx)cos(yx)))

    y= exy (sen(y x) cos(y x))+exy (cos(y x) + sen(y x)) =

    2exy cos(y x).2fxy

    = 2f

    yx= 2exy cos(y x) por hessiana ser simtrica.Neste exemplo, temos que

    fy

    = fx(no vale no caso geral) e

    2fyy

    = y

    (fy

    )=

    y

    ( x

    )= 2f

    yx= 2exy sen(y x).

    Assim, Hessf(x, y) =

    [2exy sen(y x) 2eyx cos(y x)2exy cos(y x) 2exy sen(y x)

    ].

    Logo, Hessf(0, 0) =

    [0 2

    2 0

    ].

    Assim, o Taylor de ordem 2 em (0, 0) dado por

    f(0 + h, 0 + k) = f(0, 0) + f(0, 0), (h, k)+ 12hessf(0, 0)

    [h

    k

    ], (h, k)+R2 ento o polinmio

    de Taylor de ordem 2 ser p2(h, k) = 0 + (1, 1), (h, k)+ 12[

    0 2

    2 0

    ][h

    k

    ], (h, k) = 0 h + k +

    12[

    2k

    2h

    ], (h, k) = h+ k + 1

    2(2k, 2h), (h, k) = h+ k + 4hk

    2e temos

    p2(h, k) = h + k + 2hk. Como x = 0 + h e y = 0 + k, temos que h = x e k = y. Substituindono polinmio, temos p2(x, y) = x+ y + 2xy. Observe que importante deixar escrito em x e y emvez de h = x e k = y, pois a varivel da funo f x e y.

    Por exemplo, f(0.2,0.3) = 0.2 + (0.3) + 2 0.2 (0.3) = 0.5 + 0.04 0.12 = 0.58.

    5 Classicao dos pontos crticos

    Como a funo cresce na direo do gradiente e decresce na direo oposta do gradiente, nos pontos

    de mximos e mnimos locais o gradiente ser nulo, caso exista.

    3

  • Denio 5.1. O ponto P tal que f(P ) = @ ou f(P ) = ~0 denominado de ponto crtico de f .A imagem do ponto crtico denominado de valor crtico.

    Um ponto dito ponto regular se no for ponto crtico. O valor no crtico denominado de valor

    regular. O valor regular requer cuidado. Um valor C regular se f1(C) = {X : f(X) = C} nocontm pontos crticos (no existe ponto crtico P tal que f(P ) = C). Portanto, para ser um valor

    regular, no basta que seja imagem do ponto regular.

    Exemplo 5.2. Encontre os pontos crticos de f(x, y) = x 3y + 1 x.

    Soluo: Temos que f(x, y) = ( 3y + 1 1, x3 3

    (y+1)2)

    Pontos crticos

    1o.) f(P ) = @ Quando y = 1, independente de x ento (x,1).2o.) f(P ) = ~0 Quando x = 0 e y = 0 (exerccio).Assim, os pontos crticos so (x,1) e (0, 0).

    Denio 5.3. Seja P , um ponto do domnio de f : D Rn R.

    O ponto P dito ponto de mnimo local se para todo ponto X 6= P sucientemente prximo deP , tem-se que f(X) f(P ). Se a desigualdade for estrita (f(X) > f(P )) ento dizemos que ponto de mnimo local estrito. No ponto de mnimo local estrito, a funo cresce em todas as

    direes.

    O ponto P dito ponto de mximo local se para todo ponto X 6= P sucientemente prximode P , tem-se que f(X) f(P ). Se a desigualdade for estrita (f(X) < f(P )) ento dizemosque ponto de mximo local estrito. No ponto de mximo local estrito, a funo decresce em

    todas as direes.

    O ponto P dito ponto de sela quando tiver uma direo que cresce e outra direo que

    decresce. No deve confundir com o ponto planar na qual a funo mantm constante perto

    do ponto.

    Note que os valores calculados nos pontos de mximos e mnimos so denominados de valor de

    mximo e valor de mnimo, respectivamente.

    Seja P , um ponto crtico do tipo f(P ) = ~0. Quando a matriz hessiana for matriz singular(det Hessf(P ) = 0), dizemos que o ponto crtico degenerado. Reciprocamente, um ponto crtico na

    qual det Hessf(P ) = 0 denominado de ponto crtico no degenerado.

    Para enunciar o teorema de classicao dos pontos crticos, precisamos de determinante dos

    menores principais que denido como a seguir.

    Denio 5.4. O determinante do menor principal de A =

    a1,1 a1,n...

    .

    .

    .

    .

    .

    .

    an,1 an,n

    de ordem i denidocomo i = i(A) = det

    a1,1 a1,i...

    .

    .

    .

    .

    .

    .

    ai,1 ai,i

    que o determinante do bloco de tamanho ii localizadona posio superior esquerdo de A.

    No caso de Hessf(X) ser contnua em P , a matriz hessiana e simtrica e podemos mostrar que

    4

  • Teorema 5.5. Seja P um ponto critico no degenerado da funo f : Rn R (f(P ) = ~0 edet Hessf(P ) 6= 0) com todas as derivadas parciais de segunda ordem so contnuas, ento1. i(Hessf(P )) > 0 para todo i = 1, . . . , n (todos i's so estritamente positivos) se, e somente

    se P ponto de mnimo local estrito (funo cresce em todas as direes).

    2. (1)ii(Hessf(P )) > 0 para todo i = 1, . . . , n (sinal de i alternado, comeando de negativo)se, e somente se, P o ponto de mximo local estrito (funo decresce em todas as direes).

    3. Se for nenhuma das anteriores, ento o ponto de sela (tem direo em que a funo cresce e

    outra direo em que a funo decresce).

    Observe que o critrio deve coincidir com o caso de uma varivel quando n = 1. Logo, 1 < 0

    para mximo local.

    A demonstrao de 1 pode ser feita pela anlise do Taylor de segunda ordem atravs do Teorema

    Espectral que costuma ser estudado no segundo curso de lgebra Linear. Para completar a de-

    monstrao, tambm vai precisar do Teorema sobre determinantes dos menores principais da matriz

    simtrica.

    Para parte de 2, observe que P um ponto de mximo local estrito se, e somente se f(x) < f(P )

    para todos os pontos X 6= P , sucientemente prximos de P . Isto quer dizer que f(X) < f(P )para tais pontos. Assim, P ponto de mximo local restrito de f se, e somente se, P o ponto

    de mnimo local restrito de f . Como Hess(f)(P ) = Hessf(P ), temos que i (Hess(f)(P )) =(1)i (Hessf(P )). Logo, i (Hess(f)(P )) = (1)i (Hessf(P )) > 0 se, e somente se, P umponto de mnimo local restrito de f , isto , um ponto de mximo local restrito de f .O caso do ponto de sela pela excluso, observando que no caso de det Hessf(P ) 6= 0, o ponto deveser de mximo local restrito, mnimo local restrito ou de sela, como consequncia do Teorema A.2.

    Observao 5.6. No caso do ponto crtico degenerado (det Hessf(P ) = 0), no podemos determinar

    o comportamento atravs do Teorema 5.5. Uma alternativa obter os auto valores da matriz hes-

    siana e usar o Teorema A.2 na qual permite tirar concluses mesmo para alguns casos degenerados

    (det Hessf(P ) = 0).

    Observao 5.7. No caso do domnio no ser aberto, o ponto regular ou o ponto de sela na fronteira

    pode tornar mximo ou mnimo local, o que aumenta a complexidade de estudos, mesmo considerando

    os gradientes e hessianas, estendidos para a fronteira. O mtodo de multiplicadores de Lagrange

    permite detectar possveis "pontos regulares" que tornaram pontos crticos na curva ou superfcies,

    mas anlise de mximos e mnimos locais sobre a curva e superfcies costumam ser omitidos nos

    cursos de clculo.

    Exemplo 5.8. Obter e classicar o ponto crtico de f(x, y) = x2 + y2 + z2

    Soluo: O ponto crtico exatamente (0, 0, 0) (exerccio) e Hessf(0, 0, 0) =

    2 0 00 2 00 0 2

    (exer-ccio). Obtendo o determinante dos menores principais de

    2 0 0

    0 2 0

    0 0 2

    5

  • temos que 1 = 2 > 0, 2 > 0 e 3 = det Hessf(0, 0, 0) = 8 > 0. Logo, (0, 0, 0) um ponto de

    mnimo local.

    No exemplo acima, como f(0, 0, 0) = 0 e f(x, y, z) 0 para todo (x, y, z), (0, 0, 0) um ponto demnimo global.

    Observao 5.9. No caso da funo de vrias variveis, ter um nico ponto crtico e ele ser ponto

    de mnimo local no implica que um ponto de mnimo global. A funo f(x, y) = x2 + y2(1 + x)3

    tem um nico ponto crtico que a origem e um ponto de mnimo local, o que pode ser vericado

    facilmente pela matriz hessiana. No entanto, limy=1

    xf(x, y) = (exerccio). Logo, (0, 0) no umponto de mnimo global.

    Problemas similares ocorrem quando tenta generalizar os resultados da funo de uma varivel

    para caso das funes de vrias variveis. Alguns resultados continuam vlidos, outros precisam de

    condies adicionais ou ter resultados apenas parciais, enquanto que alguns no valem.

    Exemplo 5.10. Obter e classicar o ponto crtico de f(x, y) = xy

    Soluo: O ponto crtico exatamente (0, 0) (exerccio) e Hessf(0, 0) =

    [0 1

    1 0

    ](exerccio).

    Calculando os i's de

    0 1

    1 0

    [ ]temos que 1 = 0 e 2 = det Hessf(0, 0) = 1. Como det Hessf(0, 0) 6= 0, umponto de mximo local, mnimo local ou sela. Mas 1 = 0 e consequentemente, (0, 0) um ponto de

    sela.

    Exemplo 5.11. Considere um ponto crtico P R3 na qual a funo tem segunda derivada contnua.Em cada caso, efetue classicao, justicando devidamente. Note que 3 = det Hessf(P ) por ser

    de 3 variveis.

    1. 1 = 1, 2 = 2 e 3 = 4. Soluo: como todos i so (estritamente) positivos, um ponto

    de mnimo local (estrito).

    2. 1 = 1, 2 = 4 e 3 = 2. Soluo: como i's tem sinais alternados e 1 < 0, um pontode mximo local (estrito).

    3. 1 = 2, 2 = 1 e 3 = 3. Soluo: Como 3 = det Hessf(P ) = 2 6= 0 , ponto deminimo local, mximo local ou de sela. Os i's tem sinais alternados, mas o primeiro (1)

    no negativo. Logo no ponto de mximo local. Como 2 = 1 < 0, no mnimo local.Logo, um ponto de sela.

    4. 1 = 2, 2 = 1 e 3 = 2. Soluo: Temos que nem todas i's so positivos, nem temsinais alternados. Como 3 = det Hessf(P ) = 2 6= 0, um ponto de sela.

    5. 1 = 1,2 = 0 e3 = 2. Soluo: como2 = 0, no pode ser mnimo local (no estritamente

    positiva), nem mximo local (sinal alternado). Como 3 = det Hessf(P ) = 2 6= 0, s podeser ponto de sela.

    6. 1 = 2, 2 = 1 e 3 = 0. Soluo: como 3 = det Hessf(P ) = 0, nada pode ser concludo.

    6

  • No caso da classicao dos pontos crticos no degenerados da funo real de duas variveis,

    a expresso de i relativamente simples. Por exemplo, O critrio para mnimo local restrito

    caria1 =fxx

    > 0 e 2 = det Hessf =2fxx

    2fyy(2fxy

    )> 0, Analogamente, o ponto de mximo

    local restrito ((1)ii > 0) torna fxx < 0 e det Hessf = 2f

    xx2fyy(2fxy

    )> 0. Como a parte de

    2 mesmo, podemos juntar e enunciar como sendo

    Teorema 5.12. Se f : R2 R tem segundas derivadas parciais contnuas e P um ponto crtico,ento

    Se det Hessf(P ) > 0 ento fxx

    > 0 implica que um ponto de mnimo local estrito, fxx

    < 0

    implica que um ponto de mximo local estrito e

    fxx

    = 0 implica que ponto de sela.

    Se det Hessf(P ) < 0, ento um ponto de sela.

    No caso do ponto crtico ser degenerado (det Hessf(P ) = 2f

    xx2fyy(2fxy

    )= 0), nada pode ser

    armado.

    Esta uma das verses que mais aparece nos livros de clculo, mas no h anloga para o caso

    de Rn, pois i torna mais complexa e no consegue explicitar condies em poucas palavras.

    Observao 5.13. A tcnica mais rpida e simples para determinar se i so todos positivos no caso

    da matriz simtrica de dimenso maior que 3 aplicar o mtodo de decomposio de Cholesky.

    A Procedimeno da demonstrao do Teorema 5.5

    Este apndice destina aos estudantes que j tenham algum conhecimento de lgebra linear, tais como

    base e auto valores.

    No estudo terico da funo real de vrias variveis com segundas derivadas parciais contnuas

    (logo, matriz hessiana simtrica), o Teorema Espectral (veja [4]) desempenha um papel importante.

    O Teorema Espectral garante que toda matriz simtrica tem uma base ortonormal de auto vetores.

    Usando uma base de auto vetores ortonormais da matriz hessiana, temos que

    Teorema A.1. Se f : Rn R tem segundas derivadas parciais contnuas no ponto P , ento existeuma base na qual a sries de Taylor de segunda ordem tem a forma f(P+H) = f(P )+f(P ), H+12

    (1h21 + + nh2n) +R2 onde H = (h1, . . . , hn) e 1, . . . , n so os auto valores de Hessf(P ).A expanso do Taylor de segunda ordem em torno do ponto crtico f(P ) = ~0 torna f(P +H) =

    f(P )+ 12

    (1h21 + + nh2n)+R2 que no depende da base, exceto nas coordenadas hi de H (pois osauto valores no dependem da base). Por ser uma soma dos mltiplos de quadrados das coordenadas,

    podemos usar a condio sobre o erro do Taylor e provar que

    Teorema A.2. Se f : Rn R tem segundas derivadas contnuas e P um ponto crtico. Ento P um ponto de mximo local estrito se todos os autovalores da matriz hessiana forem estri-

    tamente negativos.

    P um ponto de mnimo local estrito se todos os auto valores da matriz hessiana forem

    estritamente positivos

    Se tiver algum auto valor estritamente positivo e algum auto valor estritamente negativo, ento

    P ser um ponto de sela.

    7

  • OTeorema 5.5 uma consequncia do Teorema A.2 para o caso no degenerado. No caso da matriz

    simtrica, todos os auto valores so estritamente positivos se, e somente se, todos os determinantes

    dos menores principais so estritamente positivos (veja [4]).

    O Teorema 5.5 apropriado para analisar uma funo com expresso dada explicitamente e com

    poucas variveis, enquanto que o Teorema A.2 apropriado para os estudos tericos ou dos pontos

    crticos degenerados.

    B Taylor de ordem qualquer

    Este apndice destinado para quem precisar do Taylor de ordem maior que 2 que pode ser usado

    tanto no estudo terico como na implementao computacional.

    Dado f : Rn R, a expanso de Taylor de ordem N dado porf(P +H) =

    Nk=0

    (n

    i1=1

    n

    ik=0

    kf(P )

    xi1 xikhi1 hik

    )+RN com lim||H||

    RN||H||N = 0.Para facilitar no uso terico, assim como reduzir os nmeros de termos necessrios na implemen-

    tao computacional, costuma usar a notao de multi ndices.

    Um multi ndice de dimenso n uma n-upla = (1, . . . , n) onde i so inteiros no negativos.

    O valor absoluto e o fatorial so denidos como sendo || = 1 + + n e a! = a1! n!,respectivamente. Dado uma n-upla x = (x1, . . . , xn), denimos a potenciao x

    = x11 xnn .A derivada parcial repetida tambm pode ser escrita em termos de multi ndices como sendo

    = 1

    x1 n

    xnonde xi a i-sima varivel da funo em n-variveis.

    Com estas notaes, a expanso de Taylor de ordem N pode ser escrito simplesmente como sendo

    F (P +H) =||N

    f(P )H

    !+RN =

    Nk=0

    ||=k

    f(P )H

    !

    +RN com lim||H|| RN||H||N = 0, ondeRN =

    ||=N+1

    f(ZH)H

    !com ZH pertencente ao segmento que liga P a P +H.

    A expresso em termos de multi ndices permite usar resultados da teoria combinatorial no estudo

    dos problemas que envolvem o Taylor de ordem maior que 2.

    Tambm note que na notao de multi ndices, os termos repetidos j esto agrupados, tendo

    reduzido signicativamente os nmeros de termos da expresso original. A implementao computa-

    cional tpica percorre os possveis multi ndices de ordem k atravs do algoritmo combinatorial para

    obter termos de ordem k da expanso de Taylor.

    Referncias

    [1] Lima, Elon L., "Curso de Anlise vol. 2" (projeto euclides), IMPA, 1985.

    [2] Lang, Serge, "Clculo vol. 2", Ao Livro tcnico S/A, 1971.

    [3] Guidorizzi, Hamilton L., "Clculo vol. 1", LTC editora, 2001.

    [4] Homan, Kenneth e Kunze, Ray (traduo de Bergamasco, Adalberto P.), "lgebra

    Linear", Editora da USP, 1971.

    8

  • [5] Wikipdia, http://en.wikipedia.org/wiki/Multi-index_notation, consultado em

    2010.

    9

    IntroduoMatriz JacobianaMatriz hessianaTaylor de primeira e segunda ordemClassificao dos pontos crticosProcedimeno da demonstrao do Teorema 5.5Taylor de ordem qualquer