Upload
roquete
View
46
Download
4
Embed Size (px)
Citation preview
Matriz Hessiana e Aplicaes
Sadao Massago
Dezembro de 2010
Sumrio
1 Introduo 1
2 Matriz Jacobiana 1
3 Matriz hessiana 2
4 Taylor de primeira e segunda ordem 2
5 Classicao dos pontos crticos 3
A Procedimeno da demonstrao do Teorema 5.5 7
B Taylor de ordem qualquer 8
1 Introduo
Sabemos que uma funo real de uma varivel poder ser aproximado por Taylor de segunda ordem na
qual costuma apresentar uma preciso melhor do que o uso somente das primeiras derivadas. O Taylor
de segunda ordem tambm permite obter critrios de classicao dos pontos crticos no degenerados
atravs da segunda derivada. No caso das funes reais de vrias variveis tambm apresenta os
resultados similares, mas a segunda derivada uma matriz, o que aumentar a complexidade.
2 Matriz Jacobiana
Dado uma funo vetorial de vrias variveis F : Rm Rn com F (X) = (f1(X), . . . , fn(X)), arepresentao matricial da derivada, quando existe, denominada de matriz Jacobiana denido
como sendo JF(x1, . . . , xn) =
f1...
fn
=
f1x1
f1xm.
.
.
.
.
.
.
.
.
fnx1
fnxm
. Quando m = n, a matriz jacobiana uma matriz quadrada e o seu determinante
(f1,...,fn)(x1,...,xm)
= det
f1x1
f1xm.
.
.
.
.
.
.
.
.
fnx1
fnxm
denominado defuno jacobiana. Os livros de clculo costumam designar a funo jacobiana simplesmente como
jacobiana.
1
Exemplo 2.1. Obter a matriz jacobiana de F (x, y) =(x2y, x
y, x y
).
Soluo: JF (x, y) =
x2yxy
x y
=
2xy x2
1y
xy2
1 1
.Exemplo 2.2. Obter a funo jacobiana de F (x, y) =
(xy, x
y
).
Soluo: JF (x, y) =
[xyxy
]=
[y x1yxy2
]. Assim, a funo jacobiana
(xy,xy )(x,y)
= det JF (x, y) =
det
[y x1yxy2
]= x
y x
y= 2x
y.
3 Matriz hessiana
Dada uma funo real de vrias variveis, f : Rn R, a matriz jacobinana (derivada) do gradi-ente (que funo vetorial) denominado de matriz hessiana de f . Assim, Hessf(x1, . . . , xn) =
J
fx1.
.
.
fxn
=
2fx1x1
2fxnx1.
.
.
.
.
.
.
.
.
fx1xn
2fxnxn
.A matriz hessiana sempre uma matriz quadrada. O determinante da matriz hessiana denomi-
nado de funo hessiana que no pode ser confundido com a matriz hessiana. Nos livros de clculo,
a funo hessiana costuma ser referenciado simplesmente de hessiana.
Exemplo 3.1. Obter a matriz e a funo hessiana da funo f(x, y) = x2y3.
Soluo: f(x, y) = (2xy3, 3x2y2) =[
2xy3
3x2y2
]e a matriz hessiana Hessf(x, y) = J
[2xy3
3x2y2
]=[
2y3 6xy2
6xy2 6x2y
]. A funo hessiana detHess(f)(x, y) = det
[2y3 6xy2
6xy2 6x2y
]= 12x2y4 36x2y4 =
24x2y4.Observao 3.2. Como conseqncia do Teorema de Schwartz, quando a matriz hessiana for contnua,
ele ser uma matriz simtrica.
4 Taylor de primeira e segunda ordem
Seja f : Rn R, uma funo real de vrias variveis. O Taylor de ordem 2 (que pode ser obtidopelo uso de Taylor do caso de uma varivel sobre a reta P + t(X P )) dado por
f(P + H) = f(P ) + f(P ), H + 12hessf(P )H,H + R2 onde lim
nR2||H||2 = 0 e H = X =
XP = (x1, . . . ,xn) um vetor. O resto do Taylor de segunda ordem envolve derivadas parciaisde ordem 3, o que no entraremos em detalhes.
No caso de uma varivel, o reso de Taylor de ordem n o (n+ 1)-simo termo do Taylor, com a
derivada calculado no ponto desconhecido entre P e P +H. Isto vale tambm para o caso de vrias
variveis, mas os termos de Taylor de ordem maior ou igual a 3 requer o uso da forma combinatorial,
enquanto que at a segunda ordem, poder ser escrito atravs da expresso vetorial e matricial.
No caso da funo de uma varivel, o Taylor de primeira ordem
2
f(P + H) = f(P ) + f(P ), H > +R1 com R1 = 12Hessf(ZH)H,H para algum ponto ZH nosegmento que liga P a P + H. No entanto, obter um bom limitante superior para R1 requer o uso
da norma matricial.
Exemplo 4.1. Obter o Taylor de segunda ordem de f(x, y) = exy sen(y x) em torno de (0, 0).Soluo: Como a funo tem as derivadas de qualquer ordem, a segunda derivada contnua e a
matriz hessiana ser simtrica.
f(0, 0) = 0
f(x, y) = (exy sen(y x) exy cos(y x),exy sen(y x) + exy cos(y x))=(exy (sen(y x) cos(y x)) ,exy (sen(y x) + cos(y x)))de modo que f(0, 0) = (0 1, 0 + 1) = (1, 1).
Hessf(x, y) = (F (x, y)) =[exy (sen(y x) cos(y x))exy (cos(y x) sen(y x))
].
Temos,
2fxx
=(exy(sen(yx)cos(yx)))
x= exy (sen(y x) + cos(y x))+exy ( cos(y x) + sen(y x)) =
2exy sen(y x).2fyx
=(exy(sen(yx)cos(yx)))
y= exy (sen(y x) cos(y x))+exy (cos(y x) + sen(y x)) =
2exy cos(y x).2fxy
= 2f
yx= 2exy cos(y x) por hessiana ser simtrica.Neste exemplo, temos que
fy
= fx(no vale no caso geral) e
2fyy
= y
(fy
)=
y
( x
)= 2f
yx= 2exy sen(y x).
Assim, Hessf(x, y) =
[2exy sen(y x) 2eyx cos(y x)2exy cos(y x) 2exy sen(y x)
].
Logo, Hessf(0, 0) =
[0 2
2 0
].
Assim, o Taylor de ordem 2 em (0, 0) dado por
f(0 + h, 0 + k) = f(0, 0) + f(0, 0), (h, k)+ 12hessf(0, 0)
[h
k
], (h, k)+R2 ento o polinmio
de Taylor de ordem 2 ser p2(h, k) = 0 + (1, 1), (h, k)+ 12[
0 2
2 0
][h
k
], (h, k) = 0 h + k +
12[
2k
2h
], (h, k) = h+ k + 1
2(2k, 2h), (h, k) = h+ k + 4hk
2e temos
p2(h, k) = h + k + 2hk. Como x = 0 + h e y = 0 + k, temos que h = x e k = y. Substituindono polinmio, temos p2(x, y) = x+ y + 2xy. Observe que importante deixar escrito em x e y emvez de h = x e k = y, pois a varivel da funo f x e y.
Por exemplo, f(0.2,0.3) = 0.2 + (0.3) + 2 0.2 (0.3) = 0.5 + 0.04 0.12 = 0.58.
5 Classicao dos pontos crticos
Como a funo cresce na direo do gradiente e decresce na direo oposta do gradiente, nos pontos
de mximos e mnimos locais o gradiente ser nulo, caso exista.
3
Denio 5.1. O ponto P tal que f(P ) = @ ou f(P ) = ~0 denominado de ponto crtico de f .A imagem do ponto crtico denominado de valor crtico.
Um ponto dito ponto regular se no for ponto crtico. O valor no crtico denominado de valor
regular. O valor regular requer cuidado. Um valor C regular se f1(C) = {X : f(X) = C} nocontm pontos crticos (no existe ponto crtico P tal que f(P ) = C). Portanto, para ser um valor
regular, no basta que seja imagem do ponto regular.
Exemplo 5.2. Encontre os pontos crticos de f(x, y) = x 3y + 1 x.
Soluo: Temos que f(x, y) = ( 3y + 1 1, x3 3
(y+1)2)
Pontos crticos
1o.) f(P ) = @ Quando y = 1, independente de x ento (x,1).2o.) f(P ) = ~0 Quando x = 0 e y = 0 (exerccio).Assim, os pontos crticos so (x,1) e (0, 0).
Denio 5.3. Seja P , um ponto do domnio de f : D Rn R.
O ponto P dito ponto de mnimo local se para todo ponto X 6= P sucientemente prximo deP , tem-se que f(X) f(P ). Se a desigualdade for estrita (f(X) > f(P )) ento dizemos que ponto de mnimo local estrito. No ponto de mnimo local estrito, a funo cresce em todas as
direes.
O ponto P dito ponto de mximo local se para todo ponto X 6= P sucientemente prximode P , tem-se que f(X) f(P ). Se a desigualdade for estrita (f(X) < f(P )) ento dizemosque ponto de mximo local estrito. No ponto de mximo local estrito, a funo decresce em
todas as direes.
O ponto P dito ponto de sela quando tiver uma direo que cresce e outra direo que
decresce. No deve confundir com o ponto planar na qual a funo mantm constante perto
do ponto.
Note que os valores calculados nos pontos de mximos e mnimos so denominados de valor de
mximo e valor de mnimo, respectivamente.
Seja P , um ponto crtico do tipo f(P ) = ~0. Quando a matriz hessiana for matriz singular(det Hessf(P ) = 0), dizemos que o ponto crtico degenerado. Reciprocamente, um ponto crtico na
qual det Hessf(P ) = 0 denominado de ponto crtico no degenerado.
Para enunciar o teorema de classicao dos pontos crticos, precisamos de determinante dos
menores principais que denido como a seguir.
Denio 5.4. O determinante do menor principal de A =
a1,1 a1,n...
.
.
.
.
.
.
an,1 an,n
de ordem i denidocomo i = i(A) = det
a1,1 a1,i...
.
.
.
.
.
.
ai,1 ai,i
que o determinante do bloco de tamanho ii localizadona posio superior esquerdo de A.
No caso de Hessf(X) ser contnua em P , a matriz hessiana e simtrica e podemos mostrar que
4
Teorema 5.5. Seja P um ponto critico no degenerado da funo f : Rn R (f(P ) = ~0 edet Hessf(P ) 6= 0) com todas as derivadas parciais de segunda ordem so contnuas, ento1. i(Hessf(P )) > 0 para todo i = 1, . . . , n (todos i's so estritamente positivos) se, e somente
se P ponto de mnimo local estrito (funo cresce em todas as direes).
2. (1)ii(Hessf(P )) > 0 para todo i = 1, . . . , n (sinal de i alternado, comeando de negativo)se, e somente se, P o ponto de mximo local estrito (funo decresce em todas as direes).
3. Se for nenhuma das anteriores, ento o ponto de sela (tem direo em que a funo cresce e
outra direo em que a funo decresce).
Observe que o critrio deve coincidir com o caso de uma varivel quando n = 1. Logo, 1 < 0
para mximo local.
A demonstrao de 1 pode ser feita pela anlise do Taylor de segunda ordem atravs do Teorema
Espectral que costuma ser estudado no segundo curso de lgebra Linear. Para completar a de-
monstrao, tambm vai precisar do Teorema sobre determinantes dos menores principais da matriz
simtrica.
Para parte de 2, observe que P um ponto de mximo local estrito se, e somente se f(x) < f(P )
para todos os pontos X 6= P , sucientemente prximos de P . Isto quer dizer que f(X) < f(P )para tais pontos. Assim, P ponto de mximo local restrito de f se, e somente se, P o ponto
de mnimo local restrito de f . Como Hess(f)(P ) = Hessf(P ), temos que i (Hess(f)(P )) =(1)i (Hessf(P )). Logo, i (Hess(f)(P )) = (1)i (Hessf(P )) > 0 se, e somente se, P umponto de mnimo local restrito de f , isto , um ponto de mximo local restrito de f .O caso do ponto de sela pela excluso, observando que no caso de det Hessf(P ) 6= 0, o ponto deveser de mximo local restrito, mnimo local restrito ou de sela, como consequncia do Teorema A.2.
Observao 5.6. No caso do ponto crtico degenerado (det Hessf(P ) = 0), no podemos determinar
o comportamento atravs do Teorema 5.5. Uma alternativa obter os auto valores da matriz hes-
siana e usar o Teorema A.2 na qual permite tirar concluses mesmo para alguns casos degenerados
(det Hessf(P ) = 0).
Observao 5.7. No caso do domnio no ser aberto, o ponto regular ou o ponto de sela na fronteira
pode tornar mximo ou mnimo local, o que aumenta a complexidade de estudos, mesmo considerando
os gradientes e hessianas, estendidos para a fronteira. O mtodo de multiplicadores de Lagrange
permite detectar possveis "pontos regulares" que tornaram pontos crticos na curva ou superfcies,
mas anlise de mximos e mnimos locais sobre a curva e superfcies costumam ser omitidos nos
cursos de clculo.
Exemplo 5.8. Obter e classicar o ponto crtico de f(x, y) = x2 + y2 + z2
Soluo: O ponto crtico exatamente (0, 0, 0) (exerccio) e Hessf(0, 0, 0) =
2 0 00 2 00 0 2
(exer-ccio). Obtendo o determinante dos menores principais de
2 0 0
0 2 0
0 0 2
5
temos que 1 = 2 > 0, 2 > 0 e 3 = det Hessf(0, 0, 0) = 8 > 0. Logo, (0, 0, 0) um ponto de
mnimo local.
No exemplo acima, como f(0, 0, 0) = 0 e f(x, y, z) 0 para todo (x, y, z), (0, 0, 0) um ponto demnimo global.
Observao 5.9. No caso da funo de vrias variveis, ter um nico ponto crtico e ele ser ponto
de mnimo local no implica que um ponto de mnimo global. A funo f(x, y) = x2 + y2(1 + x)3
tem um nico ponto crtico que a origem e um ponto de mnimo local, o que pode ser vericado
facilmente pela matriz hessiana. No entanto, limy=1
xf(x, y) = (exerccio). Logo, (0, 0) no umponto de mnimo global.
Problemas similares ocorrem quando tenta generalizar os resultados da funo de uma varivel
para caso das funes de vrias variveis. Alguns resultados continuam vlidos, outros precisam de
condies adicionais ou ter resultados apenas parciais, enquanto que alguns no valem.
Exemplo 5.10. Obter e classicar o ponto crtico de f(x, y) = xy
Soluo: O ponto crtico exatamente (0, 0) (exerccio) e Hessf(0, 0) =
[0 1
1 0
](exerccio).
Calculando os i's de
0 1
1 0
[ ]temos que 1 = 0 e 2 = det Hessf(0, 0) = 1. Como det Hessf(0, 0) 6= 0, umponto de mximo local, mnimo local ou sela. Mas 1 = 0 e consequentemente, (0, 0) um ponto de
sela.
Exemplo 5.11. Considere um ponto crtico P R3 na qual a funo tem segunda derivada contnua.Em cada caso, efetue classicao, justicando devidamente. Note que 3 = det Hessf(P ) por ser
de 3 variveis.
1. 1 = 1, 2 = 2 e 3 = 4. Soluo: como todos i so (estritamente) positivos, um ponto
de mnimo local (estrito).
2. 1 = 1, 2 = 4 e 3 = 2. Soluo: como i's tem sinais alternados e 1 < 0, um pontode mximo local (estrito).
3. 1 = 2, 2 = 1 e 3 = 3. Soluo: Como 3 = det Hessf(P ) = 2 6= 0 , ponto deminimo local, mximo local ou de sela. Os i's tem sinais alternados, mas o primeiro (1)
no negativo. Logo no ponto de mximo local. Como 2 = 1 < 0, no mnimo local.Logo, um ponto de sela.
4. 1 = 2, 2 = 1 e 3 = 2. Soluo: Temos que nem todas i's so positivos, nem temsinais alternados. Como 3 = det Hessf(P ) = 2 6= 0, um ponto de sela.
5. 1 = 1,2 = 0 e3 = 2. Soluo: como2 = 0, no pode ser mnimo local (no estritamente
positiva), nem mximo local (sinal alternado). Como 3 = det Hessf(P ) = 2 6= 0, s podeser ponto de sela.
6. 1 = 2, 2 = 1 e 3 = 0. Soluo: como 3 = det Hessf(P ) = 0, nada pode ser concludo.
6
No caso da classicao dos pontos crticos no degenerados da funo real de duas variveis,
a expresso de i relativamente simples. Por exemplo, O critrio para mnimo local restrito
caria1 =fxx
> 0 e 2 = det Hessf =2fxx
2fyy(2fxy
)> 0, Analogamente, o ponto de mximo
local restrito ((1)ii > 0) torna fxx < 0 e det Hessf = 2f
xx2fyy(2fxy
)> 0. Como a parte de
2 mesmo, podemos juntar e enunciar como sendo
Teorema 5.12. Se f : R2 R tem segundas derivadas parciais contnuas e P um ponto crtico,ento
Se det Hessf(P ) > 0 ento fxx
> 0 implica que um ponto de mnimo local estrito, fxx
< 0
implica que um ponto de mximo local estrito e
fxx
= 0 implica que ponto de sela.
Se det Hessf(P ) < 0, ento um ponto de sela.
No caso do ponto crtico ser degenerado (det Hessf(P ) = 2f
xx2fyy(2fxy
)= 0), nada pode ser
armado.
Esta uma das verses que mais aparece nos livros de clculo, mas no h anloga para o caso
de Rn, pois i torna mais complexa e no consegue explicitar condies em poucas palavras.
Observao 5.13. A tcnica mais rpida e simples para determinar se i so todos positivos no caso
da matriz simtrica de dimenso maior que 3 aplicar o mtodo de decomposio de Cholesky.
A Procedimeno da demonstrao do Teorema 5.5
Este apndice destina aos estudantes que j tenham algum conhecimento de lgebra linear, tais como
base e auto valores.
No estudo terico da funo real de vrias variveis com segundas derivadas parciais contnuas
(logo, matriz hessiana simtrica), o Teorema Espectral (veja [4]) desempenha um papel importante.
O Teorema Espectral garante que toda matriz simtrica tem uma base ortonormal de auto vetores.
Usando uma base de auto vetores ortonormais da matriz hessiana, temos que
Teorema A.1. Se f : Rn R tem segundas derivadas parciais contnuas no ponto P , ento existeuma base na qual a sries de Taylor de segunda ordem tem a forma f(P+H) = f(P )+f(P ), H+12
(1h21 + + nh2n) +R2 onde H = (h1, . . . , hn) e 1, . . . , n so os auto valores de Hessf(P ).A expanso do Taylor de segunda ordem em torno do ponto crtico f(P ) = ~0 torna f(P +H) =
f(P )+ 12
(1h21 + + nh2n)+R2 que no depende da base, exceto nas coordenadas hi de H (pois osauto valores no dependem da base). Por ser uma soma dos mltiplos de quadrados das coordenadas,
podemos usar a condio sobre o erro do Taylor e provar que
Teorema A.2. Se f : Rn R tem segundas derivadas contnuas e P um ponto crtico. Ento P um ponto de mximo local estrito se todos os autovalores da matriz hessiana forem estri-
tamente negativos.
P um ponto de mnimo local estrito se todos os auto valores da matriz hessiana forem
estritamente positivos
Se tiver algum auto valor estritamente positivo e algum auto valor estritamente negativo, ento
P ser um ponto de sela.
7
OTeorema 5.5 uma consequncia do Teorema A.2 para o caso no degenerado. No caso da matriz
simtrica, todos os auto valores so estritamente positivos se, e somente se, todos os determinantes
dos menores principais so estritamente positivos (veja [4]).
O Teorema 5.5 apropriado para analisar uma funo com expresso dada explicitamente e com
poucas variveis, enquanto que o Teorema A.2 apropriado para os estudos tericos ou dos pontos
crticos degenerados.
B Taylor de ordem qualquer
Este apndice destinado para quem precisar do Taylor de ordem maior que 2 que pode ser usado
tanto no estudo terico como na implementao computacional.
Dado f : Rn R, a expanso de Taylor de ordem N dado porf(P +H) =
Nk=0
(n
i1=1
n
ik=0
kf(P )
xi1 xikhi1 hik
)+RN com lim||H||
RN||H||N = 0.Para facilitar no uso terico, assim como reduzir os nmeros de termos necessrios na implemen-
tao computacional, costuma usar a notao de multi ndices.
Um multi ndice de dimenso n uma n-upla = (1, . . . , n) onde i so inteiros no negativos.
O valor absoluto e o fatorial so denidos como sendo || = 1 + + n e a! = a1! n!,respectivamente. Dado uma n-upla x = (x1, . . . , xn), denimos a potenciao x
= x11 xnn .A derivada parcial repetida tambm pode ser escrita em termos de multi ndices como sendo
= 1
x1 n
xnonde xi a i-sima varivel da funo em n-variveis.
Com estas notaes, a expanso de Taylor de ordem N pode ser escrito simplesmente como sendo
F (P +H) =||N
f(P )H
!+RN =
Nk=0
||=k
f(P )H
!
+RN com lim||H|| RN||H||N = 0, ondeRN =
||=N+1
f(ZH)H
!com ZH pertencente ao segmento que liga P a P +H.
A expresso em termos de multi ndices permite usar resultados da teoria combinatorial no estudo
dos problemas que envolvem o Taylor de ordem maior que 2.
Tambm note que na notao de multi ndices, os termos repetidos j esto agrupados, tendo
reduzido signicativamente os nmeros de termos da expresso original. A implementao computa-
cional tpica percorre os possveis multi ndices de ordem k atravs do algoritmo combinatorial para
obter termos de ordem k da expanso de Taylor.
Referncias
[1] Lima, Elon L., "Curso de Anlise vol. 2" (projeto euclides), IMPA, 1985.
[2] Lang, Serge, "Clculo vol. 2", Ao Livro tcnico S/A, 1971.
[3] Guidorizzi, Hamilton L., "Clculo vol. 1", LTC editora, 2001.
[4] Homan, Kenneth e Kunze, Ray (traduo de Bergamasco, Adalberto P.), "lgebra
Linear", Editora da USP, 1971.
8
[5] Wikipdia, http://en.wikipedia.org/wiki/Multi-index_notation, consultado em
2010.
9
IntroduoMatriz JacobianaMatriz hessianaTaylor de primeira e segunda ordemClassificao dos pontos crticosProcedimeno da demonstrao do Teorema 5.5Taylor de ordem qualquer