Pređi na sadržaj

Hesijan matrica

S Vikipedije, slobodne enciklopedije

U matematici, Hesijan matrica ili Hesijan je kvadratna matrica parcijalnih izvoda drugog reda skalarne funkcije ili skalarnog polja . On opisuje lokalnu krivinu funkcije mnogih promenljivih. Hesijanovu matricu je u 19. veku razvio nemački matematičar Ludvig Oto Hese i kasnije je nazvana po njemu. Hese je prvobitno koristio termin „funkcionalne odrednice“.

Pretpostavimo da je funkcija koja kao ulaz uzima vektor i izlaz skalara Ako su svi drugi parcijalni izvodi od postojeći i neprekidni su u domenu funkcije, onda Hesijanova matrica od je kvadrat matrica, obično definisana i uređena na sledeći način:

ili, navođenjem jednačine za koeficijente koristeći indekse i i j,
Hesijanova matrica je simetrična matrica, pošto hipoteza o kontinuitetu drugih izvoda podrazumeva da red diferencijacije nije bitan ( Švarcova teorema ).

Determinanta Hesijanove matrice naziva se Hessian determinant [1]

Hesijanova matrica funkcije je Jakobijanska matrica gradijenta funkcije  ; to je:

Primena[uredi | uredi izvor]

Pregibne tačke[uredi | uredi izvor]

Ako je homogeni polinom u tri varijable, jednačina je implicitna jednačina ravne projektivne krive . Pregibne tačke krive su upravo one nesingularne tačke u kojima je Hesijanova determinanta nula. Iz Bezuove teoreme sledi da kubična ravna kriva ima najviše prevojne tačke, pošto je Hesova determinanta polinom stepena

Test drugog izvoda[uredi | uredi izvor]

Hesijanova matrica konveksne funkcije je pozitivna poluodređena . Prečišćavanje ove osobine nam omogućava da testiramo da li je kritična tačka je lokalni maksimum, lokalni minimum ili tačka sedla, kako sledi:

Ako je Hesijan pozitivno-definisan u onda dostiže izolovani lokalni minimum u Ako je Hesijan negativno-definitan u onda dostiže izolovani lokalni maksimum u Ako Hesijan ima i pozitivne i negativne sopstvene vrednosti, onda je sedlo za U suprotnom, test je neuverljiv. Ovo implicira da je na lokalnom minimumu Hesijan pozitivno-poluodređen, a na lokalnom maksimumu Hesijan je negativno-poluodređen.

Za pozitivno-semidefinitne i negativno-semidefinite hesijane test je neuverljiv (kritična tačka u kojoj je hesijan poluodređen, ali nije određen može biti lokalni ekstrem ili tačka sedla). Međutim, više se može reći sa stanovišta Morzeove teorije .

Test drugog izvoda za funkcije jedne i dve promenljive je jednostavniji od opšteg slučaja. U jednoj promenljivoj, Hesijan sadrži tačno jedan drugi izvod; ako je pozitivan, onda je lokalni minimum, a ako je negativan, onda je lokalni maksimum; ako je nula, onda je test neuverljiv. Kada imamo dve promenljive, determinanta može biti korisna, jer je determinanta proizvod svojstvenim vrednostima. Ako je pozitivana, onda su sopstvene vrednosti obe pozitivne ili obe negativne. Ako je negativan, onda dve sopstvene vrednosti imaju različite predznake. Ako je nula, onda je test drugog izvoda neuverljiv.

Ekvivalentno, uslovi drugog reda koji su dovoljni za lokalni minimum ili maksimum mogu se izraziti u smislu redosleda glavnih (krajnji gornji levi) minora (determinante podmatrica) Hesijana; ovi uslovi su poseban slučaj onih koji su dati u sledećem odeljku za ograničene hesijane za ograničenu optimizaciju - slučaj u kojem je broj ograničenja nula. Konkretno, dovoljan uslov za minimum je da svi ovi glavni minori budu pozitivni, dok je dovoljan uslov za maksimum da se minori smenjuju u znaku, sa minor je negativan.

Kritične tačke[uredi | uredi izvor]

Ako je gradijent (vektor parcijalnih izvoda) funkcije nula u nekom trenutku onda ima kritičnu tačku (ili stacionarnu tačku ) u Determinanta Hesijana u se u nekim kontekstima naziva diskriminantom . Ako je ova determinanta nula onda se naziva degenerativna kritična tačka od ili ne-Morzeova kritična tačka od Inače je nedegenerisana i naziva se Morzeova kritična tačka od

Hesijanova matrica igra važnu ulogu u Morzeovoj teoriji i teoriji katastrofe, jer njeno jezgro i sopstvene vrednosti omogućavaju klasifikaciju kritičnih tačaka. [2] [3] [4]

Determinanta Hesijanove matrice, kada se proceni u kritičnoj tački funkcije, jednaka je Gausovoj krivini funkcije koja se smatra mnogostrukom. Sopstvene vrednosti Hesijana u toj tački su glavne krivine funkcije, a sopstveni vektori su glavni pravci krivine.

Upotreba u optimizaciji[uredi | uredi izvor]

Hesijan matrice se koriste u optimizacijskim problemima velikih razmera u okviru Njutnove moteode jer su koeficijent kvadratnog člana lokalne Tejlorove ekspanzije funkcije. To je,

gde je gradijent Izračunavanje i čuvanje pune hesijanove matrice ima kompleksnost , što je neizvodljivo za visokodimenzionalne funkcije kao što su funkcije gubitka, neuronske mreže, uslovna slučajna polja i drugi statistički modeli sa velikim brojem parametara. Za takve situacije razvijeni su skraćeni Njutnov i kvaziNjutnov algoritam. Poslednja porodica algoritama koristi aproksimacije Hesijana; jedan od najpopularnijih kvazi-Njutnovih algoritama je BFGS . [5]

Takve aproksimacije mogu koristiti činjenicu da algoritam optimizacije koristi Hesijan samo kao linearni operator i nastavi tako što će prvo primetiti da se Hesijan takođe pojavljuje u lokalnoj ekspanziji gradijenta:

za neki skalar ovo daje
što je,
pa ako je gradijent već izračunat, približni Hesijan se može izračunati linearnim (u veličini gradijenta) brojem skalarnih operacija. (Iako je jednostavna za programiranje, ova šema aproksimacije nije numerički stabilna jer mora biti mala da bi se sprečila greška zbog kompleksnosti, ali njegovim smanjenjem gubi se preciznost. [6] )

Druge primene[uredi | uredi izvor]

Hesijan matrica se obično koristi za izražavanje operatora za obradu slike i kompjuterskom vidu (pogledajte Laplasov Gausov (LoG) detektor mrlja, determinantu Hesijanu (DoH) detektora mrlja i prostor skale ). Hesijan matrica se takođe može koristiti u analizi normalnog režima za izračunavanje različitih molekularnih frekvencija u infracrvenoj spektroskopiji . [7]

Generalizacije[uredi | uredi izvor]

Ograničeni Hesijan[uredi | uredi izvor]

Ograničeni Hesijan se koristi za test drugog izvoda u određenim ograničenim problemima optimizacije. S obzirom na funkciju koju smo prethodno razmatrali, ali dodajući funkciju ograničenja takvu da ograničen Hesijen je Hesijen Lagranžove funkcije [8]

Ako postoje, recimo, ograničenja onda je nula u gornjem levom uglu blok nula, dok postoje graničnih redova na vrhu i granične kolone na levoj strani.

Gorenavedena pravila koja navode da su ekstremi okarakterisani (među kritičnim tačkama sa ne-singularnim hesijanom) pozitivno-definitivnim ili negativno-definitivnim hesijanom ne mogu se primeniti ovde pošto ograničeni hesijan ne može biti ni negativno-definitan ni pozitivno-definitan, kao ako je bilo koji vektor čiji je jedini unos koji nije prvi nula.

Test drugog izvoda se ovde sastoji od ograničenja znaka determinanti određenog skupa podmatrice ograničenog Hesijana. [9] Intuitivno, ograničenja se mogu smatrati svođenjem problema na jedno sa slobodne promenljive. (Na primer, maksimizacija funkcije podložan ograničenju može se svesti na maksimizaciju od bez ograničenja. )

Konkretno, predznačni uslovi se nameću nizu vodećih glavnih minora (determinante gornje-levo opravdanih podmatrica) ograničenog Hesijana, za koje su prvi vodeći glavni minori zanemareni, najmanji minor koji se sastoji od skraćenog prvog redova i kolona, sledeći se sastoji od skraćenog prvog redova i kolona, i tako dalje, pri čemu je poslednji ceo ograničen Hesijan; ako je veći od onda je najmanji vodeći glavni minor Hesijan. [10] Tako postoje minori koje treba uzeti u obzir, a svako ocenjen u određenom trenutku smatra se kandidatom za maksimum ili minimum . Dovoljan uslov za lokalni maksimum je da se ovi minori smenjuju u znaku sa najmanjim koji ima predznak Dovoljan uslov za lokalni minimum je da svi ovi minori imaju predznak (U neograničenom slučaju ovi uslovi se poklapaju sa uslovima da neograničeni Hesijan bude negativno određen ili pozitivno određen).

Vektorske funkcije[uredi | uredi izvor]

Ako je umesto toga vektorsko polje onda je,

zbirka drugih parcijalnih izvoda nije matrica, već tenzor trećeg reda. Ovo se može zamisliti kao niz od Hesijan matrica, po jedna za svaku komponentu  :
Ovaj tenzor se degeneriše u uobičajenu Hesijanovu matricu kada

Generalizacija na složen slučaj[uredi | uredi izvor]

U kontekstu nekoliko kompleksnih promenljivih, Hesijan se može generalizovati. Pretpostavimo i pisati Tada je generalizovani Hesijan Ako zadovoljava n-dimenzionalne Koši–Riman uslove, onda je kompleksna Hesijanova matrica identično nula.

Generalizacije na Rimanove mnogostrukosti[uredi | uredi izvor]

Neka bude Rimanova mnogostrukost i njegova veza Levi-Čivita . Neka bude glatka funkcija. Definišemo Hesijanov tenzor sa

pri čemu se ovim koristi činjenica da je prvi kovarijantni izvod funkcije isti kao i njen obični izvod. Izbor lokalnih koordinata daje lokalni izraz za Hesijan kao
gde su Kristofelovi simboli veze. Drugi ekvivalentni oblici za Hesijan su dati po

Vidi još[uredi | uredi izvor]

Reference[uredi | uredi izvor]

  1. ^ Binmore, Ken; Davies, Joan (2007). Calculus Concepts and Methods. Cambridge University Press. str. 190. ISBN 978-0-521-77541-0. OCLC 717598615. 
  2. ^ Callahan, James J. (2010). Advanced Calculus: A Geometric View (na jeziku: engleski). Springer Science & Business Media. str. 248. ISBN 978-1-4419-7332-0. 
  3. ^ Casciaro, B.; Fortunato, D.; Francaviglia, M.; Masiello, A., ur. (2011). Recent Developments in General Relativity (na jeziku: engleski). Springer Science & Business Media. str. 178. ISBN 9788847021136. 
  4. ^ Domenico P. L. Castrigiano; Sandra A. Hayes (2004). Catastrophe theory. Westview Press. str. 18. ISBN 978-0-8133-4126-2. 
  5. ^ Nocedal, Jorge; Wright, Stephen (2000). Numerical Optimization. Springer Verlag. ISBN 978-0-387-98793-4. 
  6. ^ Pearlmutter, Barak A. (1994). „Fast exact multiplication by the Hessian” (PDF). Neural Computation. 6 (1): 147—160. doi:10.1162/neco.1994.6.1.147. Arhivirano iz originala (PDF) 15. 11. 2021. g. Pristupljeno 15. 11. 2021. 
  7. ^ Mott, Adam J.; Rez, Peter (24. 12. 2014). „Calculation of the infrared spectra of proteins”. European Biophysics Journal (na jeziku: engleski). 44 (3): 103—112. ISSN 0175-7571. doi:10.1007/s00249-014-1005-6. 
  8. ^ Hallam, Arne (7. 10. 2004). „Econ 500: Quantitative Methods in Economic Analysis I” (PDF). Iowa State. 
  9. ^ Neudecker, Heinz; Magnus, Jan R. (1988). Matrix Differential Calculus with Applications in Statistics and Econometrics. New York: John Wiley & Sons. str. 136. ISBN 978-0-471-91516-4. 
  10. ^ Chiang, Alpha C. (1984). Fundamental Methods of Mathematical Economics (Third izd.). McGraw-Hill. str. 386. ISBN 978-0-07-010813-4. 

Literatura[uredi | uredi izvor]

Spoljašnje veze[uredi | uredi izvor]