Hessian matrisi (veya hesse)

Bu sayfa kesinlikle Hessian matrisinin var olan en eksiksiz açıklamasıdır. Burada Hessian matrisi kavramı açıklanıyor, örneklerle nasıl hesaplanacağı ve hatta uygulanabilecek birkaç çözülmüş alıştırma var. Ek olarak, çok değişkenli bir fonksiyonun maksimum ve minimum değerlerinin nasıl hesaplandığını ve bunun içbükey mi yoksa dışbükey bir fonksiyon mu olduğunu öğrenebileceksiniz. Ve son olarak Hessian matrisi yardımcı programlarını ve uygulamalarını da bulacaksınız.

Hessian matrisi nedir?

Hessian (veya Hessian) matrisinin tanımı aşağıdaki gibidir:

Hessian matrisi, n değişkenli bir fonksiyonun kısmi ikinci türevlerinden oluşan n × n boyutunda bir kare matristir.

Bu matris aynı zamanda Hessian olarak da bilinir, hatta bazı matematik kitaplarında Diskriminant olarak da adlandırılır. Ancak bunu adlandırmanın en yaygın yolu Hessian matrisidir.

Dolayısıyla Hessian matrisinin formülü aşağıdaki gibidir:

Hessian veya Hessian matris formülü

Bu nedenle Hessian matrisi her zaman boyutu fonksiyondaki değişken sayısına eşit olan bir kare matris olacaktır. Örneğin, fonksiyonun 3 değişkeni varsa Hessian matrisinin boyutu 3×3 olacaktır.

Ek olarak, Schwarz teoremi (veya Clairaut teoremi), türev alma sırasının önemli olmadığını, yani değişkene göre kısmen ilk önce türetildiğini söyler.

x_1

o zaman değişkene göre

x_2

açısından kısmen farklılaşma anlamına gelir

x_2

o zaman saygı duy

x_1

.

\displaystyle \cfrac{\partial^2 f}{\partial x_i\partial x_j} = \cfrac{\partial^2 f}{\partial x_j\partial x_i}

Dolayısıyla Hessian matrisi simetrik bir matristir veya başka bir deyişle ekseni asal köşegeni olan bir simetriye sahiptir.

İlginç bir şekilde Hessian matrisi, adını lineer cebir alanına çok önemli katkılarda bulunan 19. yüzyıl Alman matematikçisi Ludwig Otto Hesse’den almıştır.

Hessian matrisini hesaplama örneği

2 × 2 boyutlu bir Hessian matrisinin nasıl bulunacağına dair bir örnek görelim:

  • Aşağıdaki fonksiyonun (1,0) noktasındaki Hessian matrisini hesaplayın:

\displaystyle  f(x,y)=y^4+x^3+3x^2+ 4y^2 -4xy -5y +8

Öncelikle birinci dereceden kısmi türevleri hesaplamamız gerekir:

\displaystyle \cfrac{\partial f}{\partial x} = 3x^2 +6x -4y

\displaystyle \cfrac{\partial f}{\partial y} = 4y^3+8y -4x -5

İlk türevleri zaten bildiğimizde, tüm ikinci dereceden kısmi türevleri hesaplarız:

\displaystyle \cfrac{\partial^2 f}{\partial x^2} = 6x +6

\displaystyle \cfrac{\partial^2 f}{\partial y^2} =12y^2 +8

\displaystyle \cfrac{\partial^2 f}{\partial x \partial y} = \cfrac{\partial^2 f}{\partial y \partial x}= -4

Bu nedenle artık Hessian matrisini 2 × 2 matris formülünden bulabiliriz:

\displaystyle H_f (x,y)=\begin{pmatrix}\cfrac{\partial^2 f}{\partial x^2} & \cfrac{\partial^2 f}{\partial x \partial y} \\[4ex] \cfrac{\partial^2 f}{\partial y \partial x} & \cfrac{\partial^2 f}{\partial y^2} \end{pmatrix}

\displaystyle H_f (x,y)=\begin{pmatrix}6x +6 &-4 \\[2ex] -4 & 12y^2+8 \end{pmatrix}

Böylece (1,0) noktasında değerlendirilen Hessian matrisi şöyle olacaktır:

\displaystyle H_f (1,0)=\begin{pmatrix}6(1) +6 &-4 \\[2ex] -4 & 12(0)^2+8 \end{pmatrix}

çuval bezi veya kendir kalıp örnekleri

Hessian matrislerinin çözülmüş problemleri

1. Egzersiz

(1,1) noktasında 2 değişkenli aşağıdaki fonksiyonun Hessian matrisini hesaplayın:

\displaystyle  f(x,y)=x^2y+y^2x

Öncelikle fonksiyonun birinci dereceden kısmi türevlerini bulmamız gerekiyor:

\displaystyle \cfrac{\partial f}{\partial x} = 2xy+y^2

\displaystyle \cfrac{\partial f}{\partial y} = x^2+2yx

İlk türevleri zaten hesapladıktan sonra, tüm ikinci dereceden kısmi türevleri çözmeye devam ederiz:

\displaystyle \cfrac{\partial^2 f}{\partial x^2} = 2y

\displaystyle \cfrac{\partial^2 f}{\partial y^2} =2x

\displaystyle \cfrac{\partial^2 f}{\partial x \partial y} = \cfrac{\partial^2 f}{\partial y \partial x}=2x+2y

Böylece Hessian matrisi şu şekilde tanımlanır:

2x2 boyutlu Hessian veya Hessian matrisinin çözülmüş alıştırması

Son olarak geriye kalan tek şey Hessian matrisini (1,1) noktasında değerlendirmektir:

\displaystyle H_f (1,1)=\begin{pmatrix}2\cdot 1 &2 \cdot 1+2\cdot 1 \\[1.5ex] 2\cdot 1+2\cdot 1 & 2\cdot 1 \end{pmatrix}

\displaystyle \bm{H_f (1,1)}=\begin{pmatrix}\bm{2} & \bm{4} \\[1.1ex] \bm{4} & \bm{2} \end{pmatrix}

Alıştırma 2

İki değişkenli aşağıdaki fonksiyonun (1,1) noktasındaki Hessian’ı hesaplayın:

\displaystyle  f(x,y)= e^{y\ln x}

Öncelikle fonksiyonun birinci dereceden kısmi türevlerini hesaplamamız gerekir:

\displaystyle \cfrac{\partial f}{\partial x} = e^{y\ln x} \cdot \cfrac{y}{x}

\displaystyle \cfrac{\partial f}{\partial y} = e^{y\ln x} \cdot \ln x

İlk türevleri elde ettikten sonra fonksiyonun ikinci dereceden kısmi türevlerini hesaplarız:

\displaystyle \cfrac{\partial^2 f}{\partial x^2} = e^{y\ln x} \cdot \cfrac{y^2}{x^2} - e^{y\ln x} \cdot \cfrac{y}{x^2}

\displaystyle \cfrac{\partial^2 f}{\partial y^2} =e^{y\ln x} \cdot \ln ^2 x

\displaystyle \cfrac{\partial^2 f}{\partial x \partial y}=\cfrac{\partial^2 f}{\partial y \partial x} =e^{y\ln x} \cdot \cfrac{y}{x}\cdot \ln x + e^{y\ln x}\cdot \cfrac{1}{x}

Dolayısıyla fonksiyonun Hessian matrisi 2×2 boyutunda bir kare matristir:

Çözülmüş Hessian egzersizi veya 2x2 boyutlu Hessian matrisi

Son olarak geriye kalan tek şey Hessian matrisini (1,1) noktasında değerlendirmektir:

\displaystyle H_f (1,1)=\begin{pmatrix} e^{1\ln (1)} \displaystyle \cdot \cfrac{1^2}{1^2} - e^{1\ln (1)} \cdot \cfrac{1}{1^2}& e^{1\ln (1)} \cdot \cfrac{1}{1}\cdot \ln (1) + e^{1\ln (1)}\cdot \cfrac{1}{1} \\[3ex] e^{1\ln (1)} \cdot \cfrac{1}{1}\cdot \ln (1) + e^{1\ln (1)}\cdot \cfrac{1}{1} & e^{1\ln (1)} \cdot \ln ^2 (1) \end{pmatrix}

\displaystyle H_f (1,1)=\begin{pmatrix}e^{0} \cdot 1 - e^{0} \cdot 1& e^{0} \cdot 1\cdot 0 + e^{0}\cdot 1 \\[2ex] e^{0} \cdot 1\cdot 0 + e^{0}\cdot 1 & e^{0} \cdot 0\end{pmatrix}

\displaystyle H_f (1,1)=\begin{pmatrix}1 - 1& 0+ 1 \\[1.5ex] 0 +1 & 1 \cdot 0\end{pmatrix}

\displaystyle \bm{H_f (1,1)}=\begin{pmatrix}\bm{0} & \bm{1} \\[1.1ex] \bm{1} & \bm{0} \end{pmatrix}

Alıştırma 3

Bu noktada Hessian matrisini bulun

(0,1,\pi)

3 değişkenli aşağıdaki fonksiyondan:

\displaystyle  f(x,y,z)= e^{-x}\cdot \text{sen}(yz)

Öncelikle fonksiyonun birinci dereceden kısmi türevlerini hesaplıyoruz:

\displaystyle \cfrac{\partial f}{\partial x} = -e^{-x}\cdot \text{sen}(yz)

\displaystyle \cfrac{\partial f}{\partial y} = ze^{-x}\cdot \text{cos}(yz)

\displaystyle \cfrac{\partial f}{\partial z} = ye^{-x}\cdot \text{cos}(yz)

İlk türevleri elde ettikten sonra fonksiyonun ikinci dereceden kısmi türevlerini hesaplarız:

\displaystyle \cfrac{\partial^2 f}{\partial x^2} =e^{-x}\cdot \text{sen}(yz)

\displaystyle \cfrac{\partial^2 f}{\partial x \partial y}=\cfrac{\partial^2 f}{\partial y \partial x} =-ze^{-x}\cdot \text{cos}(yz)

\displaystyle \cfrac{\partial^2 f}{\partial x \partial z}=\cfrac{\partial^2 f}{\partial z \partial x} =-ye^{-x}\cdot \text{cos}(yz)

\displaystyle \cfrac{\partial^2 f}{\partial y^2} =-z^2e^{-x}\cdot \text{sen}(yz)

\displaystyle \cfrac{\partial^2 f}{\partial y \partial z}=\cfrac{\partial^2 f}{\partial z \partial y} =e^{-x}\cdot \text{cos}(yz)-yze^{-x}\cdot \text{sen}(yz)

\displaystyle \cfrac{\partial^2 f}{\partial^2 z} = -y^2e^{-x}\cdot \text{sen}(yz)

Böylece fonksiyonun Hessian matrisi 3×3 boyutunda bir kare matris olur:

3x3 boyutunda çuval bezi veya çuval bezi matrisi örneği

Son olarak değişkenleri ilgili noktadaki değerleriyle değiştiriyoruz.

(0,1,\pi):

\displaystyle H_f(0,1,\pi)=\begin{pmatrix}e^{-0}\cdot \text{sen}(1\pi) & -\pi e^{-0}\cdot \text{cos}(1\pi) &-1e^{-0}\cdot \text{cos}(1\pi) \\[1.5ex] -\pi e^{-0}\cdot \text{cos}(1 \pi)&-\pi^2e^{-0}\cdot \text{sen}(1 \pi) &e^{-0}\cdot \text{cos}(1 \pi)-1 \pi e^{-0}\cdot \text{sen}(1 \pi) \\[1.5ex] -1e^{-0}\cdot \text{cos}(1 \pi)& e^{-0}\cdot \text{cos}(1 \pi)-1 \pi e^{-0}\cdot \text{sen}(1 \pi)& -1^2e^{-0}\cdot \text{sen}(1 \pi) \end{pmatrix}

\displaystyle H_f(0,1,\pi)=\begin{pmatrix}1\cdot 0 & -\pi \cdot 1 \cdot (-1)&-1\cdot 1 \cdot (-1) \\[1.5ex] -\pi \cdot 1 \cdot (-1) &-\pi^2\cdot 1\cdot 0 &1 \cdot (-1)-\pi \cdot 1\cdot 0 \\[1.5ex] -1\cdot 1 \cdot (-1) & 1\cdot (-1) - \pi \cdot 1\cdot 0 & -1\cdot 1 \cdot 0 \end{pmatrix}

3x3 boyutlu Hessian veya Hessian matrisinin adım adım çözülmesi alıştırması

Alıştırma 4

4 değişkenli aşağıdaki fonksiyonun (2,-1,1,-1) noktasındaki Hessian matrisini belirleyin:

\displaystyle  f(x,y,z,w)= 2x^3y^4zw^2 - 2y^3w^4+ 3x^2z^2

İlk adım, fonksiyonun birinci dereceden kısmi türevlerini bulmaktır:

\displaystyle \cfrac{\partial f}{\partial x} =6x^2y^4zw^2 + 6xz^2

\displaystyle \cfrac{\partial f}{\partial y} =8x^3y^3zw^2 - 6y^2w^4

\displaystyle \cfrac{\partial f}{\partial z} = 2x^3y^4w^2 + 6x^2z

\displaystyle \cfrac{\partial f}{\partial w} =4x^3y^4zw - 8y^3w^3

Şimdi fonksiyonun ikinci dereceden kısmi türevlerini çözüyoruz:

\displaystyle \cfrac{\partial^2 f}{\partial x^2} =12xy^4zw^2 + 6z^2

\displaystyle \cfrac{\partial^2 f}{\partial x \partial y}=\cfrac{\partial^2 f}{\partial y \partial x}=24x^2y^3zw^2

\displaystyle \cfrac{\partial^2 f}{\partial x \partial z}=\cfrac{\partial^2 f}{\partial z \partial x}=6x^2y^4w^2 + 12xz

\displaystyle \cfrac{\partial^2 f}{\partial x \partial w} = \cfrac{\partial^2 f}{\partial w \partial x}=12x^2y^4zw

\displaystyle \cfrac{\partial^2 f}{\partial y^2} =24x^3y^2zw^2 - 12yw^4

\displaystyle \cfrac{\partial^2 f}{\partial y \partial z}=\cfrac{\partial^2 f}{\partial y \partial z}=8x^3y^3w^2

\displaystyle \cfrac{\partial^2 f}{\partial y \partial w} = \cfrac{\partial^2 f}{\partial w \partial y}=16x^3y^3zw - 24y^2w^3

\displaystyle \cfrac{\partial^2 f}{\partial^2 z} =6x^2

\displaystyle \cfrac{\partial^2 f}{\partial z \partial w} = \cfrac{\partial^2 f}{\partial w \partial z}=4x^3y^4w

\displaystyle \cfrac{\partial^2 f}{\partial^2 w} =4x^3y^4z - 24y^3w^2

Böylece tüm kısmi türevlerin çözülmesiyle elde edilen 4×4 Hessian matrisinin ifadesi aşağıdaki gibidir:

örnek 4x4 boyutunda çuval bezi veya çuval bezi matrisinin adım adım çözülmesi

Son olarak bilinmeyenleri ilgili nokta değerlerinin (2,-1,1,-1) yerine koyarız ve hesaplamaları yaparız:

Alıştırma 4x4 boyutlu Hessian veya Hessian matrisinin adım adım çözülmesi

Hessian matrisinin pozitif, negatif veya belirsiz olduğunu nasıl anlarsınız?

Daha sonra göreceğimiz gibi, Hessian matrisinin pozitif yarı tanımlı, pozitif tanımlı, negatif yarı tanımlı, negatif tanımlı veya belirsiz matris olup olmadığını bilmek çok faydalıdır. Peki bunu nasıl öğrenebileceğimize bakalım:

Özdeğerlerin (veya özdeğerlerin) kriteri

Ne tür bir matris olduğunu bilmenin bir yolu, Hessian matrisinin özdeğerlerini (veya özdeğerlerini) incelemektir:

  • Hessian matrisi, sıfıra eşit ve sıfırdan büyük özdeğerlere (veya özdeğerlere) sahipse pozitif yarı tanımlıdır . Yani pozitif özdeğerleri vardır ve en az biri 0’a eşittir:

\lambda \geq 0

  • Hessian matrisi, tüm özdeğerleri (veya özdeğerleri) yalnızca 0’dan (pozitif) büyükse pozitif tanımlıdır :

\lambda > 0″ title=”Rendered by QuickLaTeX.com” height=”14″ width=”43″ style=”vertical-align: -2px;”></p>
</p>
<ul>
<li> Hessian matrisi, sıfıra eşit ve sıfırdan küçük özdeğerlere (veya özdeğerlere) sahipse <span style=negatif yarı tanımlıdır . Yani negatif özdeğerleri vardır ve en az biri 0’a eşittir:

\lambda \leq 0

  • Hessian matrisi, tüm özdeğerleri (veya özdeğerleri) 0’dan (negatif) küçükse negatif tanımlıdır :

\lambda < 0

  • Hessian matrisi, pozitif ve negatif özdeğerlere (veya özdeğerlere) sahip olduğunda tanımsızdır :

\lambda > 0 \qquad \lambda <0

Sylvester kriteri

Hessian matrisinin ne tür olduğunu bilmenin bir başka yolu Sylvester kriterini kullanmaktır, ancak bu teorem bize sadece pozitif tanımlı, negatif tanımlı veya belirsiz olup olmadığını bilmemizi sağlar. Ancak bazen hesaplamalar genellikle daha kolay olduğundan kullanımı çok daha hızlı olabilir.

Böylece Sylvester kriteri şu şekilde okunur:

  • Hessian matrisinin tüm ana küçükleri 0’dan büyükse, bu pozitif tanımlı bir matristir.
  • Hessian matrisinin çift indeksli asal küçükleri 0’dan büyük ve tek indeksli olanlar 0’dan küçükse negatif tanımlı bir matristir.
  • Hessian matrisinin tüm ana küçükleri 0 değilse ve önceki iki koşulun hiçbiri karşılanmıyorsa, bu belirsiz bir matristir.
Hessian matrisinin ana küçükleri

Açıkçası, Hessian matrisinin maksimum ana minörü her zaman determinantıyla çakışacaktır. Yalnızca bilgilendirme amaçlıdır, Hessian matrisinin determinantına “Hessian” da denir, ancak karışıklığı önlemek için burada bunu yapmayacağız.

Hessian matrisi ile bir fonksiyonun maksimum veya minimum değeri nasıl hesaplanır

Hessian matrisinin nasıl hesaplanacağını öğrendikten sonra muhtemelen merak ediyorsunuzdur: Peki bu matris ne için kullanılıyor?

Hessian matrisinin uygulamalarından biri de birden fazla değişkenli bir fonksiyonun maksimum veya minimumunu bulmaktır. Maksimum ve minimumların nasıl hesaplanacağına ilişkin adım adım açıklama aşağıda verilmiştir:

  1. Öncelikle çok değişkenli fonksiyonun kritik noktaları hesaplanır. Bunu yapmak için fonksiyonun gradyanını veya Jacobian matrisini hesaplıyoruz, 0’a eşitliyoruz ve denklemleri çözüyoruz.
  2. Hessian matrisi hesaplanır.
  3. Adım 1’de bulunan kritik noktalar Hessian matrisine yerleştirilir. Böylece kritik noktaların fonksiyona sahip olduğu sayıda Hessian matrisi elde edeceğiz.
  4. Her Hessian matrisinin ne tür bir matris olduğuna bakıyoruz. Yani pozitif tanımlı, negatif tanımlı, belirsiz vb. olup olmadığına bakıyoruz.
    • Hessian matrisi pozitif tanımlı ise kritik nokta fonksiyonun göreceli minimumudur .
    • Hessian matrisi negatif tanımlı ise kritik nokta fonksiyonun göreceli maksimumudur .
    • Hessian matrisi tanımsızsa kritik nokta eyer noktasıdır .

Çok değişkenli bir fonksiyonun maksimum ve minimumlarını hesaplama örneği

Bunun nasıl yapıldığını görmek için burada Hessian matrisi kullanılarak bir fonksiyonun göreceli ekstremumlarının hesaplanmasına ve sınıflandırılmasına ilişkin bir örnek verilmiştir:

  • Aşağıdaki çok değişkenli fonksiyonun tüm göreceli ekstremumlarını bulun:

\displaystyle  f(x,y)=x^2-y^2+2xy+ 4x-4y

Yapmamız gereken ilk şey, fonksiyonun Jacobian matrisini hesaplamaktır; bu durumda bu, skaler bir fonksiyon olduğu için gradyanla çakışacaktır:

\displaystyle \nabla f (x,y)=(2x+2y+4 \ , \ -2y+2x-4 )

Şimdi kritik noktaları belirlememiz gerekiyor, bunun için elde edilen denklemleri 0’a eşitliyoruz ve denklem sistemini çözüyoruz:

\displaystyle \nabla f (x,y)=0

\displaystyle \left. \begin{array}{l} 2x+2y+4 =0 \\[2ex] -2y+2x-4=0 \end{array}\right\} \longrightarrow \left. \begin{array}{c} x = 0 \\[1.1ex] y = -2 \end{array}\right\} \longrightarrow \ (0,-2)

Yani bulduğumuz kritik nokta (0,-2)’dir.

Fonksiyonun kritik noktası bulunduktan sonra Hessian matrisini hesaplamamız gerekir:

\displaystyle H_f (x,y)=\begin{pmatrix}2 & 2 \\[1.1ex] 2 & -2  \end{pmatrix}

Ve açıkçası, kritik noktada değerlendirilen Hessian matrisi aynıdır:

\displaystyle H_f (0,-2)=\begin{pmatrix}2 & 2 \\[1.1ex] 2 & -2 \end{pmatrix}

Ne tür bir matris olduğunu görmek için Sylvester kriterini kullanacağız. Bu nedenle matrisin ana küçüklerini çözüyoruz:

\displaystyle \begin{vmatrix}2 \end{vmatrix} = 2

\displaystyle \begin{vmatrix}2 & 2 \\[1.1ex] 2 & -2 \end{vmatrix} = -8

Asal minör 1 (tek) pozitiftir ve asal minör 2 (çift) negatiftir, dolayısıyla Sylvester kriterine göre belirsiz bir matristir. Ve bu nedenle kritik nokta (0,-2) bir eyer noktasıdır.

Hessian matrisi ile bir fonksiyonun içbükeyliğini veya dışbükeyliğini belirleme

Hessian matrisinin bir diğer kullanımı da bir fonksiyonun içbükey mi yoksa dışbükey mi olduğunu bilmektir. Ve bu aşağıdaki teoreme göre belirlenebilir:

Olmak

A \subseteq \mathbb{R}^n

açık bir küme ve

f \colon A \to \mathbb{R}

ikinci türevleri sürekli olan bir fonksiyonun içbükeyliği ve dışbükeyliği Hessian matrisi tarafından tanımlanır:

  • İşlev

    f

    baştan sona dışbükeydir

    A

    ancak ve ancak Hessian matrisi kümenin her noktasında pozitif yarı tanımlı ise.

  • İşlev

    f

    boyunca kesinlikle dışbükeydir

    A

    ancak ve ancak Hessian matrisinin kümenin her noktasında pozitif tanımlı olması durumunda.

Bu nedenle eğer

f

Jacobian matrisinin de sıfırlandığı bir noktada dışbükey bir fonksiyondur, bu nokta yerel bir minimumdur .

  • İşlev

    f

    genel olarak içbükeydir

    A

    ancak ve ancak Hessian matrisi kümenin her noktasında negatif yarı tanımlı ise.

  • İşlev

    f

    genel olarak kesinlikle içbükeydir

    A

    ancak ve ancak Hessian matrisi kümenin her noktasında negatif tanımlıysa.

Bu nedenle eğer

f

Jacobian matrisinin de sıfırlandığı bir noktada içbükey bir fonksiyondur, bu nokta yerel bir maksimumdur .

Aşağıda 3 boyutlu uzayda temsil edilen bir dışbükey fonksiyon ve bir başka içbükey fonksiyon örneğini görüyorsunuz:

dışbükey fonksiyon

Hessian matrisi ile dışbükey veya içbükey işlevi belirleyin

içbükey fonksiyon

Resmin boş bir ALT özelliği var; dosya adı 1024x768-hessian-matrisli-bir fonksiyonun-içbükeyliği ve-dışbükeyliğidir.jpg

Hessian matrisinin daha fazla uygulaması

Hessian matrisinin ana kullanım alanları daha önce gördüklerimizdir ancak başka uygulamaları da vardır. En çok merak edenler için aşağıda bunları açıklıyoruz.

Taylor polinomu

Taylor polinomunun 2 veya daha fazla değişkenli fonksiyonlar için açılımı

a

şöyle başlar:

\displaystyle  T(x) = f(a) + (x-a)^T \nabla f(a) + \frac{1}{2}(x-a)^T \operatorname{H}_f(a)(x-a) + \ldots

Gördüğünüz gibi Taylor açılımının ikinci dereceden terimleri polinomun açılım noktasında değerlendirilen Hessian matrisi tarafından verilmektedir.

Kenarlıklı Çuval Bezi Matrisi

Hessian matrisinin bir başka kullanımı da çok değişkenli bir fonksiyonun minimum ve maksimumlarını hesaplamaktır.

f(x,y)

başka bir rolle sınırlı

g(x,y)

. Bu sorunu çözmek için sınırlı Hessian matrisi kullanılır ve aşağıdaki prosedür izlenir:

Adım 1: Aşağıdaki ifadeyle tanımlanan Lagrange fonksiyonu hesaplanır:

\displaystyle L(x,y,\lambda) = f(x,y)+ \lambda \cdot g(x,y)

Adım 2: Lagrange fonksiyonunun kritik noktaları bulunur. Bunu yapmak için Lagrange fonksiyonunun gradyanını hesaplıyoruz, denklemleri 0’a eşitliyoruz ve denklemleri çözüyoruz.

\displaystyle \nabla L = 0

\displaystyle \cfrac{\partial L}{\partial x} = 0 \qquad \cfrac{\partial L}{\partial y}=0 \qquad \cfrac{\partial L}{\partial \lambda}=0

Adım 3: Bulduğumuz her nokta için aşağıdaki matrisle tanımlanan sınırlı Hessian’ı hesaplıyoruz:

\displaystyle H(f,g) = \begin{pmatrix}0 & \cfrac{\partial g}{\partial x_1} & \cfrac{\partial g}{\partial x_2} & \cdots & \cfrac{\partial g}{\partial x_n} \\[4ex] \cfrac{\partial g}{\partial x_1} & \cfrac{\partial^2 f}{\partial x_1^2} & \cfrac{\partial^2 f}{\partial x_1\,\partial x_2} & \cdots & \cfrac{\partial^2 f}{\partial x_1\,\partial x_n} \\[4ex] \cfrac{\partial g}{\partial x_2} & \cfrac{\partial^2 f}{\partial x_2\,\partial x_1} & \cfrac{\partial^2 f}{\partial x_2^2} & \cdots & \cfrac{\partial^2 f}{\partial x_2\,\partial x_n} \\[3ex] \vdots & \vdots & \vdots & \ddots & \vdots \\[3ex] \cfrac{\partial g}{\partial x_n} & \cfrac{\partial^2 f}{\partial x_n\,\partial x_1} & \cfrac{\partial^2 f}{\partial x_n\,\partial x_2} & \cdots & \cfrac{\partial^2 f}{\partial x_n^2}\end{pmatrix}

Adım 4: Her kritik nokta için maksimum mu yoksa minimum mu olduğunu belirleriz:

  • Bu, fonksiyonun yerel maksimumu olacaktır

    f

    fonksiyon kısıtlamaları altında

    g

    kritik noktada değerlendirilen sınırlanmış Hessian matrisinin son nm’si (burada n değişkenlerin sayısı ve m kısıtlamaların sayısıdır) negatif işaretle başlayan alternatif işaretlere sahipse.

  • Bu, fonksiyonun yerel minimumu olacaktır

    f

    fonksiyon kısıtlamaları altında

    g

    kritik noktada değerlendirilen keskin Hessian matrisinin son nm’sinin ( n değişkenlerin sayısı ve m’nin kısıtlamaların sayısı olduğu) ana küçüklerinin tümü negatif işaretlere sahipse.

Bir kısıtlı fonksiyonun diğerine göre göreceli minimum veya maksimumlarının, kısıtlanmamış fonksiyon için mutlaka böyle olması gerekmediği akılda tutulmalıdır. Sınırlı Hessian matrisi bu nedenle yalnızca bu tür problemler için kullanışlıdır.

Diğer operasyonlarla ilişki

Son olarak, Hessian matrisi aynı zamanda diğer önemli işlemlere veya matrislere, özellikle de Jacobian matrisine ve Laplace operatörüne bağlıdır.

Jacobian matrisiyle ilişki

Bir fonksiyonun Hessian matrisi

f

aynı fonksiyonun gradyanının Jacobian matrisidir :

\displaystyle H_f = J(\nabla f)

Laplace operatörü

Hessian matris izi Laplace operatörüne eşdeğerdir:

\displaystyle tr( H_f) = \Delta f

Laplace operatörünün tanımı bir fonksiyonun gradyanının ıraksaması olduğundan bu eşitlik kolayca kanıtlanabilir:

\displaystyle  \Delta f =\nabla \cdot (\nabla f) = (\nabla \cdot \nabla )f = \nabla^2 f

Dolayısıyla ifadesi şu şekildedir:

\displaystyle \Delta f = \cfrac{\partial ^2 f}{\partial^2 x_1} +\cfrac{\partial ^2 f}{\partial^2 x_2} + \cfrac{\partial ^2 f}{\partial^2 x_3}+ \ldots +\cfrac{\partial ^2 f}{\partial^2 x_n}

Ve bu toplam Hessian matrisinin yalnızca izidir, dolayısıyla eşdeğerlik kanıtlanmıştır.

Yorum bırakın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Scroll to Top