헤세 행렬의 의미

서울대학교 자연과학대학/공과대학 소속 학생이라면 1학년 때 수학2/고급수학2/미적분학2 중 하나를 듣게 된다. 미적분학2 시간에는 김홍종 교수의 미적분학2 책을 사용하는데, 이 책의 506p에서는 헤세 행렬을 소개한다.

하지만 선형대수적인 지식을 일절 배제하고 미적분학에 집중한 설명만을 하기에 도대체 ac-b^2>0이라는 조건이 어디서 튀어나온 것인지, 2변수가 아닌 경우 확장은 어떻게 해야 하는지 막막할 것이다. 마침 방금 우연찮게 좋은 글 헤세 행렬(Hessian Matrix)의 기하학적 의미 - 공돌이의 수학정리노트 (angeloyeo.github.io) 을 찾았고 여기에 내 설명을 덧붙여 헤세 행렬의 의미에 대해 써보려고 한다.

이 글을 읽기 위한 선수 지식

  • 미적분학2
  • 선형대수학1

헤세 행렬

먼저 헤세 행렬을 구하는 방법은 간단하다. $A_{i, j}= \partial_i \partial_j f$를 만족하는 행렬 $A$가 이급함수 $f$에 대한 헤세 행렬이 된다.

이 글에서 eigenvector/eigenvalue에 대해 서술할 때 transpose $^T$ 대신 보통 복소수 체를 다룰 때 사용되는 표현인 $^\dagger$을 사용하지만, 헤세 행렬의 주 쓰임새는 최적화이고 보통 최적화 과정에서는 실수를 다루기에 $f$는 실함수라 가정한다. $^\dagger$는 단순히 이 글의 일부에서 조금 더 일반적인 정의를 보여 주기 위
한 표현이라 보면 된다.

헤세 행렬의 해석(도입)

먼저, 헤세 행렬에 대해 논할 때 점 $\vec{x}$는 임계점($\nabla f(x) = 0$)임을 항상 전제한다.

예를 들어 이해해보자. 어떤 점 $P$에서 양수 $a_1, a_2, a_3$에 대해 어떤 이급함수 $f$의 헤세 행렬이 다음과 같다면 $f$는 어떻게 생겼을까?[1]

$$\left(\begin{matrix} a_1 &0 &0 \\ 0 & a_2 & 0 \\ 0 & 0 & a_3\end{matrix}\right)$$
첫번째 축 방향으로도 $f$는 아래로 볼록, 두번째 축 방향으로도 $f$는 아래로 볼록, 세번째 축 방향으로도 $f$는 아래로 볼록할 것이다.

다시 말해, $f$는 $P$에서 극솟값을 가진다. 이 예시를 통해 헤세 행렬을 통해 극대/극소를 파악할 수 있다는 사실을 짐작할 수 있다.

반면에 $a_1, a_2, a_3$라면 말할 것도 없이 $f$는 $P$에서 극댓값을 가지게 된다.

헤세 행렬의 해석(전개)

에르미트 행렬[2]에 대해서는 행렬의 '부호'를 정의할 수 있다. 행렬의 부호는 고윳값의 부호를 말하는 건데, 고윳값이 모두 양수이면 양의 정부호 행렬(positive definite matrix), 모두 음수이면 음의 정부호 행렬(negative definite matrix), 음수가 아니면 양의 정준부호 행렬(positive semi-definite matrix), 양수가 아니면 음의 정준부호 행렬(negative semi-definite matrix), 이들 모두에 해당되지 않으면(양수와 음수 고윳값을 모두 가짐) 부정부호 행렬(indefinite matrix)라고 부른다.

또한 행렬의 부호는 고윳값의 부호뿐만 아니라 $x^\dagger M x$의 부호와도 연관이 깊다. (단, $x\ne \vec{0}$) 예를 들어, 에르미트 행렬에 대해 $x^\dagger Mx >0$인 것과 $\forall \lambda_i >0$인 것은 동치이다.

  • 증명
    먼저 $x^\dagger Mx >0$이면 모든 eigenvalue가 양수임을 보인다. $M$의 eigenvalue $\lambda_i$에 대해 $x^\dagger Mx=x^\dagger\lambda x = \lambda |x|^2>0$이므로 양의 정부호 행렬의 모든 eigenvalue는 양수이다. 역으로, 행렬의 모든 eigenvalue가 양수이면 $M$은 양의 정부호 행렬이다. 그 이유로, 에르미트 행렬 $M$의 고 유벡터가 모두 직교하기에, 임의의 $x \ne 0$을 eigenvector들의 선형결합으로 나타낼 수 있어, $x^\dagger M x>0$이기 때문이다.

이들에 대한 약간 더 자세한 설명은 위키백과에도 잘 나와 있다.
Pasted image 20220921223640.png

헤세 행렬의 극값과 행렬의 부호

먼저, 이급함수 $f$에 대해 $\partial_i \partial_j f = \partial_j \partial_i f$(오일러의 편미분 교환법칙)이기에 헤세 행렬은 에르미트 행렬이다. 따라서 행렬의 부호를 정해줄 수 있는데, 놀랍게도 헤세 행렬이 양의 정부호 행렬이면 $f$는 그 점에서 극솟값을 가지고 헤세 행렬이 음의 정부호 행렬이면 그 점에서 극댓값을 가 진다. 또한 부정부호 행렬이면 그 점에서 안장점을 가진다.

  • 증명
    증명에 들어가기 앞서, $f''(P)$가 $f$의 hessian이며 부호를 논의할 수 있음을 미리 밝힌다.
    이급함수 $f$에 대해, $f$가 임계점이므로 일계미분값은 모두 0이고, 테일러 정리에 의해 $f(P + v)-f(P)= \dfrac{1}{2} \sum_{i, j=1}^{n} v_i v_j \partial_i \partial_j f(P+t v)$를 만족하는 $t\in(0,1)$이 존재한다. 우변은 $\dfrac{1}{2} v^\dagger f''(P+tv) v$임을 파악할 수 있으며 충분히 작은 $v$에 대해 $f''(P)$의 부호는 $f''(P+tv)$의 부호를 따라간다. 예를 들어 $f''(P)>O$로, 헤세 행렬이 양의 정부호 행렬이라면, $f''(P+tv)$ 역시 양의 정부호 행렬이고 $v^\dagger f''(P+tv)v$가 항상 양수이다. 따라서 $f(P+v)-f(P)>0$로, $P$가 극소점임을 알 수 있다. 헤세 행렬이 음의 정부호 행렬이거나 부정부호 행렬일 때도 같은 논리로 설명을 전개할 수 있다.

미적분학2 교재(이차 대칭행렬)에 대한 설명

미적분학2 교재에서는 2x2 대칭행렬에 대해 헤세 행렬과 헤세 판정법에 대해 서술한다. 여기서 506p를 보면 뜬금없이 $A=\left(\begin{matrix}a&b\\b&c\end{matrix}\right)$ 에 대해 $ac-b^2>0$이고 $a>0$이면 $A$를 양행렬, $ac-b^2>0$이고 $a<0$이면 $A$를 음행렬이라 한다고 언급한다. 배경 지식이 없는 독자에게는 행렬의 부호 는 뭐고 도대체 왜 이런 조건이어야 양행렬, 이런 조건이어야 음행렬이라 하는지 당황스럽기 그지없다. 여기에 더해 507p에서는 갑자기 '이차형식'을 소개하는데 도대체 '이차형식'이 뭐고 왜 이렇게 유도되는지는 교재를 처음 보면 혼란을 겪을 수 있다.

하지만 지금 보면 이차형식의 개념은 사실 굉장히 자연스러운데, 위에서 내가 양의 정부호 행렬을 소개할 때 $x^\dagger A x>0$이어야 한다고 소개했다. 그리고 이차형식은 $x^\dagger A x$ 그 자체를 말한다. 또한 행렬의 부호는 이차형식의 부호와 같은데, 이차형식이 항상 양수일 조건은 $ac-b^2>0$이고 $a>0$인 것이다. [3]

이러한 사고 과정을 거쳐야 '양행렬'과 '음행렬'의 개념과 정의가 자연스럽게 느껴질 수 있으며, 선형대수의 개념을 모두 배제하고 서술한 미적분학2 책만을 읽는 것보다는 이해가 더 잘 될 것이라 생각한다.

더 나아가, 물리학 전공자라면 이 글을 보고 $x^\dagger Ax$라는 표현에서 observable $A$에 대한 기댓값 개념을 떠올릴지도 모르겠다. 수학과 물리학에서 연산자의 개념을 일반화해서 사용하다보면 자주 볼 수밖에 없는 표기긴 하지만..

추가: 헤세 행렬의 공학적 활용

헤세 행렬(Hessian Matrix)의 기하학적 의미 - 공돌이의 수학정리노트 (angeloyeo.github.io)
여기에서 Vessel Detection, 즉 혈관 감지에 hessian 행렬을 사용하는 것을 확인할 수 있다. 매우 흥미로운 예시이니 확인해보길 권장한다.


  1. 헤세 행렬을 다루려면, $f''(P)$에 대해 논의하기 위해서는 함수 $f$뿐만 아니라 점 $P$도 필요하나 편의상 표기를 생략한다. ↩︎

  2. 에르미트 행렬은 $M^\dagger=M$을 만족하는 행렬이다. 또한 에르미트 행렬의 대각 원소는 항상 실수이고, 고윳값은 언제나 실수이고, orthonormal(고유벡터가 직교)한다. ↩︎

  3. 이에 대한 증명은 사실 미적분학2 507p에 이미 나와 있다. 교재의 설명도 좀 부족하긴 한데, 내용을 보충하자면 $ac-b^2>0, a>0$일 조건과 이차형식이 양수일 조건은 동치이다. 순방향은 교재의 증명에서 이미 보이고 있고, 역방향은 모든 고윳값이 양수임을 보이는 것과 똑같은데 행렬의 특성방정식은 $x^2-(a+c)x+(ac-b^2)=0$이다. 이 방정식이 2개의 양수 해를 가질 조건은 $ac-b^2>0, a+c>0$인데(y절편이 양수이며 축이 x>0에 위치한다), $ac>b^2$ 조건에 의해 $a,c$의 부호가 같다. 따라서 2개의 양수 해를 가질 조건은 $ac-b^2>0, a>0$과 같다. ↩︎