다변수 함수의 미분

이 장에서는 유클리드 공간 \(\mathbb{R}^n\)에서 \(\mathbb{R}^m\)으로의 함수의 미분을 다룬다. 편미분과 전미분의 개념을 정의하고, 연쇄법칙, 평균값 정리, 음함수 정리 등 중요한 결과들을 살펴본다.

편미분과 전미분

점 \(a = (a_1,\, \cdots,\, a_n)\)이 함수 \(f: \mathbb{R}^n \to \mathbb{R}\)의 정의역의 내점이라고 하자. 이때 점 \(a\)에서 함수 \(f\)의 \(x_i\)에 대한 편미분(partial derivative)을 \[\frac{\partial f}{\partial x_i}(a) = \lim_{h \to 0} \frac{f(a_1,\, \cdots,\, a_i + h,\, \cdots,\, a_n) - f(a)}{h}\] 로 정의한다. 위 편미분을 \(f_{x_i}(a)\)로 나타내기도 한다.

모든 변수에 대한 편미분이 존재해도 함수가 연속이 아닐 수 있다. 예를 들어, \[f(x,\, y) = \begin{cases} \frac{xy}{x^2 + y^2} & \text{if }\, (x,\, y) \neq (0,\, 0), \\[8pt] 0 & \text{if }\, (x,\, y) = (0,\, 0) \end{cases}\] 이라고 정의된 함수 \(f\)는 \((0,\,0)\)에서 두 편미분계수가 모두 0이지만 불연속이다.

함수 \(f: \mathbb{R}^n \to \mathbb{R}^m\)이 점 \(a\)에서 전미분 가능하다(differentiable) 또는 프레셰 미분 가능하다는 것은, 선형변환 \(L: \mathbb{R}^n \to \mathbb{R}^m\)이 존재하여 \[\lim_{h \to 0} \frac{\|f(a + h) - f(a) - L(h)\|}{\|h\|} = 0\] 인 것을 의미한다. 이때 선형변환 \(L\)을 \(a\)에서 \(f\)의 미분(differential) 또는 도함수라고 부르고 \(Df(a)\) 또는 \(f'(a)\)로 나타낸다.

함수 \(f\)가 \(a\)에서 전미분 가능할 조건을 다음과 같이 표현할 수도 있다. \[f(a + h) = f(a) + Df(a)(h) + o(\|h\|).\] 여기서 \(o(\|h\|)\)는 \(\|h\| \to 0\)일 때 \(o(\|h\|)/\|h\| \to 0\)을 만족시키는 항이다.

정리 9.1. (미분 가능성과 연속성의 관계)

전미분 가능한 함수는 연속이다.

증명

증명은 일변수 함수의 경우와 유사하다. \(f\)가 \(a\)에서 전미분 가능하므로 \(f(a+h)=f(a)+Df(a)h+r(h)\), \(\|r(h)\|/\|h\|\to 0\)이다. 따라서 \(\|f(a+h)-f(a)\|\le (\|Df(a)\|+\varepsilon(h))\|h\|\to 0\)이므로, \(f\)는 \(a\)에 연속이다. 여기서 \(\lVert Df(a)\rVert\)는 유클리드 노름에 대한 연산자 노름이다.

함수 \(f: \mathbb{R}^n \to \mathbb{R}^m\)이 \(a\)에서 전미분 가능하면 \(a\)에서 \(f\)의 모든 편미분이 존재하고, \(Df(a)\)의 행렬 표현은 편미분들로 이루어진다. 즉 \(f = (f_1,\, \ldots,\, f_m)\)일 때 \[Df(a) = \begin{pmatrix} \frac{\partial f_1}{\partial x_1}(a) & \cdots & \frac{\partial f_1}{\partial x_n}(a) \\ \vdots & \ddots & \vdots \\ \frac{\partial f_m}{\partial x_1}(a) & \cdots & \frac{\partial f_m}{\partial x_n}(a) \end{pmatrix}\] 이다. \(a\)에서 모든 변수에 대한 \(f\)의 일계편미분계수가 존재할 때 위 행렬을 야코비 행렬(Jacobian matrix)이라고 부르고 \(Df(a)\)로 나타낸다. 특히 \(a\)에서 \(f\)가 전미분 가능할 때 위 행렬을 전미분 행렬이라고 부른다.

모든 편미분이 존재해도 전미분 가능하지 않을 수 있다. 예를 들어 \[f(x,\,y)= \begin{cases} \frac{x^3 -xy^2}{x^2 +y^2} & \quad\text{if }\, (x,\,y)\neq (0,\,0) ,\\[6pt] 0 & \quad\text{if }\, (x,\,y) = (0,\,0) \end{cases}\] 이라고 하면 두 편미분계수 \(f_x (0,\,0)\)과 \(f_y (0,\,0)\)이 모두 존재하지만, \(f\)는 \((0,\,0)\)에서 미분 불가능하다.

다변수함수 \(f\)가 점 \(a\)에서 전미분 가능하기 위한 충분조건은 다음과 같다.

정리 9.2. (전미분 가능 조건)

함수 \(f: \mathbb{R}^n \to \mathbb{R}^m\)의 모든 편미분이 점 \(a\)의 근방에서 존재하고 \(a\)에서 연속이면, \(f\)는 \(a\)에서 전미분 가능하다.

증명 개요 간단히 \(f: \mathbb{R}^2 \to \mathbb{R}\)인 경우를 살펴보자. 등식 \[\begin{aligned} f(a + h) - f(a) &= f(a_1 + h_1,\, a_2 + h_2) - f(a_1,\, a_2) \\[6pt] &= [f(a_1 + h_1,\, a_2 + h_2) - f(a_1,\, a_2 + h_2)] \\[6pt] &\quad + [f(a_1,\, a_2 + h_2) - f(a_1,\, a_2)] \end{aligned}\] 에서 각 항에 평균값 정리를 적용하고, 편미분의 연속성을 사용하면 바라는 결과를 얻는다.

문제 9.1. 함수 \(f:\mathbb{R}^2\rightarrow\mathbb{R}^3\)가 다음과 같이 주어졌을 때, \(f\)의 전미분 행렬을 구하시오. \[f(x,\,y) = ({a_{11}}x+{a_{12}}y,\,{a_{21}}x+{a_{22}}y,\,{a_{31}}x+{a_{32}}y).\]

문제 9.2. 다음 물음에 답하시오.

함수 \(f(x,\,y)=\left( \cos xy ,\, e^y - \ln y \right)\)가 점 \((1,\,1)\)에서 미분 가능한지 판별하시오.
다음 함수가 \((0,\,0)\)에서 미분 가능한지 판별하시오. \[f(x,\,y)= \begin{cases} \frac{y^2}{x^2+y^2} & \quad\text{if }\, (x,\,y)\neq (0,\,0),\\[6pt] 0 & \quad\text{if }\, (x,\,y)= (0,\,0). \end{cases}\]

문제 9.3. \(k\in\mathbb{R}\), \(D\subseteq\mathbb{R}^n\), \(a\in D^o\)이고 두 함수 \(f:D\rightarrow\mathbb{R}^m\)과 \(g:D\rightarrow\mathbb{R}^m\)이 \(a\)에서 미분 가능하다고 하자. 다음을 증명하시오.

두 함수의 합 \(f+g\)는 \(a\)에서 미분 가능하고 \(D(f+g)(a) = Df(a) + Dg(a)\)이다.
함수의 실수배 \(kf\)는 \(a\)에서 미분 가능하고 \(D(kf)(a) = kDf(a)\)이다.
두 함수의 내적 \(f\cdot g\)는 \(a\)에서 미분 가능하고 \(D(f \cdot g)(a) = g(a)^{\top} Df(a) + f(a)^{\top} Dg(a)\)이다.

미분의 계산

실함수에서 합성함수의 미분 공식이 존재하듯 다변수함수에서도 합성함수의 미분 공식이 존재한다.

정리 9.3. (연쇄법칙)

함수 \(f: \mathbb{R}^n \to \mathbb{R}^m\)이 \(a\)에서 미분 가능하고 \(g: \mathbb{R}^m \to \mathbb{R}^p\)가 \(f(a)\)에서 미분 가능하면, \(g \circ f\)는 \(a\)에서 미분 가능하고 다음이 성립한다. \[D(g \circ f)(a) = Dg(f(a)) \cdot Df(a).\]

증명

다음 등식으로부터 곧바로 얻는다. \[\begin{align*} g(f(a + h)) - g(f(a)) &= Dg(f(a))[f(a + h) - f(a)] + o(\|f(a + h) - f(a)\|) \\[6pt] &= Dg(f(a))[Df(a)(h) + o(\|h\|)] + o(\|Df(a)(h) + o(\|h\|)\|) \\[6pt] &= Dg(f(a)) \cdot Df(a)(h) + o(\|h\|).\tag*{\(\blacksquare\)} \end{align*}\]

문제 9.4. \(w=f(x,\,y,\,z)\), \(x=x(r,\,s)\), \(y=y(r,\,s)\), \(z=z(r,\,s)\)가 모두 미분 가능한 함수일 때, 정리 9.3을 사용하여 다음 공식을 유도하시오. \[\frac{\partial w}{\partial r} = \frac{\partial w}{\partial x}\frac{\partial x}{\partial r} + \frac{\partial w}{\partial y}\frac{\partial y}{\partial r} + \frac{\partial w}{\partial z}\frac{\partial z}{\partial r},\quad \frac{\partial w}{\partial s} = \frac{\partial w}{\partial x}\frac{\partial x}{\partial s} + \frac{\partial w}{\partial y}\frac{\partial y}{\partial s} + \frac{\partial w}{\partial z}\frac{\partial z}{\partial s}. \]

점 \(a\)에서 함수 \(f: \mathbb{R}^n \to \mathbb{R}^m\)의 미분 \(Df(a)\)를 생각하자. \(m = 1\)인 경우 이 행렬은 \(n\)차원 행벡터로 생각할 수 있다. 이 벡터를 기울기 벡터(gradient vector)라고 부르고 \(\nabla f\)로 나타낸다. 즉 \[\nabla f = \left(\frac{\partial f}{\partial x_1},\, \ldots,\, \frac{\partial f}{\partial x_n}\right).\]

기울기 벡터 \(\nabla f\)는 \(x\)가 \(a\)에서 출발하여 움직일 때 함숫값 \(f(x)\)가 가장 빠르게 증가하는 방향을 나타낸다.

문제 9.5. \(f\)와 \(g\)가 \(D\subseteq\mathbb{R}^n\)으로부터 \(\mathbb{R}\)로의 미분 가능한 함수일 때 다음을 보이시오.

\(\nabla (f+g) = \nabla f + \nabla g\).
\(\nabla (f-g) = \nabla f - \nabla g\).
\(k\)가 실수인 상수일 때 \(\nabla (kf) = k\nabla f\).
\(\nabla (fg) = f\nabla g + g\nabla f\).
\(g\ne 0\)인 점에서 \(\nabla(f/g) = (g\nabla f - f\nabla g)/(g^2)\).

\(v\)가 단위벡터일 때, \(v\) 방향으로의 \(f\)의 방향도함수(directional derivative)를 다음과 같이 정의한다. \[D_v f(a) = \lim_{t \to 0} \frac{f(a + tv) - f(a)}{t}.\] 이 방향도함수는 다음과 같이 계산할 수 있다. \[D_v f(a) = \nabla f(a) \cdot v\tag{9.1}\] 방향도함수는 \(v\) 방향으로의 \(f\)의 변화율이다.

문제 9.6. 방향도함수 공식 (9.1)을 증명하시오.

\(x\), \(y\), \(z\)가 구간 \(I\)에서 미분 가능한 실함수이고 곡선 \(C\)가 다음과 같은 함수로 표현된다고 하자. \[r(t) = (x(t),\,y(t),\,z(t)) ,\,\, t\in I.\] 이때 점 \(t_0\)에서 \(r\)의 미분계수를 다음과 같이 정의한다. \[r'(t_0 ) = \left( \frac{d}{dt}x(t_0) ,\,\, \frac{d}{dt}y(t_0) ,\,\, \frac{d}{dt}z(t_0) \right).\] 곡선 \(C\) 위의 점에서 정의된 함수 \(w=f(r(t))\)에 대하여 다음이 성립한다. \[\frac{dw}{dt} = \frac{\partial w}{\partial x}\frac{dx}{dt} + \frac{\partial w}{\partial y} \frac{dy}{dt} + \frac{\partial w}{\partial z}\frac{dz}{dt}. \] 이것을 기울기 연산자를 사용하여 나타내면 다음과 같다. \[\frac{d}{dt} f(r(t)) = \nabla f(r(t)) \cdot r'(t).\]

문제 9.7. 미분 가능한 함수 \(F:\mathbb{R}^2 \rightarrow\mathbb{R}\)과 상수 \(c\)에 대하여, 등위곡선 \(F(x,\,y)=c\)를 생각하자. 다음 물음에 답하시오.

곡선 \(F(x,\,y)=c\)가 매개변수 \(t\)에 대한 함수 \(r(t) = (f(t),\,h(t))\), \(a\le t\le b\)로 표현된다고 하자. 이때 등위곡선 위의 점에서 \(\nabla F\)와 \(dr/dt\)가 서로 수직임을 보이시오.
등위곡선 \(F(x,\,y)=c\) 위의 점 \((a ,\, b)\)에서 이 곡선에 접하는 직선의 방정식을 유도하시오. \[ \frac{\partial }{\partial x}F(a,\,b) (x-a) + \frac{\partial}{\partial y}F(a,\,b)(y-b)=0.\]

함수 \(f:\mathbb{R}^n\rightarrow\mathbb{R}\)을 변수 \(x_i\)에 대하여 미분한 뒤 다시 변수 \(x_j\)에 대하여 미분한 이계 편도함수를 다음과 같이 나타낸다. \[f_{x_i \,x_j} \quad\text{또는}\quad \frac{\partial^2}{\partial x_j \,\partial x_i} f .\] 함수 \(f\)가 적절한 조건을 만족시키면 \(f\)의 이계편미분의 미분 순서를 바꾸어도 동일한 도함수를 얻는다.

정리 9.4. (클레로 정리)

\(f: \mathbb{R}^n \to \mathbb{R}\)의 이계편미분 \(\frac{\partial^2 f}{\partial x_i \partial x_j}\)와 \(\frac{\partial^2 f}{\partial x_j \partial x_i}\)가 \(c\) 근방에서 존재하고 \(c\)에서 연속이면 \[\frac{\partial^2 f}{\partial x_i \,\partial x_j}(c) = \frac{\partial^2 f}{\partial x_j \,\partial x_i}(c).\]

증명

일반성을 잃지 않고 \(n = 2\)이고 \(i = 1\), \(j = 2\)인 경우를 증명한다. 즉, \(f: \mathbb{R}^2 \to \mathbb{R}\)에 대해 \[\frac{\partial^2 f}{\partial x \,\partial y}(a,\, b) = \frac{\partial^2 f}{\partial y \,\partial x}(a,\, b)\] 임을 보이자. 여기서 \(c = (a,\, b)\)이다.

절댓값이 충분히 작고 \(0\)아닌 \(h\), \(k\)에 대하여 다음과 같이 차분을 정의한다. \[\Delta(h,\, k) = f(a+h,\, b+k) - f(a+h,\, b) - f(a,\, b+k) + f(a,\, b).\] \(g(x) = f(x,\, b+k) - f(x,\, b)\)라고 정의하면 \[\Delta(h,\, k) = g(a+h) - g(a)\] 이므로, 평균값 정리에 의해, 적당한 \(\xi \in (a,\, a+h)\)가 존재하여 \[\Delta(h,\, k) = h \cdot g'(\xi) = h \cdot \left[\frac{\partial f}{\partial x}(\xi,\, b+k) - \frac{\partial f}{\partial x}(\xi,\, b)\right]\] 이다. 다시 \(\frac{\partial f}{\partial x}(\xi,\, y)\)에 \(y\)에 대한 평균값 정리를 적용하면, 적당한 \(\eta_1 \in (b,\, b+k)\)가 존재하여 다음을 만족시킨다. \[\Delta(h,\, k) = hk \cdot \frac{\partial^2 f}{\partial y \partial x}(\xi,\, \eta_1).\]

이번에는 \(\phi(y) = f(a+h,\, y) - f(a,\, y)\)라고 정의하면 \[\Delta(h,\, k) = \phi(b+k) - \phi(b)\] 이므로, 평균값 정리에 의해, 적당한 \(\eta \in (b,\, b+k)\)가 존재하여 \[\Delta(h,\, k) = k \cdot \phi'(\eta) = k \cdot \left[\frac{\partial f}{\partial y}(a+h,\, \eta) - \frac{\partial f}{\partial y}(a,\, \eta)\right]\] 이다. 다시 \(\frac{\partial f}{\partial y}(x,\, \eta)\)에 \(x\)에 대한 평균값 정리를 적용하면, 적당한 \(\xi_1 \in (a,\, a+h)\)가 존재하여 다음을 만족시킨다. \[\Delta(h,\, k) = hk \cdot \frac{\partial^2 f}{\partial x \partial y}(\xi_1,\, \eta).\]

두 결과를 비교하면 \[hk \cdot \frac{\partial^2 f}{\partial y \partial x}(\xi,\, \eta_1) = hk \cdot \frac{\partial^2 f}{\partial x \partial y}(\xi_1,\, \eta)\] 이다. 여기서 \(h \neq 0\), \(k \neq 0\)이므로 \[\frac{\partial^2 f}{\partial y \partial x}(\xi,\, \eta_1) = \frac{\partial^2 f}{\partial x \partial y}(\xi_1,\, \eta)\] 이다. \(h \to 0\), \(k \to 0\)일 때 \(\xi \to a\), \(\xi_1 \to a\)이고 \(\eta \to b\), \(\eta_1 \to b\)이므로 이계편도함수의 연속성에 의해 \[\frac{\partial^2 f}{\partial y \partial x}(\xi,\, \eta_1) \to \frac{\partial^2 f}{\partial y \partial x}(a,\, b),\] \[\frac{\partial^2 f}{\partial x \partial y}(\xi_1,\, \eta) \to \frac{\partial^2 f}{\partial x \partial y}(a,\, b)\] 이다.

문제 9.8. 함수 \(f\)가 다음과 같을 때, \(f\)의 이계편도함수를 모두 구하시오.

\(f(x,\,y)=xe^y\)
\(f(x,\,y)=\cos xy\)
\(f(x,\,y)=\frac{x+y}{x^2 +1}\)

문제 9.9. \(H=[a,\,b]\times[c,\,d]\)이고 \(f:H\rightarrow\mathbb{R}\)이 연속함수라고 하자. 이때 \[F(y)=\int_a^b f(x,\,y)dx\] 라고 정의된 함수 \(F\)가 \([c,\,d]\)에서 연속임을 보이시오.

문제 9.10. \(H=[a,\,b]\times[c,\,d]\)이고 함수 \(f:H\rightarrow\mathbb{R}\)이 주어졌다고 하자. 각 \(y\in [c,\,d]\)에 대하여 \(x\)를 변수로 하는 함수 \(f(x,\,y)\)가 \([a,\,b]\)에서 적분 가능하고, 각 \(x\in [a,\,b]\)에 대하여 \(y\)를 변수로 하는 함수 \(f(x,\,y)\)가 \([c,\,d]\)에서 미분 가능하며, \(x\), \(y\)를 모두 변수로 하는 편도함수 \(f_y (x,\,y)\)가 \(H\)에서 연속이라고 하자. 이때 임의의 \(y\in [c,\,d]\)에 대하여 \[\frac{d}{dy}\int_a^b f(x,\,y)dx = \int_a^b \frac{\partial f}{\partial y}(x,\,y)dx\] 가 성립함을 보이시오. 이 공식을 편적분의 미분에 대한 라이프니츠 공식이라고 부른다.

평균값 정리와 테일러 정리

정리 9.5. (평균값 정리)

\(f: \mathbb{R}^n \to \mathbb{R}\)이 열린 볼록집합 \(U\)에서 미분 가능하면, 임의의 \(a,\, b \in U\)에 대해 어떤 \(c \in [a,\, b]\)가 존재하여 \(f(b) - f(a) = \nabla f(c) \cdot (b - a)\)를 만족시킨다. 여기서 \([a,\,b]\)는 두 점 \(a\), \(b\)를 잇는 선분이다.

증명

함수 \(\phi(t) = f(a + t(b - a))\)에 일변수 평균값 정리를 적용하면 된다. \(\phi'(t) = \nabla f(a + t(b - a)) \cdot (b - a)\)이므로 정리의 결론을 얻는다.

이로부터 다음과 같은 중요한 결과를 얻는다.

문제 9.11. 함수 \(f: \mathbb{R}^n \to \mathbb{R}\)에 대하여 상수 \(M\)이 존재하여 \(\|\nabla f\| \leq M\)이면 \(f\)가 립시츠 연속임을 보이시오.

문제 9.12. 연결된 열린집합에서 \(\nabla f = 0\)이면 \(f\)가 상수함수임을 보이시오.

함수 \(f\)가 연속인 \(k\)계도함수를 가질 때 \(f \in C^k\)라고 쓴다. \(f \in C^\infty\)인 함수를 매끄러운 함수라고 부른다.

고계미분과 관련된 내용을 기술할 때 다중지표 표기법(multi-index notation)을 사용하면 편리하다.

\(\alpha = (\alpha_1,\, \ldots,\, \alpha_n) \in \mathbb{N}^n\)에 대하여 다음과 같이 정의한다.

\(|\alpha| = \alpha_1 + \cdots + \alpha_n\)
\(\alpha! = \alpha_1! \cdots \alpha_n!\)
\(x^\alpha = x_1^{\alpha_1} \cdots x_n^{\alpha_n}\)
\(D^\alpha = \frac{\partial^{|\alpha|}}{\partial x_1^{\alpha_1} \cdots \partial x_n^{\alpha_n}}\)

정리 9.6. (테일러 정리)

함수 \(f: \mathbb{R}^n \to \mathbb{R}\)이 선분 \([a,\,h]\)를 포함하는 열린 영역에서 \(C^{k+1}\)이면 다음이 성립한다. \[f(a + h) = \sum_{|\alpha| \leq k} \frac{1}{\alpha!} D^\alpha f(a) h^\alpha + R_k(h).\] 여기서 \(\alpha = (\alpha_1,\, \ldots,\, \alpha_n)\)은 다중지표이며, 나머지는 \(R_k(h) = o(\|h\|^k)\)이다.

증명

일변수 함수의 테일러 정리를 사용하여 증명한다. \(\phi(t) = f(a + th)\)라고 하자. 여기서 \(t \in [0,\, 1]\)이고 \(h\)는 고정된 벡터이다. 연쇄법칙을 사용하면 \(\phi\)의 도함수는 다음과 같다. \[\phi'(t) = \sum_{i=1}^{n} \frac{\partial f}{\partial x_i}(a + th) h_i = \nabla f(a + th) \cdot h .\] 일반적으로 \(\phi\)의 \(m\)계 도함수는 다음과 같다. \[\phi^{(m)}(t) = \sum_{|\alpha| = m} \frac{m!}{\alpha!} D^\alpha f(a + th) h^\alpha.\] \(\phi\)에 일변수 테일러 정리를 적용하면, 적당한 \(\theta \in (0,\, 1)\)에 대하여 \[\phi(1) = \sum_{m=0}^{k} \frac{\phi^{(m)}(0)}{m!} + \frac{\phi^{(k+1)}(\theta)}{(k+1)!}\] 가 성립한다. \(\phi(1) = f(a + h)\), \(\phi(0) = f(a)\)이므로 앞의 결과를 활용하면 \[\begin{aligned} f(a + h) &= \sum_{m=0}^{k} \sum_{|\alpha| = m} \frac{1}{\alpha!} D^\alpha f(a) h^\alpha + R_k(h) ,\\[6pt] R_k(h) &= \sum_{|\alpha| = k+1} \frac{1}{\alpha!} D^\alpha f(a + \theta h) h^\alpha \end{aligned}\] 이다. 이제 나머지항의 크기를 추정하자. \(D^\alpha f\)가 \(a\)에서 연속이므로 \(\lVert h \rVert \rightarrow 0\)일 때 \[|D^\alpha f(a + \theta h) - D^\alpha f(a)| \to 0\] 이다. \(|h^\alpha| \leq \|h\|^{|\alpha|}\)이므로 \[|R_k(h)| \leq C \|h\|^{k+1}\] 인 상수 \(C\)가 존재한다. 따라서 \(|R_k(h)|\le C\|h\|^{k+1}=o(\|h\|^{k})\)이다.

문제 9.13. 점 \(a\)와 함수 \(f\)가 다음과 같을 때, \(a\)를 중심으로 하는 \(f\)의 \(3\)차 테일러 다항식을 구하시오.

\(f(x,\,y)=\sqrt{x}+\sqrt{y}\), \(a=(1,\,4)\).
\(f(x,\,y)=e^{xy}\), \(a=(0,\,0)\).

점 \(a\)에서 \(f\)의 2차 테일러 전개는 다음과 같다. \[f(a + h) = f(a) + \nabla f(a) \cdot h + \frac{1}{2} h^T H_f(a) h + o(\|h\|^2).\] 여기서 \(H_f(a)\)는 다음과 같이 정의되는 헤세 행렬(Hessian matrix)이다. \[H_f(a) = \left(\frac{\partial^2 f}{\partial x_i \partial x_j}(a)\right)_{i,j}.\tag{9.2}\] 클레로의 정리(정리 9.4)에 의하여 헤세 행렬은 대칭행렬이다.

2차 테일러 전개를 사용하여 함수의 극값에 대한 이계도함수 판정법을 유도할 수 있다.

함수 \(f: \mathbb{R}^n \to \mathbb{R}\)이 \(a\)에서 극값을 가지고 미분 가능하면 \(\nabla f(a) = 0\)이다. 이러한 점 \(a\)를 임계점(critical point)이라고 부른다.

정리 9.7. (이계도함수 판정법)

함수 \(f\)가 \(a\)에서 두 번 미분 가능하고, \(\nabla f(a)=0\)이라고 하자. 이때 다음이 성립한다.

\(H_f(a)\)가 양의 정부호이면 \(f\)는 \(a\)에서 극솟값을 가진다.
\(H_f(a)\)가 음의 정부호이면 \(f\)는 \(a\)에서 극댓값을 가진다.
\(H_f(a)\)가 부정부호이면 \(f\)는 \(a\)에서 안장점을 가진다.

증명

2차 테일러 다항식을 사용하여 증명하자. \(\nabla f(a) = 0\)이므로 테일러 정리에 의해 \[f(a + h) - f(a) = \frac{1}{2} h^T H_f(a) h + o(\|h\|^2)\] 이다. 이제 \(H_f (a)\)의 특성에 따라 경우를 나누어 살펴보자.

\(H_f(a)\)가 양의 정부호인 경우, 헤세 행렬 \(H_f(a)\)가 대칭이므로 모든 고윳값이 양수이다. \(H_f (a)\)의 최소고윳값을 \(\lambda_{\min} > 0\)이라고 하면 \[h^T H_f(a) h \geq \lambda_{\min} \|h\|^2\] 이다. 충분히 작은 \(\delta > 0\)에 대해 \(\|h\| < \delta\)일 때 \[\left|\frac{o(\|h\|^2)}{\|h\|^2}\right| < \frac{\lambda_{\min}}{4}\] 이므로 \[f(a + h) - f(a) \geq \frac{1}{2}\lambda_{\min}\|h\|^2 - \frac{\lambda_{\min}}{4}\|h\|^2 = \frac{\lambda_{\min}}{4}\|h\|^2 > 0\] 이다. 따라서 \(0 < \|h\| < \delta\)인 모든 \(h\)에 대해 \(f(a + h) > f(a)\)이므로 \(a\)는 극솟값이다.

다음으로 \(H_f(a)\)가 음의 정부호인 경우, \(-f\)에 앞의 결과를 적용하면 된다. 최대고윳값을 \(\lambda_{\max} < 0\)이라 하면 유사한 논증으로 \(f(a + h) < f(a)\)를 얻는다.

마지막으로 \(H_f(a)\)가 부정부호인 경우, 양의 고윳값 \(\lambda_+ > 0\)과 음의 고윳값 \(\lambda_- < 0\)이 존재한다. 대응하는 단위고유벡터를 각각 \(v_+\), \(v_-\)라 하자. \(h = tv_+\) 방향으로는 충분히 작은 \(t > 0\)에 대해 \[f(a + tv_+) - f(a) = \frac{t^2}{2}\lambda_+ + o(t^2) > 0\] 이고, \(h = tv_-\) 방향으로는 충분히 작은 \(t > 0\)에 대해 \[f(a + tv_-) - f(a) = \frac{t^2}{2}\lambda_- + o(t^2) < 0\] 이다. 따라서 \(a\)의 임의의 근방에서 \(f(x) > f(a)\)인 점 \(x\)와 \(f(x) < f(a)\)인 점 \(x\)가 모두 존재하므로, \(f\)는 \(a\)에서 극값을 갖지 않는다.

문제 9.14. 다음과 같은 함수 \(f\)의 극값을 모두 구하시오.

\(f(x,\,y)=x^2 -xy^3 -y\)
\(f(x,\,y,\,z) = e^{x+y} \cos z\)

문제 9.15. 함수 \(f\)와 집합 \(H\)가 다음과 같이 주어졌을 때, \(H\) 위에서 \(f\)의 최댓값과 최솟값을 구하시오.

\(f(x,\,y) = x^2 + 2x - y^2\), \(H = \left\{ (x,\,y) \mid x^2 + 4y^2 \le 4 \right\}\).
\(f(x,\,y) = x^2 + 2xy + 3y^2\), \(H\)는 세 점 \((1,\,0)\), \((1,\,2)\), \((3,\,0)\)을 잇는 삼각형의 경계와 내부.
\(f(x,\,y) = x^3 + 3xy - y^3\), \(H = [-1,\,1]^2\).

이계도함수 판정법에서 헤세 행렬이 반정부호(positive semidefinite 또는 negative semidefinite)인 경우는 판정이 불가능하다. 다음 예를 살펴보자.

\(f(x,\, y) = x^4 + y^4\)는 원점에서 \(H_f(0,\, 0) = 0\)이지만 극솟값을 가진다.
\(f(x,\, y) = x^4 - y^4\)는 원점에서 \(H_f(0,\, 0) = 0\)이고, 점 \((0,\,0,\,0)\)은 곡면 \(z=f(x,\,y)\)의 안장점이다.
\(f(x,\, y) = x^3 + y^3\)은 원점에서 \(H_f(0,\, 0) = 0\)이고, 점 \((0,\,0,\,0)\)은 곡면 \(z=f(x,\,y)\)의 안장점이다.

음함수 정리와 역함수 정리

\(F(x,\,y) = x^2 + y^2 -25\)라고 하면 원의 방정식 \(F(x,\,y)=0\)에서 \(y\)는 \(x\)의 함수가 아니다. 그러나 원 위의 점 \((3,\,-4)\)를 포함하는 \(y < 0\)인 범위를 취하면, \(F(x,\,y)=0\)는 \(y=-\sqrt{25-x^2}\)으로 나타낼 수 있으며, \(y\)는 \(x\)에 대하여 미분 가능한 함수가 된다.

이러한 결과를 더 높은 차원으로 일반화하면 다음과 같다.

정리 9.8. (음함수 정리)

함수 \(F: \mathbb{R}^{n+m} \to \mathbb{R}^m\)이 점 \((a,\, b) \in \mathbb{R}^n \times \mathbb{R}^m\)의 근방에서 \(C^1\)이고, \(F(a,\, b) = 0\)이며, \(y\)에 대한 야코비 행렬 \[\frac{\partial F}{\partial y}(a,\, b) = \left(\frac{\partial F_i}{\partial y_j}(a,\, b)\right)\] 가 가역이면, \(a\)의 한 근방 \(U\)에서 정의된 함수 \(g: \mathbb{R}^n \to \mathbb{R}^m\)이 유일하게 존재하여 다음을 만족시킨다.

\(g(a) = b\).
임의의 \(x\in U\)에 대하여 \(F(x,\, g(x)) = 0\)이다.
\(g\)는 \(C^1\)이고 \(\frac{\partial g}{\partial x}(x) = -\Big[\frac{\partial F}{\partial y}\big(x,\, g(x)\big)\Big]^{-1} \frac{\partial F}{\partial x}\big(x,\, g(x)\big)\)이다.

증명

행렬 \(A = \frac{\partial F}{\partial y}(a,\, b)\)가 가역이므로, 방정식 \(F(x,\, y) = 0\)을 다음과 같이 쓸 수 있다. \[y = y - A^{-1} F(x,\, y).\] 따라서 함수 \(\Phi: \mathbb{R}^n \times \mathbb{R}^m \to \mathbb{R}^m\)을 \[\Phi(x,\, y) = y - A^{-1} F(x,\, y)\] 라고 정의하면, \(F(x,\, y) = 0\)은 \(y = \Phi(x,\, y)\)로 나타낼 수 있다.

\(F(a,\, b) = 0\)이므로 \(\Phi(a,\, b) = b\)이다. 또한 \[\frac{\partial \Phi}{\partial y}(x,\, y) = I - A^{-1} \frac{\partial F}{\partial y}(x,\, y)\] 이다. 특히 \((a,\, b)\)에서 \[\frac{\partial \Phi}{\partial y}(a,\, b) = I - A^{-1} A = 0\] 이다. \(\frac{\partial \Phi}{\partial y}(a,\, b) = 0\)이고 \(\Phi\)의 편도함수가 연속이므로, 충분히 작은 \(\delta > 0\)와 \(\varepsilon > 0\)이 존재하여 \(\|x - a\| < \delta\), \(\|y - b\| < \varepsilon\)일 때 \[\left\|\frac{\partial \Phi}{\partial y}(x,\, y)\right\| < \frac{1}{2}\] 이 성립한다. 따라서, 고정된 \(x\)에 대하여, 평균값 정리에 의해 \(\|y_1 - b\|,\, \|y_2 - b\| < \varepsilon\)일 때 \[\|\Phi(x,\, y_1) - \Phi(x,\, y_2)\| \leq \frac{1}{2} \|y_1 - y_2\|\] 이다. 즉, \(\Phi_x(y) = \Phi(x,\, y)\)는 \(y\)에 대한 축소사상이다.

\(\delta\)를 더 작게 잡아서, \(\|x - a\| < \delta\)일 때 \[\|\Phi(x,\, b) - b\| = \|b - A^{-1}F(x,\, b) - b\| = \|A^{-1}F(x,\, b)\| < \frac{\varepsilon}{2}\] 이 되도록 하자. 삼각부등식과 축소사상의 성질에 의하여, \(\|y - b\| \leq \varepsilon\)이면 \[\begin{aligned} \|\Phi(x,\, y) - b\| &\leq \|\Phi(x,\, y) - \Phi(x,\, b)\| + \|\Phi(x,\, b) - b\| \\[6pt] &\leq \frac{1}{2}\|y - b\| + \frac{\varepsilon}{2} \leq \varepsilon \end{aligned}\] 이다. 따라서 \(\Phi_x\)는 \(\overline{B}(b,\, \varepsilon)\)을 자기 자신으로 보낸다.

각 \(\|x - a\| < \delta\)에 대해, \(\Phi_x: \overline{B}(b,\, \varepsilon) \to \overline{B}(b,\, \varepsilon)\)은 축소사상이므로, 고정점 정리에 의하여 유일한 고정점 \(g(x)\)가 존재한다. 즉, 다음이 성립한다. \[g(x) = \Phi(x,\, g(x)) \quad \Longleftrightarrow \quad F(x,\, g(x)) = 0.\] 이제 \(g\)가 연속임을 보이자. \(x_1,\, x_2 \in B(a,\, \delta)\)에 대해, \(y_i = g(x_i)\)라고 하자. 그러면 \[\begin{aligned} \|y_1 - y_2\| &= \|\Phi(x_1,\, y_1) - \Phi(x_2,\, y_2)\| \\[6pt] &\leq \|\Phi(x_1,\, y_1) - \Phi(x_2,\, y_1)\| + \|\Phi(x_2,\, y_1) - \Phi(x_2,\, y_2)\| \\[6pt] &\leq \|\Phi(x_1,\, y_1) - \Phi(x_2,\, y_1)\| + \frac{1}{2}\|y_1 - y_2\| \end{aligned}\] 이다. 따라서 \[\|y_1 - y_2\| \leq 2\|\Phi(x_1,\, y_1) - \Phi(x_2,\, y_1)\|\] 이다. \(\Phi\)가 \(x\)에 대하여 연속이므로 \(g\)도 연속이다.

다음으로 \(g\)가 미분 가능함을 보이자. 연쇄법칙을 사용하여 \(F(x,\, g(x)) = 0\)의 전미분을 구하면 \[\frac{\partial F}{\partial x}(x,\, g(x)) + \frac{\partial F}{\partial y}(x,\, g(x)) \cdot \frac{\partial g}{\partial x}(x) = 0\] 이다. \(\frac{\partial F}{\partial y}(x,\, g(x))\)가 가역이므로 \[\frac{\partial g}{\partial x}(x) = -\left[\frac{\partial F}{\partial y}(x,\, g(x))\right]^{-1} \frac{\partial F}{\partial x}(x,\, g(x))\] 이다. 우변의 편도함수들이 연속이고 \(g\)가 연속이므로 \(\frac{\partial g}{\partial x}\)도 연속이다. 따라서 \(g \in C^1\)이다.

마지막으로 \(g\)의 유일성을 보이자. \(h: U' \to \mathbb{R}^m\)이 \(F(x,\, h(x)) = 0\)을 만족시키는 다른 함수라고 하자. \(U\)와 \(U'\)의 교집합을 충분히 작게 잡으면, 각 \(x\)에 대해 \(h(x)\)는 \(\Phi_x\)의 고정점이다. 고정점의 유일성에 의해 \(g(x) = h(x)\)이다.

음함수 정리를 사용할 때 염두에 둘 점은 다음과 같다.

음함수 정리는 국소적 결과이다. 즉 전역적으로는 여러 개의 해가 존재할 수 있다. 예를 들어, \(x^2 + y^2 = 25\)에서 \(y\)를 \(x\)의 함수로 나타내면 국소적으로만 가능하다.
\(\frac{\partial F}{\partial y}\)가 가역이 아니면 음함수가 존재하지 않거나 유일하지 않을 수 있다. 예를 들어, \(F(x,\, y) = x^2 - y^2\)일 때 \((0,\, 0)\)에서는 \(\frac{\partial F}{\partial y} = 0\)이고, 실제로 \(x = 0\) 근처에서 \(y\)를 \(x\)의 함수로 나타낼 수 없다.
\(F\)가 \(C^k\)이면 \(g\)도 \(C^k\)이다.

보기 1.

방정식 \(x^3 + y^3 + xy - 3 = 0\)이 점 \((1,\, 1)\) 근처에서 \(y = g(x)\) 형태로 유일하게 풀 수 있는지 확인해보자.

\(F(x,\, y) = x^3 + y^3 + xy - 3\)이라 하면 \[\begin{aligned} F(1,\, 1) &= 1 + 1 + 1 - 3 = 0 ,\\[6pt] \frac{\partial F}{\partial y}(x,\, y) &= 3y^2 + x , & \frac{\partial F}{\partial x}(x,\,y) &= 3x^2 +y ,\\[6pt] \frac{\partial F}{\partial y}(1,\, 1) &= 4 \neq 0 , & \frac{\partial F}{\partial x}(1,\,1) &= 4 \end{aligned}\] 이다. 따라서 음함수 정리에 의해 \((1,\, 1)\) 근처에서 주어진 방정식을 \(y = g(x)\)로 유일하게 나타낼 수 있으며, \[g'(1) = -\frac{\partial F/\partial x(1,\, 1)}{\partial F/\partial y(1,\, 1)} = -\frac{4}{4} = -1 .\]

정리 9.9. (역함수 정리)

함수 \(f: \mathbb{R}^n \to \mathbb{R}^n\)이 점 \(a\)의 근방에서 \(C^1\)이고 \(Df(a)\)가 가역이면, \(a\)의 근방 \(U\)와 \(f(a)\)의 근방 \(V\)가 존재하여 \(f: U \to V\)는 일대일대응이고, 역함수 \(f^{-1}: V \to U\)도 \(C^1\)이며 \[D(f^{-1})(y) = [Df(f^{-1}(y))]^{-1}\] 를 만족시킨다.

증명

함수 \(F: \mathbb{R}^n \times \mathbb{R}^n \to \mathbb{R}^n\)을 \[F(x,\, y) = f(x) - y\] 라고 정의한다. 그러면 다음 결과를 얻는다. \[\begin{aligned} F(a,\, f(a)) &= f(a) - f(a) = 0 ,\\[6pt] \frac{\partial F}{\partial x}(x,\, y) &= Df(x) ,\\[6pt] \frac{\partial F}{\partial y}(x,\, y) &= -I . \end{aligned}\] \(\frac{\partial F}{\partial x}(a,\, f(a)) = Df(a)\)가 가역이므로, 음함수 정리에 의해 \(f(a)\)의 근방 \(V'\)과 \(a\)의 근방 \(U'\)에서 유일한 \(C^1\) 함수 \(g: V' \to U'\)이 존재하여 다음을 만족시킨다.

\(g(f(a)) = a\)이다.
모든 \(y \in V'\)에 대해 \(F(g(y),\, y) = 0\)이다. 즉 \(f(g(y)) = y\)이다.

마찬가지로 함수 \(G\)를 \(G(x,\, y) = y - f(x)\)라고 정의하면, \(\frac{\partial G}{\partial y} = I\)가 가역이므로 음함수 정리에 의해 함수 \(h: U'' \to V''\)가 존재하여 다음을 만족시킨다.

\(h(a) = f(a)\)이다.
모든 \(x \in U''\)에 대해 \(h(x) = f(x)\)이다.

적절한 근방 \(U = U' \cap U''\)와 \(V = V' \cap f(U)\)를 택하면, \(f: U \to V\)는 일대일대응이고 \(g = f^{-1}\)이다. 음함수 정리로부터 다음 등식을 얻는다. \[\begin{aligned} \frac{\partial g}{\partial y} &= -\left(\frac{\partial F}{\partial x}(g(y),\, y)\right)^{-1} \frac{\partial F}{\partial y}(g(y),\, y) \\[6pt] &= -[Df(g(y))]^{-1} \cdot (-I) = [Df(g(y))]^{-1}. \end{aligned}\] 따라서 \(D(f^{-1})(y) = [Df(f^{-1}(y))]^{-1}\)이다.

함수 \(f: \mathbb{R}^n \to \mathbb{R}^n\)이 열린집합 \(\Omega\)에서 \(C^1\)이고 모든 점에서 \(Df(x)\)가 가역이면 다음이 성립한다.

\(f\)는 국소 미분동형사상이다.
\(f(\Omega)\)는 열린집합이다.
\(f\)가 일대일이면 \(f: \Omega \to f(\Omega)\)는 미분동형사상이다.

역함수 정리는 비선형 함수가 국소적으로 선형변환처럼 행동함을 보여준다. 점 \(a\) 근처에서 \(f\)는 근사적으로 \[f(x) \approx f(a) + Df(a)(x - a)\] 이고, \(Df(a)\)가 가역이면 이 선형근사가 국소적으로 일대일대응이 된다.

보기 2.

극좌표 변환 \(f(r,\, \theta) = (r\cos\theta,\, r\sin\theta)\)를 생각하자. \(f\)의 야코비 행렬은 다음과 같다. \[Df(r,\, \theta) = \left[ \begin{array}{rr} \cos\theta & -r\sin\theta \\[3pt] \sin\theta & r\cos\theta \end{array} \right].\] 이 행렬의 행렬식이 \(\det(Df) = r\)이므로, \(r \neq 0\)인 모든 점에서 역함수 정리가 적용된다. 실제로 \(r > 0\)인 영역에서 극좌표 변환은 국소적으로 가역이다.

원점에서는 \(r = 0\)이므로 역함수 정리를 적용할 수 없고, 실제로 이 점에서 극좌표 변환은 가역이 아니다.

문제 9.16. 다음과 같은 함수 \(f\)에 대하여 주어진 점 \((a,\,b)\)의 적당한 열린근방에서 \(f^{-1}\)가 미분 가능함을 보이고 \(D(f^{-1})(a,\,b)\)를 구하시오.

\(f(u,\,v) = (3u-v ,\, 2u+5v)\), \((a,\,b)\in\mathbb{R}^2\).
\(f(u,\,v) = (u+v,\,\sin u + \cos v)\), \((a,\,b) = (0,\,1)\).
\(f(u,\,v) = (uv, u^2 + v^2)\), \((a,\,b) = (2,\,5)\).
\(f(u,\,v) = (u^3 - v^2 ,\, \sin u - \ln v)\), \((a,\,b) = (-1,\,0)\).

문제 9.17. 다음 각 등식에 대하여 점 \((0,\,0,\,0)\)의 열린근방 \(V\)가 존재하여 주어진 등식을 \(V\)에서 \(z\)에 대하여 풀 수 있는지 판별하시오. 또한 \(z\)에 대하여 푼 식이 \((0,\,0)\)의 근방에서 미분 가능한지 판별하시오.

\(xyz + \sin(x+y+z)=0\)
\(x^2 + y^2 + z^2 + \sqrt{\sin(x^2 + y^2 )+3z+4} =2\)
\(xyz(2\cos y - \cos z)+(z\cos x - x\cos y)=0\)

문제 9.18. 함수 \(z=F(x,\,y)\)가 \((a,\,b)\)에서 미분 가능하고 \(F_y (a,\,b)\neq 0\)이며 \(I\)가 \(a\)의 열린근방이라고 하자. 또한 함수 \(f:I\rightarrow\mathbb{R}\)이 \(a\)에서 미분 가능하고 \(f(a)=b\)이며 임의의 \(x\in I\)에 대하여 \(F(x,\,f(x))=0\)이라고 하자. 이때 다음 등식이 성립함을 증명하시오. \[\frac{d}{dx}f(a) = -\frac{ \frac{\partial}{\partial x}F(a,\,b) }{ \frac{\partial}{\partial y}F(a,\,b) }.\]

라그랑주 승수법

현실의 문제를 모델링한 최적화 문제는 제약조건을 동반하는 경우가 많다. 예를 들어, 둘레의 길이가 고정되어 있을 때 넓이가 최대인 직사각형을 구하거나, 겉넓이가 고정되어 있을 때 부피가 최대인 원기둥을 구하는 문제 등을 생각할 수 있다. 이처럼 제약조건 하에서 극값을 구하는 방법 중 하나가 라그랑주 승수법(Lagrange multiplier method)이다.

먼저 기하학적 관점에서 라그랑주 승수법을 살펴보자. 제약조건 \(g(x) = c\) 하에서 함수 \(f: \mathbb{R}^n \to \mathbb{R}\)의 극값을 구하는 상황을 생각하자. 제약조건을 만족시키는 점들의 집합은 \((n-1)\)차원 곡면을 이룬다. 만약 점 \(a\)가 이 곡면 위에서 \(f\)의 극값이라면, \(f\)의 등위면 \(f(x) = f(a)\)와 제약조건을 만족시키는 점들로 이루어진 곡면 \(g(x) = c\)가 \(a\)에서 접한다. 이것은 두 곡면의 법벡터인 \(\nabla f(a)\)와 \(\nabla g(a)\)가 평행함을 의미한다.

정리 9.10. (라그랑주 승수법 - 제약조건이 하나인 경우)

함수 \(f,\, g: \mathbb{R}^n \to \mathbb{R}\)이 \(C^1\)이고, \(a\)가 제약조건 \(g(x) = c\) 하에서 \(f\)의 극값이며, \(\nabla g(a) \neq 0\)이면, 실수 \(\lambda\)가 존재하여 다음을 만족시킨다. \[\nabla f(a) = \lambda \nabla g(a).\]

증명

제약조건 \(g(x) = c\)를 만족시키는 점들의 집합을 \(S\)라고 하자.

\(\nabla g(a) \neq 0\)이므로 음함수 정리에 의해 \(S\)는 \(a\)의 근방에서 \((n-1)\)차원 매끄러운 곡면이다. 또한 \(S\) 위에서 \(a\)를 지나는 임의의 매끄러운 곡선 \(\gamma(t)\)에 대해 \(\gamma(0) = a\)이고 \(\gamma'(0)\)은 \(S\)의 접벡터이다. \(f(\gamma(t))\)가 \(t = 0\)에서 극값을 가지므로 \[\frac{d}{dt}f(\gamma(t))\bigg|_{t=0} = \nabla f(a) \cdot \gamma'(0) = 0\] 이다. 모든 접벡터 \(v\)에 대해 \(\nabla f(a) \cdot v = 0\)이므로, \(\nabla f(a)\)는 접공간에 수직이다.

\(\nabla g(a)\)도 접공간에 수직이므로, \(\nabla f(a) = \lambda \nabla g(a)\)인 \(\lambda\)가 존재한다.

이 정리에서 \(\lambda\)를 라그랑주 승수(Lagrange multiplier)라고 부른다. 실제 계산에서는 다음 연립방정식을 푼다. \[\begin{cases} \nabla f(x) = \lambda \nabla g(x) \\ g(x) = c \end{cases}\]

이것은 \(n+1\)개의 방정식과 \(n+1\)개의 미지수 \((x_1,\, \ldots,\, x_n,\, \lambda)\)를 가진 연립방정식이다.

라그랑주 승수법을 제약조건이 여러 개 있는 경우로 확장하면 다음과 같다.

정리 9.11. (라그랑주 승수법 - 제약조건이 여러 개인 경우)

함수 \(f,\, g_1,\, \ldots,\, g_k: \mathbb{R}^n \to \mathbb{R}\)이 \(C^1\)이고, \(a\)가 제약조건 \(g_i(x) = c_i\) (\(i = 1,\, \ldots,\, k\)) 하에서 \(f\)의 극값이며, 벡터 \(\nabla g_1(a),\, \ldots,\, \nabla g_k(a)\)가 일차독립이면, 실수 \(\lambda_1,\, \ldots,\, \lambda_k\)가 존재하여 다음을 만족시킨다. \[\nabla f(a) = \sum_{i=1}^{k} \lambda_i \nabla g_i(a).\]

실제로 계산할 때는 다음과 같은 라그랑주 함수(Lagrangian)를 정의하는 것이 편리하다. \[L(x,\, \lambda) = f(x) - \sum_{i=1}^{k} \lambda_i (g_i(x) - c_i).\] 이때 주어진 함수의 극값이 존재할 필요조건은 \(L\)의 모든 편미분이 0인 것이다. \[\frac{\partial L}{\partial x_j} = 0 \quad (j = 1,\, \ldots,\, n), \quad \frac{\partial L}{\partial \lambda_i} = 0 \quad (i = 1,\, \ldots,\, k).\]

보기 3.

\(a > b > 0\)일 때, 타원 \(\frac{x^2}{a^2} + \frac{y^2}{b^2} = 1\) 위의 점 중 원점에서 가장 먼 점과 가장 가까운 점을 구해보자.

목적함수는 \(f(x,\, y) = x^2 + y^2\)이고, 제약조건은 \(g(x,\, y) = \frac{x^2}{a^2} + \frac{y^2}{b^2} - 1 = 0\)이다.

라그랑주 조건 \(\nabla f = \lambda \nabla g\)는 다음과 같다. \[(2x,\, 2y) = \lambda \left(\frac{2x}{a^2},\, \frac{2y}{b^2}\right).\]

이 식으로부터 \(x\left(1 - \frac{\lambda}{a^2}\right) = 0\)과 \(y\left(1 - \frac{\lambda}{b^2}\right) = 0\)을 얻는다.

\(x = 0\) 또는 \(y = 0\)인 경우를 검토하면, 함수 \(f\)는 \((\pm a,\, 0)\)에서 최댓값 \(a^2\)을 가지며, \((0,\, \pm b)\)에서 최솟값 \(b^2\)을 가진다.

라그랑주 승수법을 활용하여 잘 알려진 부등식을 증명해 보자.

보기 4.

산술-기하 평균 부등식

양수 \(x_1,\, \ldots,\, x_n\)에 대해 \[\frac{x_1 + \cdots + x_n}{n} \geq \sqrt[n]{x_1 \cdots x_n}\] 임을 라그랑주 승수법을 사용하여 보일 수 있다. 제약조건 \(x_1 \cdots x_n = c^n\) 하에서 \[f(x_1,\, \ldots,\, x_n) = x_1 + \cdots + x_n\] 의 최솟값을 구하면, \(x_1 = \cdots = x_n = c\)일 때 \(f\)가 극값을 가짐 알 수 있다.

라그랑주 승수법은 극값의 필요조건만을 제공한다는 점을 유념해야 한다. 구한 점에서 함수가 실제로 극값을 갖는지 여부는 직접 확인해야 한다.

문제 9.19. 제약조건 \(x^2 + y^2 + z^2 = 1\) 하에서 \(f(x,\, y,\, z) = x + 2y + 3z\)의 최댓값과 최솟값을 구하시오.

문제 9.20. 구 \(x^2 + y^2 + z^2 = 1\) 위에서 함수 \(f(x,\, y,\, z) = xyz\)의 극값을 구하시오.

문제 9.21. 주어진 표면적 \(S\)를 가진 직육면체 중 부피가 최대인 것의 모서리의 길이를 구하시오.

문제 9.22. 타원체 \(\frac{x^2}{a^2} + \frac{y^2}{b^2} + \frac{z^2}{c^2} = 1\)에 내접하는 직육면체의 최대 부피를 구하시오.

문제 9.23. 다음 물음에 답하시오.

원 \(x^2 + y^2=4\) 위에서 함수 \(f(x,\,y)=x+y^2\)의 극값을 구하시오.
\(x^2 + y^2 + z^2 = 1\)과 \(x+y+z=0\)을 모두 만족시키는 범위에서 함수 \(f(x,\,y,\,z)=xy\)의 극값을 구하시오.
\(3x^2 +y+4z^3=1\)과 \(-x^3 +3z^4 +w=0\)을 모두 만족시키는 범위에서 함수 \(f(x,\,y,\,z,\,w)=3x+y+w\)의 극값을 구하시오.

해석학 핵심정리 노트