数理方法里几大特殊函数的讲解基本用的是 Frobenius 方法暴力展开后求解系数,然后摆出性质并证明。诚然,对于工科教育来说算是 serve its purpose,但是这样学习突然冒出来的一堆公式会让人晕头转向。此外,在后续学习时,也常常会用特殊函数展开解——而对于不理解这些特殊函数本质的人而言,这种展开是不可理解的——为什么展开成这个特殊函数就能求解?
本系列文章旨在用自然的方法,展示求解一类常见微分方程的方法(二阶二次厄米算子的带权本征方程)。最后我们会求解几个经典的物理问题来展示这种方法的自然性与优越性——直接解就好,不用那种很突兀的方法。
本文推导过程保证不跳步,完全展现推导步骤(除了太复杂的计算……)。
注意,需要你熟悉线性代数抽象部分的知识,即线性空间,线性映射等内容,而不只是矩阵和行列式计算。
狄拉克记号
下面我会有时为了方便会使用狄拉克记号。狄拉克记号其实只是一种矢量的记法而已。
一个矢量 v v v 记为 ∣ v ⟩ |v\rangle ∣ v ⟩ 。
其厄米转置 v † v^\dagger v † 记为 ⟨ v ∣ \langle v | ⟨ v ∣ 。
内积 u † v u^\dagger v u † v 记为 ⟨ u ∣ v ⟩ \langle u |v\rangle ⟨ u ∣ v ⟩ 。
如果中间插入一个厄米算子,则 u † ( O v ) u^\dagger (Ov) u † ( O v ) 记为, ⟨ u ∣ O ∣ v ⟩ \langle u|O|v\rangle ⟨ u ∣ O ∣ v ⟩ 。算子如果是厄米的,它作用在哪个矢量上效果都一样,因此不用区分。
下面我们的工作空间基本都是函数空间。一个函数的厄米转置就是函数取一次复共轭。但是我们这里全是实函数,因此函数取转置和不取没区别,只是两个函数内积时会写成转置。
求导算子
为了方便,我们记 D D D 为求导算子,即 D = d d ξ D = \frac{\mathrm{d}}{\mathrm{d} \xi} D = d ξ d ,其作用的变元由上下文自明。
二阶厄米算子的带权本征方程
一般形式
二阶厄米算子的带权本征方程有如下形式:
p D 2 y + q D y + r y = λ w ( x ) y p D^2 y + q D y + r y = \lambda w(x) y p D 2 y + q Dy + ry = λ w ( x ) y
p p p , q q q 和 r r r 为函数,λ \lambda λ 为实本征值, w ( x ) w(x) w ( x ) 是权函数。后面我们会对它们加一些限制。但现在我们要求 w ( x ) w(x) w ( x ) 是正定的。
但显然这不是标准的本征方程形式,右边是带权的——但这里带权的本征函数就已经够了,因此,
H y = λ w ( x ) y Hy = \lambda w(x) y Hy = λ w ( x ) y
H = p D 2 + q D + r H = pD^2 + qD + r H = p D 2 + q D + r
后面我们会说明这一点。
为什么这里用带权的本征方程?
道理其实很简单,后面我们会看到,厄米性的保持需要本征多项式满足一定条件。用带权的本征方程推导出来的条件是最松的——或者说只是物理上最常见的,即,
( p w ) ′ = q w (pw)' = qw ( pw ) ′ = qw 你当然可以将 w w w 除开,然后用类似的方法建立一套理论,但是这样推导出,
( p / w ) ′ = q / w (p/w)' = q/w ( p / w ) ′ = q / w 然后在这个条件下用算子理论求解。理论上是可行的,但是这种方程并不常见。
当然,物理不是魔法,至于为什么
( p w ) ′ = q w (pw)' = qw ( pw ) ′ = qw 这个条件如此常见,我们会作为后面讨论。它其实是最小作用量原理和常见的能量形式的直接结果。
厄米性
下面的内积定义为,
⟨ u ∣ v ⟩ = ∫ inf sup u ( x ) v ( x ) w ( x ) d x \langle u|v \rangle = \int_{\inf}^{\sup} u(x) v(x) w(x) \mathrm{d}x ⟨ u ∣ v ⟩ = ∫ i n f s u p u ( x ) v ( x ) w ( x ) d x w ( x ) w(x) w ( x ) 的存在才能导致,
( p w ) ′ = q w (pw)' = qw ( pw ) ′ = qw 的导出。
否则的话厄米条件是,
p ′ = q p' = q p ′ = q 满足这个条件的方程太少了。
因为内积的定义,因此 w ( x ) w(x) w ( x ) 必须是正定的(几乎处处)。此外, w ( x ) w(x) w ( x ) 必须是平方可积的。
但是注意,这个算子并不总是厄米的,考虑对易子,
∫ inf sup ( u H v − v H u ) w d x = ∫ inf sup ( p v D 2 u + q v D u − p u D 2 v − q u D v ) w d x \int_{\inf}^{\sup}(u H v - v H u) w \mathrm{d}x \\
= \int_{\inf}^{\sup} (p vD^2 u + qvDu - puD^2 v - quDv)w \mathrm{d}x ∫ i n f s u p ( u H v − v H u ) w d x = ∫ i n f s u p ( p v D 2 u + q v D u − p u D 2 v − q u D v ) w d x
用分部积分法,注意,
D ( u D v − v D u ) = D u D v + u D 2 v − v D 2 u − u D v = u D 2 v + v D 2 u D(uDv - vDu) \\
= DuDv + u D^2 v - v D^2 u - u Dv \\
= uD^2 v + v D^2 u D ( u D v − v D u ) = D u D v + u D 2 v − v D 2 u − u D v = u D 2 v + v D 2 u
∫ inf sup ( p v D 2 u + q v D u − p u D 2 v − q u D v ) w d x = ∫ inf sup ( q v D u − q u D v ) w d x + ∫ inf sup ( p v D 2 u − p u D 2 v ) w d x \int_{\inf}^{\sup} (p vD^2 u + qvDu - puD^2 v - quDv)w \mathrm{d}x \\
= \int_{\inf}^{\sup} (q vDu - quDv)w \mathrm{d}x + \int_{\inf}^{\sup} (p vD^2 u - puD^2 v)w \mathrm{d}x ∫ i n f s u p ( p v D 2 u + q v D u − p u D 2 v − q u D v ) w d x = ∫ i n f s u p ( q v D u − q u D v ) w d x + ∫ i n f s u p ( p v D 2 u − p u D 2 v ) w d x
第二项能分部积分,
∫ inf sup ( q v D u − q u D v ) w d x = ∫ inf sup q w ( v D u − u D v ) d x + ∫ inf sup p w ( v D u − u D v ) d x = ∫ inf sup q w ( v D u − u D v ) d x + B − ∫ inf sup ( p w ) ′ ( v D u − u D v ) d x \int_{\inf}^{\sup} (q vDu - quDv)w \mathrm{d}x \\
= \int_{\inf}^{\sup} qw(vDu-uDv) \mathrm{d}x + \int_{\inf}^{\sup} pw(vDu-uDv) \mathrm{d}x \\
= \int_{\inf}^{\sup} qw (vDu-uDv) \mathrm{d}x + B - \int_{\inf}^{\sup} (pw)' (vDu-uDv) \mathrm{d}x ∫ i n f s u p ( q v D u − q u D v ) w d x = ∫ i n f s u p qw ( v D u − u D v ) d x + ∫ i n f s u p pw ( v D u − u D v ) d x = ∫ i n f s u p qw ( v D u − u D v ) d x + B − ∫ i n f s u p ( pw ) ′ ( v D u − u D v ) d x
其中,
B = p ( sup ) w ( sup ) ( v ( sup ) u ′ ( sup ) − u ( sup ) v ′ ( sup ) ) − p ( inf ) w ( inf ) ( v ( inf ) u ′ ( inf ) − u ( inf ) v ′ ( inf ) ) B = p(\sup)w(\sup)(v(\sup) u'(\sup) - u(\sup) v'(\sup)) - p(\inf)w(\inf)(v(\inf) u'(\inf) - u(\inf) v'(\inf)) B = p ( sup ) w ( sup ) ( v ( sup ) u ′ ( sup ) − u ( sup ) v ′ ( sup )) − p ( inf ) w ( inf ) ( v ( inf ) u ′ ( inf ) − u ( inf ) v ′ ( inf ))
是边界值。
如果 F F F 是厄米的,则上面对于任意方程的解都得 0 0 0 ,又因为常数解存在,因此,
B = 0 B = 0 B = 0
称为齐次自伴边界条件。这个条件其实很容易达成——因为它可以转化为如下三种边界条件的情况:
Dirichlet 边界条件,
y ( sup ) = y ( inf ) = 0 y(\sup) = y(\inf) = 0 y ( sup ) = y ( inf ) = 0
Neumann 边界条件,
y ′ ( sup ) = y ′ ( inf ) = 0 y'(\sup) = y'(\inf) = 0 y ′ ( sup ) = y ′ ( inf ) = 0
Robin 边界条件,
y ′ ( sup ) = a y ( sup ) + b y ′ ( inf ) = a y ( inf ) + b y'(\sup) = a y(\sup) + b \\
y'(\inf) = a y(\inf) + b y ′ ( sup ) = a y ( sup ) + b y ′ ( inf ) = a y ( inf ) + b
基本涵盖了所有自然情况下的边界条件——例如对于传热问题,Dirichlet 边界条件是恒定温度(做一个温度差调整零点即可),Neumann 边界条件是恒定热流。
或者,
p ( sup ) w ( sup ) = p ( inf ) w ( inf ) = 0 p(\sup)w(\sup) = p(\inf)w(\inf) = 0 p ( sup ) w ( sup ) = p ( inf ) w ( inf ) = 0
也可以,事实上后面这个是很常见的条件。原因是物理上的,后面会解释。
总体而言是很宽的。
还有,
( p w ) ′ = q w (pw)' = qw ( pw ) ′ = qw
这个条件在物理中一般是可以满足的。下一部分我们就讨论其原因。
为什么厄米性很常见
很简单的一点是(尤其是量子力学中),所有的可测量值都是特征值,而可测量值必须是实数,所以薛定谔方程是厄米的;当然这一点对于电动力学也可以成立,因为电动力学里接触来的模式也都是实数——但这些 argue 都太弱和具体了。
其根本原因在于最小作用量原理和能量的形式。
我们系统的拉格朗日量通常是这样的形式,
L = K − P = 1 2 p ( x ) w ( x ) x ˙ 2 − P \mathcal{L} = K - P \\
= \frac{1}{2} p(x) w(x) \dot{x}^2 - P L = K − P = 2 1 p ( x ) w ( x ) x ˙ 2 − P
无论如何,动能项只可能是广义坐标一阶导数的平方,二阶项不可能含在拉格朗日量中——这是我们的物理学体系决定的(否则这个体系是有内禀问题或者不可解的,这一情况只在我只在电动力学里见过一个极端,即洛伦兹–阿伯拉姆斯基方程。关于LAD方程的争论有很多,但根本上是因为点电荷假设导致的,并不是物理学消失了。用球体近似或者 QED 就正常了,和较为简单的,所谓的点电荷的自能是同样的道理。但无论如何吧,二阶项不能在拉格朗日量中,不管是在动能还是势能)。
现在我们写出欧拉-拉格朗日方程:
d d t ∂ L ∂ x ˙ = ∂ L ∂ x \frac{\mathrm{d}}{\mathrm{d}t} \frac{\partial \mathcal{L}}{\partial \dot{x}} = \frac{\partial \mathcal{L}}{\partial x} d t d ∂ x ˙ ∂ L = ∂ x ∂ L
即,
p w x ′ ′ + ( p w ) ′ x ′ = ∂ P ∂ x pwx'' + (pw)' x' = \frac{\partial P}{\partial x} pw x ′′ + ( pw ) ′ x ′ = ∂ x ∂ P
因此,只要势能项没有类似,
x ′ x x'x x ′ x
的病态项,那么厄米条件就是可以满足的。
而至于,
p ( sup ) w ( sup ) = p ( inf ) w ( inf ) = 0 p(\sup)w(\sup) = p(\inf)w(\inf) = 0 p ( sup ) w ( sup ) = p ( inf ) w ( inf ) = 0
前面的推导可以看到,
p w pw pw
其实对应密度,边界处密度一般是 0 0 0 (边界值取外部的值)。
本征函数的正交性
我们知道,本征函数的正交性是一个很重要的性质,即,
∫ inf sup y n y m w d x = 0 \int_{\inf}^{\sup} y_n y_m w \mathrm{d}x = 0 ∫ i n f s u p y n y m w d x = 0
我们可以证明,带权情况下,如果 w w w 正定,那么正交性也能保持。
因为,
p D 2 y n + q D y n + r y n = λ n w y n p D 2 y m + q D y m + r y m = λ m w y m pD^2 y_n + qDy_n + ry_n = \lambda_n w y_n \\
pD^2 y_m + qDy_m + ry_m = \lambda_m w y_m p D 2 y n + q D y n + r y n = λ n w y n p D 2 y m + q D y m + r y m = λ m w y m
第一个式子乘 y m y_m y m ,第二个式子乘 y n y_n y n ,
p D 2 y n y m + q D y n y m + r y n y m = λ n w y n y m p D 2 y m y n + q D y m y n + r y m y n = λ m w y m y n pD^2 y_n y_m + qDy_n y_m + ry_n y_m = \lambda_n w y_n y_m \\
pD^2 y_m y_n + qDy_m y_n + ry_m y_n = \lambda_m w y_m y_n p D 2 y n y m + q D y n y m + r y n y m = λ n w y n y m p D 2 y m y n + q D y m y n + r y m y n = λ m w y m y n
相减,
( p D 2 y n y m − p D 2 y m y n ) + ( q D y n y m − q D y m y n ) = λ n w y n y m − λ m w y m y n (pD^2 y_n y_m - pD^2 y_m y_n) + (qDy_n y_m - qDy_m y_n) = \lambda_n w y_n y_m - \lambda_m w y_m y_n ( p D 2 y n y m − p D 2 y m y n ) + ( q D y n y m − q D y m y n ) = λ n w y n y m − λ m w y m y n
整理一下,
w y n y m = p D ( y m D y n − y n D y m ) + q ( y m D y n − y n D y m ) λ n − λ m wy_ny_m = \frac{pD(y_mDy_n - y_n D y_m) + q (y_mDy_n - y_n D y_m)}{\lambda_n - \lambda_m} w y n y m = λ n − λ m p D ( y m D y n − y n D y m ) + q ( y m D y n − y n D y m )
积分后,右侧又是分部积分。除了分母,这个式子和前面的推导完全一致,因此,
∫ inf sup y n y m w d x = 0 \int_{\inf}^{\sup} y_n y_m w \mathrm{d}x = 0 ∫ i n f s u p y n y m w d x = 0
即带权的本征函数正交。
方程的收敛解
我们通常只考虑方程收敛的解,即,
∫ inf sup ∣ ∣ f ∣ ∣ d x < ∞ \int_{\inf}^{\sup} ||f|| dx < \infty ∫ i n f s u p ∣∣ f ∣∣ d x < ∞
注意我们的内积是带权的,诱导出来的范数自然也要用带权的,即,
∣ ∣ f ∣ ∣ = ∫ inf sup f w f ∗ d d x ||f|| = \sqrt{\int_{\inf}^{\sup} f w f^{*} d\mathrm{d}x} ∣∣ f ∣∣ = ∫ i n f s u p f w f ∗ d d x
前面我们没有考虑收敛性的问题——内积的定义要求 w ( x ) w(x) w ( x ) 正定,而收敛性要求 f f f 必须是在 w ( x ) w(x) w ( x ) 为核的内积上平方可积的。
我们知道,在一般的解析函数空间(不限制平方可积)中,空间的基可以取幂函数。我们现在的空间限制到了以 w ( x ) w(x) w ( x ) 为核的平方可积的希尔伯特空间,记为,
H w ( x ) 2 H^2_{w(x)} H w ( x ) 2
中,根据空间投影的性质:
如果,
N = argmax n ( ∣ ∣ x n ∣ ∣ w < ∞ ) N = \text{argmax}_{n} (||x^n||_w <\infty) N = argmax n ( ∣∣ x n ∣ ∣ w < ∞ )
即 N N N 为能收敛的最大幂函数次数,则,
H w ( x ) 2 = span { x n : n ≤ N } H^2_{w(x)} = \text{span} \{x^n : n \le N\} H w ( x ) 2 = span { x n : n ≤ N }
如果,
lim n → ∞ ∣ ∣ x n ∣ ∣ w < ∞ \lim_{n \to \infty} ||x^{n}||_w < \infty n → ∞ lim ∣∣ x n ∣ ∣ w < ∞
则,
H w ( x ) 2 = span { x n : ∀ n ∈ N } H^2_{w(x)} = \text{span} \{x^n : \forall n \in \mathbb{N}\} H w ( x ) 2 = span { x n : ∀ n ∈ N }
幂函数集是可数的,根据格拉汉姆——施密特正交化原理,如果按照自然顺序(次数从低到高进行),那么,
本征函数必然是一组线性无关,相互正交的函数。
本征函数必然是有限多项式——否则将会与正交化过程矛盾
本征函数的个数和 N N N 是一致的。
本征函数可以按最高次数排序,且后一个本征函数必然含有非零最高次系数。
方程的发散解
这一部分算是补充内容,物理中基本是用不到的。
前面说方程有收敛解,但是实际上也有另一组一一对应的发散解。不过这组发散解是不满足边界条件的,自然也没有意义。但它们仍然是方程的解。
事实上这组解是完备且和收敛解一一对应的。发散解 y 2 y_2 y 2 对应的收敛解为 y 1 y_1 y 1 ,则,
y 2 = y 1 ∫ exp ( − ∫ ( q / p ) d x ) y 1 2 d x y_2 = y_1 \int \frac{\exp(-\int (q/p) \mathrm{d}x)}{y_1^2} \mathrm{d}x y 2 = y 1 ∫ y 1 2 exp ( − ∫ ( q / p ) d x ) d x
推导方法是常数变异法——经典中的经典了。
设,
y 2 = u y 1 y_2 = u y_1 y 2 = u y 1
代入,
p D 2 y 2 + q D y 2 + r y 2 = λ 1 w y 2 pD^2y_2 + qDy_2 + ry_2 = \lambda_1 w y_2 p D 2 y 2 + q D y 2 + r y 2 = λ 1 w y 2
注意,y 1 y_1 y 1 和 y 2 y_2 y 2 用常数变异法时满足相同的方程,因此本征值是一样的。
p ( u ′ ′ y 1 + 2 u ′ y 1 ′ + u y 1 ′ ′ ) + q ( u ′ y 1 + u y 1 ′ ) + r u y 1 = λ 1 w u y 1 p(u''y_1 + 2u'y_1' + u y_1'') + q (u'y_1 + u y_1') + ruy_1 = \lambda_1 w u y_1 p ( u ′′ y 1 + 2 u ′ y 1 ′ + u y 1 ′′ ) + q ( u ′ y 1 + u y 1 ′ ) + r u y 1 = λ 1 w u y 1
y 1 y_1 y 1 是方程的解,因此,
p y 1 ′ ′ + q y 1 ′ + r y 1 = λ 1 w y 1 py_1'' + qy_1' + ry_1 = \lambda_1 w y_1 p y 1 ′′ + q y 1 ′ + r y 1 = λ 1 w y 1
代入上面,
p ( u ′ ′ y 1 + 2 u ′ y 1 ′ ) + q u ′ y 1 = 0 p(u''y_1 + 2u'y_1') + q u'y_1 = 0 p ( u ′′ y 1 + 2 u ′ y 1 ′ ) + q u ′ y 1 = 0
p y 1 u ′ ′ + ( q y 1 + 2 p y 1 ′ ) u ′ = 0 py_1 u'' + (q y_1 + 2py_1') u' = 0 p y 1 u ′′ + ( q y 1 + 2 p y 1 ′ ) u ′ = 0
这是个关于 u ′ u' u ′ 的一阶微分方程,算一下积分因子。
∫ − q y 1 + 2 p y 1 ′ p y 1 d x = ∫ − q p d x + ∫ − 2 y 1 ′ y 1 d x = ∫ − q p d x + ∫ − 2 1 y 1 d y 1 = − ∫ q p d x − 2 log y 1 + ? \int -\frac{qy_1 + 2py_1'}{py_1} \mathrm{d}x \\
= \int - \frac{q}{p} \mathrm{d}x + \int -\frac{2 y_1'}{y_1} \mathrm{d}x \\
= \int - \frac{q}{p} \mathrm{d}x + \int -2 \frac{1}{y_1} \mathrm{d}y_1 \\
= - \int \frac{q}{p} \mathrm{d}x - 2 \log y_1 + ? ∫ − p y 1 q y 1 + 2 p y 1 ′ d x = ∫ − p q d x + ∫ − y 1 2 y 1 ′ d x = ∫ − p q d x + ∫ − 2 y 1 1 d y 1 = − ∫ p q d x − 2 log y 1 + ?
解是,
u ′ = exp ( − ∫ ( q / p ) d x ) y 1 2 u' = \frac{\exp(-\int (q/p) \mathrm{d}x)}{y_1^2} u ′ = y 1 2 exp ( − ∫ ( q / p ) d x )
这就是前面的公式。
这一章是后面的基础,要做一个简单的要点回顾的话,内容如下,
在一定的边界条件和一定的条件下,二阶含参微分方程可以是厄米算子本征值问题的形式,而且这个条件在物理中很常见。
此时如果方程有收敛解,则收敛解一定是一系列多项式。
方程的发散解可以由收敛解导出,但物理上没有意义,且并不满足边界条件。