Written by Li Zhuohua
on August 5, 2021

Rayleigh Quotient

瑞利商，常用于将优化问题与矩阵的特征值和特征向量联系起来

1 定义 #

实对称矩阵 \(M\) 和非零向量 \(x\) ，瑞利商定义为： \[ R(M,x) = \frac{x^TMx}{x^Tx} = \frac{\sum_{ij}M_{ij}x_ix_j}{\sum_{ij}x_ix_j} \]

2 性质 #

当 \(x\) 是特征向量时，瑞利商就是其对应的特征值

证明：

如果 \(M\psi = \lambda\psi\) , 那么： \(\frac{\psi^T M\psi}{\psi^T \psi}=\frac{\psi^T \lambda\psi}{\psi^T \psi} = \lambda\)
瑞利商的最大值就是矩阵 \(M\) 的最大特征值，瑞利商的最小值就是矩阵 \(M\) 的最小特征值： \[ \lambda_{min} \leq \frac{x^T Mx}{x^T x} \leq \lambda_{max} \]

引理：若实对称矩阵\(\vec{M}\)的特征值和对应的标准正交特征向量分别为\(\mu_1, \dots , \mu_n\)和\(\vec{v}_1, \dots, \vec{v}_n\)。且向量\(\vec{x}\)表示为以这些标准正交特征向量为基的形式： \[\vec{x}=\sum_{i=1}^{n}c_i \vec{v}_i\] 则有： \[\vec{x}^T \vec{M} \vec{x}=\sum_{i=1}^n c_i^2 \mu_i\]

证明：

利用谱定理展开： \[\begin{align} \vec{x}^T \vec{M} \vec{x} &= \left( \sum_{i=1}^{n}c_i \vec{v}_i \right)^T \left( \sum_{i=1}^n \mu_i \vec{v}_i \vec{v}_i^T \right) \left( \sum_{i=1}^{n}c_i \vec{v}_i \right)\\ &= \left( \sum_{i=1}^{n}c_i \vec{v}_i \right)^T \left( \sum_{i=1}^n c_i \mu_i \vec{v}_i \right)\\ &= \sum_{i,j} c_i c_j \mu_j \vec{v}_i^T \vec{v}_j\\ &= \sum_i^n c_i^2 \mu_i \end{align}\]

证明：

利用谱定理将\(M\)展开： \[\frac{\vec{x}^T \vec{M} \vec{x}}{\vec{x}^{T}\vec{x}} = \frac{\vec{x}^{T}\sum_{i}^{n}\lambda_i \vec{u_i} \vec{u_i}^T \vec{x}}{\vec{x}^{T}\vec{x}}\] 将特征值从小到大排列，可得： \[\frac{\lambda_1 \sum_{i}^{n}\left( \vec{x}^T \vec{u_i} \right)^2}{\vec{x}^T \vec{x}} \leq \frac{\vec{x}^T \vec{M} \vec{x}}{\vec{x}^{T}\vec{x}}\leq \frac{\lambda_n \sum_{i}^{n}\left( \vec{x}^T \vec{u_i} \right)^2}{\vec{x}^T \vec{x}}\] 由于\(\vec{u}\)是一组标准正交基，所以\(\sum_{i}^{n}\left( \vec{x}^T \vec{u_i} \right)^2\)恰为\(\vec{x}^T \vec{x}\)。且当\(\vec{x}\)为\(\lambda_1\)和\(\lambda_{n}\)对应的特征向量时，上述两不等号取等号。
以上结论可以推广到所有特征值，令\(\vec{M}\)是 n 维实对称矩阵，它的特征值从大到小为：\(\mu_1, \dots , \mu_n\)，对应的特征向量分别是\(\vec{v_1}, \dots ,\vec{v_n}\)，那么：

\[\vec{v_1} \in \argmax_{\|\vec{x}\|=1} \vec{x}^T \vec{M} \vec{x}\]

且对\(2\leq i\leq n\)，有：

\[\vec{v_i} \in \argmax_{\substack{\|\vec{x}\|=1 \\ \vec{x}^T \vec{v_j}=0, \forall j < i}} \vec{x}^T \vec{M} \vec{x}\]

类似有：

\[\vec{v_i} \in \argmin_{\substack{\|\vec{x}\|=1 \\ \vec{x}^T \vec{v_j}=0, \forall j>i}} \vec{x}^T \vec{M} \vec{x}\]

对于特征值，类似有：

\[\mu_1 = \max_{\| \vec{x} \|=1} \vec{x}^T \vec{M} \vec{x} = \max_{\vec{x}\neq 0} \frac{\vec{x}^T \vec{M} \vec{x}}{\vec{x}^T \vec{x}}\]

对于\(2\leq i\leq n\)，有：

\[\mu_i = \max_{\substack{\|\vec{x}\|=1 \\ \vec{x}^T \vec{v_j}=0, \forall j<i}} \vec{x}^T \vec{M} \vec{x} = \max_{\substack{\vec{x}\neq 0 \\ \vec{x}^T \vec{v_j}=0, \forall j<i}} \frac{\vec{x}^T \vec{M} \vec{x}}{\vec{x}^T \vec{x}}\]

\[\mu_i = \min_{\substack{\|\vec{x}\|=1 \\ \vec{x}^T \vec{v_j}=0, \forall j>i}} \vec{x}^T \vec{M} \vec{x} = \min_{\substack{\vec{x}\neq 0 \\ \vec{x}^T \vec{v_j}=0, \forall j>i}} \frac{\vec{x}^T \vec{M} \vec{x}}{\vec{x}^T \vec{x}}\]

如果特征值是从小到大排列，则上述所有 min、max 互换即可。

证明：

对\(\vec{M}\)特征分解：\(\vec{M} = \vec{Q}^T \vec{\Lambda} \vec{Q}\)，所以\(\vec{x}^T \vec{M} \vec{x} = (\vec{Q}\vec{x})^T \vec{\Lambda} (\vec{Q}\vec{x})\)，因为\(\vec{Q}\)是正交矩阵，所以\(\|\vec{Q}\vec{x}\|=\|\vec{x}\|\)，可以不失一般性地只考虑\(\vec{M}=\Lambda\)是一个对角矩阵的情况（此时特征值不变，特征向量左乘一个\(\vec{Q}\)）。

所以\(\vec{x}^T \vec{M} \vec{x} = (x_1, \dots , x_n)\begin{pmatrix} \mu_1 & & \\ & \ddots & \\ & & \mu_n \end{pmatrix} \begin{pmatrix} x_1\\ \vdots\\ x_n \end{pmatrix} =\sum_{i=1}^{n}\mu_i x_i^2 \)

此时\(\vec{M}\)是对角矩阵，其特征向量为\(\vec{v_i}=\vec{e_i}, i=1 \dots n\)，即标准基。

下面证明：

\[\mu_k = \max_{\substack{\|\vec{x}\|=1 \\ \vec{x}^T \vec{v}_i=0, \forall i<k}} \vec{x}^T \vec{M} \vec{x}\]

其中限制条件\(\vec{x}^T \vec{v}_i = 0, \forall i<k\)等价于\(x_i = \langle \vec{x}, \vec{e}_i\rangle =0, \forall i<k\)，再加上另一个条件\(\|\vec{x}\|=1\)，有：

\[\vec{x}^T \vec{M} \vec{x} = \sum_{i=1}^{n}\mu_i x_i^2 = \sum_{i=k}^{n}\mu_i x_i^2 \leq \mu_k \sum_{i=k}^n x_i^2 = \mu_{k}\]

再说明上述不等号可以取到：令\(\vec{x} = \vec{e}_k\)，可以验证它满足上述两个限制条件。此时\(\vec{x}^T \vec{M} \vec{x} = \mu_k\)，从而证明了： \[\mu_k = \max_{\substack{\|\vec{x}\|=1 \\ \vec{x}^T \vec{v}_i=0, \forall i<k}} \vec{x}^T \vec{M} \vec{x}\]

Links to this note

← → Top