核方法计算加速:Nyström逼近原理与工程实践指南
1. 项目概述当核方法遇见大规模计算在机器学习和科学计算的交叉领域我们常常会遇到一个经典的矛盾理论模型的优雅与计算现实的残酷。核方法以其强大的非线性建模能力和坚实的数学基础无疑是众多从业者工具箱里的“瑞士军刀”。无论是支持向量机SVM还是高斯过程回归GPR核技巧让我们得以在无限维的特征空间中线性地处理问题而无需显式地计算高维映射。然而这把军刀的刀刃——核矩阵其规模与样本数量的平方成正比。当你面对成千上万个数据点时构建和存储一个完整的核矩阵Gram矩阵不仅会耗尽内存其求逆或特征分解的O(N³)时间复杂度更是让计算陷入停滞。这就像拥有一张能通往任何目的地的完美地图但地图本身重得让你无法携带它走出家门。“核方法混合与Nyström逼近”正是为了解决这一困境而生的关键技术路线。它不是一个单一的方法而是一套工程哲学用巧妙的数学近似换取可行的计算复杂度同时尽可能保留核方法的理论优势。其中Nyström方法因其直观和高效成为了大规模核学习中的基石性技术。简单来说它的核心思想是“窥一斑而知全豹”——通过精心挑选一部分“地标”样本landmark points来近似整个核矩阵。而“混合”则意味着我们并不拘泥于一种逼近策略可能会根据数据特性和任务需求将Nyström与其他降维、稀疏化技术结合形成混合方案以达到精度与效率的最佳平衡。最近我在一个声子晶体带隙计算的课题中就深刻体会到了这套组合拳的威力。项目需要基于Matlab实现二维二组元圆柱形散射体正方形基体的带隙计算这本质上是一个求解大规模特征值问题的过程。当网格划分得足够精细以捕捉物理细节时系统矩阵的维度轻易突破万级直接求解特征值是不现实的。这时引入基于Nyström思想的随机数值方法结合问题本身的物理结构如周期性我们成功地将计算资源控制在可接受范围内并获得了可靠的带隙结构图。这个经历让我确信理解Nyström逼近不仅对机器学习工程师至关重要对任何面临“维数灾难”的科学计算问题都具有普适的参考价值。本文将带你深入这套方法的内部。我们将从核方法的基本挑战出发逐步推导Nyström逼近的数学原理揭示其如何将全矩阵的运算转化为小矩阵的运算。然后我们会进入实战环节讨论如何选择地标点、如何实现逼近、以及如何将这一逼近无缝集成到像核主成分分析KPCA或高斯过程回归这样的经典算法中。最后我会分享在类似声子晶体计算这样的科学计算场景中如何借鉴和改造这些思路来解决本领域的“大规模特征值问题”。无论你是机器学习实践者还是计算物理、计算化学领域的研究人员相信这些在精度与效率之间走钢丝的经验都能为你带来启发。2. 核方法的魅力与计算之殇要理解为什么需要Nyström逼近我们必须先回到核方法本身看清其美丽外表下的计算负担。2.1 核技巧隐式升维的艺术核方法的精髓在于“核技巧”。假设我们有一组原始数据{x_i}位于输入空间X。许多线性模型如SVM、PCA在这个空间可能无法有效分离或表示数据。核技巧允许我们通过一个非线性映射Φ: X - H将数据隐式地映射到一个高维甚至无限维的特征空间H称为再生核希尔伯特空间RKHS。在这个高维空间中数据可能变得线性可分或更易于处理。奇妙之处在于我们永远不需要知道映射Φ的具体形式。我们只需要一个核函数k(x, y) Φ(x), Φ(y)_H它计算的是两个样本在特征空间中的内积。这个核函数必须在数学上满足Mercer条件半正定性常见的选择有线性核k(x, y) x^T y。这等价于没有进行映射。多项式核k(x, y) (x^T y c)^d。它对应有限维的特征空间。高斯径向基核RBFk(x, y) exp(-γ ||x - y||²)。这是最常用的核之一它将数据映射到无限维空间具有强大的非线性表达能力。通过核函数我们可以将原始算法中所有涉及数据内积x_i^T x_j的操作替换为核函数值k(x_i, x_j)。例如在支持向量机的对偶问题中在核主成分分析的特征分解中核心运算对象都变成了核矩阵Gram矩阵K其中K_{ij} k(x_i, x_j)。2.2 计算瓶颈核矩阵的“平方律”与“立方律”假设我们有N个训练样本。核矩阵K是一个N x N的对称矩阵。这就引出了两个无法回避的计算瓶颈存储瓶颈平方律存储整个K矩阵需要O(N²)的内存。当N10,000时双精度浮点数需要约10000^2 * 8 bytes ≈ 800 MB当N50,000时这个数字会膨胀到约20 GB这已经超出了许多个人工作站的承受范围。运算瓶颈立方律许多核方法的核心步骤如求解对偶SVM涉及二次规划、核PCA需要对K进行中心化后的特征分解、高斯过程回归需要对K求逆并计算行列式其时间复杂度都在O(N³)量级。N从1万增加到2万计算时间理论上会增加8倍。这两个瓶颈共同构成了核方法应用于大规模数据的“阿喀琉斯之踵”。我们空有强大的建模能力却被计算资源牢牢锁住。因此发展能够近似核矩阵、同时大幅降低计算复杂度的算法成为了一个必然的研究方向。Nyström方法正是其中最具代表性且实用性最强的一类。2.3 问题形式化我们究竟要近似什么我们的目标很明确找到一个矩阵Ĝ使其在某种意义下如弗罗贝尼乌斯范数、谱范数尽可能接近完整的核矩阵K同时Ĝ的构建、存储以及与后续算法求逆、特征分解等的交互其复杂度远低于直接处理K。更具体地说在许多算法中我们并不需要完整的K而是需要能够高效计算与K相关的关键量例如K与某个向量的乘积在迭代求解中常用。K的逆矩阵或一个正则化版本K σ²I的逆与向量的乘积。K的前k个最大特征值及其对应的特征向量。Nyström方法为我们提供了一种优雅的、低秩的近似框架来高效地获得这些量。3. Nyström逼近从积分方程到矩阵近似Nyström方法的名字来源于求解积分方程的数值方法。在机器学习中它被巧妙地用来近似核矩阵。其核心直觉是整个样本集上的核函数关系可以通过一个精心挑选的子集上的关系来很好地表征。3.1 经典Nyström方法推导假设我们有全部N个样本。我们从中均匀地或通过其他更聪明的方法随机选取m个样本m N作为“地标点”记为{z_1, ..., z_m}。我们将整个样本集划分为这两部分地标点索引集L和剩余点索引集R。相应地完整的N x N核矩阵K可以分块表示为K [ K_LL K_LR ] [ K_RL K_RR ]其中K_LL是m x m的矩阵表示各地标点之间的核值。K_LR是m x (N-m)的矩阵K_RL是其转置表示地标点与剩余点之间的核值。K_RR是(N-m) x (N-m)的矩阵表示剩余点之间的核值。Nyström近似的关键假设是K_RR可以通过K_RL、K_LL和K_LR来近似。具体来说它假设以下关系近似成立K_RR ≈ K_RL * K_LL^{-1} * K_LR这个假设从何而来我们可以从数据在特征空间中的几何关系来理解。在特征空间H中每个样本Φ(x_i)都是一个点。K_LL^{-1}可以视为在地标点张成的子空间上进行的一种“坐标变换”或“投影”操作。K_RL * K_LL^{-1}可以理解为将剩余点投影到地标点张成的子空间上而(K_RL * K_LL^{-1}) * K_LR则近似计算了这些投影后的剩余点之间的内积即近似的K_RR。因此完整的核矩阵K的Nyström近似Ĝ定义为Ĝ [ K_LL K_LR ] [ K_RL K_RL * K_LL^{-1} * K_LR ]或者更紧凑地写成Ĝ C * W^{-1} * C^T其中C [K_LL; K_RL]是一个N x m的矩阵包含了所有样本与地标点之间的核值。W K_LL是m x m的地标点之间的核矩阵。这个近似矩阵Ĝ的秩最多为m因为它是通过m维矩阵W构造的。它的巨大优势在于我们只需要计算和存储C(N x m) 和W(m x m)存储复杂度从O(N²)降到了O(Nm)。当m固定时这是关于N的线性复杂度。3.2 地标点选择策略随机与智能近似质量高度依赖于地标点的选择。如果地标点不能很好地代表整个数据分布近似效果会很差。均匀随机采样最简单、最常用的方法。计算成本几乎为零并且在很多情况下特别是数据分布相对均匀时效果已经足够好。这是实践中的默认起点。基于核矩阵行列的采样对角线重要性采样以K_{ii}即样本自身的核函数值对于RBF核是常数1或与K_{ii}相关的概率进行非均匀采样。这有时能更好地捕捉数据“重要性”。列范数采样以核矩阵某一列或行的范数作为采样概率。计算一列的范数成本为O(N)比计算整个矩阵便宜得多。k-means中心点先对数据进行k-means聚类设km然后以聚类中心作为地标点。这能确保地标点覆盖数据分布的各个模式通常能获得比随机采样更好的近似但需要付出O(NmT)的聚类计算成本T为迭代次数。基于杠杆得分的采样杠杆得分是统计中衡量一个观测点对最小二乘拟合影响大小的指标。在Nyström的语境下可以近似计算每个样本的杠杆得分并依此进行非均匀采样。这通常能给出理论最优的近似保证但计算得分本身需要额外的开销。实操心得在大多数工程实践中均匀随机采样是首选。它的简单性和速度无可比拟。只有在近似效果明显不佳且你有额外计算预算时才考虑使用k-means中心点。基于杠杆得分的采样虽然理论漂亮但其预处理计算量常常抵消了它带来的好处除非m非常接近N但这又违背了降维的初衷。一个实用的技巧是可以先随机采样一个稍大的候选集比如2m或3m然后在这个候选集上运行k-means得到m个中心这是一个在成本和效果之间不错的折中。3.3 逼近误差分析与秩的选择Nyström近似的误差可以用||K - Ĝ||来衡量常用的是弗罗贝尼乌斯范数或谱范数。理论上误差的上界与未被选中的特征值之和有关。直观上如果核矩阵K的本征值衰减得很快即K可以被一个低秩矩阵很好地近似那么Nyström方法就会非常有效。如何选择地标点数量m这是一个偏差-方差权衡m太小近似过于粗糙偏差大可能导致后续算法性能显著下降。m太大计算和存储节省有限失去了近似的意义。没有放之四海而皆准的规则但有以下经验性方法基于重建误差可以计算一个验证集上用Nyström近似核矩阵与真实核矩阵在验证集上计算之间的误差。随着m增加误差会下降选择一个误差下降趋于平缓的m。基于任务性能在最终的任务如分类准确率、回归误差上做验证曲线。选择任务性能开始饱和时的最小m。经验法则m通常取sqrt(N)到N/10之间。例如N10,000时m在100到1000之间选择。可以从sqrt(N) ≈ 100开始尝试。注意事项W K_LL必须是可逆的严格正定。在使用RBF核时由于理论上的正定性只要地标点互不相同W几乎总是可逆的。但在数值计算中如果两个地标点非常接近W可能病态。此时需要对W进行正则化例如使用W_reg W λI其中λ是一个很小的正数如1e-6这相当于在Nyström近似中引入了一点吉洪诺夫正则化能稳定求逆过程。4. 计算实现将理论嵌入经典算法理解了Nyström近似的原理后最关键的一步是将其应用到具体的核方法中。我们不再需要显式地构建庞大的Ĝ矩阵而是利用C和W的结构高效地完成算法所需的核心运算。4.1 核主成分分析KPCA的Nyström实现KPCA的目标是找到数据在特征空间中的主成分。传统KPCA需要对中心化后的核矩阵K̃进行特征分解。设K̃ H K H其中H I - (1/N)11^T是中心化矩阵。使用Nyström近似K ≈ C W^{-1} C^T我们可以近似K̃。但更聪明的方法是直接求近似核矩阵的特征向量。可以证明Ĝ的特征向量可以通过求解一个小得多的m x m矩阵的特征问题来获得。实现步骤选择地标点从N个样本中选出m个地标点形成矩阵Zm x dd是原始维度。计算矩阵计算W k(Z, Z)维度m x m。计算C k(X, Z)维度N x m其中X是全部数据。特征分解对m x m的矩阵W进行特征分解W U Λ U^T其中U是正交特征向量矩阵Λ是特征值对角矩阵。构造近似特征向量Ĝ的前m个特征向量对应于N维空间可以通过下式近似得到V ≈ C U Λ^{-1/2}这里V的每一列是Ĝ的一个近似特征向量未归一化。注意这些向量是近似正交的。投影新数据对于一个新样本x_new其在第k个近似主成分上的投影得分为score_k (k(x_new, Z) * u_k) / sqrt(λ_k)其中u_k是U的第k列W的第k个特征向量λ_k是第k个特征值。通过这种方式我们将一个O(N³)的特征分解问题转化为了O(Nm² m³)的计算主要成本在计算C和分解W并且只需要存储O(Nm)的矩阵C。4.2 高斯过程回归GPR的Nyström实现GPR的预测均值和方差计算需要求解线性系统(K σ²I) y和计算K的行列式用于超参学习。这里K是训练样本间的核矩阵σ²是噪声方差。使用Nyström近似K ≈ C W^{-1} C^T并利用Woodbury矩阵恒等式我们可以高效地计算逆矩阵。Woodbury恒等式(A UCV)^{-1} A^{-1} - A^{-1}U(C^{-1} VA^{-1}U)^{-1}VA^{-1}令A σ² I_NN x N对角阵U CN x mV C^Tm x NC^{-1} Wm x m。则K σ²I ≈ C W^{-1} C^T σ²I应用Woodbury恒等式(C W^{-1} C^T σ²I)^{-1} σ^{-2}I - σ^{-4}C (W σ^{-2}C^T C)^{-1} C^T注意C^T C是m x m的矩阵。但更常见且数值稳定的做法是使用以下等价形式。我们近似K ≈ C W^{-1} C^T (C W^{-1/2}) (C W^{-1/2})^T BB^T其中B C W^{-1/2}是N x m矩阵。那么K σ²I ≈ B B^T σ²I。再次应用Woodbury恒等式或使用矩阵行列式引理(B B^T σ²I)^{-1} σ^{-2}I - σ^{-2}B (σ²I B^T B)^{-1} B^T这里的关键是B^T B是一个m x m的矩阵因此求逆的复杂度从O(N³)降到了O(m³)。实现步骤预测阶段如前所述计算C和W并分解W U Λ U^T。计算B C U Λ^{-1/2}。此时B的列是正交的近似。计算小矩阵M B^T B σ² I_m。由于B的列正交B^T B ≈ Λ所以M ≈ Λ σ² I_m是一个对角占优矩阵求逆极其简单。对于预测需要计算α (K σ²I)^{-1} y。利用上式α ≈ σ^{-2}y - σ^{-2} B M^{-1} (B^T y)计算B^T y是O(Nm)求解M^{-1} (B^T y)是O(m³)最后再与B相乘是O(Nm)。总复杂度O(Nm m³)。预测方差也可以利用类似技巧高效计算。实操心得在实现时直接对W进行特征分解W U Λ U^T比直接求W^{-1}或W^{-1/2}更数值稳定。因为Λ中可能包含非常小的特征值直接求逆会放大数值误差。通过特征分解我们可以安全地计算Λ^{-1/2}可以对过小的特征值进行截断例如设置一个阈值ε当λ_i ε时令1/sqrt(λ_i) 0然后再计算B C U Λ^{-1/2}。这种“截断”实际上引入了额外的正则化在实践中往往能提升泛化性能。4.3 与随机傅里叶特征RFF等其他方法的混合Nyström方法不是大规模核学习的唯一选择。另一种流行的方法是随机傅里叶特征。对于平移不变核如RBF核、拉普拉斯核根据Bochner定理核函数可以表示为某个概率分布的傅里叶变换的期望。RFF通过随机采样该分布下的频率来显式构造有限维的随机特征映射φ(x)使得φ(x)^T φ(y) ≈ k(x,y)。Nyström vs. RFFNyström基于数据data-dependent。近似质量依赖于地标点的选择。产生的特征表示通常更紧凑m维且与数据分布相关。RFF基于核函数kernel-dependent。近似质量依赖于随机采样的频率数量D与数据无关。需要更大的D通常D m才能达到与Nyström相当的精度但特征构造可以高度并行化且适用于在线学习。混合策略有时可以将两者结合。例如可以先使用Nyström方法将数据投影到m维子空间然后在这个低维表示上再使用RFF或其他核。或者在分布式计算环境中可以对不同的数据分片分别使用Nyström进行本地降维然后再聚合。这种“混合”思想的核心是分层处理在不同阶段采用最适合的技术来平衡精度和效率。5. 实战以声子晶体带隙计算为例让我们回到开篇提到的那个具体问题用Matlab计算二维二组元圆柱形散射体正方形基体的声子晶体带隙。这虽然是一个物理问题但其计算核心——求解大型稀疏/稠密矩阵的特征值问题与核方法面临的挑战在数学上同构。5.1 问题映射从物理到矩阵在平面波展开法或有限元法等频域计算方法中声子晶体的带隙计算最终归结为求解一个广义特征值问题A(k) * u ω² * B(k) * u其中k是倒格子空间中的波矢我们会在第一布里渊区边界上选取一系列k点。A(k)和B(k)是与波矢k相关的系统矩阵其维度N由截断的平面波数量或网格节点数决定。为了获得精确的能带结构N可能需要成千上万。ω是角频率u是特征向量。我们需要求解每个k点对应的前若干个最小特征值ω²并绘制出ω随k变化的曲线能带结构带隙就是频率范围内没有能带通过的区域。直接对每个k点的大矩阵A(k)和B(k)进行全特征值分解eig是灾难性的。通常我们会使用迭代特征值求解器如Arnoldi方法Matlab中的eigs。然而即使使用eigs当矩阵维度极高且我们需要多个特征对时计算量和内存消耗依然巨大。5.2 Nyström思想的借鉴随机抽样与插值这里我们可以借鉴Nyström方法的核心思想用部分信息重建整体。但对象不是核矩阵而是特征值和特征向量随波矢k变化的函数关系。一种有效的策略是结合随机采样与谱插值选择“地标”k点不在整个布里渊区边界上密集地计算所有k点而是精心挑选或随机均匀挑选一小部分m个关键的k点例如高对称性点Γ, X, M及其附近的一些点。精确计算地标点的特征解对于这m个k点我们使用可靠的迭代求解器如eigs计算出前p个最小的特征值ω_i²(k)和对应的特征向量u_i(k)。这一步计算量较大但只做m次。构建插值模型利用这m个点的特征解构建一个插值或回归模型来预测其他任意k点的特征值和特征向量。这可以看作是一种“函数逼近”。对于特征值可以简单地对每个能带i用样条插值或多项式拟合ω_i²(k)随k变化的曲线。对于特征向量更稳健的方法是借用Nyström的公式。将特征向量视为k的函数。对于一个新的k点其特征向量可以通过地标点k_l处的特征向量线性组合来近似u_i(k) ≈ Σ_{l1 to m} [G(k, k_l) * α_il]其中G(k, k_l)是一个合适的插值核函数例如与物理相关的格林函数或简单的RBF核系数α_il通过在地标点上拟合已知的u_i(k_l)来确定。快速扫描利用构建好的插值模型我们可以快速生成一条光滑的、高分辨率的能带曲线其计算成本远低于在每个点都求解一次特征值问题。这种方法本质上是将计算密集型的大规模特征值求解压缩到了少数几个“地标”点上然后利用平滑性假设能带是k的连续函数来重建全局信息。这与Nyström用部分样本近似整个核矩阵的思想如出一辙。5.3 Matlab实现要点与技巧在具体实现上述混合策略时有以下几点需要注意矩阵组装优化A(k)和B(k)的组装应充分利用声子晶体的周期性使用向量化操作避免循环。对于圆柱形散射体平面波展开法中的傅里叶系数有解析表达式应预先计算好。迭代求解器配置使用eigs(A, B, p, ‘smallestreal’)求解最小的p个广义特征值。关键是提供好的预处理子和初始向量。可以利用上一个k点的特征向量作为当前k点求解的初始猜测eigs的v0参数这能显著加速收敛因为相邻k点的特征向量通常相似。地标点选择高对称性点Γ, X, M必须包含。此外在能带可能发生交叉或变化剧烈的区域如带隙边缘应适当增加地标点的密度。可以先做一次很粗糙的均匀扫描根据初步结果判断哪些区域需要加密。插值方法对于特征值分段三次埃尔米特插值Matlab的pchip通常比样条插值spline更保形能避免非物理的振荡。对于特征向量如果使用基于核的插值核函数带宽的选择至关重要可以通过交叉验证来确定。并行计算不同k点的特征值求解是相互独立的这是完美的并行任务。可以使用Matlab的并行计算工具箱parfor或启动多个工作进程parpool来同时计算多个地标点充分利用多核CPU。踩坑记录在早期尝试中我直接对所有k点调用eigs即使使用了前一个点的解作为初值计算一个精细的能带图200个k点也需要数小时。在引入“地标点插值”策略后我只需要精确计算约20-30个地标点并行计算总时间约10-15分钟然后用插值生成2000个点的光滑曲线总耗时不到20分钟且图形质量更高。另一个坑是特征向量的相位不确定性。数值求解得到的特征向量可以乘以任意相位因子e^(iθ)。在插值前必须对相邻地标点的特征向量进行“相位对齐”例如令它们的内积为实数且为正否则插值结果会混乱。6. 常见问题与排查技巧实录在实际应用Nyström方法或其变体时你可能会遇到以下典型问题。这里记录了我的排查思路和解决方案。问题现象可能原因排查与解决思路近似误差极大任务性能暴跌1. 地标点数量m太少。2. 地标点选择太差如全部集中在同一聚类。3. 核函数或参数选择不当导致核矩阵本身难以被低秩近似。1.增加m绘制任务性能如分类准确率随m变化的曲线找到拐点。2.改进采样从均匀随机采样切换到k-means中心点采样。检查地标点的分布是否覆盖了数据空间。3.检查核矩阵计算核矩阵前m个特征值占总和的比例。如果衰减很慢说明低秩近似本身就不合适考虑换用RFF或其他方法。数值不稳定矩阵求逆失败或产生NaN1. 地标点中有非常相似的点导致W矩阵病态条件数过大。2. 核参数如RBF的γ过大使得非对角线元素接近1对角线为1矩阵趋于奇异。1.正则化对W进行正则化使用W_reg W λIλ取一个很小的数如1e-8。2.特征分解截断如前所述对W进行特征分解W UΛU^T将Λ中小于阈值ε如1e-10的特征值置零再计算Λ^{-1/2}。3.调整核参数适当减小RBF核的γ参数。计算速度没有显著提升1.m选择过大接近N。2. 实现方式低效例如显式构造了N x N的近似矩阵Ĝ。3. 后续算法没有利用C和W的结构化形式。1.重新评估m使用更小的m。性能提升的代价是精度损失需要权衡。2.检查实现确保你的代码始终操作的是C(N x m) 和W(m x m)而不是Ĝ(N x N)。例如在KPCA中应使用C * (W \ C’ )的运算形式而不是先求W^{-1}再连乘。3.算法层面优化确保你使用的算法库或自定义代码支持输入低秩因子。例如在GPR中应使用基于Woodbury恒等式的求解器。与精确核方法结果相比预测方差被低估GPR中这是Nyström近似的固有性质。低秩近似Ĝ丢失了K的高秩部分小特征值对应的信息这部分信息在GPR中贡献于预测不确定性。1.理解并接受Nyström-GPR给出的预测方差是条件于低秩近似的方差通常会小于全GP的方差。这在决策中需要被考虑。2.方差修正有一些研究工作提出了对近似方差的修正项可以查阅相关文献。一个简单的启发式方法是添加一个与近似误差范数成正比的常数项到方差中。3.使用其他近似如果不确定性估计至关重要可以考虑使用变分高斯过程VGP或稀疏高斯过程SVGP它们提供了更严谨的近似框架和不确定性量化。在类似声子晶体的科学计算中插值后的能带出现虚假的“毛刺”或间断1. 地标点数量不足尤其是在能带交叉、反交叉或曲率大的区域。2. 插值方法不适合例如使用了高次多项式导致龙格现象。3. 特征向量相位未对齐。1.自适应加密采样在初步插值结果中检查残差大的区域在这些区域额外增加地标点进行精确计算然后重新插值。2.更换插值方法尝试使用保形插值如pchip或限制样条插值的阶数。对于特征向量尝试不同的插值核函数及其带宽。3.相位对齐在插值前对每个能带的所有地标点特征向量执行一个全局或顺序的相位对齐操作确保它们连续变化。最后我个人最深刻的体会是无论是Nyström还是其他近似方法其价值不在于追求对完整模型的完美复现而在于在可接受的计算预算内捕捉到问题最本质的特征。在声子晶体项目中我们并不需要每条能带都精确到小数点后五位我们关心的是带隙的位置和宽度是否被准确捕捉。在机器学习任务中我们可能不需要99.9%而只需要99%的准确率但训练时间可以从一周缩短到一小时。这种从“精确但不可行”到“近似但高效”的思维转变是解决大规模计算问题的关键。当你下次被一个巨大的核矩阵或系统矩阵困住时不妨想一想我是否真的需要它的全部也许一个精心挑选的“子集”就能告诉你关于“全集”最重要的事情。

相关新闻