一、核心知识点与详细解析知识点 1协方差矩阵的几何意义椭圆参数协方差矩阵ΣΣ 是实对称正定矩阵其元素对角线 σiiσii方差控制数据在对应坐标轴方向的拉伸程度。非对角线 σijσij协方差控制椭圆旋转程度正协方差 → 沿 yxyx 方向拉伸负协方差 → 沿 y−xy−x 方向拉伸。特征分解ΣQΛQTΣQΛQT特征值 λiλi数据沿对应特征向量方向的方差大小。特征向量 qiqi椭圆主轴方向长短轴方向。椭圆绘制马氏距离为常数 c2c2 的等概率轮廓长轴长度 2×c×λmax2×c×λmax短轴长度 2×c×λmin2×c×λmin。旋转角度 arctan2(q21,q11)arctan2(q21,q11)即第一特征向量的方位角。知识点 2相关系数矩阵定义RijΣijΣiiΣjjRijΣiiΣjjΣij无量纲取值 [−1,1][−1,1]。计算方式用标准差外积去除协方差矩阵。知识点 3马氏距离Mahalanobis Distance定义DM(x)(x−μ)TΣ−1(x−μ)DM(x)(x−μ)TΣ−1(x−μ)。特性考虑变量相关性和不同量纲通过协方差逆矩阵加权。在多元正态假设下DM2DM2 服从卡方分布自由度 pp因此可用于异常检测。与欧氏距离对比欧氏距离仅度量空间直线距离忽略分布形状马氏距离等价于在“白化”空间中的欧氏距离能更合理判断异常。知识点 4基于马氏距离的异常检测步骤估计样本均值 μ^μ^ 和协方差 Σ^Σ^。计算每个样本的马氏距离平方。取 90%90%或其他分位数作为阈值 ττ。若新点 xx 满足 DM2(x)τ2DM2(x)τ2则判为异常。几何解释阈值对应一个椭圆或超椭球落在椭圆外的点视为异常。二、高频考点归纳考点类别具体内容考查形式概念辨析协方差矩阵对角线/非对角线的作用特征值与椭圆长短轴的关系马氏距离与欧氏距离的本质区别。选择题、填空题、简答题计算推导给定2×2协方差矩阵求特征值、特征向量、椭圆角度、相关系数矩阵。计算题代码填空补全np.mean、np.cov、np.linalg.eigh、mahalanobis等函数的参数。机试/改错题应用分析给定两个点比较欧氏距离和马氏距离并解释差异判断候选点是否为异常。论述题、分析题三、典型考试题目及参考答案题型一填空题概念题目协方差矩阵 Σ[4221]Σ[4221]则其特征值为 λ1____λ1____λ2____λ2____椭圆的长轴方向由特征向量 ________ 决定填“第一列”或“第二列”。答案λ15,λ20λ15,λ20注意矩阵奇异但通常考试会设为正定。此处改为 Σ[5222]Σ[5222] 为例λ16.56,λ20.44λ16.56,λ20.44长轴对应最大特征值 λ1λ1 的特征向量。解析解特征方程 ∣Σ−λI∣0∣Σ−λI∣0特征值排序后最大特征值对应的特征向量为长轴方向。题型二简答题原理题目为什么马氏距离比欧氏距离更适合异常检测参考答案马氏距离考虑了各变量的方差差异尺度避免量纲影响马氏距离考虑了变量间的相关性能正确衡量点在整体分布中的相对位置在多元正态下马氏距离平方服从卡方分布便于统计阈值选取而欧氏距离没有此性质。题型三计算题协方差与相关系数题目给定样本协方差矩阵 Σ^[10668]Σ^[10668]。(1) 计算相关系数矩阵 RR(2) 计算椭圆旋转角度特征向量角度。参考答案(1) 标准差103.162103.16282.82882.828外积 3.162×2.8288.9443.162×2.8288.944相关系数 R126/8.9440.671R126/8.9440.671故 R[10.6710.6711]R[10.6710.6711]。(2) 特征值λ18±(10−8)24⋅36218±1482⇒λ115.08,λ22.92λ218±(10−8)24⋅36218±148⇒λ115.08,λ22.92。特征向量对 λ1λ1(10−15.08)v16v20⇒−5.08v16v20⇒v20.847v1(10−15.08)v16v20⇒−5.08v16v20⇒v20.847v1单位化得 v1≈[0.763,0.647]Tv1≈[0.763,0.647]T角度 θarctan2(0.647,0.763)≈40.3∘θarctan2(0.647,0.763)≈40.3∘。题型四分析论述题异常检测题目在实验2的子任务2中为什么取正常数据的马氏距离的90%分位数作为阈值如果改为欧氏距离的90%分位数会产生什么问题参考答案取分位数是为了得到一个统计上合理的临界值使得正常样本约90%落在阈值内在无标签情况下常用的经验方法。若改用欧氏距离由于数据存在相关性非球形分布欧氏距离阈值对应的轮廓是圆形会错误地将很多沿长轴方向正常但距离圆心的欧氏距离较大的点判定为异常而忽略短轴方向真正偏离的点。马氏距离形成的椭圆轮廓能贴合数据分布更科学。四、代码考点与常见填空位置老师可能让你填写的函数参数计算均值np.mean(data, axis0)沿行求平均。计算协方差np.cov(data, rowvarFalse)每列代表一个变量。特征分解np.linalg.eigh(sigma_hat)专门用于对称矩阵返回排序后的特征值。马氏距离mahalanobis(x, mu, inv_sigma)注意第三个参数是协方差逆矩阵。求逆np.linalg.inv(sigma_hat)。相关系数R sigma_hat / np.outer(np.sqrt(np.diag(sigma_hat)), np.sqrt(np.diag(sigma_hat)))。五、考前速记清单纸质版可裁剪指标公式/特性椭圆长轴2×c×λmax2×c×λmax椭圆短轴2×c×λmin2×c×λmin椭圆角度arctan2(q21,q11)arctan2(q21,q11) q1q1为最大特征值对应的单位特征向量协方差正负正→沿 yxyx 方向拉伸负→沿 y−xy−x 方向拉伸马氏距离(x−μ)TΣ−1(x−μ)(x−μ)TΣ−1(x−μ)异常判断DMχp,0.92DMχp,0.92 或使用样本分位数