承接上一篇回归算法的内容本篇聚焦有监督学习的另一大核心任务 —— 分类任务。分类任务的目标是预测样本所属的离散类别是机器学习中落地最广泛的任务范式之一。本篇将系统讲解 K 近邻、CART 决策树两类基础分类算法梳理集成学习的核心思想同时覆盖分类任务的评估指标体系与超参数优化方法。一、K 近邻算法KNN1.1算法概述K 近邻K-Nearest Neighbor, KNN是典型的基于实例的懒惰学习算法不存在显式的训练过程训练阶段仅存储全部样本数据预测阶段通过邻近样本的信息完成推理。该算法同时支持分类与回归两类任务分类场景下通过多数投票确定样本类别回归场景下通过邻近样本的均值输出预测值。1.2距离度量样本在特征空间中的邻近程度通过距离量化最通用的度量方式为欧氏距离即两个样本各维度特征差值的平方和开平方根直观对应高维空间中两点的直线距离。由于距离计算对特征量纲高度敏感使用 KNN 前通常需要对特征做归一化或标准化处理避免数值范围大的特征主导距离计算结果。1.3执行流程分类任务首先计算待测样本与所有训练样本的距离按距离升序排序选取距离最近的 K 个样本统计这 K 个样本的类别投票结果得票最高的类别即为最终分类输出。回归任务前序距离计算与近邻筛选逻辑与分类一致最终取 K 个近邻样本标签的均值作为预测结果。1.4超参数优化K 值是 KNN 的核心超参数其取值直接决定模型的拟合状态K 过小易受局部噪声干扰引发过拟合K 过大易忽略样本的局部分布规律引发欠拟合。最优 K 值需要通过系统化调参确定。工业界普遍采用网格搜索结合交叉验证的方案完成超参寻优交叉验证将训练集等分为多份轮流以其中一份作为验证集、其余作为训练集重复多轮训练与评估取多轮指标的均值作为该组参数的最终效果。该方法消除了单次数据划分的偶然性评估结果更具统计可靠性。网格搜索枚举预设的超参数组合结合交叉验证逐一评估每组参数的泛化能力最终筛选出全局最优参数组合。在工程实现中GridSearchCV 是该方案的标准封装工具。二、CART 决策树2.1算法概述CART 全称为分类与回归树Classification and Regression Tree是一种二叉树形结构的决策模型同时支持分类与回归两类任务。模型通过递归分裂特征空间形成层级决策规则具备极强的可解释性决策路径可完整追溯。2.2树结构生成原理CART 决策树的构建遵循严格的二分规则核心流程如下强制二分分裂每次节点分裂仅生成两个子节点保证树结构的统一与计算的简洁性最优分裂选择遍历所有特征与分裂点选取能够最大化节点纯度提升的组合作为当前分裂方案递归生长对每个子节点重复执行分裂逻辑自顶向下逐层扩展叶子节点输出分类场景输出类别判定回归场景输出连续数值剪枝优化通过裁剪冗余分支降低模型复杂度缓解过拟合提升泛化能力。2.3算法特性优势模型逻辑直观决策规则可解释性强便于业务侧理解与验证对数据分布无强假设可同时处理数值型与类别型特征对异常值与缺失值具备一定的鲁棒性适用场景广泛可覆盖绝大多数分类与回归需求。局限性单棵决策树容易过度拟合训练数据泛化能力受限训练数据的微小扰动可能导致树结构发生显著变化模型稳定性不足贪心分裂策略仅能保证局部最优无法得到全局最优的树结构。2.4剪枝策略剪枝是决策树优化的核心手段通过简化树结构缓解过拟合分为预剪枝与后剪枝两类预剪枝在树的生长过程中提前终止分裂例如限制树的最大深度、叶子节点最小样本数、分裂最小纯度增益等。其优势是计算效率高、训练资源开销小缺点是存在提前终止的风险可能陷入欠拟合。后剪枝先让决策树完全生长再自底向上逐层评估裁剪掉对泛化性能无增益的子树。其优势是剪枝精度更高、效果更优缺点是全量生长阶段资源消耗大训练成本更高。CART 算法通常采用代价复杂度剪枝CCP作为后剪枝方案通过在损失函数中加入叶节点数量的惩罚项平衡拟合精度与模型复杂度。三、集成学习基础3.1核心思想集成学习的核心逻辑是组合多个弱学习器构建一个泛化能力更强的强学习器。单个弱学习器的预测能力有限但通过差异化的训练与合理的融合策略能够同时降低偏差与方差显著突破单模型的性能上限。3.2两大技术范式根据基学习器的生成方式集成学习分为两条主流技术路线Bagging 范式并行训练多个相互独立的基学习器最终通过投票分类或平均回归融合输出结果。代表算法为随机森林通过样本自助采样与特征随机采样进一步增强基学习器的差异性有效降低模型方差缓解过拟合。Boosting 范式串行迭代训练基学习器每一轮重点拟合上一轮预测错误的样本逐步叠加提升模型精度。代表算法包括 AdaBoost、GBDT、XGBoost 等。四、分类任务评估体系分类模型的效果量化基于混淆矩阵展开通过细分不同类型的预测结果衍生出多维度的评估指标。4.1混淆矩阵混淆矩阵定义了二分类场景下的四类预测结果TP真正例正样本被正确判定为正例FP假正例负样本被错误判定为正例TN真负例负样本被正确判定为负例FN假负例正样本被错误判定为负例。4.2核心评估指标准确率预测正确的样本占总样本的比例计算公式为(TP TN) / (TP TN FP FN)。该指标直观反映整体预测精度但在样本类别不均衡场景下存在严重误导性。精确率预测为正例的结果中真实正例的占比计算公式为TP / (TP FP)衡量模型正例预测的准确性适用于误判成本高的场景。召回率真实正例中被成功识别的比例计算公式为TP / (TP FN)衡量模型对正样本的覆盖能力适用于漏判成本高的场景。F1 值精确率与召回率的调和平均值计算公式为2 ×精确率 × 召回率 / (精确率 召回率)。该指标综合平衡了精确率与召回率是类别不均衡场景下的核心评估标准。五、逻辑图