On-Policy Gap约束(三方法一致PPO clip兜底)统一依赖PPO clip(e0.2e_high0.28)ratio t_0_new(a|s) / t_0_old(a/s)超出 [0.8 1.28] 的 ratio 被截断 → 隐式 KL 约束OPD特有的额外保障teacher_lp - rollout_lp 的梯度方向 向 teacher 靠拢 隐式 KL 拉力→ 防止 policy 漂离有 teacher 指导的区域三种方法的 On-Policy Gap 风险都不大因为 OpenClaw 是在线服务数据实时产生天然接近 on-policy。weight sync 暂停窗口是主要偏差来源被 503 pause 机制控制。1.7 不变量④我们看看如何解决long-horizon 信用分配(turn discount dense reward shaping)有效样本率讨论单轮RL每条response 1个样本有reward就有梯度Agentic RL:每个episode T步但可能只有1个terminal reward前T-1步reward0 → 无梯度(用0填充)“有效样本率“的真正含义在Agentic RL里变成reward信号能有效反向传播到多少步的actionOpenClaw-RL有效样本率Binary RL:loss_mask 0 的样本仍进训练队列(Megatron 做零梯度forward)→ 占用GPU计算资源但无学习信号→ 有效样本率 (score ≠ 0的turn 数) / (队列总turn数)at-least-one 保障下限每 session ≥ 1个有效样本OPD:hint-reject→完全不进队→有效率最纯净所有进入队列的样本loss_mask全为1但效率上限 ≤ hint accept rate(hint 拒绝率可能很高)Combine:OPD-only RL-only OPDRL 都进队但hint-rejected AND eval0 → drop (最严格过滤)结果样本数最少但信号质量最高(每条都有至少一路有效信号)1.8 设计哲学小结Binary RL → 宁愿噪声多不放弃任何数据(at-least-one 全入队)OPD → 宁愿数据少只要高纯度信号(hint-accept才入队)Combine → 精准门控按信号类型分路最大化信噪比0x02 第一不变量理解我们在本小节再仔细学习理解下 第一不变量策略可探索空间不能过早塌缩。2.1 直觉理解塌缩 模型“认定“了某种回复模式放弃探索其他可能性。具体如下训练前(高entropy充分探索)P(好的我来帮你) 0.15P(让我分析一下) 0.18P(这个问题需要...) 0.20P(首先...) 0.12...(很多候选均匀分布)过早塌缩后(低entropy退化)P(让我分析一下) 0.87P(“好的我来帮你) 0.08P(其他所有)0.052.2 深入思考第一不变量不是说模型要随机”而是说在每种情境下模型必须仍然知道多种有意义的应对方式并且真实地有能力选择它们。这是RL持续学习的前提条件一没有这个可探索空间后续的奖励信号无论多精确都无法引导模型走向更好的策略。2.2.1 多样性此处回答为什么token级随机性不等于探索”支撑集支撑集(Support)的数学含义分布P的支撑集 所有概率 0 的事件集合Token 级支撑集 ≠ 行为级支撑集。示例模型在token 1选Let时有(LetFirstToI)都有高概率但一旦选了Let之后的token高概率会走直接推理路径结论token级很高但行为级已经锁定成直接推理这一种策略。表面上”每个token位置的词表分布仍有多样性但是”模型生成的所有回答都遵从同一种模式。”直接推理就是永远走” → 长链推理 → → 答案的固定模板。行为级支撑集崩塌(Support Collapse)训练前P(分解为子问题策略)30%P(直接推理策略)40%P(先搜索再答策略) 20%P(反例验证策略)10%RL训练后(1奖励集中在直接推理)P(分解为子问题策略) 2% 快崩塌了P(直接推理策略) 94% 支撑集过度收缩P(先搜索再答策略) 3%P(反例验证策略) 1%此时token级熵可能依然很高(词语选择多样)但行为空间的支撑集已经崩塌了。这就是为什么ARLArena观察到训练崩溃往往在特定任务类型上(如 ALFWorld)而非所有任务一特定任务对行为多样性的要求更高。策略层面的多样性token级熵测试的是”用词多样性行为级是”策略多样性前者高不代表后者没有退化。彼此可区分、语义上不同” 不是token熵要高比如The catsaton themat → 下-个词有很多候选(mat/floor/sofa...) → 虽然token熵不低但语义上都是猫坐在什么上”差异微不足道。而是策略层面的多样性。比如给定帮我解释量子纠缠”模型应该保持路径A类比直觉解释(面向普通用户)路径B数学形式化(面向专业用户)路径C先反问用户背景(主动澄清)路径D分层解释(先直觉后深入)这四条路径语义上根本不同是真正意义上的不同行为”。范式因此范式如下旧范式(错误方向)提高token温度 → 增加随机性 → 更好的探索新范式(正确方向)管理模型行为空间的支撑集 → 保持策略多样性 → 真正的探索2.2.2 真实可行这是关键约束不只是token序列上存在而是模型真的能走到那条路。# 比较 π(类比解释)1e-9 # 理论上可以但概率极低→真实不可行 π(数学形式化)0.45 # 模型真的可以走这条路→真实可行” π(逐步推导)0.50 # 同上 π(先反问)0.05 # 勉强可行的边缘第一不变量要求至少有若干条路径π(path_i) e_threshold而不仅仅是理论上存在。2.2.3 给定状态下(per-state而非全局)全局token 熵高 ≈ 满足第一不变量因为 模型可能对数学题→路径单一(只会GRPO强化后的解题格式)对闲聊”→路径多样→ 在数学题这个state下策略已塌缩而 第一不变量要求每个 state S模型保有{path(s)path 2(s)... path k(s)} 这样的可区分路径集2.2.4 为什么过早最危险一组可行的语义路径 模型保留着可以被学习的选择空间”。一旦某条路径被排除出可行集RL 就永远无法知道它应该被强化或惩罚。RL的策略梯度公式如下# Policy gradient.只能从被采样的路径学习 ∇L E_{a ~ π(·|s)}[∇logπ(a|s)·A(s,a)]采样期望只有被采样的 action才会收到梯度。# 如果某条路径π(a|s) → 0 # 该action a 永远不会被采样A(sa)从不被计算。 # ∇log π(a|s) * A(s,a)0 → 永远收不到梯度, 永久无法得知 a 是否更好即一旦π(als) → 0该action永远不会被采样永远收不到梯度。这与监督学习根本不同SFT有显式label → 不管当前概率多小label对应的token都有梯度RL没有label → 只有实际采样到的action才有梯度 → 概率趋零的策略 死路无法自我恢复具体场景我们再来看看OpenClaw-RL里的塌缩。假设Binary RL训练了一段时间后模型学会了一种高分模板比如这是个很好的问题。让我逐步分析1)...2)..3)...总结... → 这种格式 PRM 经常打 1问题用户问技术代码题时也用这个模板 → 代码题需要直接给代码不是列条目。这样带来的问题如下→ PRM打0或-1(用户下一句表示没解决问题) → 但此时模型已经几乎不会生成直接写代码的回复了(概率→ 0) → 无法收到应该直接写代码的梯度信号 → 塌缩锁死过早与收敛的区别过早塌缩(坏)模型还没学会区分好坏回复 → 随机采样到某种格式 → 偶然得1 → 快速强化 → 锁死正常收敛(好)模型已经学会技术问题→直接给代码分析问题 → 逐步推理→ 条件entropy依然高(不同类型问题差异大)→ 同类问题内entropy可以低(已找到最优策略)核心判断entropy是否在有用的维度上降低了。2.2.5 塌缩如何引发其他三个不变量的连锁失效第一不变量是根基它失败后其余三个不变量同时承压具体如下图。① Entropy 塌缩 ↓ 所有输出趋向相同模式 / \ ② 梯度退化 ③ On-Policy Gap 扩大 (reward 方差 → 0) (用户说 A模型只生成 B) \ / ④ 有效样本率崩溃 (judge 全打 neutral)2.3 维护可探索行为空间的难点6个根本性挑战如下。难点 1SFT的单向压缩性交叉SFT的目标是maxP(正确答案)其副作用是所有alternative valid outputs的概率同时下降。这种压缩是单向不可逆的Training loss ↓→ P(gold output) ↑ → P(alternative paths) ↓ (很难再恢复)结果Getting Your LLMs Ready for RL 发现