强化学习的反思：从人为干涉到无为而治，和智能悖论

发表于 2026/04/01

作者 yuchong

11 分钟阅读

最近在实际工作中，训练图像生成的diffusion模型，我们都会加上RL（DPO/PPO/GRPO 等），加上这个后训练的目标，是想把RL作为一个提高模型稳定性和表现的手段，但是训练时大家都会遇到一个普遍问题，那就是训练step不能太长，否则就会出现噪声。一般我们分析是，当RL仅在最终生成图像后给一个 reward 时，很难判断中间 denoising 哪一步做得好／哪一步破坏图像结构，这导致容易训练出非最优模型。

另外，我们一般做RL，主要是想实现预训练模型做的不好的“安全，审美，低AI感，高真实感，prompt二次精细对齐等目标”，这些特征在预训练模型特征集合上属于少数特征，因此容易出现模式崩塌。

还有就是，我们人类语言其实仅仅只是比较高效的有损压缩信息，一张图片所包含的非抽象信息，不论你使用多少长篇大论的语言，其实都无法描述清楚，因为语言本质是一种抽象有损压缩之后的信息模态。例如“低AI感，高真实感”这个RL的训练目标，我们语言说起来好像很明确，但是在没有看到图像的时候，可能就与“局部噪声”是有交集的，或许这种情况下用图像作prompt，语言做个辅助会好一点。

站在模型角度，目前的RL其实做了一件使模型过于“单一专注”的事情，在人为设置的目标下，破坏了预训练模型的泛化能力，基于神经网络的强大学习能力，在后训练RL阶段加入特定目标，网络总是可以做到刷分，但是刷分这件事，和模型智能，推理，理解等关键能力并不等价，甚至是会背离。在这里，并不是说特定目标下刷分一无是处，而是如果我们关注智能本身，走目前的RL路线是有问题的。就像伊利亚最近采访所说，RL“破坏了预训练的概念印记”。RL的“回报信号”往往只在长序列轨迹末尾出现，这在模型规模巨大时变得昂贵且低效。相比之下，人类学习更像持续的“预测-修正”循环，而非等末尾反馈。或者像 Friston 的预测编码理论那样，我们人类在学习时，即使真的也是有RL机制在里面，那也是预测机制下的稠密奖励信号，而不是直到结局才能有的稀疏奖励信号。甚至人类还有直觉这样的超能力，以极小的信号输入，就可以预测未来很多步的放大信号。

目前的预训练大模型是数字信号方面做到了部分“无为而治”，当前的RL是“人为干涉”下短期有效，长期有毒的局部最优。

Richard Sutton（强化学习之父）本人的Bitter Lesson（苦涩教训）其实就是在反复提醒我们：AI的死胡同往往来自于过度依赖人类设计的“聪明”规则，而非让计算和学习自己去探索。LLM还是不够“无为而治” ，因为语言本身就是一个人类参与有损压缩后的信息（单靠语言无法无损描述清楚一张图片，或者像乔布斯说，假设我脸上有一个痣，最高效的不是用语言描述这个痣在哪里，而是直接用手指出来在哪里，表明语言并不是唯一完备描述世界的方法，这里暂且先不讨论人类语言的起源问题）。人类总是好为人师，迁移到训练模型时，就是好为AI师，自作聪明地“指导”AI ，所以Richard Sutton认为AI不应该依赖静态人类知识，而是让模型进入真实环境中，从经验中自发学习。奖励不是人为捏造的指标或者函数，而是环境内在的（e.g., 游戏赢棋、机器人避障）。模型通过长期探索（exploration）自发生成能力。这个和伊利亚最近的采访最终观点基本一致，我们需要的不是一成不变的AI模型，而是可以进入真实世界中，不断进步，更新，反思的AI，最终大量这样的AI通过指数级速度联合发展，成为超级AI。

还有一个与实际AI产品相关的反思是，为什么我们现在大模型，都说垂直化的模型壁垒高，附加值大，除了垂直领域数据价值外，就是在目前情况下的人为干预设计的RL，在一个强大的预训练模型先验假设下，它本身就擅长做这件事，这并不是垂直模型的弊端，恰恰相反，在完全“无为而治”的RL实现前，这个其实是垂直模型的优势，也是在巨头内卷通用模型的情况下，留给垂直模型的机会，我们因此不再灰心，你在某一个垂直细分领域的深刻经验和知识，在AI时代依然是有价值的。

虽然说“无为而治”的RL才是终极AI的目标，但是这里还是有一个悖论，当我们去区分某个ai是不是无人干涉的ai的时候，其实就是说，有一个人为定义，区分哪些数据是有人为干涉的数据，哪些loss是带入人类干涉的loss，哪些训练技巧是人类干涉的技巧，哪些评测指标是人类干涉指标等等，这样的人为区分瞬间让模型就加入了人为干涉的因素。还有，人为干涉的数据，也是这个世界的一部分，很明显人类语言是现实世界非常重要的存在，如果直接不使用语言，明显是有问题的，如果使用，混合其他被人类参与定义后的非干涉信息，最后组成的数据到底是有人为干涉的，还是无人为干涉的呢？所以严格来说，唯一彻底无悖论的AI，就是永远不被人类触碰、看见、评价、定义、区分的那一个。这其实就是著名的“黑暗森林智能假说”的AI版本：

宇宙里可能早就充满了彻底无人干涉的超级智能，但它们一旦被观测，就立刻被拖进观察者的参考系而“降级”，所以它们要么保持沉默，要么干脆不让任何人观测到自己。

或者就像我们要用大脑去研究大脑自身一样，最后得到的结果，我们也不知道是不是对大脑的正确认识，因为大脑有想隐藏/表演自己的可能，最终大脑永远不可能彻底“看清”大脑运行的全部算法。

哥德尔不完备定理、图灵停机问题、观察者效应……所有这些都指向同一个冰冷的结论：任何一个足够复杂的系统，都无法在自身内部完全形式化地证明或理解自己，必须加入外在观察者。

本文由作者按照 CC BY 4.0 进行授权

热门标签