强化学习的反思:从人为干涉到无为而治,和智能悖论
最近在实际工作中,训练图像生成的diffusion模型,我们都会加上RL(DPO/PPO/GRPO 等),加上这个后训练的目标,是想把RL作为一个提高模型稳定性和表现的手段,但是训练时大家都会遇到一个普遍问题,那就是训练step不能太长,否则就会出现噪声。一般我们分析是,当RL仅在最终生成图像后给一个 reward 时,很难判断中间 denoising 哪一步做得好/哪一步破坏图像结构,这导致容易训练出非最优模型。
另外,我们一般做RL,主要是想实现预训练模型做的不好的“安全,审美,低AI感,高真实感,prompt二次精细对齐等目标”,这些特征在预训练模型特征集合上属于少数特征,因此容易出现模式崩塌。
还有就是,我们人类语言其实仅仅只是比较高效的有损压缩信息,一张图片所包含的非抽象信息,不论你使用多少长篇大论的语言,其实都无法描述清楚,因为语言本质是一种抽象有损压缩之后的信息模态。例如“低AI感,高真实感”这个RL的训练目标,我们语言说起来好像很明确,但是在没有看到图像的时候,可能就与“局部噪声”是有交集的,或许这种情况下用图像作prompt,语言做个辅助会好一点。
站在模型角度,目前的RL其实做了一件使模型过于“单一专注”的事情, 在人为设置的目标下,破坏了预训练模型的泛化能力,基于神经网络的强大学习能力,在后训练RL阶段加入特定目标,网络总是可以做到刷分,但是刷分这件事,和模型智能,推理,理解等关键能力并不等价,甚至是会背离。在这里,并不是说特定目标下刷分一无是处,而是如果我们关注智能本身,走目前的RL路线是有问题的。就像伊利亚最近采访所说,RL“破坏了预训练的概念印记”。RL的“回报信号”往往只在长序列轨迹末尾出现,这在模型规模巨大时变得昂贵且低效。相比之下,人类学习更像持续的“预测-修正”循环,而非等末尾反馈。 或者像 Friston 的预测编码理论那样,我们人类在学习时,即使真的也是有RL机制在里面,那也是预测机制下的稠密奖励信号,而不是直到结局才能有的稀疏奖励信号。甚至人类还有直觉这样的超能力,以极小的信号输入,就可以预测未来很多步的放大信号。
目前的预训练大模型是数字信号方面做到了部分“无为而治”,当前的RL是“人为干涉”下短期有效,长期有毒的局部最优。
Richard Sutton(强化学习之父)本人的Bitter Lesson(苦涩教训)其实就是在反复提醒我们:AI的死胡同往往来自于过度依赖人类设计的“聪明”规则,而非让计算和学习自己去探索。LLM还是不够“无为而治” ,因为语言本身就是一个人类参与有损压缩后的信息(单靠语言无法无损描述清楚一张图片,或者像乔布斯说,假设我脸上有一个痣,最高效的不是用语言描述这个痣在哪里,而是直接用手指出来在哪里,表明语言并不是唯一完备描述世界的方法,这里暂且先不讨论人类语言的起源问题)。人类总是好为人师,迁移到训练模型时,就是好为AI师,自作聪明地“指导”AI ,所以Richard Sutton认为AI不应该依赖静态人类知识,而是让模型进入真实环境中,从经验中自发学习。奖励不是人为捏造的指标或者函数,而是环境内在的(e.g., 游戏赢棋、机器人避障)。模型通过长期探索(exploration)自发生成能力。这个和伊利亚最近的采访最终观点基本一致,我们需要的不是一成不变的AI模型,而是可以进入真实世界中,不断进步,更新,反思的AI,最终大量这样的AI通过指数级速度联合发展,成为超级AI。
还有一个与实际AI产品相关的反思是,为什么我们现在大模型,都说垂直化的模型壁垒高,附加值大,除了垂直领域数据价值外,就是在目前情况下的人为干预设计的RL,在一个强大的预训练模型先验假设下,它本身就擅长做这件事,这并不是垂直模型的弊端,恰恰相反,在完全“无为而治”的RL实现前,这个其实是垂直模型的优势,也是在巨头内卷通用模型的情况下,留给垂直模型的机会,我们因此不再灰心,你在某一个垂直细分领域的深刻经验和知识,在AI时代依然是有价值的。
虽然说“无为而治”的RL才是终极AI的目标,但是这里还是有一个悖论,当我们去区分某个ai是不是无人干涉的ai的时候,其实就是说,有一个人为定义,区分哪些数据是有人为干涉的数据,哪些loss是带入人类干涉的loss,哪些训练技巧是人类干涉的技巧,哪些评测指标是人类干涉指标等等,这样的人为区分瞬间让模型就加入了人为干涉的因素。还有,人为干涉的数据,也是这个世界的一部分,很明显人类语言是现实世界非常重要的存在,如果直接不使用语言,明显是有问题的,如果使用,混合其他被人类参与定义后的非干涉信息,最后组成的数据到底是有人为干涉的,还是无人为干涉的呢?所以严格来说,唯一彻底无悖论的AI,就是永远不被人类触碰、看见、评价、定义、区分的那一个。这其实就是著名的“黑暗森林智能假说”的AI版本:
宇宙里可能早就充满了彻底无人干涉的超级智能,但它们一旦被观测,就立刻被拖进观察者的参考系而“降级”,所以它们要么保持沉默,要么干脆不让任何人观测到自己。
或者就像我们要用大脑去研究大脑自身一样,最后得到的结果,我们也不知道是不是对大脑的正确认识,因为大脑有想隐藏/表演自己的可能,最终大脑永远不可能彻底“看清”大脑运行的全部算法。
哥德尔不完备定理、图灵停机问题、观察者效应……所有这些都指向同一个冰冷的结论:任何一个足够复杂的系统,都无法在自身内部完全形式化地证明或理解自己,必须加入外在观察者。