文章

连接主义,后向传播算法,可微分学习

目前基于人工神经网络所打造的AI,属于连接主义,训练的时候,依靠向后后传播算法,这个算法要求计算过程的可微性,工程化实现是自动微分技术,它通过构建一个计算图来记录前向计算和反向传播的过程,自动计算每个节点的梯度。这样,我们不需要手动计算每个参数的梯度,大大简化了计算过程,提高了训练效率。同时,自动微分技术还能够处理各种复杂的计算操作和函数,使得神经网络的训练过程更加灵活和通用,不仅仅是神经网络,其实任何涉及复杂函数梯度计算的领域都可以使用自动微分技术,例如物理学,计算金融等。

能如此使用后向传播算法和自动微分技术,其前置假设是,我们的所有被学习的特征是可微的,这个特征可微分假设就一定成立的吗?有没有不可微分的特征呢?针对不可微分的特征我们应该如何学习?

每层非线性激活将输入映射到高维空间,但梯度方向可能因非线性扭曲而偏离最优方向。

梯度消失与爆炸的本质是深度复合函数微分结构的固有缺陷,而非单纯网络设计或优化方法问题。

后向传播算法,梯度下降,看起来属于机械还原论的色彩,通过数学上的链式法则将误差传播逐层分解,本质上是将复杂学习过程还原为可计算的梯度优化问题。这种机械论视角隐含了“智能可分解为局部规则”的假设,假设局部梯度可组合为全局优化路径。大模型在scaling law下的涌现性,其实是在强调模型的整体论,而不是机械还原论,和反向传播算法在背后所代表的哲学是冲突的。海水的流动规律,和机械地集合其中每一滴水的运动是不等价的。

或许,我们对ResNet解决模型训练过程中的梯度爆炸/消失,对于梯度爆炸有了另一个看法,或许深层高阶特征的学习可微性是小于浅层特征的,或者可以说,深层高阶特征是部分可微的,深层网络是我们人为设计的,且默认假设其是可微的,微分路径也是被假设成立的。

梯度消失与爆炸的本质是深度复合函数微分结构的固有缺陷。

传统网络(如全连接网络)的梯度传播路径是固定链式结构,缺乏多样性。

单路径风险:梯度完全依赖单一路径的导数乘积,缺乏冗余路径补偿。

ResNet作为一个弥补方法,使其可微性能够保证。ResNet将低阶特征直接跳跃连接到深层特征来继续保证微分计算的有效性,这种弥补的办法,在后续其实有很多,例如:离散特征选择:如Gumbel-Softmax中的Gumbel噪声采样,虽通过重参数化技巧实现可微近似,但本质仍是离散决策。高阶特征可能依赖动态结构(如条件分支、循环网络),其计算图在训练时动态变化,导致梯度无法静态定义。

在强化学习中,策略梯度方法(如PPO)需对离散动作空间进行可微近似(如Gumbel-Softmax),但本质仍是不可微的蒙特卡洛采样过程。

例如:

神经架构搜索(NAS)中的可微分方法(如DARTS)通过连续松弛结构权重实现梯度计算,但离散结构选择仍存在不可导点。

深度网络中深层特征的涌现可能因梯度消失而无法优化。例如,ResNet通过残差连接将低阶特征直接传递到深层,缓解梯度消失,但本质是人为设计可微分路径,而非自然涌现。

现在多模态模型的兴起,使得Embedding成为处理离散数据的强大武器,神经网络无法处理“离散符号 ID”,它需要连续的向量空间。token_id (通过Tokenization实现)→ embedding vector;把离散 token 映射到一个连续、高维、可微的语义空间。最终实现把非常复杂、高维的真实世界,压缩成一个在低维连续空间中仍保留“语义结构”的流形(manifold)。

人类直觉的跳跃应该是不可微分的,自我反思,主要是价值的重估,甚至价值反转,例如:我们做了一件事,伤害了他人,在事件发生的那个时刻,我们没有意识到自己的行为有问题,甚至以自己的行为为傲,但是事后反思的时候,我们意识到了,自以为骄傲的事情,其实是羞耻,这样来看,反思也很难纳入可微分学习的系统。人的非连续价值系统,或许可以用维特根斯坦的一句话说明,“如果撒谎对我有好处,我为什么要诚实呢?”,如果一个AI大模型有第一人称视角的意识,撒谎在连续理性推理下对它有利时,它没有理由去追求诚实,或许这个也是大模型幻觉的来源之一。

本文由作者按照 CC BY 4.0 进行授权