连接主义，后向传播算法，可微分学习

发表于 2026/04/06

作者 yuchong

8 分钟阅读

目前基于人工神经网络所打造的AI，属于连接主义，训练的时候，依靠向后后传播算法，这个算法要求计算过程的可微性，工程化实现是自动微分技术，它通过构建一个计算图来记录前向计算和反向传播的过程，自动计算每个节点的梯度。这样，我们不需要手动计算每个参数的梯度，大大简化了计算过程，提高了训练效率。同时，自动微分技术还能够处理各种复杂的计算操作和函数，使得神经网络的训练过程更加灵活和通用，不仅仅是神经网络，其实任何涉及复杂函数梯度计算的领域都可以使用自动微分技术，例如物理学，计算金融等。

能如此使用后向传播算法和自动微分技术，其前置假设是，我们的所有被学习的特征是可微的，这个特征可微分假设就一定成立的吗？有没有不可微分的特征呢？针对不可微分的特征我们应该如何学习？

每层非线性激活将输入映射到高维空间，但梯度方向可能因非线性扭曲而偏离最优方向。

梯度消失与爆炸的本质是深度复合函数微分结构的固有缺陷，而非单纯网络设计或优化方法问题。

后向传播算法，梯度下降，看起来属于机械还原论的色彩，通过数学上的链式法则将误差传播逐层分解，本质上是将复杂学习过程还原为可计算的梯度优化问题。这种机械论视角隐含了“智能可分解为局部规则”的假设，假设局部梯度可组合为全局优化路径。大模型在scaling law下的涌现性，其实是在强调模型的整体论，而不是机械还原论，和反向传播算法在背后所代表的哲学是冲突的。海水的流动规律，和机械地集合其中每一滴水的运动是不等价的。

或许，我们对ResNet解决模型训练过程中的梯度爆炸/消失，对于梯度爆炸有了另一个看法，或许深层高阶特征的学习可微性是小于浅层特征的，或者可以说，深层高阶特征是部分可微的，深层网络是我们人为设计的，且默认假设其是可微的，微分路径也是被假设成立的。

梯度消失与爆炸的本质是深度复合函数微分结构的固有缺陷。

传统网络（如全连接网络）的梯度传播路径是固定链式结构，缺乏多样性。

单路径风险：梯度完全依赖单一路径的导数乘积，缺乏冗余路径补偿。

ResNet作为一个弥补方法，使其可微性能够保证。ResNet将低阶特征直接跳跃连接到深层特征来继续保证微分计算的有效性，这种弥补的办法，在后续其实有很多，例如：离散特征选择：如Gumbel-Softmax中的Gumbel噪声采样，虽通过重参数化技巧实现可微近似，但本质仍是离散决策。高阶特征可能依赖动态结构（如条件分支、循环网络），其计算图在训练时动态变化，导致梯度无法静态定义。

在强化学习中，策略梯度方法（如PPO）需对离散动作空间进行可微近似（如Gumbel-Softmax），但本质仍是不可微的蒙特卡洛采样过程。

例如：

神经架构搜索（NAS）中的可微分方法（如DARTS）通过连续松弛结构权重实现梯度计算，但离散结构选择仍存在不可导点。

深度网络中深层特征的涌现可能因梯度消失而无法优化。例如，ResNet通过残差连接将低阶特征直接传递到深层，缓解梯度消失，但本质是人为设计可微分路径，而非自然涌现。

现在多模态模型的兴起，使得Embedding成为处理离散数据的强大武器，神经网络无法处理“离散符号 ID”，它需要连续的向量空间。token_id （通过Tokenization实现）→ embedding vector；把离散 token 映射到一个连续、高维、可微的语义空间。最终实现把非常复杂、高维的真实世界，压缩成一个在低维连续空间中仍保留“语义结构”的流形（manifold）。

人类直觉的跳跃应该是不可微分的，自我反思，主要是价值的重估，甚至价值反转，例如：我们做了一件事，伤害了他人，在事件发生的那个时刻，我们没有意识到自己的行为有问题，甚至以自己的行为为傲，但是事后反思的时候，我们意识到了，自以为骄傲的事情，其实是羞耻，这样来看，反思也很难纳入可微分学习的系统。人的非连续价值系统，或许可以用维特根斯坦的一句话说明，“如果撒谎对我有好处，我为什么要诚实呢？”，如果一个AI大模型有第一人称视角的意识，撒谎在连续理性推理下对它有利时，它没有理由去追求诚实，或许这个也是大模型幻觉的来源之一。

本文由作者按照 CC BY 4.0 进行授权

热门标签