Yuchong's blog

训练阶段空间上的ResNet与推理阶段时间上的KV Cache

训练阶段空间上的ResNet-可增量认知学习 ResNet的本质: 残差网络背后的策略是让网络去拟合残差映射,而不是让层去学习底层的映射。 最先提出该网络是何恺明的革命性的文章: 为什么要如此呢?我们这里不推导数学公式。在直观上来看,CNN里的非线性激活层是问题的关键。 为什么我们要使用非线性激活而不是线性激活呢? 从字面就可以知道,我们面对的大多数特征线性的很少,...

人类智慧的漫长接力:从卡拉比猜想到费马大定理

一、25年的坚持:丘成桐与卡拉比猜想 卡拉比本人思考了22年,丘成桐用了3年,整个过程历时25年——还不包含其他尝试者。 在数学史上,最动人的篇章之一,莫过于卡拉比猜想的证明历程。 卡拉比猜想由意大利数学家埃利奥·卡拉比(Eugenio Calabi)于1954年提出,是一个关于勒流形上里奇曲率零度解的存在性的深刻问题。 卡拉比本人耗时22年不断探索,却始终未能给出完整证明。...

从3DMM到stable diffusion生成式模型

为什么3dmm对3d 人脸数据还采用pca降维呢? PCA 直接基于协方差矩阵的特征分解。 问题:特征分解的结果是正向得到主成分,也就是基向量。那么从这个特征分解中,能不能得到其逆过程,也就是合成人脸3D mesh的公式呢? 从另一方面来讲,SD网络中,对输入的图片,本身就是需要做降维压缩,和3dmm其实是一样的,都是希望获得低 维度主成分的特征,因此在原理上SD的特征是2d特征,3dm...