从“听见红色”，巴甫洛夫条件反射实验，RL时序差分算法，到LLM“看”懂图像

1.统一世界模型在人类感知经验中，我们看到红色、听到红色，在大脑中会形成统一概念，指向同一个“红色”概念，这里红色可以换为其他任何感知对象，道理是一样的。人类的大脑就是一个统一强大的世界模型：你闭眼也能想象“打碎玻璃的声音”、“踩在雪地上的触感”。 2.神经认知现象-联觉（Synesthesia）联觉是一种神经认知现象：当一种感官或认知通路被激活时，自动且不可控地引发另一种感官体验。...

2026/03/03 AI

训练阶段空间上的ResNet与推理阶段时间上的KV Cache

训练阶段空间上的ResNet-可增量认知学习 ResNet的本质：残差网络背后的策略是让网络去拟合残差映射，而不是让层去学习底层的映射。最先提出该网络是何恺明的革命性的文章：为什么要如此呢？我们这里不推导数学公式。在直观上来看，CNN里的非线性激活层是问题的关键。为什么我们要使用非线性激活而不是线性激活呢？从字面就可以知道，我们面对的大多数特征线性的很少，...

2026/02/20 AI

图像优化线性AR算法到Self-Attention机制

线性AR算法在几年前，我做过一个深度图算法优化的项目。问题背景：我们有采集+开源（～10W）depth+RGB pair对数据集，但是由于depth获取的物理原理（结构光，TOF等）原因，depth一般质量很差，孔洞，噪声，边缘模糊等。我们如何优化depth呢？其可以写为一个最优化问题： [\min \quad E(x) = \sum_{i=1}^{N} \sum_{j \in \m...

2026/02/15 AI

人类智慧的漫长接力：从卡拉比猜想到费马大定理

一、25年的坚持：丘成桐与卡拉比猜想卡拉比本人思考了22年，丘成桐用了3年，整个过程历时25年——还不包含其他尝试者。在数学史上，最动人的篇章之一，莫过于卡拉比猜想的证明历程。卡拉比猜想由意大利数学家埃利奥·卡拉比（Eugenio Calabi）于1954年提出，是一个关于勒流形上里奇曲率零度解的存在性的深刻问题。卡拉比本人耗时22年不断探索，却始终未能给出完整证明。...

2026/02/11 mathematic

学习笔记：Diffusion 直接预测干净图片（JiT）

paper: Back to Basics: Let Denoising Generative Models Denoise code: https://github.com/LTH14/JiT 1. diffusion模型长期以来的共识我们在模型角度，一直是在学习添加的噪声分布，但是回归本质，diffusion模型目标是什么？我们真的需要让模型去预测“噪声”吗？我们一直认为...

2026/02/02 AI

从3DMM到stable diffusion生成式模型

为什么3dmm对3d 人脸数据还采用pca降维呢？ PCA 直接基于协方差矩阵的特征分解。问题：特征分解的结果是正向得到主成分，也就是基向量。那么从这个特征分解中，能不能得到其逆过程，也就是合成人脸3D mesh的公式呢？从另一方面来讲，SD网络中，对输入的图片，本身就是需要做降维压缩，和3dmm其实是一样的，都是希望获得低维度主成分的特征，因此在原理上SD的特征是2d特征，3dm...

2026/01/19 AI

被AIGC时代复活的VAE生成模型学习

VAE起源 VAE（Variational Autoencoder，变分自编码器）其实不是“新生物”，它最早出现在 2013–2014 年，由 Kingma 和 Welling 在一篇经典论文 “Auto-Encoding Variational Bayes” (2013, ICLR 2014 发表) 中提出。这篇论文首次系统化地把概率图模型与深度学习的自编码器结合起来，用变分推...

2026/01/03 AI