MM-DiT & DiT in Flux model
FLUX 模型中“双流注意力(Double-Stream Attention)+ 单流注意力(Single-Stream Attention) 双流注意力模块 (Double-Stream Blocks) 负责处理文本和图像两种不同模态的信息。在此阶段,文本 Token 和图像 Token 分别通过独立的权重进行处理,并通过交叉注意力机制进行双向信息交互和融合,通常包含 19 个双流模块...
FLUX 模型中“双流注意力(Double-Stream Attention)+ 单流注意力(Single-Stream Attention) 双流注意力模块 (Double-Stream Blocks) 负责处理文本和图像两种不同模态的信息。在此阶段,文本 Token 和图像 Token 分别通过独立的权重进行处理,并通过交叉注意力机制进行双向信息交互和融合,通常包含 19 个双流模块...
一般调用pp-ocr模型,我们会得到按照行输出的bbox,但是如果希望按照单字输出,就需要从SVTR logits 中估算字符 bbox。 【应用场景】 1.为了单字检测,在AIGC项目中并进行改字; 2.解决生图模型后处理中的小字崩坏问题,结合 https://github.com/limuloo/RefineAnything 这个开源项目,就可以实现对小字崩坏的修复; 3...
Bhāskara I 公式 Bhāskara I公式是古印度数学家 Bhāskara I 在公元7世纪提出的一个用于近似计算正弦函数sin(x)的经典公式,是历史上最早、最优雅的三角函数近似之一。 原本的Bhāskara I估计公式为($[0,π]$区间上): $\sin(x) \approx \frac{16x(\pi - x)}{5\pi^2 - 4x(\pi - x)}$ 优化新...
目前基于人工神经网络所打造的AI,属于连接主义,训练的时候,依靠向后后传播算法,这个算法要求计算过程的可微性,工程化实现是自动微分技术,它通过构建一个计算图来记录前向计算和反向传播的过程,自动计算每个节点的梯度。这样,我们不需要手动计算每个参数的梯度,大大简化了计算过程,提高了训练效率。同时,自动微分技术还能够处理各种复杂的计算操作和函数,使得神经网络的训练过程更加灵活和通用,不仅仅是神经网...
最近在实际工作中,训练图像生成的diffusion模型,我们都会加上RL(DPO/PPO/GRPO 等),加上这个后训练的目标,是想把RL作为一个提高模型稳定性和表现的手段,但是训练时大家都会遇到一个普遍问题,那就是训练step不能太长,否则就会出现噪声。一般我们分析是,当RL仅在最终生成图像后给一个 reward 时,很难判断中间 denoising 哪一步做得好/哪一步破坏图像结构,这导...
爱因斯坦相对论能量关系: $E = \sqrt{(mc^2)^2 + (cp)^2}$ 其中静止能量: $E = mc^2$ 量子力学中算符 $-i\hbar \vec{\nabla} \iff \vec{p}$ $i\hbar \frac{\partial}{\partial t} \iff E$ 代入爱因斯坦相对论能量关系,得到: $i\hbar \frac{\...
计算机图形学渲染过程的数学本质是大量矩阵的运算,深度学习是高维张量,也属于矩阵运算,所以深度学习与计算机图形学渲染过程,在最基本运算单元在数学形式上是等价的。(当然神经网络的核心还有其神经元连接架构,优化器,loss等)。 另外渲染做了一件什么事呢? 对3D空间坐标投影到2D屏幕,在人类视觉和物理原理的指导下,对人类关键的细节,进行抛弃,可以理解为一种隐性的loss,这个loss就是渲染...
P与NP问题 计算理论的核心问题是:哪些问题可以被高效解决?哪些问题本质上是难解的? 算法规模如何随问题规模扩展,也是计算机科学的基本原理,算法规模通过复杂度类(如P类、NP类)进行阐释: P类问题:可以在多项式时间(如 $O(n)$ 、$O(n \log n)$ 、$O(n^2)$ )内解决的问题(如排序、查找); NP类问题:可以在非确定性多项式时间(如 $O(2^n)$ )内解决...
大语言模型可能像一面镜子,实际反映的是使用者的智力水平,这构成了一种反向图灵测试。 传统图灵测试:通过自然语言对话判断机器是否具备人类智能(人类无法区分机器与真人)。 反向图灵测试:通过观察人类的反应来评估人类的智能水平。大语言模型在交互中会”映射”人类的思维特征,对话者的思维深度、提示质量越高,模型表现出的智能水平越显著。 提出好问题的能力尤其重要,同一个现象,不同人,提出的问题就不...
1.统一世界模型 在人类感知经验中,我们看到红色、听到红色,在大脑中会形成统一概念,指向同一个“红色”概念,这里红色可以换为其他任何感知对象,道理是一样的。人类的大脑就是一个统一强大的世界模型:你闭眼也能想象“打碎玻璃的声音”、“踩在雪地上的触感”。 2.神经认知现象-联觉(Synesthesia) 联觉是一种神经认知现象:当一种感官或认知通路被激活时,自动且不可控地引发另一种感官体验。...