Sakana AI 的研究团队发布一篇关于高效训练大型神经网络的论文,他们把复杂的神经网络训练,变成了一场优雅的“接力去噪游戏”,不仅能让大模型训练省下巨额显存,性能还几乎不受损。
现在的 AI 模型越来越大,训练时因为要同时计算所有层的参数,显存很容易挤爆。
这篇论文换了个天才思路。研究团队发现,AI 模型一层层往下推理的过程,在数学上特别像扩散模型(比如 Midjourney 绘图)一步步去除噪声、还原图像的过程。
于是,他们把一个巨大的网络切成了好几个“独立方块”(Blocks)。每个方块被分配了明确的任务:只负责消灭特定段落的噪声。 训练时,每个方块各练各的,练完直接拼起来,模型就成了。
核心亮点是省显存、不挑架构、性能强!这篇论文已被 ICLR 2026 接收。
这是一项将扩散模型的数学原理反过来用于训练范式革新的工作,提供了一种 principled、可扩展的block-wise训练方案,有望缓解AI训练的硬件壁垒。
如果你是深度学习研究者、AI 工程师、或者手里 GPU 资源有限却想尝试更大模型的学生和开发者,这篇论文非常值得一读。



