在AI研究的世界里,一个划时代产品的诞生,往往始于一个被主流忽视的“异类”

一脚油门到拉萨 2026-06-08 13:31:37

在 AI 研究的世界里,一个划时代产品的诞生,往往始于一个被主流忽视的 “异类” 想法。Sora 的横空出世,其核心架构 DiT 的故事,就是这样一个充满戏剧性的剧本。 DiT 证明了扩散模型可以从 U-Net 走向 Transformer,并为后来 Sora 这类视频生成系统提供了关键架构启发。 DiT 证明了扩散模型可以从 U-Net 走向 Transformer,并为后来 Sora 这类视频生成系统提供了关键架构启发。这背后,不仅是技术的演进,更是一场关于研究文化、组织模式与个人信念的深刻博弈。 故事要从 Meta 的 FAIR 实验室说起。在 ChatGPT 问世前后,整个 AI 领域的研究氛围正在经历一场剧烈的文化转向。 像 OpenAI 这样的新兴力量,以惊人的速度推进着那些在传统实验室里 “想都不敢想” 的项目。这种冲击迫使许多老牌研究机构开始反思自己的组织模式。 在 FAIR,一种明显的转变是,大家的焦点似乎从扎实的研究,转向了漫长的 “战略对齐会议”。会议一开就是几个小时,甚至持续数周,核心议题却令人困惑:“我们接下来一两年到底应该做什么? ” 这完全违背了研究本身 “自下而上”、由好奇心驱动的逻辑。当需要坐在一起 “讨论” 出一个未来几年的研究项目时,真正的创新火花往往已经熄灭了。 对于许多习惯了在自由探索中发现价值的研究员来说,这种氛围令人沮丧。正是在这样的背景下,关于扩散模型新架构的探索开始了。 起初,目标并非创造 DiT,甚至不是专攻扩散模型。团队最初两个月的研究,集中在探索扩散模型学到的 “表征” 有何特别之处。 但很快他们发现,在表征学习这个赛道上,扩散模型的表现远不如专门的自监督学习方法。然而,在探索的最后一个月,转机出现了。 为了与 ViT 模型进行公平对比,团队尝试用 ViT 的架构来做扩散模型。虽然表征学习的路径走不通,但他们意外发现,这个新架构在效率、扩展性和稳定性上,全面超越了当时主流的 U-Net。 一个更深刻的标准浮现出来:代码的优雅性。在研究者看来,如果能用更简洁、更短的代码实现同等甚至更好的效果,那这个方案在本质上就更优越。 这是一种 “最小描述长度” 原则的体现,本身也是一种研究品味。眼前这个方案,简单、有效、可扩展且高效,一切迹象都表明,这或许才是值得全力投入的方向。 于是,据作者回忆,在项目最后一个月,团队果断转向,全力攻坚这个新架构,也就是后来的 DiT。结果令人振奋,模型表现出了出色的缩放规律。 团队满怀信心地将这篇凝聚心血的论文投向了 CVPR 顶会。然而,据 Saining Xie 访谈回忆,DiT 早期曾遭遇顶会拒稿,理由被认为是创新性不足。 评审者认为,你们没有复杂艰深的数学,没有眼花缭乱的复杂结构,仅仅是用一个更简单的架构取得了好结果,这不够 “新颖”。这次经历让研究者彻底清醒:学术论文的录用过程,在很大程度上是一个 “巨大的随机过程”。 后来,他们未做任何实质修改,将同一篇论文转投另一个会议,便轻松被接收。这再次证明了之前的判断。 但比论文更重要的是,团队坚信 DiT 架构在各个方面都优于 U-Net 体系。它统一了底层逻辑,能共享更多基础设施,效率更高,效果更好,更能支撑训练更大规模的模型。 论文刚发表时,产业界并未立刻大规模转向 DiT 路线,但后来扩散 Transformer 很快成为重要方向。 那正是 2022 年底,ChatGPT 即将发布的前夜。 比尔做出了一个极具远见的决定:加入 OpenAI。他带去的,正是关于 DiT 架构的信念与知识。 在 OpenAI,DiT 路线在更大算力和更强工程体系下被进一步放大,最终成为 Sora 技术路线的一部分。 这些经历交织在一起,勾勒出 AI 浪潮中个体与时代的缩影:真正的突破,往往始于边缘,成于信念,而最终,历史只会记住那个将其实现的组合。DiT 与 Sora 的故事,正是这个逻辑的最新注脚。

0 阅读:0
一脚油门到拉萨

一脚油门到拉萨

感谢大家的关注