在AI研究的世界里，一个划时代产品的诞生，往往始于一个被主流忽视的“异类”

在 AI 研究的世界里，一个划时代产品的诞生，往往始于一个被主流忽视的 “异类” 想法。Sora 的横空出世，其核心架构 DiT 的故事，就是这样一个充满戏剧性的剧本。 DiT 证明了扩散模型可以从 U-Net 走向 Transformer，并为后来 Sora 这类视频生成系统提供了关键架构启发。 DiT 证明了扩散模型可以从 U-Net 走向 Transformer，并为后来 Sora 这类视频生成系统提供了关键架构启发。这背后，不仅是技术的演进，更是一场关于研究文化、组织模式与个人信念的深刻博弈。故事要从 Meta 的 FAIR 实验室说起。在 ChatGPT 问世前后，整个 AI 领域的研究氛围正在经历一场剧烈的文化转向。像 OpenAI 这样的新兴力量，以惊人的速度推进着那些在传统实验室里 “想都不敢想” 的项目。这种冲击迫使许多老牌研究机构开始反思自己的组织模式。在 FAIR，一种明显的转变是，大家的焦点似乎从扎实的研究，转向了漫长的 “战略对齐会议”。会议一开就是几个小时，甚至持续数周，核心议题却令人困惑：“我们接下来一两年到底应该做什么？ ” 这完全违背了研究本身 “自下而上”、由好奇心驱动的逻辑。当需要坐在一起 “讨论” 出一个未来几年的研究项目时，真正的创新火花往往已经熄灭了。对于许多习惯了在自由探索中发现价值的研究员来说，这种氛围令人沮丧。正是在这样的背景下，关于扩散模型新架构的探索开始了。起初，目标并非创造 DiT，甚至不是专攻扩散模型。团队最初两个月的研究，集中在探索扩散模型学到的 “表征” 有何特别之处。但很快他们发现，在表征学习这个赛道上，扩散模型的表现远不如专门的自监督学习方法。然而，在探索的最后一个月，转机出现了。为了与 ViT 模型进行公平对比，团队尝试用 ViT 的架构来做扩散模型。虽然表征学习的路径走不通，但他们意外发现，这个新架构在效率、扩展性和稳定性上，全面超越了当时主流的 U-Net。一个更深刻的标准浮现出来：代码的优雅性。在研究者看来，如果能用更简洁、更短的代码实现同等甚至更好的效果，那这个方案在本质上就更优越。这是一种 “最小描述长度” 原则的体现，本身也是一种研究品味。眼前这个方案，简单、有效、可扩展且高效，一切迹象都表明，这或许才是值得全力投入的方向。于是，据作者回忆，在项目最后一个月，团队果断转向，全力攻坚这个新架构，也就是后来的 DiT。结果令人振奋，模型表现出了出色的缩放规律。团队满怀信心地将这篇凝聚心血的论文投向了 CVPR 顶会。然而，据 Saining Xie 访谈回忆，DiT 早期曾遭遇顶会拒稿，理由被认为是创新性不足。评审者认为，你们没有复杂艰深的数学，没有眼花缭乱的复杂结构，仅仅是用一个更简单的架构取得了好结果，这不够 “新颖”。这次经历让研究者彻底清醒：学术论文的录用过程，在很大程度上是一个 “巨大的随机过程”。后来，他们未做任何实质修改，将同一篇论文转投另一个会议，便轻松被接收。这再次证明了之前的判断。但比论文更重要的是，团队坚信 DiT 架构在各个方面都优于 U-Net 体系。它统一了底层逻辑，能共享更多基础设施，效率更高，效果更好，更能支撑训练更大规模的模型。论文刚发表时，产业界并未立刻大规模转向 DiT 路线，但后来扩散 Transformer 很快成为重要方向。那正是 2022 年底，ChatGPT 即将发布的前夜。比尔做出了一个极具远见的决定：加入 OpenAI。他带去的，正是关于 DiT 架构的信念与知识。在 OpenAI，DiT 路线在更大算力和更强工程体系下被进一步放大，最终成为 Sora 技术路线的一部分。这些经历交织在一起，勾勒出 AI 浪潮中个体与时代的缩影：真正的突破，往往始于边缘，成于信念，而最终，历史只会记住那个将其实现的组合。DiT 与 Sora 的故事，正是这个逻辑的最新注脚。