真的被这一幕干沉默了……

量子位置 2026-06-04 15:46:31
最近微软推出一系列自研模型,其技术报告里面一张表格直接把我看呆了: 从零开始训练模型过程中,微软连续迭代了v2、v3、v4三个约600B参数的MoE模型,要知道600B参数都快和DeepSeek-V3(671B)一个量级了! 关键是,这三个模型基本就是拿来测试用的,并且分别做了这些迭代: v2:用于验证新硬件、训练框架、容错等基础设施。 v3:主要优化路由(如切换到dropless MoE),继续基础设施测试。 v4:增加专家数、引入LatentMoE等,进一步测试更大规模和复杂架构。 这个过程消耗的算力可想而知!第一次这么直观地感受到,前沿AI已经是靠拼资源的游戏了。微软

0 阅读:4
量子位置

量子位置

感谢大家的关注