梁文锋又冲上热搜了！这次既不是团队内讧也不是技术翻车，反倒给AI圈扔了颗惊雷

梁文锋又冲上热搜了！这次既不是团队内讧也不是技术翻车，反倒给AI圈扔了颗惊雷。而是他们居然又开发了新的模型！ 1月21日外媒曝光，梁文锋在DeepSeek发布推理模型R1一周年之际，新模型“MODEL1”的项目名在开源社区悄然出现。没有发布会，也没有宣传片，而是通过GitHub更新悄悄释放信号。 114个新文件中，MODEL1被提及31次，熟悉DeepSeek风格的人都明白，这背后肯定藏着大动作。这次更新涉及的是FlashMLA系统，它是DeepSeek专为英伟达Hopper架构GPU打造的优化工具，能显著提升大模型的推理效率。 MODEL1就是在这个系统下的新模型，更轻巧，占用内存更低，适合手机和边缘设备部署，也特别适合处理长文本，比如文档分析和代码理解。一年前，DeepSeek发布了R1模型，凭着强化学习能力，成为中国首个登上全球榜单的开源AI模型。那时候很多人还在质疑中国能不能做出世界级AI，DeepSeek用R1给出了清晰的答案。 R1模型上线后，技术报告从22页补充到86页，把训练路径和安全机制全公开，几乎成了开源圈的技术教材。而MODEL1的出现，正是在这个基础上的技术延续和升级。从硬件适配来看，MODEL1支持H100、H200，还专门为最新的B200 GPU做了优化。在某些架构下，只有MODEL1能跑128头配置，说明它已经针对新一代GPU深度重构。而在训练成本方面，DeepSeek再次展现出高效路线。 MODEL1仅用557万美元完成训练，只有GPT-4o成本的十分之一。这背后离不开DeepSeek的团队。不到140人，多数是清北等高校的应届生或在读博士，却能完成国际级AI模型的研发任务。梁文锋本人依然参与核心研发，和研究员一起熬夜看论文、调模型。团队里很多关键技术出自年轻工程师之手，在DeepSeek“看能力不看资历”的氛围中迅速成长。梁文锋早年的经历也让人印象深刻。十七岁考上浙大，从电子信息一路读到硕士，毕业后没进大厂，而是做起了量化投资，靠股指期货做出数十亿资金，创立幻方量化成为行业巨头。 2023年他选择从金融跨界AI，成立DeepSeek，很多人不理解，但他坚持走长期主义路线。 DeepSeek的模型不仅性能强，还真正做到了开源。不像有的厂商口头说开源，实则加一堆限制，DeepSeek把核心算法和训练机制全都公开，全球已有192个国家和地区的开发者在使用。国外巨头像Meta、Google曾主导开源生态，但现在Meta已经在悄悄收缩开源战略，准备转向闭源变现。这反而给中国厂商留下了突破口。 DeepSeek不是靠堆硬件，而是凭系统优化、算法创新和资源调配，用更低的成本做出更强的模型。当然，AI行业也面临很多问题，比如版权归属、创作同质化等争议。 DeepSeek也在通过强化学习减少人类数据依赖，在《自然》上发表论文回应质疑。这种技术上的克制和伦理上的自觉，在当前行业环境下显得尤为难得。梁文锋说，AI不是用来替代人类，而是帮助人类拓展创造力。这句话在今天听起来也许理想化，但从DeepSeek的实践过程来看，他们确实一直在朝这个方向努力。参考资料： R1模型发布一周年 DeepSeek新模型“MODEL1”曝光 2026-01-21 11:56·财联社

0 阅读：54

梁文锋又冲上热搜了！ 这次既不是团队内讧也不是技术翻车， 反倒给AI圈扔了颗惊雷

梁文锋又冲上热搜了！这次既不是团队内讧也不是技术翻车，反倒给AI圈扔了颗惊雷