梁文锋又冲上热搜了! 这次既不是团队内讧也不是技术翻车, 反倒给AI圈扔了颗惊雷

红楼背疏影 2026-01-26 11:44:54

梁文锋又冲上热搜了! 这次既不是团队内讧也不是技术翻车, 反倒给AI圈扔了颗惊雷。而是他们居然又开发了新的模型! 1月21日外媒曝光,梁文锋在DeepSeek发布推理模型R1一周年之际,新模型“MODEL1”的项目名在开源社区悄然出现。   没有发布会,也没有宣传片,而是通过GitHub更新悄悄释放信号。 114个新文件中,MODEL1被提及31次,熟悉DeepSeek风格的人都明白,这背后肯定藏着大动作。   这次更新涉及的是FlashMLA系统,它是DeepSeek专为英伟达Hopper架构GPU打造的优化工具,能显著提升大模型的推理效率。 MODEL1就是在这个系统下的新模型,更轻巧,占用内存更低,适合手机和边缘设备部署,也特别适合处理长文本,比如文档分析和代码理解。   一年前,DeepSeek发布了R1模型,凭着强化学习能力,成为中国首个登上全球榜单的开源AI模型。 那时候很多人还在质疑中国能不能做出世界级AI,DeepSeek用R1给出了清晰的答案。   R1模型上线后,技术报告从22页补充到86页,把训练路径和安全机制全公开,几乎成了开源圈的技术教材。而MODEL1的出现,正是在这个基础上的技术延续和升级。   从硬件适配来看,MODEL1支持H100、H200,还专门为最新的B200 GPU做了优化。 在某些架构下,只有MODEL1能跑128头配置,说明它已经针对新一代GPU深度重构。   而在训练成本方面,DeepSeek再次展现出高效路线。 MODEL1仅用557万美元完成训练,只有GPT-4o成本的十分之一。   这背后离不开DeepSeek的团队。 不到140人,多数是清北等高校的应届生或在读博士,却能完成国际级AI模型的研发任务。 梁文锋本人依然参与核心研发,和研究员一起熬夜看论文、调模型。 团队里很多关键技术出自年轻工程师之手,在DeepSeek“看能力不看资历”的氛围中迅速成长。   梁文锋早年的经历也让人印象深刻。 十七岁考上浙大,从电子信息一路读到硕士,毕业后没进大厂,而是做起了量化投资,靠股指期货做出数十亿资金,创立幻方量化成为行业巨头。 2023年他选择从金融跨界AI,成立DeepSeek,很多人不理解,但他坚持走长期主义路线。   DeepSeek的模型不仅性能强,还真正做到了开源。 不像有的厂商口头说开源,实则加一堆限制,DeepSeek把核心算法和训练机制全都公开,全球已有192个国家和地区的开发者在使用。   国外巨头像Meta、Google曾主导开源生态,但现在Meta已经在悄悄收缩开源战略,准备转向闭源变现。 这反而给中国厂商留下了突破口。   DeepSeek不是靠堆硬件,而是凭系统优化、算法创新和资源调配,用更低的成本做出更强的模型。   当然,AI行业也面临很多问题,比如版权归属、创作同质化等争议。 DeepSeek也在通过强化学习减少人类数据依赖,在《自然》上发表论文回应质疑。 这种技术上的克制和伦理上的自觉,在当前行业环境下显得尤为难得。   梁文锋说,AI不是用来替代人类,而是帮助人类拓展创造力。 这句话在今天听起来也许理想化,但从DeepSeek的实践过程来看,他们确实一直在朝这个方向努力。 参考资料: R1模型发布一周年 DeepSeek新模型“MODEL1”曝光 2026-01-21 11:56·财联社

0 阅读:52
红楼背疏影

红楼背疏影

感谢大家的关注