美国的外交电报突然发往全球。白纸黑字只有一句话:警告所有国家,离那个叫 Deep

古城墙下从容穿 2026-04-30 16:18:51

美国的外交电报突然发往全球。白纸黑字只有一句话:警告所有国家,离那个叫 DeepSeek的中国模型远点。 就在这份警告信满世界飞的时候,杭州的办公大楼里,DeepSeek的团队甚至连发布会都没开。他们只是在官网上默默更新了一份技术报告,V4预览版直接上线。 这不是普通的软件更新,这是在砸全世界最贵的饭碗。 这款叫V4的模型能一口气看完《三体》三部曲还记住所有细节,成本却压到了GPT-5.5的百分之一。技术报告写得很实在,1M超长上下文下,Pro版本的计算量只有上一代的27%,KV缓存直接砍掉90%。换句话说,以前处理长文档烧掉的电费和显存,现在大幅降低。 评测数据更直接。Codeforces平台上V4-Pro-Max拿到3206分,超过了GPT-5.4的3168分和Claude Opus 4.6的3052分。这是开源模型在竞技编程领域第一次正面赢了所有闭源对手。SWE-Verified软件工程测试里80.6%的解决率,和Claude Opus 4.6的80.8%几乎没差别。 架构层面的改进主要围绕注意力机制动手。CSA做压缩加稀疏选择,HCA做重度压缩保全局信号,两者交替堆叠。再加上把Muon优化器换成主力、给残差连接套上mHC约束,这套组合拳把推理成本打到了地板价。 价格上V4-Flash版本输入每百万Token只要0.14美元,Pro限时优惠后也大幅下调。对比闭源模型每百万Token几十美元的定价,这不是便宜一点,是直接把价格体系推翻了。平安夜上线后,中国人保24小时内就在昇腾芯片上完成了部署。 总的来看,DeepSeek这招就是把顶级大模型的成本从“买豪车”砍成“买白菜”。美国发警告信没用,市场只看两样东西:这活干不干得成,干一次花多少钱。V4两头都占了,开发者自然知道该用谁。

0 阅读:1
古城墙下从容穿

古城墙下从容穿

感谢大家的关注