美国的外交电报突然发往全球。白纸黑字只有一句话：警告所有国家，离那个叫 Deep

美国的外交电报突然发往全球。白纸黑字只有一句话：警告所有国家，离那个叫 DeepSeek的中国模型远点。就在这份警告信满世界飞的时候，杭州的办公大楼里，DeepSeek的团队甚至连发布会都没开。他们只是在官网上默默更新了一份技术报告，V4预览版直接上线。这不是普通的软件更新，这是在砸全世界最贵的饭碗。这款叫V4的模型能一口气看完《三体》三部曲还记住所有细节，成本却压到了GPT-5.5的百分之一。技术报告写得很实在，1M超长上下文下，Pro版本的计算量只有上一代的27%，KV缓存直接砍掉90%。换句话说，以前处理长文档烧掉的电费和显存，现在大幅降低。评测数据更直接。Codeforces平台上V4-Pro-Max拿到3206分，超过了GPT-5.4的3168分和Claude Opus 4.6的3052分。这是开源模型在竞技编程领域第一次正面赢了所有闭源对手。SWE-Verified软件工程测试里80.6%的解决率，和Claude Opus 4.6的80.8%几乎没差别。架构层面的改进主要围绕注意力机制动手。CSA做压缩加稀疏选择，HCA做重度压缩保全局信号，两者交替堆叠。再加上把Muon优化器换成主力、给残差连接套上mHC约束，这套组合拳把推理成本打到了地板价。价格上V4-Flash版本输入每百万Token只要0.14美元，Pro限时优惠后也大幅下调。对比闭源模型每百万Token几十美元的定价，这不是便宜一点，是直接把价格体系推翻了。平安夜上线后，中国人保24小时内就在昇腾芯片上完成了部署。总的来看，DeepSeek这招就是把顶级大模型的成本从“买豪车”砍成“买白菜”。美国发警告信没用，市场只看两样东西：这活干不干得成，干一次花多少钱。V4两头都占了，开发者自然知道该用谁。

0 阅读：1