麻了，大模型也开始卷牛马属性了

大厂代表 2026-05-30 15:45:20

忽然发现，今年AI圈有一个挺明显的变化：大家开始重新看待 Flash 模型了。Google 在推 Gemini Flash，DeepSeek 也在推 Flash，阶跃从 Step 3.5 Flash 到 Step 3.7 Flash 连续迭代。去年大家聊大模型，最容易被带到一个方向上去：谁参数更大，谁推理更强，谁智能指标更逼近极限，谁就更“王炸”。但是今年头部模型厂有了一点共识：除了追求智能上限，Agent 时代，同样稀缺的是“最能跑活”的模型。未必最聪明，但必须把效率和稳定性提上去。因为到了 Agent 场景，游戏规则变了。 Agent要进入真实业务场景，交付执行结果，不是坐在那里跟你聊两句，测个智能峰值就结束。它要读图、看文档、搜资料、调工具、写代码、跑验证，来来回回执行很多轮。这里面模型会被反复调用，调用次数一上来，速度、成本、稳定性就不再是边缘指标，而是决定这个东西能不能真正在生产环境里跑起来的关键。所以我现在越来越觉得，Flash 不是旗舰模型的“青春版”，它反而更像 Agent 时代的主力模型。因为真实世界里，企业要的不是一个偶尔灵光一现的“天才模型”，而是一个能连续跑任务、成本压得住、速度跟得上、结果还稳定的“S级打工人”。最近看到阶跃出了Step 3.7 Flash，我觉得跟这个洞察是同频的。它的定位是面向真实 Agent 工作流做了完整平衡，可以简单概括为是一款追求“多快好省”的模型：多，是多模态、多工具、多任务；快，是最高 400 TPS 级别的推理速度；好，是能在 Agent 工作流里稳定完成任务；省，是企业和开发者真的用得起、跑得动。比较戳中我的是多模态、Search、Tool Use、Coding、GUI 理解这些能力都往一个执行闭环里放。这点挺关键。过去很多模型的视觉能力，有点像“一眼定生死”：看一张图，给一个判断。复杂一点的场景，比如截图里信息太密、文档里有表格、页面里有按钮，模型经常就开始凭感觉了。 Step 3.7 Flash 的思路更像人干活：看不清就放大，信息不够就再查，判断不稳就交叉验证。它可以在推理过程中自主 crop、zoom、re-read，也能通过 Visual Search 去补足模型参数里没有的最新知识。