麻了,大模型也开始卷牛马属性了

大厂代表 2026-05-30 15:45:20
忽然发现,今年AI圈有一个挺明显的变化:大家开始重新看待 Flash 模型了。Google 在推 Gemini Flash,DeepSeek 也在推 Flash,阶跃从 Step 3.5 Flash 到 Step 3.7 Flash 连续迭代。 去年大家聊大模型,最容易被带到一个方向上去:谁参数更大,谁推理更强,谁智能指标更逼近极限,谁就更“王炸”。 但是今年头部模型厂有了一点共识:除了追求智能上限,Agent 时代,同样稀缺的是“最能跑活”的模型。未必最聪明,但必须把效率和稳定性提上去。 因为到了 Agent 场景,游戏规则变了。 Agent要进入真实业务场景,交付执行结果,不是坐在那里跟你聊两句,测个智能峰值就结束。它要读图、看文档、搜资料、调工具、写代码、跑验证,来来回回执行很多轮。这里面模型会被反复调用,调用次数一上来,速度、成本、稳定性就不再是边缘指标,而是决定这个东西能不能真正在生产环境里跑起来的关键。 所以我现在越来越觉得,Flash 不是旗舰模型的“青春版”,它反而更像 Agent 时代的主力模型。 因为真实世界里,企业要的不是一个偶尔灵光一现的“天才模型”,而是一个能连续跑任务、成本压得住、速度跟得上、结果还稳定的“S级打工人”。 最近看到阶跃出了Step 3.7 Flash,我觉得跟这个洞察是同频的。 它的定位是面向真实 Agent 工作流做了完整平衡,可以简单概括为是一款追求“多快好省”的模型: 多,是多模态、多工具、多任务; 快,是最高 400 TPS 级别的推理速度; 好,是能在 Agent 工作流里稳定完成任务; 省,是企业和开发者真的用得起、跑得动。 比较戳中我的是多模态、Search、Tool Use、Coding、GUI 理解这些能力都往一个执行闭环里放。这点挺关键。 过去很多模型的视觉能力,有点像“一眼定生死”:看一张图,给一个判断。复杂一点的场景,比如截图里信息太密、文档里有表格、页面里有按钮,模型经常就开始凭感觉了。 Step 3.7 Flash 的思路更像人干活:看不清就放大,信息不够就再查,判断不稳就交叉验证。它可以在推理过程中自主 crop、zoom、re-read,也能通过 Visual Search 去补足模型参数里没有的最新知识。

0 阅读:4
大厂代表

大厂代表

感谢大家的关注