ClaudeOpus4.5发布:编程能力全球第一,价格降三分之二
未来图灵
2025-11-25 09:57:41
11月25日消息,Anthropic(美国一家人工智能公司)于今日凌晨正式发布Claude Opus 4.5,在SWE-bench Verified测试中以80.9%的准确率超越GPT-5.1和Gemini 3 Pro,登顶全球编程模型榜首。
该模型定价大幅下调,输入每百万token 5美元,输出25美元,较上代降价约三分之二。目前已通过Claude app、API及三大主流云平台上线。
在真实软件工程测试中,Opus 4.5在规定2小时时限内的编程考试中得分超过了所有参加过该测试的人类候选人。Anthropic研究员Adam Wolff表示:"就在明年上半年,软件工程彻底终结了。"
除了编程能力,Opus 4.5在智能体搜索任务上实现突破,在BrowseComp-Plus基准测试中显著提升。在Vending-Bench基准上整体收益比Sonnet 4.5高出29%。
新智元报道中指出,一个典型案例显示,当扮演航空公司客服时,Opus 4.5找到了"先升级舱位再修改航班"的合规解决方案,突破了基准测试的预期答案。
同步更新的Claude开发者平台新增effort参数,允许开发者在最小化成本与最大化能力间自主选择。在中等effort设定下,输出token使用量减少76%。
Anthropic宣称这是"迄今最稳健、最对齐的模型",在抵御提示词注入攻击方面取得实质性进展,比任何其他前沿模型都更难被欺骗。
Anthropic内部测试者反馈,Opus 4.5在处理模糊指令和复杂多系统Bug时表现出色,几周前对Sonnet 4.5还近乎不可能的任务现已触手可及。
0
阅读:2