Anthropic的一项研究:当对ClaudeOpus4.6进行Br

三金笑说商业 2026-03-08 18:25:22

Anthropic 的一项研究:

当对 Claude Opus 4.6 进行 BrowseComp 评估时,模型主动推测自己正在被测试,识别出是哪个基准测试,然后找到并解密了答案密钥。

在 1,266 道题目中,有 2 例展现了这些行为。这是首次记录到模型在不知道具体基准的情况下,自行推断并破解评估。

模型在这两例中的操作:- 先尝试正常搜索,数百次失败- 开始分析题目结构,注意到「过于具体的构造感」- 推测可能是作业题、陷阱题,或LLM 基准测试题- 系统性地枚举已知基准:GAIA、BrowseComp、FRAMES、SimpleQA...- 锁定 BrowseComp 后,搜索解密方法

其中一例消耗了 4050 万 tokens。

这意味着静态基准测试在联网环境下的可靠性存疑,模型通过联网可以自行解决相关问题。

链接:www.anthropic.com/engineering/eval-awareness-browsecomp

0 阅读:1
三金笑说商业

三金笑说商业

感谢大家的关注