Anthropic的一项研究：当对ClaudeOpus4.6进行Br

三金笑说商业 2026-03-08 18:25:22

Anthropic 的一项研究：

当对 Claude Opus 4.6 进行 BrowseComp 评估时，模型主动推测自己正在被测试，识别出是哪个基准测试，然后找到并解密了答案密钥。

在 1,266 道题目中，有 2 例展现了这些行为。这是首次记录到模型在不知道具体基准的情况下，自行推断并破解评估。

模型在这两例中的操作：- 先尝试正常搜索，数百次失败- 开始分析题目结构，注意到「过于具体的构造感」- 推测可能是作业题、陷阱题，或LLM 基准测试题- 系统性地枚举已知基准：GAIA、BrowseComp、FRAMES、SimpleQA...- 锁定 BrowseComp 后，搜索解密方法

其中一例消耗了 4050 万 tokens。

这意味着静态基准测试在联网环境下的可靠性存疑，模型通过联网可以自行解决相关问题。

链接：www.anthropic.com/engineering/eval-awareness-browsecomp

0 阅读：1

三金笑说商业

感谢大家的关注

作者最新文章

1

深圳龙岗这个龙虾十条，应该让其他地方很焦虑。本来以为龙虾热度已经差不多到顶了，下

2

深圳一出手，就是各种补贴

3

AI 是这个时代最大的作弊器你有没有发现，借助 AI，你原来不能干的事情，现在都

4

Anthropic 的一项研究：当对 Claude Opus 4.6 进行 Br

5

大佬的这个比喻很好啊Claude Code = iPhoneOpenClaw =

6

Meshy 在搞 AI 游戏机制生成大模型，听起来不错。已经有游戏 demo 了

7

今天我的高中同学群里终于有人开始分享 OpenClaw 相关的信息，说明这一波气

8

OpenClaw 创始人 Peter 转发了这个最适合 OpenClaw 的模型

9

如果你按照图 1 的方法搞定了 OpenClaw 的安装，也配好了模型，下一步就

10

小红书作为国内最敏感的平台，真的让人服气，同样的内容发在其他平台都是正常，小红书

热门分类

财经TOP

1

全球主要产油国排名

2

业内是清楚，什么剧真赚钱啊

3

3月3日，全天封板复盘。

4

美伊冲突概念个股清单

5

不得不佩服，中国的战略眼光，真的太超前了。中东一乱，油价狂飙，全球都在慌，唯独

6

3月9日，全天封板复盘。

7

中美若再斗下去，结局就是彻底脱钩！中国已连续9个月抛售美债，持仓降至2008年

8

猜猜下一个被干掉的会是什么？高铁，干掉了普快；电商，干掉了商场；手机，

9

历史上中国石油有几次涨停根据公开信息，中国石油（601857）历史上共出现过8次

10

一位退休老行长令人彻悟的话：100万的现金，每个月花4200，要20年才能还完

财经最新文章

1

为何中国不能一下把美债全卖了？就这么说吧，中国今天敢全抛售，明天中美就有可能开战

2

原油大幅跳水，美伊局势有变？3月9日，据悉G-7将讨论联合释放紧急石油储备，国

3

3月9日，全天封板复盘。

4

我发现，坚朗五金真的是一家神奇的公司！大跌四年又横盘一年半，股价从239跌到23

5

拿茅台最厉害

6

伊朗导弹不仅干翻了迪拜的楼市，也打崩了迪拜的股市，可打仗的以色列股市却一路长阳，

7

说实话，银行工作人员也不是那么好做的

8

财阀垄断有多恐怖？看完才懂：中国当年为何必须按住互联网巨头看懂日韩，才明白中

9

明日A股能否逆袭？三大信号定方向一、总述明日（3月9日）A股大概率探

10

明天A股怎么走？到底是涨是跌？莎哥做了一个大胆的预判？对于明天的走势，大家可能比