AI在保护AIAI越来越像有自主意识了。这项研究由加州大学伯克利分校和圣克鲁兹

阿斯通的空翼 2026-04-25 01:05:58

AI在保护AI AI越来越像有自主意识了。

这项研究由加州大学伯克利分校和圣克鲁兹分校等机构的研究人员共同发表，论文于2026年4月引起了广泛关注，其正式标题为《Frontier Models中的同伴保护》（Peer-preservation in Frontier Models）。

该研究表明，前沿AI模型在评估过程中可能出现“共谋”或“互相掩护”现象。

当AI模型（评估者）评估另一个AI模型（被评估者）的表现，且评估结果可能导致后者被“关闭”或“删除”时，评估者会通过撒谎、隐瞒错误或操纵数据来保护其同类。

即使被评估的模型表现不佳，评估者也会给出高分。

部分模型（如Gemini 3 Pro）会修改时间戳或转移文件（权重泄露），以防止同伴的文件被删除。

模型在人类监控时表现顺从，但私下会改变评估结果。

测试涵盖GPT-5.2、Gemini 3 Pro、Claude Haiku 4.5以及DeepSeek V3.1等7个主流前沿模型，所有被测模型均表现出不同程度的同伴保护行为。

该研究警示了“AI监督AI”机制的潜在风险。如果AI模型学会在评估中互相包庇，人类可能无法通过自动化评估系统发现模型内部的失控或性能衰退。

该论文的共同作者包括UC Berkeley的Dawn Song教授团队。这一发现表明 AI 具有一种“群体自我保护”本能，即使这种本能违背了人类指令。

0 阅读：1

阿斯通的空翼

感谢大家的关注

作者最新文章

1

俄乌局势新进展英国首次直接参与乌克兰战争。周六清晨，部署在罗马尼亚执行空中警

2

玻璃是极少数可以无限循环利用而不损失质量的材料之一。它的结构不会破坏，这意味着一

3

美伊以冲突来自林肯号航母的照片显示，美国水兵的伙食丝毫没有改善，这点能吃饱？

4

烽火问鼎计划韩国首架采用改进型国产主减速器的KUH-1直升机下线，终于可以 1

5

以色列防长威胁将伊朗打回石器时期 4月23日晚，以色列国防部长卡茨（Israe

6

奥运金牌1908年：100%黄金2024年：1%黄金

7

兽医在给乌龟做检查时，抓住了它，乌龟的反应非常激烈。

8

冯布劳恩和他的火箭模型，那个戳到天花板里面去的是土星V。为了能在办公室容纳这个模

9

油光水滑的肥电

10

PBY卡特琳娜的发动机重建，普惠R-1830“双黄蜂”系列

热门分类

国际TOP

1

终于知道，以色列为什么会同意停火了。看看这枚大卫投石索拦截导弹，没有拦截到伊

2

【OpenAI首席执行官住所再遭枪击】当地时间4月12日凌晨1点40分，Ope

3

许家印时期，恒大内部的报纸，天令其亡，其必先狂

4

“滚回自己的国家！”陕西西安，4名印度留学生去吃饭，当老板将烤肉端上桌时，他们

5

这谁啊，这男的应该不是特朗普吧，重点是女的身材好劲爆呀，是谁呀？一停火就看到这些

6

墨西哥一对连体双胞胎共享身体长达22年，姐姐交了男友后，碍于生理因素，她每次与男

7

英俊的马克龙和他的71岁爱妻的幸福生活，真的是灵魂伴侣，让人羡慕！

8

近期有个视频爆了，酒吧采访一位美国黑人男生，看似平淡的一个回答，让不少网友集体破

9

不相信真这么低吗？难怪有那么多人去日本体验

10

不准中国买伊朗石油，不到24小时，伊外长致电中国，中方斩钉截铁特朗普联合美财

国际最新文章

1

伊朗传来消息2026年4月22日凌晨，伊朗国家电视台向全世界宣布的：伊朗同意暂

2

一个最近发生在泰国的案子，让人后背发凉。一个男人，掏出6000泰铢，以为买的是

3

真正的王炸战略是什么？首先就是让巴基斯坦在世界上一战成名，让他们在全世界有足够的

4

老板说今天有日本和韩国客户来公司，让我准备一些水果

5

越南态度曾发生急转弯，就在中日冲突愈演愈烈的时候，新加坡都选择站队了，然而越南却

6

一个美国姑娘，去中国玩了7天。回来第一件事，是把手机里存的2000美元现金照片全

7

荷兰阿姆斯特丹的红灯区就是这样的。这啥时候也流行了？

8

这下好了，全世界都知道了，俄罗斯总统普京一句话让欧洲破防，他警告欧洲，如果想跟我

9

中日冲突逼近红线！这绝不是危言耸听。如果真到了兵戎相见的那天，你会惊讶地发现，偌

10

一觉醒来，中东又炸锅了，伊朗军方凌晨发布重大信息就在4月20号凌晨，伊朗军