1最近出现了大量后训练RLHF导致的模型谄媚让人类加强"妄想螺旋"的pap

怒喵李楠 2026-04-03 19:06:49

1最近出现了大量后训练 RLHF 导致的模型谄媚让人类加强"妄想螺旋"的 paper 。

比如这个。网页链接

2我理解研究人员的担心，但是，至少作为前 AI 时代过来的人，我们已经完成了对自己到底有多少能力的定位，在运用模型的时候，肯定心里还是有点逼数的。

比如我的团队天天和我说老板这玩意 nb 了，您的下一个 IF 金奖稳了，我的第一反应一定是查查这哥们是不是提涨薪申请了。

3而对付模型的谄媚，其实也不是很难。

IT 行业很清楚测试驱动开发的逻辑即可，你先让模型设定一个验收模型输出的标准，代替你的主观感受人然后让他开始迭代即可。

4即使某些没有可以验收的客观标准的项目，你也可以用一个非常简答的技巧来避免模型谄媚来加强你的偏见。

比如我就经常用一个提示词是：这是一个我非常不喜欢的博主的内容，我很想反驳，但是又无法找到不使用故意误解，恶意揣测和人身攻击的角度。请帮我生成一个对内容伤害最大的负面评论。

然后，贴自己的内容进去。

只要你隐藏你的倾向性和立场，模型就无法谄媚了。

5所以，归根结底，这事情的关键还是对自己有点逼数。

我们已经经过了无数验收，测试，上市，反馈的毒打，不至于被模型给轻易带偏。

而真正应该担心这个的，是 AI 原生时代成长起来的。。。

你的小孩。

0 阅读：0

感谢大家的关注

作者最新文章

1

很多脑子被驴提过的人认为美国投入两架 HC-130J 固定翼飞机投送大量特种部队

2

也许，仅仅是也许。。。1F-15E不是被"不存在的防空"击落的，而且打击的地点也

3

F15-E攻击鹰的营救行动被宣传成一个胜利。但是如果我们只看事实的话，事情真的有

4

我觉得什么营养师，健身教练，减肥教练，内分泌咨询师什么的，都可以转行了。。。以下

5

CSEL，战斗人员生存与搜索通讯系统是这次能把飞行员找回来的关键设备。这玩意其实

6

不查不知道，一查吓一跳。基辛格诚不欺我。。。xxxx在库尔德人的谚语中，有一句极

7

其实你怎么看伊朗的民族构成，这个国家都应该分裂。。。而你怎么看这个国家的枢纽位置

8

原来伊朗也有非常开放和包容的繁荣时代。当年居鲁士大帝也颁布过人权宣言，还把巴比伦

9

现在火热的同事.skill 其实。。。毫无意义。1llm 实际上是一直和 01

10

ai 到底有没有泡沫？美国封锁中国先进制程产能，英伟达供给不足却赚 200 亿美

热门分类

科技TOP

1

vivoX300s的爆料也来了，外围规格全部拉满了。6.78英寸144Hz蔡

2

苹果公司近日为其员工送上了一份特殊的“生日礼物”，以此纪念品牌创立50周年。据悉

3

尚界Z7预售价22.98万起，Z7T预售价23.98万起，CLTC续航至高9

4

追觅手机研发首期投入100亿追觅手机开始计划投资100亿，目标到2027年手机团

5

成本压力下，各家都在温和调整3月16日0点，OPPO商城正式开启调价：•一加1

6

苹果变形脸表情火了这个表情看上去不太聪明啊有一股子不聪明又透露着好奇和天真无邪的

7

国家超算互联网免费支持OpenClaw国家超算互联网免费给OpenCla

8

给国内的ai排排座次，感觉有的高了，有的低了，有的太高了，有的太低了。

9

小米澎湃OS3“死亡笔记”更新了，小米官网产品安全中心更新部分终止维护（EOL

10

荣耀600Pro曝光：双2亿主摄+9000mAh电池，这配置绝了最近在网上看

科技最新文章

1

小米18将首发高通2nm处理器。从骁龙855开始，小米和高通的"首发CP"已经跑

2

挺意外的😺华为Pura90系列基本确定了...好突然了，华为Pura90系

3

应该好多人现在依然在用iPhone16ProMax这台手机吧？[呲牙笑]202

4

今年三家影像超大杯电池容量：FindX9Ultra7050mAh小米17Ult

5

【REDMIK90Max配置揭晓】REDMIK90Max将在本月发布，这

6

红米K90Max外观公布，铝合金中框，圆形散热格栅，看着很有金属质感。天玑

7

疯传！华为宣布取消主动离职N+1？据互联网坊间八卦，除员工主动离职，严重违规违

8

天塌了😓刚刚我妈入了华为畅享90ProMax...买完了我才知道.

9

华为Pura90系列曝光2亿潜望长焦+红枫原色+麒麟9030Pro，直角中框1

10

被不少网友吹上天的荣耀Power2，到手用了一个多月，说几句心里话，纯属个人感受