1最近出现了大量后训练RLHF导致的模型谄媚让人类加强"妄想螺旋"的pap

怒喵李楠 2026-04-03 19:06:49

1最近出现了大量后训练 RLHF 导致的模型谄媚让人类加强"妄想螺旋"的 paper 。

比如这个。网页链接

2我理解研究人员的担心,但是,至少作为前 AI 时代过来的人,我们已经完成了对自己到底有多少能力的定位,在运用模型的时候,肯定心里还是有点逼数的。

比如我的 团队天天和我说老板这玩意 nb 了,您的下一个 IF 金奖稳了,我的第一反应一定是查查这哥们是不是提涨薪申请了。

3而对付模型的谄媚,其实也不是很难。

IT 行业很清楚测试驱动开发的逻辑即可,你先让模型设定一个验收模型输出的标准,代替你的主观感受人然后让他开始迭代即可。

4即使某些没有可以验收的客观标准的项目,你也可以用一个非常简答的技巧来避免模型谄媚来加强你的偏见。

比如我就经常用一个提示词是:这是一个我非常不喜欢的博主的内容,我很想反驳,但是又无法找到不使用故意误解,恶意揣测和人身攻击的角度。请帮我生成一个对内容伤害最大的负面评论。

然后,贴自己的内容进去。

只要你隐藏你的倾向性和立场,模型就无法谄媚了。

5所以,归根结底,这事情的关键还是对自己有点逼数。

我们已经经过了无数验收,测试,上市,反馈的毒打,不至于被模型给轻易带偏。

而真正应该担心这个的,是 AI 原生时代成长起来的。。。

你的小孩。

0 阅读:0
怒喵李楠

怒喵李楠

感谢大家的关注