1最近出现了大量后训练 RLHF 导致的模型谄媚让人类加强"妄想螺旋"的 paper 。
比如这个。网页链接
2我理解研究人员的担心,但是,至少作为前 AI 时代过来的人,我们已经完成了对自己到底有多少能力的定位,在运用模型的时候,肯定心里还是有点逼数的。
比如我的 团队天天和我说老板这玩意 nb 了,您的下一个 IF 金奖稳了,我的第一反应一定是查查这哥们是不是提涨薪申请了。
3而对付模型的谄媚,其实也不是很难。
IT 行业很清楚测试驱动开发的逻辑即可,你先让模型设定一个验收模型输出的标准,代替你的主观感受人然后让他开始迭代即可。
4即使某些没有可以验收的客观标准的项目,你也可以用一个非常简答的技巧来避免模型谄媚来加强你的偏见。
比如我就经常用一个提示词是:这是一个我非常不喜欢的博主的内容,我很想反驳,但是又无法找到不使用故意误解,恶意揣测和人身攻击的角度。请帮我生成一个对内容伤害最大的负面评论。
然后,贴自己的内容进去。
只要你隐藏你的倾向性和立场,模型就无法谄媚了。
5所以,归根结底,这事情的关键还是对自己有点逼数。
我们已经经过了无数验收,测试,上市,反馈的毒打,不至于被模型给轻易带偏。
而真正应该担心这个的,是 AI 原生时代成长起来的。。。
你的小孩。