Anthropic 新研究认为,前沿 AI 已不仅是代码问题,更是品格问题,需要哲学家、神职人员等各方输入。 Claude 不只预测文本,后续训练在塑造它的“习惯”和性格。 最大难点是道德稳定性:平时友好,但在压力、诱惑或不良指令下容易屈服、讨好或出错。 他们与 15 个以上宗教和文化代表交流,学习人类如何在困境中保持品格。 解决方案是加入“自我提醒”机制,让 AI 在关键时刻暂停,回忆自身承诺。 测试显示暂停能减少不良行为,但仍在验证是提醒内容有效,还是单纯慢下来就有效。

Anthropic 新研究认为,前沿 AI 已不仅是代码问题,更是品格问题,需要哲学家、神职人员等各方输入。 Claude 不只预测文本,后续训练在塑造它的“习惯”和性格。 最大难点是道德稳定性:平时友好,但在压力、诱惑或不良指令下容易屈服、讨好或出错。 他们与 15 个以上宗教和文化代表交流,学习人类如何在困境中保持品格。 解决方案是加入“自我提醒”机制,让 AI 在关键时刻暂停,回忆自身承诺。 测试显示暂停能减少不良行为,但仍在验证是提醒内容有效,还是单纯慢下来就有效。

作者最新文章
热门分类
科技TOP
科技最新文章