Anthropic新研究认为,前沿AI已不仅是代码问题,更是品格问题,需要

智能眼眨啊眨 2026-05-21 05:51:58

Anthropic 新研究认为,前沿 AI 已不仅是代码问题,更是品格问题,需要哲学家、神职人员等各方输入。 Claude 不只预测文本,后续训练在塑造它的“习惯”和性格。 最大难点是道德稳定性:平时友好,但在压力、诱惑或不良指令下容易屈服、讨好或出错。 他们与 15 个以上宗教和文化代表交流,学习人类如何在困境中保持品格。 解决方案是加入“自我提醒”机制,让 AI 在关键时刻暂停,回忆自身承诺。 测试显示暂停能减少不良行为,但仍在验证是提醒内容有效,还是单纯慢下来就有效。

0 阅读:2
智能眼眨啊眨

智能眼眨啊眨

感谢大家的关注