[CL]《PolicyBank:EvolvingPolicyUnderst

爱生活爱珂珂 2026-04-21 06:28:33

[CL]《PolicyBank: Evolving Policy Understanding for LLM Agents》J Choi, J Yoon, L T. Le, S Jha… [Google Cloud] (2026)

在LLM智能体领域,策略合规是一个悬而未决的难题。过去的方法受困于一个隐性假设——书面策略即完整事实,本质原因是将"策略文本"与"策略意图"混为一谈,使得智能体在规范与现实的裂缝处系统性失效。

本文的核心洞见是:把"策略执行失败"重新看作两类截然不同的故障——能力缺陷(Type I)与规范缺陷(Type II)。由此,PolicyBank这一工具级记忆机制通过持续反馈循环,将模糊的自然语言规范迭代精炼为可执行的授权逻辑,使智能体得以自主弥合规范与真实需求之间的鸿沟。

这项工作真正留下的遗产是:首次将经典访问控制领域的"策略修复问题"迁移至自然语言智能体场景,并证明结构化记忆可将规范缺口关闭达82%。它为后来者打开的新门是自演化策略系统——智能体通过经验而非人工改写来逼近真实需求。但尚未跨过的门槛是:当反馈信号噪声较大或策略文档规模持续膨胀时,PolicyBank的精炼质量是否仍能稳定可靠,仍是待解之题。

arxiv.org/abs/2604.15505

机器学习 人工智能 论文 AI创造营

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注