[LG]《SoftInstructionDe-escalationDefe

爱生活爱珂珂 2025-10-28 10:16:22

[LG]《Soft Instruction De-escalation Defense》N P Walter, C Sitawarin, J Hayes, D Stutz... [CISPA Helmholtz Center for Information Security & Google DeepMind] (2025)

本文提出一种针对大语言模型(LLM)工具代理系统的迭代式提示注入防御机制——软指令控制(SIC)。该方法通过多轮检测和重写输入中的恶意指令,逐步清理潜在攻击指令,确保输入安全后才交给模型执行。核心思路是:

1. 在代理系统接收外部不可信数据前,先注入已知“控制指令”作为检测哨兵。

2. 对数据反复重写(掩码、重述或删除指令),防止恶意命令继续存在。

3. 多级检测(全文及分块检测)确认无指令后,清除占位符并交由模型处理。

4. 若检测到指令无法清除,系统则中断执行以保障安全。

该方案不修改模型本体,作为前置模块独立运行,兼顾安全与实用性。实验证明,SIC在多种主流模型及复杂攻击场景下均实现了近乎零的攻击成功率(ASR),且对正常任务性能影响极小。相比现有检测类防御,SIC更难被绕过,显著提升了系统安全门槛。

但论文也坦承SIC不是万无一失。面对极强适应性攻击,仍有15%的攻击成功率,主要因攻击者利用非命令式结构化任务描述或权威式语言绕过检测。未来防御需结合全局上下文和工具调用动态理解,提升对复杂攻击的识别能力。

总结:SIC提供了一种简单、轻量、模块化的迭代式提示注入清洗机制,有效降低了工具代理系统被恶意指令操控的风险,是当前实用且有前景的防御策略。

原文链接:arxiv.org/abs/2510.21057

安全 大语言模型 提示注入 人工智能安全 LLM PromptInjectionDefense

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注