[CL]《The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment》J Zhao, Z Wu, A Arora, Y Sun… [Northeastern University & Stanford University] (2026)
在大模型微调中,窄域训练为何污染无关问题,是一个悬而未决的难题。过去方法受困于保留集补丁,本质原因是模型会把行为写进共享模板标记。
本文的核心洞见是:把聊天前缀不再看作包装,而看作行为搭车点。由此,替换或约束前缀 KV 表征这一操作,使错位泛化被截断。
这项工作真正留下的遗产是指出“泛化”可由无语义标记偷运。它打开的新门是按标记约束微调,但尚未跨过的门槛是不同模型为何选择前缀或后缀搭车。
arxiv.org/abs/2606.06667 机器学习 人工智能 论文 AI创造营








