[CL]《DoesaGlobalPerspectiveHelpPrun

爱生活爱珂珂 2026-04-10 06:12:59

[CL]《Does a Global Perspective Help Prune Sparse MoEs Elegantly?》Z Zhang, N Ghosh, J Liu, B Yu… [University of Rochester & Flatiron Institute] (2026)

在稀疏MoE模型剪枝领域,如何分配各层的裁剪预算始终悬而未决。过去的方法默认每层专家冗余度相同,因而均匀地从每层移除相同数量的专家。这一假设忽视了层间冗余的显著差异——有的层专家高度相似可大量削减,有的层专家分工明确需要保留,一刀切的剪枝必然以牺牲不必要的性能为代价。

本文的核心洞见是:把"剪多少"这一局部决策重新看作跨层全局资源分配问题。由此,基于专家相似度矩阵量化每层冗余度、以信息熵约束防止预算过度集中于少数层的贪心迭代分配机制,使得同等压缩预算下的性能保留得以最大化。

这项工作真正留下的遗产是:为MoE剪枝确立了"层间冗余异质性"这一不可忽视的设计维度。它为后来者打开的新门是:探索更精细的冗余度量指标与动态分配策略,使全局视角的剪枝进一步走向自适应与鲁棒。但尚未跨过的门槛是:当某些层冗余度极端失衡时,全局策略仍可能导致模型崩溃,如何在极端分布下保持稳定性,是亟待解决的边界问题。

arxiv.org/abs/2604.06542

机器学习 人工智能 论文 AI创造营

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注