AppleML新作:混合预训练下的ScalingLaws

智能机器之心 2026-05-16 16:57:10
当目标领域数据(如低资源语言、专业领域、高质量文本)严重受限时,该怎么和海量通用数据混合训练?这是实际建模中最常见也最头疼的问题。 🔆 核心发现(基于 2000+ 次实验) - 重复次数(r)才是过拟合的关键驱动,而非单纯混合比例 h。 - 混合训练能承受的最优重复次数远高于单数据源,单源通常 4 次左右就到顶,而混合场景下15–20 次甚至更高仍有收益!通用新鲜数据起到了强大的正则化作用。 - 最优重复次数会随计算预算(训练更久)而增加。 - 大模型能从有限数据中榨取更多价值,但也过拟合得更快。 - 质量 vs 数量,很多时候,「放宽质量过滤 + 多一点数据 + 适度重复」 胜过 「极高质量小数据集 + 高重复」。 Apple 机器学习研究团队提出了一个重复感知的混合缩放定律,通过「有效数据 D_eff 」概念,能准确预测目标领域 loss。 小规模实验拟合后,即可外推指导大规模训练,直接算出最优混合比例 h(或重复次数 r),大幅降低昂贵的网格搜索成本。 这篇工作通过大规模实证 + 优雅的缩放定律,澄清了「数据受限混合预训练」的核心动力学(重复是关键,通用数据是强大正则器),并给出了可操作的优化工具。 对实际构建多语言、专业或高质量模型有直接指导价值。 感谢阅读,如果你觉得对你有用的话 ~ 欢迎点赞收藏并分享给你的朋友们~

0 阅读:0
智能机器之心

智能机器之心

感谢大家的关注