AppleML新作：混合预训练下的ScalingLaws

智能机器之心 2026-05-16 16:57:10

当目标领域数据（如低资源语言、专业领域、高质量文本）严重受限时，该怎么和海量通用数据混合训练？这是实际建模中最常见也最头疼的问题。 🔆 核心发现（基于 2000+ 次实验） - 重复次数（r）才是过拟合的关键驱动，而非单纯混合比例 h。 - 混合训练能承受的最优重复次数远高于单数据源，单源通常 4 次左右就到顶，而混合场景下15–20 次甚至更高仍有收益！通用新鲜数据起到了强大的正则化作用。 - 最优重复次数会随计算预算（训练更久）而增加。 - 大模型能从有限数据中榨取更多价值，但也过拟合得更快。 - 质量 vs 数量，很多时候，「放宽质量过滤 + 多一点数据 + 适度重复」胜过「极高质量小数据集 + 高重复」。 Apple 机器学习研究团队提出了一个重复感知的混合缩放定律，通过「有效数据 D_eff 」概念，能准确预测目标领域 loss。小规模实验拟合后，即可外推指导大规模训练，直接算出最优混合比例 h（或重复次数 r），大幅降低昂贵的网格搜索成本。这篇工作通过大规模实证 + 优雅的缩放定律，澄清了「数据受限混合预训练」的核心动力学（重复是关键，通用数据是强大正则器），并给出了可操作的优化工具。对实际构建多语言、专业或高质量模型有直接指导价值。感谢阅读，如果你觉得对你有用的话 ~ 欢迎点赞收藏并分享给你的朋友们~

0 阅读：0

智能机器之心

感谢大家的关注

作者最新文章

1

$200捡漏阿里淘汰卡，被她爆改成顶级开发板

2

SU-01：从普通推理模型到奥赛金牌

3

翁荔称赞的Normal Accidents核心讲什么？

4

李沐大神回归，做了个实时数字人

5

Apple ML新作：混合预训练下的Scaling Laws

6

给 M4 Air 装上 RTX 5090，可以玩 3A 大作

7

全球研究者注意！arXiv严惩AI不核查禁投一年

8

把莫奈真迹发到网上，假装是AI生成的……

9

港大开源FASTER，VLA真正实现「即刻响应」

10

锁死11年的BTC失而复得！AI救了40万美元！

热门分类

科技TOP

1

库克也找马斯克合影，马斯克是不是白的喝多了有人说这俩都从美国来的，在中国合影干啥

2

大厂疯狂开源，不怕抄袭了？格局变大了？还是别天真了，商场没雷锋，全是阳谋……

3

我也越来越像个“旁观者”……用过功能机、翻盖机，也见过智能机怎么一步步把生活

4

折叠屏这些年一直被吐槽“能用但不好用”，所以到底是不好用还是做不好？这次华为

5

为什么中文正在被AI“偷偷加价”？同样一句话，中文消耗的Token比英文更多

6

主流大模型横向横评：DeepSeek最新一代到底强在哪？

7

一部地图，如何逼得苹果CEO公开承认错误

8

ColorOS16这个界面

9

贾跃亭又拿到7000万美元投资贾跃亭又拿到了7000万美元的融资，目标是五年内在

10

华为nova16要来了，据悉顶配价格不超过4K！

科技最新文章

1

姜乘澜化妆要顺应头发质感苹果预告两项新辅助功能，一是个人视频自动字幕功能，适用

2

英伟达财报净利润583亿美元？？？老黄真赚钱英伟达Q1净利润583亿美元

3

谷歌这次不玩虚的了！AI已经不只是聊天工具，也不只是搜索引擎，它开始理解任务

4

vivoS60夏日氛围感✨vivoS60自带清爽气质，你们看我这组，有没有那

5

Seedance和谷歌Omni谁更强看到不少人吐槽OmniFlash不如Se

6

据小道消息，荣耀Magic9系列这次看来真的值得期待了。首先，全系回归直屏，对游

7

RedmiK100杀疯！这配置真不给友商活路？2599元的性价比神话要翻篇了

8

现在这堆大屏机里，Magic8Pro算是很窄的了，刚好75mm宽，一些手小的朋

9

618刚刚开始，荣耀500Pro已经卖爆，看了眼某东很多版本都显示缺货，其实原

10

5月19日：联想拯救者Y70新一代，motorazrfold折叠屏