[LG]《UnderstandingtheRoleofTraining

爱生活爱珂珂 2025-10-08 07:00:45

[LG]《Understanding the Role of Training Data in Test-Time Scaling》A Javanmard, B Mirzasoleiman, V Mirrokni [University of Southern California & University of California Los Angeles] (2025)

深入理解训练数据在测试时扩展中的作用

推理时扩展（Test-time scaling）通过让大语言模型（LLMs）生成更长的思维链（Chain-of-Thoughts，CoTs），显著提升复杂推理能力。这使模型能分步解决难题、回溯纠错，性能显著增强。

但训练数据中哪些条件促成长CoTs出现？何时长CoTs真正提升表现？这些尚不清晰。

本文基于线性回归的上下文权重预测任务，理论解析测试时扩展的效果。核心发现：

1️⃣ 在固定测试误差下，增加测试时计算量可减少训练时上下文示例的数量（即缩短训练prompt长度）。

2️⃣ 若训练数据中缺乏解决下游任务所需的技能（对应数据协方差矩阵的方向），增加测试时计算量反而可能降低性能，导致“过度思考”现象。

3️⃣ 通过特征协方差矩阵的最小特征值定义任务难度，训练时覆盖多样且难度适中的任务集合，能最大化测试时扩展效果。

理论上，测试时CoT推理相当于多步（伪）牛顿法优化过程，能动态调整预测。任务难度由技能分布的长尾特性刻画，难任务需更多思考步骤。多任务训练中，选择任务概率应优化覆盖目标任务的相关技能空间，且难度分布均衡。

实验证实：

✔️ 提升测试时思考步数，训练时上下文长度需求降低；

✔️ 训练数据若覆盖不充分，测试时多思考步数反而导致性能下降；

✔️ 训练任务选择倾向于多样、相关且困难的任务，提升泛化能力。

结语：本研究为理解和设计支持测试时扩展的训练数据提供理论基础，指导合理分配训练资源与选择任务，助力构建更强大、更高效的推理型大模型。未来工作将拓展到非线性模型和更复杂任务。

全文详见 arxiv.org/abs/2510.03605

大语言模型测试时扩展链式思维任务选择机器学习理论

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

微软AI工程师面试题：“我们团队要在1千万文档上做RAG，选哪个向量数据库，为什

2

在线写作其实没那么难！﹫Lessnoise365 总结了4本超实用书籍，比90%

3

[人人能懂] 化繁为简、趋利避害、知行合一本期节目，我们将一起打开一个“AI智慧

4

[CL]《Dual-Head Reasoning Distillation: I

5

[CL]《On Code-Induced Reasoning in LLMs》A

6

[LG]《Can AI Perceive Physical Danger and

7

[LG]《Benefits and Pitfalls of Reinforcem

8

[LG]《Bridging Kolmogorov Complexity and

9

早！[太阳] 早安

10

如何打造AI智能体？实用指南汇总1. 什么是智能体？ - 智能体能高度自主地代

热门分类

科技TOP

1

10月份即将发布的新手机，看看有没有你喜欢的？

2

华为Mate70Pro在某多多上面百亿补贴的价格才四千多？敢不敢买？看上m

3

我发誓，我的Mate60Pro还没捂热乎呢，Mate80的消息就直接要上王

4

前几天帮朋友挑1500内手机，线下导购推荐了荣耀GT，说性价比高、销量挺火。查了

5

荣耀GT的价格已经被干到了1455，即便是12G+256G的存储组合，但是好歹内

6

闷声干大事！看来还是低估荣耀出货能力了，今年将轻松完成7000万台出货目标，明年

7

家人们速码！2025荣耀手机闭眼入清单来啦宝子们，2025想换荣耀手机却挑花

8

大疆预告降价已购买消费者退货维权刚买就降价，谁的钱是大风刮来的？早买早享受不该

9

3000以下，华为的手机推荐下！有经验的给点经验！不知道买哪个。

10

互联网黑话你可以不说，但是你必须得懂有人讨厌互联网黑话，觉得把一些很直白的一

科技最新文章

1

华为Mate80系列还有一段时间才会发布，但是现在就有保护壳曝光出来了!只不过暂

2

iPhone17p已战损，踏实了周六收到的，壳还没到就没拿出去，昨天老公让给充

3

欧盟好样的！之前要求手机充电口必须是统一C口。让iPhone妥协了。这次如果要

4

最近网上流传的疑似华为Mate80Pro真机图，这个造型可太好看了，四面窄边框

5

华为Mate80屏幕双层OLED，RGB色，值得期待华为Mate80屏幕方面

6

目前可以闭眼入的5款荣耀手机1、荣耀X70，8300mAh青海湖电池+十面抗

7

大疆预告降价已购买消费者退货维权电子产品一直有“等等党永远不亏”的说法，这次降价

8

大疆预告降价已购买消费者退货维权刚买就降价，谁的钱是大风刮来的？早买早享受不该

9

闷声干大事！看来还是低估荣耀出货能力了，今年将轻松完成7000万台出货目标，明年

10

14万买个机器人给你洗碗马斯克把金色外壳的Optimus往镜头前一推，全网瞬