为科学发现引入了测试时训练机制，在测试时执行强化学习，使LLM能够持续地利用

智能亲爱的你 2026-05-11 10:50:26

为科学发现引入了测试时训练机制，在测试时执行强化学习，使 LLM 能够持续地利用针对特定测试问题的经验进行训练。与 AlphaEvolve 等先前的工作（后者会冻结 LLM）不同，这种方法允许模型在尝试解决难题的过程中不断改进自身。测试时强化学习：该方法在由单个测试问题定义的环境中执行强化学习，其学习目标和搜索子程序旨在优先考虑最有希望的解决方案，而不是最大化跨尝试的平均奖励。跨领域的最先进技术： TTT-Discover 在 Erdős 最小重叠问题、自相关不等式、GPUMode 内核竞赛（比现有技术快 2 倍）、AtCoder 算法竞赛以及生物学中的单细胞去噪方面创造了新的记录。

0 阅读：0

智能亲爱的你

感谢大家的关注

作者最新文章

1

阿里又出了千问云？谁来聊聊 1.不用去阿里云官网翻模型服务入口 2.做很多很多千

2

Docs Live 是 Google Docs 的"语音版"，你不再用键盘敲文

3

一个产品纯用AI干可以每天发三个版本，结果用户跟不上…

4

说句得罪人的话：很多人看不懂 CMA （Claude Managed Agent

5

Apple 正式宣布库克将卸任 CEO 。自 2011 年接替已故的乔布斯以来，

6

马斯克旗下人工智能xAI公司领导班子调整：新任总裁Michael Nicholl

7

换Harness，是不是整个推倒重来？ Harness 不是整个推倒重来 Har

8

阿里千问林俊旸离职

9

到底谁便宜？Gemini 3.1 Pro是"性价比之王"吗？ “亲爱的数据”观

10

为科学发现引入了测试时训练机制，在测试时执行强化学习，使 LLM 能够持续地利用

热门分类

科技TOP

1

库克也找马斯克合影，马斯克是不是白的喝多了有人说这俩都从美国来的，在中国合影干啥

2

大厂疯狂开源，不怕抄袭了？格局变大了？还是别天真了，商场没雷锋，全是阳谋……

3

魅族懵了！小米也懵了，第一个把副屏干成"奢侈品"的，居然是荣耀！磁吸副屏终于来

4

我也越来越像个“旁观者”……用过功能机、翻盖机，也见过智能机怎么一步步把生活

5

折叠屏这些年一直被吐槽“能用但不好用”，所以到底是不好用还是做不好？这次华为

6

为什么中文正在被AI“偷偷加价”？同样一句话，中文消耗的Token比英文更多

7

主流大模型横向横评：DeepSeek最新一代到底强在哪？

8

一部地图，如何逼得苹果CEO公开承认错误

9

ColorOS16这个界面

10

贾跃亭又拿到7000万美元投资贾跃亭又拿到了7000万美元的融资，目标是五年内在

科技最新文章

1

我肯定是有就必升，可以最快体验到新功能，这样才有乐趣，可以一直保持新鲜感。

2

荣耀影像这是要彻底支棱起来了！就在刚才，有数码大佬爆料，今年荣耀旗舰机全系要换上

3

姜乘澜化妆要顺应头发质感苹果预告两项新辅助功能，一是个人视频自动字幕功能，适用

4

DeepSeek崩了应该刚恢复吧，建议DeepSeek效仿豆包分基础和专业，收点

5

这几天运势不好～换个红壳冲冲喜

6

荣耀这也太狠了！这是要把友商往绝路上逼的节奏[捂脸哭]荣耀X80GT将作为今年

7

京东六大品牌手机集体降价618开始了，大家买手机的记得多蹲蹲优惠，每年618换机

8

国产手机突然降价2000元也只是个别机型降价2000，甚至更多，而且还是老机型，

9

英伟达财报净利润583亿美元？？？老黄真赚钱英伟达Q1净利润583亿美元

10

虽然iQOO15T卖3799元起，但是可以用各大电商的满减券，像狗东就可以用4