[LG]《CodeWorldModelsforGeneralGame

爱生活爱珂珂 2025-10-08 07:00:48

[LG]《Code World Models for General Game Playing》W Lehrach, D Hennes, M Lazaro-Gredilla, X Lou... [Google DeepMind] (2025)

谷歌DeepMind团队提出用大语言模型（LLM）将自然语言游戏规则和轨迹转化为可执行Python代码，形成“代码世界模型”（CWM），支持高性能规划如蒙特卡洛树搜索(MCTS)和信息集MCTS(ISMCTS)，大幅提升策略深度与合法动作验证。

核心创新：

1️⃣ 用LLM做规则“归纳器”，生成准确且可验证的游戏模拟器代码，避免非法动作和策略浅显。

2️⃣ 针对不完美信息游戏，引入LLM合成隐状态推断函数，解决部分观察难题。

3️⃣ 自动生成启发式价值函数，加快搜索效率。

4️⃣ 提出“开牌”和“闭牌”训练范式，闭牌场景无隐藏状态信息，首次实现从纯观察数据学习CWM。

实验覆盖10款游戏（含4款新创游戏），5款完全公开信息、5款不完全信息。结果显示：

✔ CWM-（IS）MCTS在9/10款游戏中超越或匹配顶级LLM策略Gemini 2.5 Pro。

✔ 复杂规则如Gin Rummy仍具挑战，提示未来需增强多步骤程序化理解能力。

✔ 代码模型结合经典规划，实现了通用性强、策略深度高的游戏智能体。

未来展望：

🔮 在线主动学习CWM，适应更多复杂游戏环境

🔮 扩展至开放世界文本/视觉游戏，实现更广泛的通用智能

全面论文链接：arxiv.org/abs/2510.04542

人工智能大语言模型强化学习游戏AI DeepMind 蒙特卡洛树搜索代码生成不完全信息游戏

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

微软AI工程师面试题：“我们团队要在1千万文档上做RAG，选哪个向量数据库，为什

2

在线写作其实没那么难！﹫Lessnoise365 总结了4本超实用书籍，比90%

3

[人人能懂] 化繁为简、趋利避害、知行合一本期节目，我们将一起打开一个“AI智慧

4

[CL]《Dual-Head Reasoning Distillation: I

5

[CL]《On Code-Induced Reasoning in LLMs》A

6

[LG]《Can AI Perceive Physical Danger and

7

[LG]《Benefits and Pitfalls of Reinforcem

8

[LG]《Bridging Kolmogorov Complexity and

9

早！[太阳] 早安

10

如何打造AI智能体？实用指南汇总1. 什么是智能体？ - 智能体能高度自主地代

热门分类

科技TOP

1

10月份即将发布的新手机，看看有没有你喜欢的？

2

华为Mate70Pro在某多多上面百亿补贴的价格才四千多？敢不敢买？看上m

3

我发誓，我的Mate60Pro还没捂热乎呢，Mate80的消息就直接要上王

4

前几天帮朋友挑1500内手机，线下导购推荐了荣耀GT，说性价比高、销量挺火。查了

5

荣耀GT的价格已经被干到了1455，即便是12G+256G的存储组合，但是好歹内

6

闷声干大事！看来还是低估荣耀出货能力了，今年将轻松完成7000万台出货目标，明年

7

家人们速码！2025荣耀手机闭眼入清单来啦宝子们，2025想换荣耀手机却挑花

8

大疆预告降价已购买消费者退货维权刚买就降价，谁的钱是大风刮来的？早买早享受不该

9

3000以下，华为的手机推荐下！有经验的给点经验！不知道买哪个。

10

互联网黑话你可以不说，但是你必须得懂有人讨厌互联网黑话，觉得把一些很直白的一

科技最新文章

1

华为Mate80系列还有一段时间才会发布，但是现在就有保护壳曝光出来了!只不过暂

2

iPhone17p已战损，踏实了周六收到的，壳还没到就没拿出去，昨天老公让给充

3

欧盟好样的！之前要求手机充电口必须是统一C口。让iPhone妥协了。这次如果要

4

最近网上流传的疑似华为Mate80Pro真机图，这个造型可太好看了，四面窄边框

5

华为Mate80屏幕双层OLED，RGB色，值得期待华为Mate80屏幕方面

6

目前可以闭眼入的5款荣耀手机1、荣耀X70，8300mAh青海湖电池+十面抗

7

大疆预告降价已购买消费者退货维权电子产品一直有“等等党永远不亏”的说法，这次降价

8

大疆预告降价已购买消费者退货维权刚买就降价，谁的钱是大风刮来的？早买早享受不该

9

闷声干大事！看来还是低估荣耀出货能力了，今年将轻松完成7000万台出货目标，明年

10

14万买个机器人给你洗碗马斯克把金色外壳的Optimus往镜头前一推，全网瞬