[LG]《Code World Models for General Game Playing》W Lehrach, D Hennes, M Lazaro-Gredilla, X Lou... [Google DeepMind] (2025)
谷歌DeepMind团队提出用大语言模型(LLM)将自然语言游戏规则和轨迹转化为可执行Python代码,形成“代码世界模型”(CWM),支持高性能规划如蒙特卡洛树搜索(MCTS)和信息集MCTS(ISMCTS),大幅提升策略深度与合法动作验证。
核心创新:
1️⃣ 用LLM做规则“归纳器”,生成准确且可验证的游戏模拟器代码,避免非法动作和策略浅显。
2️⃣ 针对不完美信息游戏,引入LLM合成隐状态推断函数,解决部分观察难题。
3️⃣ 自动生成启发式价值函数,加快搜索效率。
4️⃣ 提出“开牌”和“闭牌”训练范式,闭牌场景无隐藏状态信息,首次实现从纯观察数据学习CWM。
实验覆盖10款游戏(含4款新创游戏),5款完全公开信息、5款不完全信息。结果显示:
✔ CWM-(IS)MCTS在9/10款游戏中超越或匹配顶级LLM策略Gemini 2.5 Pro。
✔ 复杂规则如Gin Rummy仍具挑战,提示未来需增强多步骤程序化理解能力。
✔ 代码模型结合经典规划,实现了通用性强、策略深度高的游戏智能体。
未来展望:
🔮 在线主动学习CWM,适应更多复杂游戏环境
🔮 扩展至开放世界文本/视觉游戏,实现更广泛的通用智能
全面论文链接:arxiv.org/abs/2510.04542
人工智能 大语言模型 强化学习 游戏AI DeepMind 蒙特卡洛树搜索 代码生成 不完全信息游戏