【AI前沿速递】2026年4月第一周·arXiv最新论文精选本期精选自arX

【AI前沿速递】2026年4月第一周·arXiv最新论文精选本期精选自arXiv cs.AI、cs.CL、cs.LG三大分区最新论文，覆盖大模型推理效率、3D生成、视频世界模型、LLM对齐等热点方向，以下是核心解读。 🔥一、Batched Contextual Reinforcement：LLM推理效率的"免费午餐" 来自Bangji Yang等人的研究提出了一种极简的单阶段训练范式BCR，核心思路是让模型在同一上下文窗口内同时解决N个问题，仅通过逐题准确率进行奖励。实验发现了一个新的"任务缩放定律"：随着并发问题数N增加，单题token消耗单调下降，而准确率下降远比基线温和。令人惊讶的是，在标准单题推理场景下，BCR在1.5B和4B模型上将token消耗降低了15.8%至62.6%，同时保持甚至提升了五个数学基准测试的准确率。这意味着模型学会了自主消除冗余的元认知循环，实现了效率与精度的"双赢"。该研究挑战了传统认知中精度与效率不可兼得的假设。 🎮二、ActionParty：首个多智能体视频世界模型当前视频扩散模型生成的"世界模型"大多局限于单智能体场景，无法同时控制场景中的多个角色。Alexander Pondaven等人提出的ActionParty解决了这一核心问题——如何将特定动作绑定到对应主体。该方法引入"主体状态token"作为持久潜变量，通过空间偏置机制将全局帧渲染与个体动作控制解耦。在Melting Pot基准测试中，ActionParty成为首个能同时控制多达7个玩家、跨越46种环境的视频世界模型，在动作跟随准确性和身份一致性上均显著提升。 🧊三、Omni123：统一文本-2D-3D生成的原生3D基础模型高质量3D数据稀缺是制约3D生成发展的核心瓶颈。Chongjie Ye等人的Omni123提出了一个优雅的解决方案：将文本、图像和3D统一表示为共享序列空间中的离散token，利用丰富的2D数据作为几何先验来改善3D表示。通过交替式跨模态训练（如"文本→图像→3D→图像"语义-视觉-几何循环），模型联合强制执行语义对齐、外观保真度和多视角几何一致性，显著提升了文本引导的3D生成与编辑能力，为多模态3D世界模型指明了可扩展路径。 📈四、SRPO：统一GRPO与SDPO的新一代LLM对齐框架大模型后训练中广泛使用的GRPO方法对失败样本的惩罚过于粗粒度，而SDPO虽提供更精细的logit级监督却容易在长期训练中崩溃。Gengsheng Li等人提出的SRPO通过"样本路由"机制巧妙统一了二者：正确样本走GRPO的奖励对齐路径，失败样本走SDPO的定向logit级修正路径，并结合熵感知动态加权抑制不可靠的蒸馏目标。在五个基准和两个模型规模上，SRPO不仅继承了SDPO的快速早期提升和GRPO的长期稳定性，还在Qwen3-8B上将五项基准平均分提升3.4%，同时降低17.2%的每步计算成本。 🔮五、Steerable Visual Representations：用自然语言"驾驶"视觉特征预训练的DINOv2和MAE等视觉模型虽然提供通用图像特征，但往往只关注最显著的视觉线索，无法被引导至不那么突出的感兴趣概念。Jona Ruthardt等人提出了"可引导视觉表示"，通过在视觉编码器层中注入轻量级交叉注意力实现文本对视觉特征的早期融合，而非CLIP式的后期融合。该方法在异常检测和个性化目标区分等任务上匹配或超越专用方案，同时展示了零样本泛化能力。 📌本期总结：本周arXiv呈现出几个值得关注的趋势——LLM推理效率优化从"压缩"走向"结构诱导"，视频世界模型从单智能体迈向多智能体协同，3D生成通过2D-3D统一建模突破数据瓶颈，LLM对齐方法走向精细化样本路由。这些进展表明AI研究正在从单一维度优化转向系统性的架构创新。

【AI前沿速递】2026年4月第一周·arXiv最新论文精选 本期精选自arX

【AI前沿速递】2026年4月第一周·arXiv最新论文精选本期精选自arX