【AI前沿日报】2026年4月14日arXiv最新AI论文速递 🔬今日a

【AI前沿日报】2026年4月14日 arXiv最新AI论文速递 🔬 今日arXiv人工智能与自然语言处理领域迎来多篇重磅论文，涵盖AI安全、推理优化、智能体训练等核心方向，以下是重点论文摘要： 📌 1. LLM有害内容生成机制揭示——权重剪枝实验发现，大语言模型生成有害内容依赖一组紧凑且通用的权重集合，与良性能力截然分开。对齐训练压缩了这些权重，却也解释了为何微调易引发"涌现性错位"——局部微调可触发广泛失控。该发现为更安全的模型对齐提供了理论基础。论文：2604.09544 📌 2. RecaLLM破解"迷失思考"难题——推理与检索深度交织，但推理步骤越多，模型从上下文中检索信息的能力越差。RecaLLM通过交替推理与显式上下文检索，配合约束解码机制实现证据精确复制，在128K超长上下文基准RULER和HELMET上大幅领先，且训练仅需10K token样本。论文：2604.09494 📌 3. Process Reward Agent刷新医学推理记录——针对知识密集型推理中步骤不可局部验证的痛点，PRA在测试时为冻结策略模型提供在线逐步骤奖励，在MedQA上以Qwen3-4B达到80.8%准确率，创4B规模新SOTA。无需更新策略模型，跨0.5B-8B参数量准确率提升最高25.7%。论文：2604.09482 📌 4. AI智能体何时求助？HiL-Bench揭示判断力缺陷——前沿编码智能体在信息不完整时表现崩塌，根源不在能力而在判断力。HiL-Bench发现三大失败模式：过度自信的错误信念、高不确定但持续犯错、泛化而不精准的升级求助。强化学习训练可提升求助质量，且增益可跨领域迁移。论文：2604.09408 📌 5. 假新闻检测新基准MANYFAKE——当AI生成的假新闻将策略性不实信息嵌入真实叙事中，现有检测器严重失效。MANYFAKE包含6798篇策略驱动生成的假新闻，实验表明：先进推理模型对全虚构文章已接近饱和，但对精准优化、与真实信息交织的微妙造假仍高度脆弱。论文：2604.09514 📌 6. E3-TIR提升工具集成推理训练效率——提出增强经验利用范式，通过专家锚点分支探索和混合策略优化，在工具使用任务上较传统范式提升6%性能，合成数据需求不到10%，ROI达1.46倍。已被ACL 2026接收。论文：2604.09455 💡 今日洞察：从LLM安全机制的内在结构到推理与检索的协同优化，从智能体判断力训练到假新闻检测的攻防博弈，AI研究正从"能力提升"向"安全可控"和"高效实用"纵深发展。 AI前沿 arXiv论文大模型安全推理优化

0 阅读：0