CMU与UMD最新研究:大模型也需要“睡觉”!

智能机器之心 2026-05-28 15:34:17
人类不睡觉会精神崩溃,你有没有想过,大语言模型(LLM)其实也需要睡觉? 这是一个非常新颖、有趣且充满生物学启发的 AI 研究。 卡内基梅隆大学(CMU)和马里兰大学的研究团队最新发布的论文《Language Models Need Sleep》巧妙地将人类“睡眠巩固记忆”的生物机制迁移到 LLM,解决了长上下文下“记忆易失+推理深度不足”的双重问题。 当前的 Transformer 大语言模型(LLM)在处理长周期任务(Long-horizon tasks)或超长上下文时,面临一个巨大的技术瓶颈:注意力机制(Attention)的计算和存储开销随着上下文长度增加而急剧膨胀。 为了维持上下文记忆,模型必须保存大量的 KV 缓存(Key-Value Cache)。 这不仅吃掉海量显存,还会导致推理延迟增加,模型也很容易在过长的内容中“迷失”。 人类和动物通过睡眠来巩固一天的记忆,将短期的海量感知信息转化为长期的结构化记忆。 受此启发,研究团队为大模型设计了一套“睡眠-醒来”(Sleep-Wake)循环机制: 🔸 醒来阶段(Wake Time - 正常推理): 模型正常接收用户的输入,处理长文本,并生成回复。此时它会像传统模型一样积累 KV 缓存。 🔸 睡眠阶段(Sleep Time - 离线整合): 当上下文窗口或 KV 缓存填满,或者达到特定周期时,模型暂停与外部的交互(处于“断联”状态,不接收新输入)。 🔸 再次醒来: 模型带着已经更新了“长期记忆”(快权重)的轻量化状态,继续处理接下来的新任务。 模型不是记不住,而是没有足够计算时间把临时信息转成稳定知识。研究发现,增加模型的睡眠时间(即加大离线回放次数N)可以显著提升模型性能。尤其是在那些需要深层推理、复杂逻辑跨度非常大的难题上,睡眠时间越长的模型,正确率提升越明显。 论文的本质是利用了测试时训练(Test-time training, TTT)的思想,但研究员很浪漫的给包装了一个符合直觉的生物学外壳——“语言模型也需要睡觉”。真的是很有意思~ 人类需要睡眠,大模型可能也需要。 如果你觉得对你有用的话 ~ 欢迎【一键三连】并分享给你的盆友们~非常感谢!

0 阅读:0
智能机器之心

智能机器之心

感谢大家的关注