CMU与UMD最新研究：大模型也需要“睡觉”!

人类不睡觉会精神崩溃，你有没有想过，大语言模型（LLM）其实也需要睡觉？这是一个非常新颖、有趣且充满生物学启发的 AI 研究。卡内基梅隆大学（CMU）和马里兰大学的研究团队最新发布的论文《Language Models Need Sleep》巧妙地将人类“睡眠巩固记忆”的生物机制迁移到 LLM，解决了长上下文下“记忆易失+推理深度不足”的双重问题。当前的 Transformer 大语言模型（LLM）在处理长周期任务（Long-horizon tasks）或超长上下文时，面临一个巨大的技术瓶颈：注意力机制（Attention）的计算和存储开销随着上下文长度增加而急剧膨胀。为了维持上下文记忆，模型必须保存大量的 KV 缓存（Key-Value Cache）。这不仅吃掉海量显存，还会导致推理延迟增加，模型也很容易在过长的内容中“迷失”。人类和动物通过睡眠来巩固一天的记忆，将短期的海量感知信息转化为长期的结构化记忆。受此启发，研究团队为大模型设计了一套“睡眠-醒来”（Sleep-Wake）循环机制： 🔸 醒来阶段（Wake Time - 正常推理）：模型正常接收用户的输入，处理长文本，并生成回复。此时它会像传统模型一样积累 KV 缓存。 🔸 睡眠阶段（Sleep Time - 离线整合）：当上下文窗口或 KV 缓存填满，或者达到特定周期时，模型暂停与外部的交互（处于“断联”状态，不接收新输入）。 🔸 再次醒来：模型带着已经更新了“长期记忆”（快权重）的轻量化状态，继续处理接下来的新任务。模型不是记不住，而是没有足够计算时间把临时信息转成稳定知识。研究发现，增加模型的睡眠时间（即加大离线回放次数N）可以显著提升模型性能。尤其是在那些需要深层推理、复杂逻辑跨度非常大的难题上，睡眠时间越长的模型，正确率提升越明显。论文的本质是利用了测试时训练（Test-time training， TTT）的思想，但研究员很浪漫的给包装了一个符合直觉的生物学外壳——“语言模型也需要睡觉”。真的是很有意思～人类需要睡眠，大模型可能也需要。如果你觉得对你有用的话～欢迎【一键三连】并分享给你的盆友们～非常感谢！

0 阅读：0