是什么卡住了模型的上下文长度？不是计算，而是内存带宽瓶颈！Dwarkesh最新

青松聊商业 2026-04-30 15:38:48

是什么卡住了模型的上下文长度？不是计算，而是内存带宽瓶颈！Dwarkesh 最新播客首次启用的黑板讲座 - 嘉宾Reiner Pope 曾在 Google 负责 TPU 架构，现在创立了芯片初创公司 Maddox，他用数学推导解释了 LLM 推理和训练的底层经济学👀

推理一个 token 需要的时长取决于“计算与内存时间“这两个瓶颈中更慢的那个：实际推理时间 = max(T_compute, T_memory)。

在小 batch size 时，内存带宽是瓶颈（要加载全部权重但只服务一个用户）；在大 batch size 时，计算成为瓶颈。两者相等的交叉点就是最优 batch size。

计算成本随上下文长度几乎不变（因为注意力的计算量相对权重矩阵乘法很小）；但内存带宽成本随上下文长度线性增长（需要加载 KV cache）。

稀疏注意力可以帮助（DeepSeek 论文中是平方根改善），但不是无限的——太稀疏会损失质量。

"我实际上看不到解决内存墙的好路径。HBM 就是现在这个水平，不会大幅改善。"

这直接回应了 Dario Amodei 的观点（"不需要持续学习，in-context learning 就够了"）——如果你需要等同于"与你工作一个月的同事"的 context，那可能需要 1 亿 token 的上下文窗口，在现有内存架构下成本极高。

内存（HBM）是真正的瓶颈！Pope 的分析从第一性原理证明了 Dylan Patel 反复强调的"DRAM 还要翻 2-3 倍"。内存带宽决定了上下文长度上限、推理成本下界、最优 batch size。SK Hynix、三星、Micron 是直接受益者⚡️

0 阅读：2

青松聊商业

感谢大家的关注

作者最新文章

1

越南车市，既没有中国品牌也没有特斯拉

2

英王查尔斯在白宫用餐的餐盘餐具

3

看到一个印度新闻，说美国战争部长皮特·赫格塞斯的妻子詹妮弗·劳切特在白宫记者晚宴

4

佛罗里达州科勒尔角，看起来像一块PCB板

5

美国人确实反战，唯一例外的是韩战

6

嫌疑人科尔·艾伦在试图闯入白宫记者晚宴前几分钟，持枪自拍了一张面带微笑的照片。是

7

🔥BREAKING: Taiwan’s Q1 GDP growth rose

8

英伟达市占率（中国）腰斩

9

是什么卡住了模型的上下文长度？不是计算，而是内存带宽瓶颈！Dwarkesh 最新

10

2024年3月，美国心脏病协会的一次科学会议上，上海交通大学医学院的团队报告了一

热门分类

财经TOP

1

165才是黄金身段

2

老板斥巨资打造的，你们管这叫什么风格？

3

美不胜收2082

4

美财长：中国买不到伊朗油。同一天，70艘油轮装满美国油高价出口！4月14日，美

5

财哥这几天锁仓，等有好的时机再操作

6

4月21日游资龙虎榜

7

招行原支行行长的话，真是把职场的遮羞布扯得稀碎。

8

4月29日涨停榜

9

这些股注意风险

10

周末休市股市个股利好重磅消息：看看有没有你的持仓股－、以下均是利好消息1.晓程科

财经最新文章

1

4月29日游资龙虎榜数据

2

4月29日涨停榜

3

一位经济学家说：“如果你年收入不到20万，不要花太多时间在认知提升上，你真正需

4

连板高标（4月29日）3板--飞马国际，一季报扭亏；3板--越剑智能，AI

5

股市扎心真相：穷人与富人的差距，从买股票就注定了有钱人敢300万单吊一只股，穷

6

2026年，华谊申请破产，罗海琼手里那54万华谊股，从70块跌到1块7，但她愣是

7

高手是怎么炒股的：我有个朋友，每个年稳稳赚十多万，不用天天盯盘，方法简单到你不信

8

上市35年，一毛不拔，今天终于双重退市，市值退，营收退，000004，一只元老级

9

阿联酋宣布退出OPEC和OPEC+，这是在国际社会扔了一颗重磅炸弹，影响巨大。阿

10

伊朗石油是无敌的存在，不轻不重，适合开采提炼。美国石油太轻，俄罗斯石油偏重，最差