智能体对互联延迟或高于带宽,跨机房光互连需既快,更要低延迟 当前大模型推理,尤其是MoE模型的瓶颈早已从浮点运算转向内存带宽与容量。HBM的昂贵和产能限制,催生了Grace CPU的大容量LPDDR内存池设计。内存→连接:当模型和数据无法塞进单一节点,互连带宽就成了墙。NVLink在机柜内解决,但跨机柜、跨数据中心就必须用光互连。铜不够长是物理定律——铜缆在56G以上速率时,3米内可用;而数据中心间距动辄几百米,必须走光。 连接→多数据中心:智能体需要同时访问内部CRM、外部网页、向量数据库等,这些往往物理隔离。跨地域的DCI,数据中心互联,需求因此爆发,这正是高阶DSP+硅光+光模块的应用场景。 三芯架构的针对性设计,Vera CPU:传统x86在精细化调度、低延迟上下文切换上并不差,但NVIDIA推自有ARM CPU的核心在于——把CPU与GPU通过NVLink-C2C直连,共享统一内存地址,消除PCIe瓶颈。这对智能体频繁的调用-执行-返回循环至关重要。 Rubin GPU:相比Blackwell,为MoE批推理优化,Rubin会大幅强化多上下文并行能力,因为智能体同时处理多个用户、多个工具调用会话。 CX(ConnectX):这其实是三芯中最易被忽视的一环。它本质上是一块数据搬运专用DPU,负责RDMA、加密、遥测。在跨机房场景下,CX直接管理光模块和拥塞控制,效率远高于靠CPU中断处理网络包。 关于LPO与DSP的取舍,LPO,线性驱动可插拔光模块,去掉DSP,功耗和延迟大幅降低,适合机柜间
智能体对互联延迟或高于带宽,跨机房光互连需既快,更要低延迟 当前大模型推理,尤
财旺毓美美
2026-06-04 06:27:22
0
阅读:1