最近问Rubin减少存储用量的比较多,集中说一下。VeraRubinNV

梁赛 2026-06-05 16:32:14

最近问Rubin减少存储用量的比较多,集中说一下。

Vera Rubin NVL72机柜的内存配置调整,是针对AI服务器机柜中CPU侧系统内存(LPDDR5X SOCAMM模块)的显著下调,以应对供应链瓶颈、降低成本并保障量产交付。

重点:GPU侧高带宽内存(HBM4)容量和核心算力保持不变。

具体调整细节原规划 vs 实际配置:

Rubin NVL72机柜(72颗Rubin GPU + 36颗Vera CPU)CPU侧总DRAM容量从约55TB 下调至约28TB(减少约50%)。具体通过将SOCAMM内存模块从192GB高配版切换为96GB版本实现(每Vera CPU支持8个SOCAMM插槽)。 GPU侧内存不变:每机柜HBM4总容量仍为约20.7TB(每颗Rubin GPU 288GB),聚合带宽约1.6 PB/s,核心训练/推理FLOPS不受影响。 主要原因是供应链瓶颈:HBM4(三星、海力士、美光等供应商)产能与良率双重制约,当前良率仅30-40%(远低于商用要求的>45%)。多供应商策略未能完全缓解,加上产线占用,导致DRAM/LPDDR5X供应紧张且价格高企(约8美元/GB)。英伟达优先保障2026年大规模量产交付节奏。

成本与TCO优化:单机柜BOM成本从约760万美元 降至680万美元(节省80万美元)。GPU每小时拥有成本从4.16美元降至3.90美元(-6.25%),内存成本占比从40%降至30%。这可以显著降低云厂商和AI实验室的资本支出压力,便于更大规模部署。

战略考量方面,我觉得并非单纯的技术降级,而是综合供应链约束+成本控制+交付保障的结果。英伟达正推进HBM4e及更高容量SOCAMM研发,未来可能恢复更高配置。

此调整仅针对即将量产的Rubin平台,不影响当前Blackwell/GB200 NVL72机柜(其内存配置保持原计划)。

我个人认为,这是为了暂时缓解内存短缺对AI服务器部署的制约,同时利好长期供应链稳定(虽短期内存厂商股价承压)。

长远看,AI应用端(包括Agent)的普及,会显著拉升算力需求,单台机柜更便宜是好事,企业会购买更多。

0 阅读:1
梁赛

梁赛

感谢大家的关注