英伟达桌面超算邪修玩法英伟达桌面超算串联MacStudio
英伟达桌面超算,邪修玩法来了!
两台DGX Spark串联一台苹果Mac Studio,就能让大模型推理速度提升至2.77倍。【图1】
这是GitHub三万星大模型框架作者EXO Lab团队发布的最新成果。【图2】
结果显示,Prefill速度比Mac快3.79倍,Decode比DGX快3.37倍整体提速达2.77倍!
而这个EXO Labs,专门研究把大模型放到各种家用设备上运行。
之前让MacBook、iPad、手机等设备组成集群跑405B大模型的分布式推理框架,还有两台Mac跑满血DeepSeek-R1,都是这家工作室的手笔。
这次他们又把DGX Spark和M3 Ultra结合,利用它们各自的优势,在大模型部署上整出了新活。
他们用的思路叫PD分离,即把大模型推理拆成两部分:
- Prefill阶段:处理提示、生成缓存,吃计算力;
- Decode阶段:生成token,主要靠内存带宽。
恰好DGX算力强但带宽差,Mac Studio的M3 Ultra带宽高但算力弱。于是他们做了一个“优势互补”的组合:
- DGX跑Prefill;
- Mac跑Decode;
- 再用“流式传输”把KV缓存一边算一边传,中间几乎无等待。
有趣的是,EXO团队这次用的DGX Spark,最近正在进行配送,马斯克、奥特曼还有LeCun都收到了,其中还有老黄亲自送货上门。【图3】