英伟达桌面超算邪修玩法英伟达桌面超算串联MacStudio英伟达桌面超算，邪修玩

英伟达桌面超算邪修玩法英伟达桌面超算串联MacStudio

英伟达桌面超算，邪修玩法来了！

两台DGX Spark串联一台苹果Mac Studio，就能让大模型推理速度提升至2.77倍。【图1】

这是GitHub三万星大模型框架作者EXO Lab团队发布的最新成果。【图2】

结果显示，Prefill速度比Mac快3.79倍，Decode比DGX快3.37倍整体提速达2.77倍！

而这个EXO Labs，专门研究把大模型放到各种家用设备上运行。

之前让MacBook、iPad、手机等设备组成集群跑405B大模型的分布式推理框架，还有两台Mac跑满血DeepSeek-R1，都是这家工作室的手笔。

这次他们又把DGX Spark和M3 Ultra结合，利用它们各自的优势，在大模型部署上整出了新活。

他们用的思路叫PD分离，即把大模型推理拆成两部分：

- Prefill阶段：处理提示、生成缓存，吃计算力；

- Decode阶段：生成token，主要靠内存带宽。

恰好DGX算力强但带宽差，Mac Studio的M3 Ultra带宽高但算力弱。于是他们做了一个“优势互补”的组合：

- DGX跑Prefill；

- Mac跑Decode；

- 再用“流式传输”把KV缓存一边算一边传，中间几乎无等待。

有趣的是，EXO团队这次用的DGX Spark，最近正在进行配送，马斯克、奥特曼还有LeCun都收到了，其中还有老黄亲自送货上门。【图3】

0 阅读：8

大家发现没有，中美关税战打到现在，什么台积电！什么英伟达！什么苹果！什么特斯拉！