英伟达桌面超算邪修玩法英伟达桌面超算串联MacStudio英伟达桌面超算,邪修玩

量子位看科技 2025-10-17 16:48:38

英伟达桌面超算邪修玩法英伟达桌面超算串联MacStudio

英伟达桌面超算,邪修玩法来了!

两台DGX Spark串联一台苹果Mac Studio,就能让大模型推理速度提升至2.77倍。【图1】

这是GitHub三万星大模型框架作者EXO Lab团队发布的最新成果。【图2】

结果显示,Prefill速度比Mac快3.79倍,Decode比DGX快3.37倍整体提速达2.77倍!

而这个EXO Labs,专门研究把大模型放到各种家用设备上运行。

之前让MacBook、iPad、手机等设备组成集群跑405B大模型的分布式推理框架,还有两台Mac跑满血DeepSeek-R1,都是这家工作室的手笔。

这次他们又把DGX Spark和M3 Ultra结合,利用它们各自的优势,在大模型部署上整出了新活。

他们用的思路叫PD分离,即把大模型推理拆成两部分:

- Prefill阶段:处理提示、生成缓存,吃计算力;

- Decode阶段:生成token,主要靠内存带宽。

恰好DGX算力强但带宽差,Mac Studio的M3 Ultra带宽高但算力弱。于是他们做了一个“优势互补”的组合:

- DGX跑Prefill;

- Mac跑Decode;

- 再用“流式传输”把KV缓存一边算一边传,中间几乎无等待。

有趣的是,EXO团队这次用的DGX Spark,最近正在进行配送,马斯克、奥特曼还有LeCun都收到了,其中还有老黄亲自送货上门。【图3】

0 阅读:7

猜你喜欢

量子位看科技

量子位看科技

感谢大家的关注