给大家盘一盘理想自研的马赫M100。此前大家比较熟悉的是马赫M100的有效

给大家盘一盘理想自研的马赫 M100。

此前大家比较熟悉的是马赫 M100 的有效算力，单颗 1280 TOPS，因其采用数据流架构给算法软件更大的优化空间，单颗马赫 M100 的有效算力达到英伟达 Thor U 的 3 倍。

最近，一篇名为《M100: An Orchestrated Dataflow Architecture Powering General AI Computing》发表，理想汽车 CTO 谢炎为第一作者，这篇论文中，详细拆解了马赫 M100 的芯片架构（图二）。

马赫 M100 芯片中，M100 NPU 占有最大的面积，NPU 的内部架构、内部通信方式以及 NPU 与其他核心的通信方式就非常重要（图三）。

M100 NPU 与马赫 M100 其他核心通信主要通过三种方式：

- 2 个高带宽 AXI 主接口（每个 128 GB/s），让 NPU 直接访问 DDR 和 SoC 资源，而不像传统芯片还要让 CPU 喂数据。

- CPU 通过低带宽 AXI 与 NPU 通信，主要是下发任务、查询状态以及管理资源。

- 在 NPU 内部，拥有一个中央控制器（Central Control Block，CCB），以及 14 个张量计算（Tensor Processing Block，TPB）集群。每个集群中包含 4 个 TPB，因此整个 NPU 中共有 56 个 TPB。

为了满足 AI 推理中的数据传输需求，CCB 与 TPB 之间通过两套结构连接，分别是二维 Mesh 总线（2D Mesh Bus）以及数据环总线（Data Ring Bus，DRB）。

其中，二维 Mesh 总线为 TPB 集群、CCB、CPU、DMA 以及 SRAM 之间提供了可扩展、高带宽的点对点通信能力。在低拥堵的状态下，任意节点之间带宽最高 256 GB/s，还具备良好的扩展性。同时，DRB 提供了一条确定且高效的广播路径，总聚合带宽最高也是 256 GB/s，非常适合在多个 TPB 之间进行数据广播。具体是用 Mesh 还是 DRB，由软件决定。

另外还有指令链总线（Instruction Chain Bus，ICB）以菊花链的方式，将 CCB 与 TPB 集群连接起来，CCB 内部的 RISC-V 核心会通过 ICB 向单个或多个 TPB 下发指令。

除了最主要的 NPU 核心之外，马赫 M100 芯片还有以下主要模块（图二）：

- 8 路 LPDDR5X 内存通道，共 64GB 容量，可实现最高 273 GB/s 带宽。

- CPU：24 核心 ARM Cortex-A78AE。

- 影像与感知：MIPI-CSI 是一个摄像头串行接口，支持 11 路视频输入；ISP 负责原始图像处理。

- 功能安全：功能安全岛（FSI：Functional Safety Island）和安全引擎（Security Engine）确保系统符合功能安全标准。

- 丰富的接口：集成了 UFS、USB 3.1 接口，以及 2 个 10Gb 以太网接口，还有多种低速接口。

新能源汽车42how李想称自研芯片被质疑跟风烧钱