huggingface出了一个官方的复刻DeepSeek-V4的教学项目:nan

蚁工厂 2026-05-05 09:28:08

huggingface出了一个官方的复刻DeepSeek-V4的教学项目:nanowhale地址:github.com/huggingface/nanowhale

nanowhale 是 Hugging Face 做的一个小型 DeepSeek-V4 架构复现实验项目,用约 1.1 亿参数实现了 MLA 注意力、MoE、Hyper-Connections、MTP 等关键组件,并提供从零预训练、SFT 微调、评测、聊天和上传 Hub 的完整流程。很适合用来学习和实验 DeepSeek-V4 风格模型架构。AI创造营How I AI

0 阅读:0
蚁工厂

蚁工厂

感谢大家的关注