这篇文章写得非常好,直接点明了罗福莉给小米的真正价值
1.一针见血,看透核心问题的能力
比如算力分配应该是 3:1:1
在解决 MOE 专家模型的路由问题上,投入最多的计算卡,投入训练阶段 3 倍的卡,防止 1T 以上的超大参数量导致崩溃
在过去大家深耕的预训练和后训练阶段,反而投入较少的卡,因为这些东西都已经到头了,甚至包括强化学习
2.小米通过挖这个关键人,拿到了 Deepseek 先进的组织方式
扁平化,跨职能,超高的人才密度……

这篇文章写得非常好,直接点明了罗福莉给小米的真正价值
1.一针见血,看透核心问题的能力
比如算力分配应该是 3:1:1
在解决 MOE 专家模型的路由问题上,投入最多的计算卡,投入训练阶段 3 倍的卡,防止 1T 以上的超大参数量导致崩溃
在过去大家深耕的预训练和后训练阶段,反而投入较少的卡,因为这些东西都已经到头了,甚至包括强化学习
2.小米通过挖这个关键人,拿到了 Deepseek 先进的组织方式
扁平化,跨职能,超高的人才密度……

评论列表
猜你喜欢
【171评论】【27点赞】
【36评论】【1点赞】
【28评论】【3点赞】
【122评论】【6点赞】
【8评论】【2点赞】
【39评论】【2点赞】
作者最新文章
热门分类
汽车TOP
汽车最新文章
飄凡塵*◎*