突发新闻:DeepSeek刚刚发布了Transformer架构的一项根本性改进。

梁鸿瑞 2026-01-01 20:20:26

突发新闻:DeepSeek刚刚发布了Transformer架构的一项根本性改进。论文《mHC: 流形约束超连接》提出了一种新的神经网络架构,旨在解决现有超连接 (HC) 架构中训练不稳定和可扩展性受限的问题。通过将残差连接空间投影到特定的流形上,mHC 恢复了恒等映射特性,并提高了效率和可扩展性。CEO梁文峰在作者名单上。

0 阅读:7
梁鸿瑞

梁鸿瑞

感谢大家的关注