Qwen团队开源了FlashQLA:一个基于TileLang实现的高性

蚁工厂 2026-04-29 14:23:48

Qwen团队开源了 FlashQLA : 一个基于 TileLang 实现的高性能线性注意力算子库。这是一个面向大模型长上下文场景的底层计算优化技术。FlashQLA 将 GDN Chunked Prefill 的前向和反向 进行了合理的算子融合与性能优化,在 NVIDIA Hopper 上实现多场景相较于 FLA triton Kernel 2-3× 前向加速 和 2× 反向加速。对于预训练场景和端侧 agentic 推理效率提升明显。AI创造营

0 阅读:0
蚁工厂

蚁工厂

感谢大家的关注