Qwen团队开源了 FlashQLA : 一个基于 TileLang 实现的高性能线性注意力算子库。这是一个面向大模型长上下文场景的底层计算优化技术。FlashQLA 将 GDN Chunked Prefill 的前向和反向 进行了合理的算子融合与性能优化,在 NVIDIA Hopper 上实现多场景相较于 FLA triton Kernel 2-3× 前向加速 和 2× 反向加速。对于预训练场景和端侧 agentic 推理效率提升明显。AI创造营

Qwen团队开源了 FlashQLA : 一个基于 TileLang 实现的高性能线性注意力算子库。这是一个面向大模型长上下文场景的底层计算优化技术。FlashQLA 将 GDN Chunked Prefill 的前向和反向 进行了合理的算子融合与性能优化,在 NVIDIA Hopper 上实现多场景相较于 FLA triton Kernel 2-3× 前向加速 和 2× 反向加速。对于预训练场景和端侧 agentic 推理效率提升明显。AI创造营

猜你喜欢
【7评论】【2点赞】
【1点赞】
【6评论】【3点赞】
【3评论】【1点赞】
作者最新文章
热门分类
科技TOP
科技最新文章