[CV]《Accelerating Vision Transformers with Adaptive Patch Sizes》R Choudhury, J Kim, J Park, E Yang... [CMU & KAIST] (2025)
视觉Transformer加速新突破:自适应补丁大小(APT)
在计算机视觉领域,Vision Transformers (ViTs) 已成主流,但高分辨率图像往往导致输入序列过长,自注意力机制的二次方复杂度让训练和推理变得昂贵。传统ViT对所有图像区域一视同仁地切分成固定大小补丁,即使是均匀背景也消耗同等计算资源,这显然低效。受自然语言处理中自适应分词(如Byte-Pair Encoding)的启发,本文提出Adaptive Patch Transformers (APT),通过内容感知的自适应补丁大小显著提升效率。
>APT的核心原理:内容驱动的补丁分配
APT的关键洞见是:图像并非处处复杂。简单区域(如纯色背景)冗余高,可用大补丁表示;细节丰富的区域(如人脸或物体边缘)需小补丁保留信息。方法采用分层熵计算(entropy)作为度量:熵低(低信息量、高冗余)的区域分配更大补丁(如16x16扩展到64x64),从而减少总token数。
具体流程如下:
1. 分层补丁决策:从最大尺度(e.g., 64x64)开始,将图像按四叉树结构划分。计算每个补丁的像素强度熵(H = -∑ p_i log2 p_i),若低于阈值τ(e.g., 5.5),保留大补丁;否则细分到更小尺度,直至最小补丁(e.g., 16x16)。这确保了token数量动态调整,复杂图像token更多,简单图像更少。
2. 补丁嵌入聚合:大补丁先缩放到小补丁大小嵌入,再用卷积下采样子补丁嵌入,并通过零初始化MLP(受ControlNet启发)融合原始大补丁信息,避免初始性能损失。零初始化让模型渐进学习高分辨细节,仅需1个epoch微调即可恢复基线准确率。
3. 动态输入处理:token长度因图像而异,使用序列打包(sequence packing)和块对角注意力掩码(如FlashAttention支持),高效处理批次,无额外开销。
这种设计借鉴语言模型的自适应性,避免了固定合并比例的缺陷(如在纯白图像中过度合并或城市景观中信息丢失)。更重要的是,APT在输入层减少token,而非网络内部剪枝,实际加速更可靠,尤其在高分辨率和大模型上。
>实验验证:显著加速,无性能损失
论文在ImageNet分类、视觉问答(VQA)、目标检测和语义分割等多任务上验证APT。结果令人印象深刻:
- 图像分类(全微调):使用MAE预训练ViT,在336x336分辨率下,ViT-L吞吐量提升61%,ViT-H达86%;448x448下更高。准确率与基线持平,训练时间缩短29%-86%,FLOPs降至原1/4。
- 短微调(1 epoch):从已微调ImageNet模型起步,仅训1 epoch,ViT-H在336x336下准确率88.4%(基线88.5%),吞吐提升50%。优于随机掩码或仅缩放基线,提供最佳速度-准确 tradeoff。
- 下游任务:
- VQA(LLaVA模型):视觉token减23%,整体吞吐提升22%-26%,在VQAv2、GQA等基准上匹配或超基线(e.g., LLaVA-13B准确率从80.0%升至79.4%,但速度更快)。
- 目标检测(EVA-02,COCO 1536x1536):token减30%,mAP 62.07(基线62.28),支持窗口注意力,推理加速30%。
- 语义分割(ADE20K,512/640分辨率):token减28%-32%,mIoU 60.01(基线60.05),证明不牺牲像素级精度。
消融实验显示,零初始化MLP是关键,仅1 epoch即可“修复”性能;熵阈值τ=5.5是最佳权衡(更高阈值加速但准确掉落不可逆);无减token时APT有轻微开销,但实际减token后净加速20%以上。相比层级合并基线(如ToMe、EViT),APT在吞吐-准确图上全面领先,尤其在大模型和高分辨率场景。
可视化示例中,APT智能地将大补丁置于均匀背景(如蓝天、暗影),小补丁用于焦点物体(如鸟头或城市细节),图像复杂度决定总补丁数。这不仅高效,还在数据增强(如随机擦除)下进一步加速训练。
>思考与意义:迈向高效视觉AI
APT的创新在于将“自适应”从NLP移植到视觉,解决了ViT的计算瓶颈,让高分辨率任务(如医疗成像或自动驾驶)更实用。它可无缝应用于任何预训练ViT,仅需少量微调,极大降低计算预算——想想训练SOTA模型的碳足迹!然而,局限在于依赖手工熵阈值(未来可学自监督),暂不支持生成任务,且需高分辨率输入。总体而言,APT为高效ViT注入新活力,值得研究者和工程师关注,或许能推动视觉模型向更智能、绿色方向演进。
原论文链接:www.arxiv.org/abs/2510.18091










