[CV]《AcceleratingVisionTransformerswi - 科技资讯(老涛资讯网)

[CV]《Accelerating Vision Transformers with Adaptive Patch Sizes》R Choudhury, J Kim, J Park, E Yang... [CMU & KAIST] (2025)

视觉Transformer加速新突破：自适应补丁大小（APT）

在计算机视觉领域，Vision Transformers (ViTs) 已成主流，但高分辨率图像往往导致输入序列过长，自注意力机制的二次方复杂度让训练和推理变得昂贵。传统ViT对所有图像区域一视同仁地切分成固定大小补丁，即使是均匀背景也消耗同等计算资源，这显然低效。受自然语言处理中自适应分词（如Byte-Pair Encoding）的启发，本文提出Adaptive Patch Transformers (APT)，通过内容感知的自适应补丁大小显著提升效率。

>APT的核心原理：内容驱动的补丁分配

APT的关键洞见是：图像并非处处复杂。简单区域（如纯色背景）冗余高，可用大补丁表示；细节丰富的区域（如人脸或物体边缘）需小补丁保留信息。方法采用分层熵计算（entropy）作为度量：熵低（低信息量、高冗余）的区域分配更大补丁（如16x16扩展到64x64），从而减少总token数。

具体流程如下：

1. 分层补丁决策：从最大尺度（e.g., 64x64）开始，将图像按四叉树结构划分。计算每个补丁的像素强度熵（H = -∑ p_i log2 p_i），若低于阈值τ（e.g., 5.5），保留大补丁；否则细分到更小尺度，直至最小补丁（e.g., 16x16）。这确保了token数量动态调整，复杂图像token更多，简单图像更少。

2. 补丁嵌入聚合：大补丁先缩放到小补丁大小嵌入，再用卷积下采样子补丁嵌入，并通过零初始化MLP（受ControlNet启发）融合原始大补丁信息，避免初始性能损失。零初始化让模型渐进学习高分辨细节，仅需1个epoch微调即可恢复基线准确率。

3. 动态输入处理：token长度因图像而异，使用序列打包（sequence packing）和块对角注意力掩码（如FlashAttention支持），高效处理批次，无额外开销。

这种设计借鉴语言模型的自适应性，避免了固定合并比例的缺陷（如在纯白图像中过度合并或城市景观中信息丢失）。更重要的是，APT在输入层减少token，而非网络内部剪枝，实际加速更可靠，尤其在高分辨率和大模型上。

>实验验证：显著加速，无性能损失

论文在ImageNet分类、视觉问答（VQA）、目标检测和语义分割等多任务上验证APT。结果令人印象深刻：

- 图像分类（全微调）：使用MAE预训练ViT，在336x336分辨率下，ViT-L吞吐量提升61%，ViT-H达86%；448x448下更高。准确率与基线持平，训练时间缩短29%-86%，FLOPs降至原1/4。

- 短微调（1 epoch）：从已微调ImageNet模型起步，仅训1 epoch，ViT-H在336x336下准确率88.4%（基线88.5%），吞吐提升50%。优于随机掩码或仅缩放基线，提供最佳速度-准确 tradeoff。

- 下游任务：

- VQA（LLaVA模型）：视觉token减23%，整体吞吐提升22%-26%，在VQAv2、GQA等基准上匹配或超基线（e.g., LLaVA-13B准确率从80.0%升至79.4%，但速度更快）。

- 目标检测（EVA-02，COCO 1536x1536）：token减30%，mAP 62.07（基线62.28），支持窗口注意力，推理加速30%。

- 语义分割（ADE20K，512/640分辨率）：token减28%-32%，mIoU 60.01（基线60.05），证明不牺牲像素级精度。

消融实验显示，零初始化MLP是关键，仅1 epoch即可“修复”性能；熵阈值τ=5.5是最佳权衡（更高阈值加速但准确掉落不可逆）；无减token时APT有轻微开销，但实际减token后净加速20%以上。相比层级合并基线（如ToMe、EViT），APT在吞吐-准确图上全面领先，尤其在大模型和高分辨率场景。

可视化示例中，APT智能地将大补丁置于均匀背景（如蓝天、暗影），小补丁用于焦点物体（如鸟头或城市细节），图像复杂度决定总补丁数。这不仅高效，还在数据增强（如随机擦除）下进一步加速训练。

>思考与意义：迈向高效视觉AI

APT的创新在于将“自适应”从NLP移植到视觉，解决了ViT的计算瓶颈，让高分辨率任务（如医疗成像或自动驾驶）更实用。它可无缝应用于任何预训练ViT，仅需少量微调，极大降低计算预算——想想训练SOTA模型的碳足迹！然而，局限在于依赖手工熵阈值（未来可学自监督），暂不支持生成任务，且需高分辨率输入。总体而言，APT为高效ViT注入新活力，值得研究者和工程师关注，或许能推动视觉模型向更智能、绿色方向演进。

原论文链接：www.arxiv.org/abs/2510.18091