CVPR 2025 线性视觉Transformer重构实现精度与效率平衡

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

CVPR 2025 线性视觉Transformer重构实现精度与效率平衡

热心网友时间：2026-05-20

转载

在图像分类、目标检测和语义分割等核心计算机视觉任务中，Transformer凭借其强大的全局特征建模能力，已成为主流技术架构。然而，其自注意力机制存在的二次计算复杂度问题，严重阻碍了其在手机、平板等移动设备上的高效部署。如何在资源受限的端侧设备上实现视觉Transformer的轻量化，同时保持其关键的全局上下文理解优势，是当前工业界与学术界共同关注的关键课题。

现有的移动端视觉Transformer优化方案，普遍面临效率与精度难以兼顾的挑战。一种常见思路是通过限制注意力范围来降低计算开销，但这会削弱模型捕捉长距离依赖关系的能力，导致性能显著下降。另一种方案采用局部操作与全局注意力堆叠的串行设计，但这种结构往往灵活性不足，计算效率提升有限，且难以克服线性注意力机制中因特征高熵性导致的token间干扰问题。最终，模型在移动端实时推理场景下，常难以同时满足高精度与低延迟的严苛要求。

图1. (a) 传统的堆叠式串行方案与 (b) 本文提出的非对称解耦式方法对比。后者将局部归纳偏置与长程依赖分别进行建模，并将线性注意力在通道维度上的二次计算开销显著降低。其中，局部细节通过深度卷积学习，而长程依赖则由线性注意力负责建模。

为了突破这一瓶颈，来自南洋理工大学、北京航空航天大学与合肥工业大学的研究团队提出了一种创新思路。他们摒弃了传统的渐进式优化方法，首次将局部细节感知与全局上下文建模这两个核心任务进行解耦，并将其视为可并行处理的独立子问题。基于这一“分而治之”的理念，团队设计了一个全新的、面向移动端的高效架构——CARE Transformer。

该工作的核心创新是“非对称特征解耦”机制。具体而言，模型不再要求所有特征通道都经过统一的注意力处理，而是将输入特征在通道维度上进行非对称划分。一部分通道被专门分配给线性注意力模块，用于高效建模长距离的全局依赖；另一部分通道则分配给深度卷积等轻量级操作，专注于提取局部细节和空间归纳偏置。这种设计巧妙地规避了串行架构的计算冗余，同时，通过针对性的通道分配，有效降低了线性注意力在通道维度上的二次计算成本。从而使得模型能够在降低计算复杂度的同时，完整保留对局部特征和全局上下文的关键信息捕捉能力。

然而，简单的特征拆分并不足以保证模型性能。如何让这两路并行处理的特征流有效交互与融合，实现优势互补，是更深层的挑战。为此，CARE Transformer引入了第二个关键创新：“动态记忆单元与双交互模块”。

动态记忆单元充当了一个跨层级的特征缓存与传递枢纽，能够动态地保留并整合网络浅层中的有价值信息。双交互模块则执行两步精细化的特征融合：首先，促进并行的局部特征流与全局特征流进行深度交互，实现信息互补；随后，将当前层融合后的特征，与记忆单元中存储的跨层级历史特征进行二次融合与增强。这一系列操作在未显著增加计算负担的前提下，极大地提升了模型的特征表征丰富度和判别能力。

因此，CARE Transformer的精髓在于“解耦”之后的“协同交互”。它构建了一套完整的“分工-协作”体系，在保障移动端部署效率的同时，充分挖掘了不同性质特征之间的互补潜力，实现了效率与性能的更好平衡。

图2. CARE Transformer 与近期典型的移动端友好型模型在精度、延迟和计算量（GMACs）上的平衡关系对比。图中标记越大代表计算量越多。“SA”、“LA”和“GNN”分别代表基于自注意力、线性注意力和图神经网络的方法。

性能验证与未来展望

为验证该方法的有效性，研究团队在ImageNet-1K图像分类、ADE20K语义分割以及COCO目标检测等多个标准数据集上进行了全面实验。结果表现优异。以ImageNet-1K分类任务为例，CARE Transformer在iPhone 13移动设备上，仅需1.1毫秒或2.0毫秒的推理延迟，即可分别达到78.4%和82.1%的Top-1分类准确率。在计算能力更强的iPad Pro上，达到同等精度水平的延迟时间进一步缩短至0.8毫秒和1.5毫秒。这些实验数据充分证明，该模型在精度、速度和计算开销之间取得了极具竞争力的平衡。

CARE Transformer的成功实践表明，移动端视觉模型并非必须在“全局建模能力”与“部署效率”之间做出妥协。通过更智能地组织与融合局部信息、全局依赖以及跨层特征，基于线性注意力的架构完全能够在真实的边缘计算与端侧AI场景中发挥出巨大应用潜力。

目前，该研究团队已公开了项目的论文预印本与完整的开源代码。团队表示，后续工作将主要围绕两个方向展开：一是引入神经架构搜索技术，自动化地探索CARE机制下的最优模型配置，以进一步挖掘性能上限；二是尝试将CARE这一高效设计范式拓展至参数规模更大的视觉模型乃至多模态大模型中，验证其通用性与可扩展性。这为下一代高效、轻量化的视觉基础模型的发展，提供了一个富有前景的新思路。

来源:https://www.51cto.com/article/840442.html

上一篇：贾跃亭宣布FF EAI机器人出货12台并升级Super One车型800V架构

下一篇：龙虾之父Claude账号被封原因揭秘近百万人热议是故意还是失误