清华DECO架构破解边缘AI难题手机大模型实现高效能低功耗

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

清华DECO架构破解边缘AI难题手机大模型实现高效能低功耗

热心网友时间：2026-05-15

转载

2026年5月，一项由清华大学计算机科学与技术系及人工智能研究院主导的前沿研究以预印本形式发布，论文编号为arXiv:2605.10933。该研究精准聚焦于AI大模型部署的核心挑战：如何让参数量庞大的先进大语言模型，在算力与内存均受限的手机、平板电脑等边缘设备上实现高效、流畅的本地化运行？

清华大学的AI研究者，让手机上的大模型又快又聪明——DECO架构如何破解边缘设备的

当用户与手机内置的AI助手进行自然对话时，其背后支撑“思考”的模型参数量往往高达数百亿甚至千亿级别。这好比一座藏书量惊人的超级图书馆：知识储备越丰富，模型能力越强，但随之而来的计算开销与存储需求也呈指数级增长。边缘设备作为AI技术触达用户的“最后一公里”，普遍缺乏数据中心级别的强大算力与充裕内存，却承载着让AI真正无缝融入日常生活、保障数据隐私与低延迟交互的关键期望。

长期以来，研究界致力于寻找一种理想的平衡方案：如何让大模型在保持卓越智能表现的同时，在计算复杂度和存储占用上变得足够“轻量化”。清华大学团队提出的DECO（DEnse COmparable Sparse MoE）架构，正是针对这一目标而设计的创新解决方案。它旨在回答一个此前颇具争议的学术问题：在模型总参数量和训练数据总量严格对等的约束条件下，一个采用稀疏激活机制的混合专家模型，其性能能否真正媲美甚至超越传统的密集模型？

实验证明，答案是肯定的。

一、边缘AI的“不可能三角”困境及其挑战根源

我们延续图书馆的比喻来理解这一挑战。传统的密集模型（Dense Model）如同每次回答查询时，都必须翻阅馆内所有藏书，无论问题涉及家常菜谱还是量子物理。这种方式确保了知识调用的全面性，但带来了巨大的计算负担，尤其当模型规模（图书馆藏书量）极大时，其开销在资源受限的边缘端几乎无法承受。

因此，混合专家模型（Mixture of Experts, MoE）应运而生。它将庞大的模型（图书馆）划分为多个专业领域（专题分区），每次处理输入（查询）时，仅动态调用最相关的少数几个专家（分区），其余部分保持静默。这便是“稀疏激活”的核心思想，能显著降低单次推理的计算量。

然而，经典的MoE方案在部署至手机等边缘设备时暴露出新瓶颈。虽然每次推理仅激活一小部分参数（只翻阅少数分区的书），但模型的全部参数（整座图书馆的所有藏书）仍需完整加载到设备的有限内存中。这意味着MoE模型的总参数量往往是同等能力密集模型的数倍，对于内存容量紧张的移动设备而言，仅存储这些参数就已压力巨大，更遑论由此带来的高延迟与能耗问题。

于是，一个经典的“不可能三角”困境浮现：高性能、低计算开销、小存储占用，三者难以在边缘设备上同时实现。密集模型性能强但计算成本高；大规模MoE计算量低但存储需求大；经过激进压缩的模型存储小了，性能却往往严重受损。DECO架构的目标极为清晰：在总参数量与密集模型保持完全一致的前提下，通过更精巧的稀疏激活设计，实现同等乃至更优的性能表现——相当于在不扩建图书馆物理空间（不增加存储）的前提下，通过一套智能化的图书管理与检索系统，达到与翻阅全部藏书相同的服务质量。

这一设定极具挑战性，因为它摒弃了以往部分研究中MoE可能享有的潜在优势。过去许多声称MoE性能超越密集模型的工作，往往允许MoE使用更多的训练数据。而DECO的研究框架要求训练数据量也完全一致，从而在绝对公平的条件下验证其架构的有效性。

二、DECO架构解析：构建更智能的“专家分工”系统

DECO的架构创新主要围绕三个核心层面展开：路由决策机制（Router）、专家模块（Expert）的优化设计，以及对模型稀疏度的精准动态控制。

路由器设计：实现从“静态指派”到“动态感知”的进化

传统MoE通常采用Top-K路由策略，如同一个刻板的前台：无论用户问题的复杂程度如何，每次都固定地指派用户前往K个专家专区。对于简单问题，这可能造成资源浪费；对于复杂问题，又可能显得支持不足。更重要的是，这种路由决策在模型训练过程中是“不可微分”的，无法通过标准的梯度反向传播算法进行优化。

DECO创新性地采用了基于ReLU函数的动态路由机制。ReLU函数如同一个“仅允许正向信号通过”的智能过滤器：对于每个输入，路由器计算其对每位专家的“相关性分数”，若分数为正，则激活该专家；若为负或零，则完全忽略。这使得每个输入实际激活的专家数量是完全动态、由输入内容本身复杂度决定的。同时，由于ReLU函数是可微分的，整个路由决策过程得以融入端到端的训练流程，从而不断自我优化。

在此基础上，DECO引入了另一项关键创新：可学习的专家级缩放因子。在DECO中，除了被动态调用的路由专家，还存在一个始终参与计算的“共享专家”。问题在于，这位“通才”与各位“专才”的输出数值范围可能存在显著差异，直接融合可能导致信息失衡。DECO的解决方案是为每一位路由专家配备一个独立的、可在训练中自动学习的缩放系数，相当于为每位专家设置了一个个性化的“增益调节旋钮”。实验数据清晰表明，不同专家的输出强度差异巨大，这种个性化的调节机制至关重要，其效果显著优于采用固定或全局统一缩放因子的方案。

专家模块优化：确保专家稳定高效地“工作”

如果说路由器决定了“找哪位专家”，那么专家模块则决定了“专家如何工作”。DECO在此进行了两项至关重要的改进。

首先是提出了NormSiLU激活函数。传统MoE常使用SwiGLU等门控激活函数，但在与ReLU路由机制结合时，研究团队发现了两个严重问题：一是在训练初期，被激活的专家比例会失控地急剧上升，远超预设的稀疏目标；二是即使专家被激活，其输出幅度也会在训练中逐渐衰减至近乎为零，导致“激活却无贡献”。

NormSiLU通过两步归一化处理来解决上述问题。第一步是“专家间均值归一化”，确保所有专家的激活信号围绕零点分布，有效防止输出消失；第二步是“专家内RMS归一化”，稳定每个专家内部激活值的尺度，避免激活比例失控。实验证明，这两步归一化缺一不可，完整的NormSiLU在训练稳定性和最终模型性能上均表现最佳。巧妙的是，在模型推理阶段，第一步归一化可以预先计算并固化，几乎不引入额外开销。

第二个改进是选择了“非门控MLP专家”结构。在深度学习领域，包含复杂乘法交互的“门控MLP”（如SwiGLU）通常被认为性能更优。但DECO团队发现，在ReLU路由的框架下，情况恰好相反。门控结构产生的剧烈梯度波动会与动态路由决策产生强耦合，导致训练过程极不稳定，激活比例剧烈震荡。相比之下，结构更简单的非门控MLP专家则表现出平滑得多的训练曲线。实验结果明确显示，在使用ReLU路由时，非门控版本的性能显著优于门控版本。值得注意的是，对于使用固定Top-K路由的模型（如DeepSeek-V3），两者差异微乎其微。这充分说明，最优的专家结构高度依赖于所采用的路由机制。

三、精准的稀疏度控制：自动化寻找性能与效率的最佳平衡点

将模型的激活比例稳定控制在预设目标值（例如20%）附近，是一项技术挑战。DECO设计了一套自适应稀疏度正则化机制来实现这一精准调控。

正则化本质上是一种对模型行为的“约束”或“惩罚”。DECO使用“路由器熵”作为惩罚指标，该指标度量了路由决策的分散程度。激活的专家越多，路由分布越均匀，熵值就越高。通过对高熵状态施加惩罚，模型被引导趋向于更稀疏（激活专家更少）的激活模式。

创新的核心在于，这个惩罚的强度是动态、自适应调整的。规则直观而有效：如果当前批次的平均激活比例高于目标值，系统就自动小幅增强惩罚力度；如果低于目标值，则自动小幅减弱惩罚。这个过程在每一次训练迭代后自动执行，就像一个智能恒温器，持续地将激活比例调节并稳定在目标值附近，全程无需人工干预调参，也有效避免了因惩罚强度设置不当导致的训练崩溃或效率低下问题。

四、性能验证：DECO在多项测试中表现如何？

研究团队在四个不同的参数规模（Small约1.1亿，Medium约2.4亿，Large约5.3亿，XLarge约11.8亿）上进行了系统性评估，对比基线包括标准密集Transformer、采用Top-P路由的MoE、DeepSeek-V3风格的MoE等多种主流架构。所有对比均在总参数量和训练数据量完全相同的公平条件下进行。

评估涵盖两大方面：语言建模能力（以困惑度PPL衡量）和常识推理能力（七项常用基准测试的平均准确率）。结果显示，在所有四个规模上，DECO的困惑度均低于或持平于密集模型，下游任务准确率也达到或实现了超越。以Medium规模为例，DECO在两项核心指标上均略微领先于密集模型。更具说服力的是，在仅激活约20%参数的情况下，DECO全面超越了其他使用相同激活比例和参数总量的MoE基线模型。

研究还深入探索了关键超参数的影响规律：

激活比例：模型性能随激活比例提高呈单调上升趋势，但不同规模的模型达到与密集模型相当性能所需的“临界”比例不同。Small模型约需15%，而Medium模型仅需约10%。这暗示随着模型规模进一步扩大，实现可比性能所需的激活比例有望继续降低。
共享专家大小：当共享专家的参数量是单个路由专家的1到2倍时，模型性能达到最佳。过大的共享专家（如3到4倍）反而会因挤占路由专家的数量与多样性，导致整体性能下降。
专家粒度：更细的专家粒度（即专家更小、总数更多）通常能带来更好的性能，这一趋势在中大规模模型上表现得更为明显。

五、从理论优势到实际加速：硬件层面的性能提升

理论上的计算节省能否转化为真实的推理速度提升？为此，研究团队为DECO架构开发了定制的推理加速计算内核，并在两款具有代表性的硬件平台上进行了测试：高性能桌面显卡RTX 4090和面向边缘计算的Jetson AGX开发套件。

结果令人振奋。在RTX 4090上，经过深度优化的DECO解码速度达到了每秒224.63个token，是未优化基准速度的2.58倍。在更贴近真实边缘部署场景的Jetson AGX上，加速效果更为显著：推理速度从基准的14.77 token/秒大幅提升至44.32 token/秒，加速比达到约3倍。这有力证明了DECO不仅在算法层面节省了计算量，更能通过软硬件协同优化，实质性地提升边缘设备上的大模型推理速度。

六、理论洞察：为何稀疏MoE有望追平密集模型？

研究团队在讨论部分提出了一个富有启发性的观点。传统观念认为密集模型“充分”利用了所有参数，但近期多项研究（包括该团队的早期工作）揭示，对于使用SwiGLU等激活函数的标准密集模型，在处理每个输入时，真正做出显著贡献的神经元通常仅占总数量的30%到40%，其余大部分神经元的激活值接近于零，处于“静默”或“待机”状态。

从这个视角看，密集模型本身已经是一种隐式的、固化的稀疏MoE系统。既然它实际工作的有效参数也只有一小部分，那么一个经过精心设计、能够精准动态激活同等比例参数的显式稀疏MoE，理论上完全有潜力用相同的参数总量实现同等的功能。DECO架构正是朝着“更精准、更高效的激活”这一目标迈出的关键一步。

另一个有趣的发现是，DECO实现“密集可比性”的能力在一定程度上依赖于训练数据的多样性。在使用混合了代码、数学、百科、对话等多种类型的数据集时，DECO在各个规模上都能达到或超越密集模型；而在相对单一的网页文本数据集上，小规模DECO的困惑度会略逊于密集模型（尽管其在下游任务准确率上仍能持平）。这似乎表明，多样化的数据分布更能激发稀疏MoE“按领域分工协作”的架构优势。

总而言之，DECO的核心贡献可以概括为：在不增加模型“参数总量”（藏书总量）的前提下，通过一套更智能的“专家分工与调度”制度（图书馆智能管理系统），使其服务效率与质量追平了需要“翻阅所有书架”的传统密集模式。

这项研究最直接的应用前景在于，它使得未来手机等终端设备上的本地AI助手，在无需占用庞大存储空间的前提下，具备与当今强大云端模型相媲美的理解与生成能力，同时响应速度还能获得数倍提升，这已不再是遥不可及的愿景。研究团队透露，已在着手开发产品级的、可直接部署于边缘端的DECO模型，并积极探索其在监督微调、人类反馈强化学习等后续阶段的适配优化方案。

当然，一些开放性问题仍有待探索：当模型规模扩展至百亿乃至千亿参数时，DECO实现性能可比性所需的最低激活比例会下降至何种水平？在不同语言、不同专业领域的数据分布下，其架构优势的普适性如何？这些问题的答案，有望在不久的将来随着更多研究的深入而逐步揭晓。

常见问题解答 (Q&A)

Q1：DECO模型与普通MoE模型的核心区别是什么？为何说它更适合手机等边缘设备部署？

A：普通MoE模型虽然通过稀疏激活降低了单次计算量，但其模型总参数量通常是同等能力密集模型的好几倍，这对手机有限的存储空间构成了巨大压力。DECO架构的关键突破在于，它在总参数量与密集模型保持完全一致的严格条件下实现了稀疏激活，因此不会额外增加存储负担。同时，其配套的专用硬件加速内核在Jetson AGX这类边缘计算设备上实现了约3倍的推理速度提升，真正在存储占用、推理速度和模型性能三者间取得了卓越平衡。

Q2：NormSiLU是什么？为什么标准的SiLU激活函数在DECO架构中直接使用会存在问题？

A：NormSiLU是DECO为专家模块专门设计的增强型激活函数，它在标准SiLU函数之前增加了两步关键的归一化处理。研究发现，直接将标准SiLU与ReLU路由机制结合会导致两个突出问题：一是训练初期被激活的专家比例极易失控飙升，需要施加极强的正则化惩罚来压制，而这会损害模型的学习能力；二是专家模块的输出幅度会在训练过程中衰减至接近零，导致即使被路由选中也几乎不做贡献。NormSiLU通过引入专家间均值归一化和专家内RMS归一化，同步解决了训练稳定性和专家输出有效性的问题。

Q3：DECO是如何自动控制模型激活比例的？是否需要复杂的人工调参？

A：DECO采用了一套全自动的自适应稀疏度正则化机制。系统在训练过程中持续监控实际的平均激活比例，并将其与预设的目标值（例如20%）进行比较。若当前比例高于目标，则自动小幅增强对“路由器熵”的惩罚力度；若低于目标，则自动小幅减弱惩罚。这一调节过程在每一次训练迭代后自动执行，确保模型的激活比例在整个训练周期中能够自动、平稳地收敛并稳定在目标值附近，完全无需研究人员进行繁琐的手动调参。

来源:https://www.techwalker.com/2026/0515/3187124.shtml

上一篇：淘天金码奖揭晓20位顶尖工程师引领AI原生技术实践

下一篇： Anthropic估值超越OpenAI 年化收入半年激增四倍