DeepSeek与面壁智能大模型技术路径深度解析

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

DeepSeek与面壁智能大模型技术路径深度解析

热心网友时间：2026-05-16

转载

大模型赛道经过两年高速发展，行业格局已呈现清晰分化。当前参与者主要沿着三条路径演进：一部分企业仍聚焦于大规模基座模型的参数竞赛；另一部分在算力约束下转向应用层，加速商业化进程；而第三类探索者，则致力于解决一个更核心的命题——如何在有限资源下，训练出性能更强、效率更高的模型。

如今，即便是追求参数规模的第一类厂商，也在积极寻求高效解决方案。OpenAI推出GPT-4o mini切入轻量级市场，Meta、微软、谷歌、阿里等巨头也纷纷布局Llama 3.1-8B、Phi系列、Gemma 2、Qwen 2.5等小型化模型，便是明证。行业共识在于，算力增长存在物理上限，且参数规模与模型性能并非线性正比关系。若参数倍增带来的能力提升有限，大模型整体发展速度将面临瓶颈。

OpenAI或许能以千亿级参数达到GPT-4的性能，但其他厂商可能需要投入更庞大资源才能勉强追赶。试图单纯依靠堆叠算力与参数来超越GPT-5，对绝大多数玩家而言既不经济，也不现实。因此，深耕应用场景成为许多公司的务实选择。而那些坚守基座模型研发的团队，则将研究重点转向“参数效率”——如何最大化每个参数的价值，这被视为模型训练的终极方向之一。目前，模型参数的潜力远未被充分挖掘。

在“高效训练”这条赛道上，国内创业公司面壁智能与深度求索（DeepSeek）凭借其高效且开源的技术路线迅速崛起，甚至在海外开发者社区也获得了广泛赞誉。《经济学人》杂志曾将二者并称为中国最具创新力的大模型公司。如今，在国内大模型创业生态中，除了备受关注的“六小龙”，面壁与DeepSeek这两支生力军也已强势加入竞争，形成了“6+2”的多元格局。

一个值得关注的现象是，国内的技术突破常先在海外引发热议。DeepSeek去年凭借极具成本优势的DeepSeek-V2一举成名，其最新发布的V3模型更令硅谷技术圈惊叹。面壁智能则曾因MiniCPM-Llama3-V 2.5模型被海外团队套壳抄袭事件引发关注，其后又因其专注端侧设备的独特战略而受到业界重视。两家公司技术实力获得海内外认可，其核心团队均拥有深厚学术背景：面壁核心成员多源自清华大学NLP实验室，DeepSeek也广泛吸纳清华、北大等顶尖高校的杰出人才。

然而，同属“高效”阵营，双方在技术路径与战略聚焦上存在显著差异。

首先，在模型稀疏化方案上，DeepSeek选择了从头训练混合专家模型。对于云端超大规模模型服务，MoE架构确实是当前较优选择，能在扩展参数规模的同时控制计算成本。但MoE对资源受限的端侧设备并不友好。为此，面壁提出了更适配终端设备的稀疏化方案，不仅在MiniCPM-S系列中引入了自研稀疏训练方法，还创新性地提出了“可配置基础模型”这一新型类脑稀疏架构。

其次，两者的优化目标不同。DeepSeek的高效，是一套高度定制化、面向云端大集群训练与服务的极致技术体系，其MoE与多头潜在注意力技术深度耦合，核心目标是通过云服务最大化处理用户请求。而面壁的优化则聚焦于边缘计算与端侧算力场景，追求在单台设备上实现服务的高效性，推动模型本地化部署与运行。

再次，能力侧重点有所区别。DeepSeek在高效训练领域成就突出，而面壁则在高效推理，尤其是端侧推理方面积累了深厚经验。事实上，高效推理正是模型能否成功部署至手机等终端设备的关键挑战，而这恰恰是面壁早期切入并持续深耕的赛道。

「高效」问题何解？

近日，以“大模型界拼多多”著称的DeepSeek发布了DeepSeek-V3模型。其在多项基准测试中的表现，超越了Qwen2.5-72B和Llama 3.1 405B等开源模型。更引人注目的是其训练效率：仅用2048块H800 GPU就实现了这一性能。作为对比，训练Llama 3 405B消耗了16384块H100。

这再度激发了行业对高效训练的热情。无限制的“烧钱”竞赛并非可持续之道。数据显示，DeepSeek-V3的总训练成本约为557.6万美元，耗时280万GPU小时。而GPT-4o的训练成本据估算高达1亿美元，Llama 3 405B则耗费了3080万GPU小时。

提升基座模型的效率是行业核心命题，而稀疏化技术（如MoE）是主流方向之一。它能在扩大模型参数量的同时，让实际计算量远小于同规模的稠密模型，这在国内算力资源普遍受限的背景下，几乎是必然选择。

DeepSeek选择的路径是从零开始训练MoE模型。这种方式训练难度更大，但能避免一些潜在问题。例如，通过复制现有模型神经元来构建MoE的方法，可能导致专家之间知识重叠、权重冗余，无法充分发挥MoE的潜力。从头训练则自由度更高，有望逼近MoE架构的理论上限。当然，这套方案主要服务于云端。

对于端侧，MoE未必是最佳答案。面壁给出的解题思路是另一种稀疏化方案。去年，面壁在MiniCPM-S系列中引入了自研的稀疏化技术，通过激活函数替换和带约束的稀疏感知训练，能将Llama等模型的稀疏度提升至近90%，在基本保持模型性能的同时显著降低推理开销。相比之下，某些MoE方案可能会对模型效果产生明显影响。

去年底，面壁团队进一步提出了“可配置基础模型”架构。与MoE相比，CFM从更本质的层面覆盖了从预训练到后训练的全过程模块化。它基于一个发现：大模型在预训练中会像人脑一样，自发形成功能分化的神经元模块，分别擅长语言、数学、代码等不同任务，且每次计算只激活相关模块。CFM正是将大模型拆分为预训练产生的“涌现模块”和后训练产生的“定制模块”，使得模型构建可以像搭积木一样，通过模块的检索、组合与更新来实现复杂能力。

事实上，面壁是国内最早探索稀疏激活技术的团队之一。早在2021年6月，由面壁智能创始人刘知远牵头的“悟道·文源”项目就发布了千亿参数MoE模型CPM-2。同年，团队发表论文《MoEfication》，提出将稠密模型转化为等参数量的MoE模型，同样能实现大幅推理加速，证明了仅使用原模型10%-30%的参数即可保留95%的性能。

刘知远曾表示，创立面壁的初衷就是希望降低大模型的使用门槛。因此，团队早期就致力于降低模型压缩、微调等环节的成本，并始终沿着“降本增效”的路径探索。例如，面壁曾用仅2.4B参数的MiniCPM模型，实现了对标Llama 2 13B模型的性能。这种“以小搏大”的路径证明，当参数潜力被充分激发，小模型通过高效训练完全可能达到更优性能，这也为寻找更大规模模型的最优解提供了思路。

回到两家公司的路径差异。DeepSeek在云端超大规模模型中融合MoE与多头潜在注意力技术，使得模型能以更大的批次处理数据，减少单次请求的实际运算量，从而降低云端API的推理成本。有行业分析指出，其技术体系高度定制化，MoE与MLA及底层基础设施强绑定，整体是针对大集群训练与服务的云端极致优化。

而面壁的优化矛头则指向边端算力场景，追求单设备服务的高效性。其通过训练技术优化提升模型的“知识密度”，让更小的参数战胜更大的模型，并使MiniCPM系列能够直接在手机等终端设备上本地运行。在端侧场景的解决方案上，DeepSeek目前尚未涉足。

值得一提的是，关于模型性能随规模增长的“缩放定律”正面临数据和算力上限的挑战，甚至被质疑可能失效。面壁团队曾致力于在同等条件下实现更优的缩放曲线，如今则在探索其他规律。刘知远发现，大模型行业存在一种类似“摩尔定律”的现象：随着数据、算力、算法的协同演进，实现特定能力所需的参数规模在快速下降。例如，2020年GPT-3用1750亿参数达到的能力，到2024年初仅需24亿参数即可实现。这意味着模型的“能力密度”在不断提升。

基于此，面壁团队提出了“大模型密度定律”——模型的能力密度随时间呈指数级增长。这里的“能力密度”定义为，达到某个参考模型性能所需的有效参数大小与实际参数大小的比率。根据这一定律，可以推导出多个重要推论：实现相同能力所需的参数规模大约每3.3个月下降一半；模型推理和训练开销随时间迅速下降；模型小型化揭示了端侧智能的巨大潜力；模型存在由密度倍增周期决定的“有效期”等。

端侧如何胜云侧？

这套通过高效优化将模型做小的逻辑，自然而然地指向了端侧部署的广阔前景。从全球算力分布看，OpenAI、谷歌等巨头部署了庞大的云端算力集群，但全球超过80亿台手机中的芯片，构成了一个不可忽视的“长尾”算力池。事实上，手机中很多场景的计算并不都需要上云，本地处理往往是更高效、更可靠的选择。

刘知远对此有一个形象的比喻：明明一个13B模型的能力可以用一个2B的模型来实现，并且能在端侧跑得飞快，何必非要联网、发送请求到云端呢？大模型是计算密集型任务，从可持续发展和实际落地的角度看，端侧算力显然是一片尚未充分释放的蓝海。因此，MiniCPM所代表的端侧高效模型，很可能代表着未来的一个重要方向。毕竟，不是所有需求都需要动用GPT-4级别的能力，很多时候GPT-3级别的模型就已足够。

自MiniCPM-V系列开始，面壁便持续聚焦于解决端侧多模态模型的问题。近期，其又推出了全新的MiniCPM-o 2.6模型。据官方介绍，该模型仅80亿参数，不仅在视觉能力上进行了大幅提升，如强大的OCR、可信行为、多语言支持和视频理解，还引入了实时语音对话和多模态直播等新功能。它支持双语实时语音对话，声音可配置，并能实现情绪语速控制、端到端语音克隆、角色扮演等趣味交互，首次支持在iPad等端侧设备上进行多模态直播。

MiniCPM-o 2.6全面对标了GPT-4o的“全模态实时流式视频理解+高级语音对话”能力，支持视频、语音、文本输入及语音、文本输出，并具备了人类级别的低延迟实时交互体验。然而，GPT-4o并未部署在端侧，其网络延迟、服务器带宽及高并发下的可靠性仍是潜在隐忧。

与GPT-4o相比，MiniCPM-o 2.6的一个独特优势在于，它能感知并理解除人声之外的背景音，例如撕纸、倒水、金属碰撞等声音。这一点，目前大多数部署在云端的大模型还难以做到。

此外，面壁特别强调了其“真正”的视频大模型能力。通用人工智能不仅关乎大语言模型，其能力应涵盖推理、记忆、规划以及与外界环境的交互。而交互本质上是多模态的，需要深刻理解图像、视频和声音。

MiniCPM-o 2.6能够持续对实时视频和音频流进行建模，感知用户提问之前的画面和声音，这种方式更贴近人眼的自然视觉交互。相比之下，市场上一些宣称支持实时视频理解的模型或产品，实际上只是在用户提问后才对视频进行静态抽帧分析，无法捕捉提问前的上下文情境，更像是一个“照片大模型”。

实现这些技术突破，背后主要依靠三条路径：一是端到端全模态流式架构，通过模块化设计灵活构建多模态能力，并以端到端方式联合学习，支撑更高的能力上限；二是低延迟模态并发技术，通过时分复用等技术实现流式编码与低延迟响应；三是端到端全模态流式学习，让模型能在视频中观察环境，进行社会角色扮演，为未来驱动具身智能体参与社会活动打下基础。

面壁已将端侧模型的技术迭代推向了新高度。但需要明确的是，将模型做小解决高效性问题只是第一步，小模型并不完全等同于端侧模型。模型要成功部署在终端，硬件的发展同样至关重要。

目前，端侧模型面临内存、功耗、算力三大硬件瓶颈。例如，Apple曾指出，一个70亿参数的半精度模型完全加载到终端需要超过14GB的DRAM空间。Meta也测算过，一部满电约5000焦耳的iPhone，在每秒生成10个token的速度下，仅支持与一个7B模型对话不足2小时。

不过，行业的发展也带来了乐观信号。一方面，终端芯片性能在快速提升，最新芯片已能支持百亿参数模型运行；另一方面，模型训练技术也在进步，两三百亿参数的模型也能达到GPT-3.5的水平。关键问题在于如何将芯片能力与模型训练高效衔接，这需要深度的软硬件协同优化。面壁智能首席研究员韩旭表示，这方面的技术已不是根本障碍，更多是等待产业时机成熟。

务实的理想主义者

当前，不少团队将实现AGI作为终极目标或核心卖点。但就像计算机的发展史一样，造出更强大的计算机固然重要，而让计算机变得廉价、普及，从而让整个社会受益，则需要兼顾应用与普惠。面壁所做的，正是贡献这其中的一部分。

面壁对AGI的看法，更像是一群“务实的理想主义者”。他们认为，AI最终是服务于人的工具。从计算机科学的视角看，AI的目标是让计算机更智能、更具理解能力。思考如何让AI更高效，从而将人从重复性劳动中解放出来，才是更值得关注的问题。

在刘知远看来，如果按照OpenAI的规划，五年内实现超级智能，仍有太多关键问题亟待解决，“缩放预测”是其中之一，“超级对齐”更是核心挑战——即当模型在某个任务上超越人类后，如何确保其继续安全、可控地提升。而一味追赶GPT-4或许只是一个参考，跟随OpenAI不一定是最正确的选择。面壁在未来不会局限于单一的“缩放定律”，更不会把某个单一问题视为全部。换言之，实现AGI必须坚持自身独特的技术路线与价值思考。

来源:https://www.leiphone.com/category/ai/c0NiJU4c0eGcEB1C.html

上一篇：朱哲清解析RL智能体架构：AI产品的骨骼与神经设计

下一篇：香港大学李弘扬谈2025具身智能闭环系统发展前景