小模型崛起成为AI新战场
过去一段时间,大模型行业经历了一场风向的微妙转变。
八月初,腾讯官宣“混元系列小模型”落地,不久后,阿里也跟进了两款通义Qwen3-4B模型。
起初,这看起来像是国内大厂之间例行的技术展示。但几天后,剧情有了新的发展——大洋彼岸的OpenAI也加入了战局,破天荒地开源了gpt-oss-20B等两款模型,同样将焦点放在了小参数规模上。
头部玩家们如此整齐划一的举动,释放出一个清晰的信号:在追逐大规模集群训练与部署的主流叙事之外,小模型正重新回到舞台的中央。
小模型重回大众视野
“小模型”并非一个新概念。但这次回归的,并非停留在学术论文里的构想,而是真正瞄准终端落地、具备实用价值的小模型。
回顾2020年GPT-3发布之前,整个行业的研究重心确实集中在参数规模相对较小的模型上。然而,那时的许多成果更多是实验室里的“盆景”,距离大规模商业化应用尚有距离。
GPT-3及其带来的ChatGPT浪潮,彻底改变了游戏规则。它成功地从学术界破圈,成为了人工智能领域一个史诗级的商业化产品。资本的涌入,将AI的发展从“大炼模型”的时代,快速推进到了“炼大模型”的时代。
从2021年到2024年,行业的技术路线一度可以概括为五个字:大力出奇迹。堆数据、拼算力、通过提示工程和后期训练来挖掘大模型潜力,成为了毋庸置疑的主流路径。小模型的概念,则逐渐被边缘化。
转折的伏笔早已埋下。去年底,OpenAI前首席科学家Ilya Sutskever曾发出预警:“数据压榨到头了。”行业开始普遍意识到,高质量数据的增长并非无限,而算力需求却永无止境。
于是,进入今年,大模型领域的玩家出现了显著分化。一部分头部企业继续追随OpenAI的脚步,深耕千亿乃至万亿参数的基础模型;另一部分资源有限的玩家,则开始将重心转向应用层的开发与落地。
然而,在这两条主流路径之外,还有一小批持有“非共识”观点的探索者,将目光坚定地投向了小模型。不过,如今他们重新拾起的小模型,与ChatGPT出现前那些停留在论文里的版本已截然不同。它们是专为终端设备设计、能够真正部署运行的模型,也因此获得了更精准的命名:端侧小模型,或称端侧智能。
崭露头角的端侧小模型公司们
今年以来,端侧小模型已不再只是概念,开始在实际场景中崭露头角。
此前的世界人工智能大会(WAIC)上,西门子MindSphere的展台吸引了众多专业观众。大家围观的,是一个体积小于50MB、部署在终端的小模型。它能够实时预测现场三台冲压设备的潜在故障,并及时发出警报。
在传统的生产车间里,冲压机床往往要到“累到趴窝”才会被工人察觉,随之而来的便是整条生产线的停摆检修,造成巨大的人力与财力损失。因此,故障预警功能至关重要。面对这类高度具体、对实时性要求极高的场景,大模型即便算力再强、结构再精妙,也难有用武之地。而一个精准、轻量的端侧小模型,却能轻松胜任。
这仅仅是终端小模型应用场景的冰山一角。在这条看似狭窄的赛道上,一些初创公司已经跑在了前面,例如北京的AI公司面壁智能。
之所以关注到这家企业,源于其今年五月完成的一轮融资。在DeepSeek引发广泛关注之后,国内大模型领域的融资环境堪称严峻。一方面,行业共识认为大模型技术已进入平台期;另一方面,有珠玉在前,说服投资人为何要投资另一家大模型公司变得异常困难。
但面壁智能却成功获得了持续的资金支持。与多位业内人士交流后,一个关键原因浮出水面:它很早就锚定并All in了“小模型”这条差异化路径。
据悉,就在近期,面壁智能全体员工收到了一封特别的内部信。借公司成立三周年之际,决策层向团队深入阐释了一个核心问题:为何公司从大模型切入,却最终将全部筹码压在了端侧小模型上?
这封邮件透露的底层思考,即便从外部视角审视,也能为理解一家AI初创公司的战略抉择提供宝贵参考。
根据信中的描述,面壁智能在创立初期(2022年)是百分百坚定于大模型方向的,其成立时间甚至早于DeepSeek。公司创始团队源自清华大学自然语言处理实验室,在创业前曾主力参与北京智源研究院的“悟道”大模型项目。
按理说,面壁智能赶上了早期红利。但分析来看,国内AI风险投资存在一定的路径依赖,更青睐那些“有成功经验的连续创业者”。这使得技术背景扎实但创业经验相对早期的面壁团队,并未立即成为资本的宠儿,其早期天地更多是靠自身技术实力拼搏出来的。
在2022至2023年间,面壁智能持续深耕大模型,当时的愿景是打造“平民化”的大模型,一度被认为是国内与DeepSeek愿景最相似的公司之一。团队也取得了切实的成绩,成功训练出多个百亿、千亿参数规模的模型。
真正的战略转折点发生在2023年。随着Meta的Llama模型开源,大量资本涌入,一年内国内大模型创业公司激增至十几家。面壁智能敏锐地意识到,千亿级大模型的训练烧钱速度过快,且商业化落地路径漫长。于是,公司果断调整航向,决定转向训练参数规模更小、算力需求更低,但追求更强性能的端侧模型。
转型之初,挑战重重。一方面,端侧智能在当时仍属前沿探索,方向并不明朗;另一方面,市场上也不乏干扰。例如,后来DeepSeek V3等模型展现出的“以少胜多”的能力,也曾让团队内部产生过思考:如果坚持原有路线,是否也有机会在大模型领域攀上新的高峰?(后续的市场发展证明,面壁的果断转型是明智的)
但彼时,公司资源已全面投向端侧小模型,失去了回头验证“低成本训练强大模型”其他可能性的机会。好在,专注于小模型并非歧路。面壁团队很快在这一赛道找到了感觉,并形成了自己独特的技术思路。
想成为端侧小模型的“开拓者”,并不容易
从时间线上看,面壁智能探索小模型的步伐,比文章开头提到的腾讯“混元”和阿里“通义Qwen3”更早。在端侧智能的布局上,它几乎领先了行业近一年半的时间。
这段提前量,让面壁智能积累了一系列成果。
首先是模型层面。面壁将其端侧模型系列命名为“小钢炮”MiniCPM,并已完成了多次迭代。最新开源的MiniCPM-V4.0,其中8B版本能在极低的稀疏度下运行,支持端侧长文本处理和复杂推理;而0.5B版本则能适配非常丰富的终端场景,甚至在手机端也能持续、稳定运行且控制发热。结合此前在视觉与实时语音对话方面的优化,面壁的端侧模型已能在iPad上实现流畅的多模态直播交互。这意味着其应用场景得到了极大拓展,从麦当劳的点餐机器人、政务服务中心的服务机器人,到儿童陪伴教育玩具,都能胜任。
其次是学术与开源影响力。上个月,国际顶级期刊《自然·通讯》正式收录了面壁智能关于MiniCPM-V模型的研究成果。该系列中包含一个在OpenCompass评测中超越特定版本GPT-4V的80亿参数模型。在开源社区,MiniCPM系列是2024年Hugging Face平台上全球下载量最大、最受欢迎的中国大模型,截至目前全平台累计下载量已突破1000万次,体现了其技术影响力和社区认可度。
当然,比起技术和学术成果,更直观的检验标准还是现实世界的落地应用。社交媒体上常有一个疑问:为何都说大模型能力超群,却鲜少看到令人惊艳的落地产品?
一个核心答案在于部署条件。大模型的强大能力,依赖于云端高性能服务器的支撑。而我们日常生活中高频使用的手机、平板、汽车等设备,都属于算力有限的“边端算力场景”。这恰恰是众多小模型厂商的主战场。
以面壁智能为例,与需要调用云端超强算力的大模型不同,其“小钢炮”系列模型能在消费级显卡上流畅运行。这意味着,手机、个人电脑、汽车、机器人、工厂环境,乃至一些对数据安全有高要求的涉密政府部门,都可以进行本地化部署。“不仅大幅降低了模型部署的硬件门槛,更极大地丰富了应用场景的可能性。”这在面壁智能的内部信中也得到了印证。
信中提到,在汽车场景,面壁智能围绕智能座舱,发布了以MiniCPM模型为核心的纯端侧汽车助手CPMGO。据了解,这是业界首个完全运行在车端、不依赖云端的智能座舱解决方案。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
零一万物迎来三位新高管 李开复详解一把手工程
零一万物近期完成核心高管团队调整。前百度高管沈鹏飞加盟,统筹国内ToB与ToG业务拓展。同时擢升赵斌强、宁宁为副总裁,分别负责AI模型研发与国际业务咨询。此次布局旨在协同市场、技术与国际三大方向,全面升级企业级大模型解决方案能力,以支撑其“AllintoB”与“一把手工程”战略的落地推进。
MiniMax高级研究总监钟怡然半年前离职独家消息
MiniMax高级研究总监钟怡然半年前离职。他曾主导关键项目MiniMax-01的研发,其创新的LightningAttention架构显著提升了模型的长上下文处理效率。公司对其过往贡献表示感谢并送上祝福。
爱诗科技B+轮融资1亿元 ARR突破4000万美元
爱诗科技完成B+轮1亿元融资,年度经常性收入突破4000万美元。旗下PixVerse平台全球用户超一亿,月活用户达1600万,商业化后收入年增超十倍。其自研视频大模型迭代迅速,通过Agent助手降低创作门槛,并借助社交模板驱动全球增长。平台API生态发展强劲,单月调用量翻倍,推动AI视频从娱乐向产业应用升级。
太初元碁联合产业链伙伴推出AI落地北京方案
在2025人工智能计算大会上,30余家企业联合发布“北京方案”,旨在通过芯片厂商、大模型公司及行业应用方的全链路协作,构建开放标准,整合国产芯片与主流大模型,夯实自主技术底座。太初元碁展示了高性能计算与AI融合的解决方案,并以案例说明AI正从认知引擎转向智能行动主体。
小模型崛起成为AI新战场
AI行业风向正从小模型转向。腾讯、阿里和OpenAI相继推出小参数模型,显示小模型重回舞台中心。如今的小模型专为终端部署设计,称为端侧智能,能在手机等设备本地运行,应用于故障预警、智能座舱等场景。凭借低算力需求和本地化优势,小模型正开辟大模型之外的新战场。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

