面壁智能发布MiniCPM-V 4.6模型 13亿参数性能全球领先

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

面壁智能发布MiniCPM-V 4.6模型 13亿参数性能全球领先

热心网友时间：2026-05-14

转载

近日，端侧多模态大模型领域迎来一位实力强劲的新成员。面壁智能携手清华大学与OpenBMB开源社区，正式推出了新一代端侧多模态模型——MiniCPM-V 4.6。该模型虽仅有1.3B参数，体积轻巧，但其性能表现却一举跃升至全球同尺寸模型的领先位置。尤为关键的是，它仅需约6GB内存即可在终端设备上顺畅运行。在当前硬件成本高企的背景下，这无疑为多模态能力广泛嵌入智能汽车、移动设备等场景铺平了道路。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

面壁智能发布MiniCPM-V 4.6：1.3B参数登顶全球同尺寸榜首

性能表现：1.3B参数超越3B，同规格无出其右

MiniCPM-V 4.6的发布，堪称重新定义了十亿参数级别多模态模型的性能基准。

在权威评估平台Artificial Analysis的综合评分中，该模型获得了13分的高分。这一成绩不仅全面超越了阿里Qwen3.5-0.8B（10分）和谷歌Gemma4-E2B-it等竞品，更实现了越级挑战，超越了参数规模更大的Mistral 3 3B模型，整体能力已逼近Qwen3.5-2B的水平。用“以小搏大”来形容此次性能突破，恰如其分。

在具体任务层面，无论是通用图文理解、STEM数理逻辑推理，还是文档OCR识别与视频时序理解，MiniCPM-V 4.6的Instruct与Thinking两个版本，均在同等参数规模的模型中保持全面领先。可以说，在1B参数这个赛道上，它目前是综合能力最为突出的“全能型选手”。

运行效率：参数更大，速度更快

如果说性能登顶在预期之内，那么其在效率方面的表现，则有些“反直觉”：其参数规模大于Qwen3.5-0.8B，但推理速度反而更快。

测试数据提供了有力证明。在vLLM推理框架的基准测试中，MiniCPM-V 4.6的Token吞吐量达到了后者的1.5倍，而Token消耗量却仅为对方的2.5%左右。在Artificial Analysis的评测中，其1.3B非推理版本仅消耗约540万Token，这个数字是Qwen3.5-0.8B非推理版本的1/19，推理版本的1/43。对于提供SaaS服务的企业而言，这意味着同一张RTX 4090显卡，现在能够支撑过去1.5倍的并发请求，直接转化为显著的成本与效率优势。

在处理高分辨率图像时，其优势更为凸显。面对3132×3132的高清大图，模型的首字响应延迟仅约75.7毫秒，比Qwen3.5-0.8B快了2.2倍。更令人印象深刻的是，当图像分辨率激增49倍时，其延迟增长被严格控制在2.5倍以内。这条近乎平缓的延迟曲线意味着，无论用户上传的图像尺寸多大，交互体验都能保持流畅稳定，有效避免了卡顿感。

如此卓越的效率，源于两项核心的架构创新。

第一，是LLaVA-UHD v4架构。 这是面壁智能与清华大学联合自主研发的技术，其核心在于“早期压缩”策略——在视觉编码器（ViT）的内部处理早期阶段，即对冗余的视觉Token进行优化与压缩，而非等待全部编码完成后再行处理。这一创新直接将图像编码的计算量降低了55.8%，后续ViT层的计算开销更是节省了75%以上。

第二，是4倍与16倍混合视觉Token压缩模式。 不同于市面上多数模型固定采用单一压缩比率，MiniCPM-V 4.6为开发者提供了灵活选择：4倍压缩模式精度更高，适用于文档解析、密集文字识别等对准确性要求严苛的场景；16倍压缩模式速度更快，专为手机端实时交互与云端高并发API设计。一套模型，两种模式，让开发者在精度与速度之间无需再做艰难权衡。

端侧部署：6GB内存需求，全面覆盖三大移动系统

MiniCPM-V 4.6最核心的价值，在于其真正实现了“触手可及”的端侧部署。

仅需约6GB内存，即可在智能手机上流畅运行复杂的多模态任务。目前，模型已在GitHub和Hugging Face平台全面开源，并提供了Testflight测试版本，完整支持iOS、Android和HarmonyOS三大主流移动操作系统。试想一下，用户拿起手机拍摄一张照片，即可直接询问画面中的科学原理或物体信息，并在数秒内获得准确的离线回答——整个过程无需联网，没有云端Token费用，隐私与数据安全也得到更好保障。

为了进一步降低开发门槛，项目还提供了从模型微调到最终部署的完整工具链。该模型已适配ms-swift和LLaMA-Factory等主流微调框架，并支持vLLM、SGLang、llama.cpp、Ollama等多个高性能推理框架。同时，GGUF、BNB、GPTQ等多种量化版本也已准备就绪。对于开发者而言，仅凭一张RTX 4090级别的消费级显卡，就能完成全流程的微调与测试，极大加速了应用原型的开发迭代。

从技术研发到产业应用：MiniCPM系列的规模化进程

MiniCPM系列的成功并非一蹴而就。在此之前，面壁智能已将其在智能汽车、个人电脑、智能手机及智能家居等多个终端场景中实现了规模化落地，合作伙伴包括联想、吉利、上汽大众等数十家行业领军企业。尤其在汽车智能化领域，该系列模型已成功应用于部分车型的智能座舱系统，能够处理多轮自然对话、精准理解复杂用户指令并进行多模态环境感知。

此次MiniCPM-V 4.6的开源，可视为对端侧多模态能力的一次“普惠性”重大升级。从1.3B的紧凑参数设计到6GB的友好内存占用，从13分的顶尖评测成绩到1.5倍的推理吞吐提升，所有这些扎实的数据都指向一个清晰的结论：端侧多模态大模型，已经告别了“勉强可用”的早期阶段，正进化成为一种真正高效、实用且成本可控的生产力工具。它的广泛普及，或许会比我们预想的来得更快。

来源:https://www.elecfans.com/d/7930825.html

上一篇：国内最大规模Token采购项目开标金额达174亿元

下一篇：蚂蚁开源LingBot-VLA真机训练代码