数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

MiniCPM-V 8B新版登顶Top2 GPT-4V小钢炮8G显存4070轻松推理

AI热点日报时间：2026-05-31

热点解读

MiniCPM-Llama3-V2 58B模型登顶HuggingFace热度榜第二，综合性能超越GPT-4V和GeminiPro，OCR达SOTA，支持30+语言。量化后仅需8G显存，4070可推理，手机端6-8tokens s，图像编码加速150倍，幻觉率降至10 3%。

```html

时隔一个月，面壁智能旗下“小钢炮”MiniCPM 系列再度迎来重磅升级——MiniCPM-Llama3-V 2.5 8B 正式发布。作为端侧多模态模型领域的新标杆，此次推出的版本继承并强化了小钢炮系列的核心优势：支持高清图像识别（1344×1344 分辨率）以及卓越的 OCR 能力。在仅 8B 参数规模下，该模型依然实现了多项令人瞩目的技术突破。

最强端侧多模态综合性能：超越 Gemini Pro、GPT-4V 等云端“巨无霸”模型
OCR 能力达到 SOTA 水平：180 万像素更高清，难图、长图、长文本均可精准识别
量化后仅需 8GB 显存：在 RTX 4070 显卡上即可轻松推理，手机端能以 6‑8 Tokens/s 的速度高效运行
图像编码速度提升 150 倍：首次在端侧实现系统级多模态加速
支持 30 种以上语言

发布后，MiniCPM-Llama3-V 2.5 迅速登顶 Hugging Face 热度榜单 Top2，与 Meta、微软、谷歌等科技巨头的模型一同从全球 66 万模型中脱颖而出。截至目前，MiniCPM-V 系列下载量已超过 13 万，GitHub 星标突破 2K。

▲ 新版 MiniCPM-V 小钢炮再次登顶 Hugging Face 趋势榜单 Top2

自 OpenAI 发布 GPT-4V 以来，多模态大语言模型的发展日新月异。开源社区快速迭代，模型性能与参数规模之间呈现出类似摩尔定律的趋势，正在重塑整个技术格局（如图 1）：达到 GPT-4V 水平所需的模型参数规模正随着时间推移逐步缩小。这或许可以被称为多模态大模型时代的“摩尔定律”。

▲ 图1. GPT-4V 级别模型参数规模逐渐缩小，终端算力逐渐增强

与此同时，手机、电脑等终端设备的算力也在持续提升。两个趋势叠加，推动多模态大模型全面走向端侧，拓展出更多应用场景。借助高效多模态训练技术，MiniCPM-V 系列推出了全新的 MiniCPM-Llama3-V 2.5。沿着多模态大模型的摩尔定律轨迹，该模型将此前需要 26B 参数才能达到的 GPT-4V 级别能力，压缩到了 8B。通过一系列终端优化技术，MiniCPM-Llama3-V 2.5 首次在端侧实现了 GPT-4V 级的多模态能力。

效果展示

MiniCPM-Llama3-V 2.5 的亮点可概括为以下几点：

领先的性能：在 8B 参数规模下，超越了 GPT-4V-1106、Gemini Pro 等主流商用闭源多模态大模型。
优秀的 OCR 能力：OCRBench 得分达到 725，超越 GPT-4o、GPT-4V、Gemini Pro、Qwen-VL-Max 等商用闭源模型，达到业界最优水平。
多语言支持：支持德语、法语、西班牙语、意大利语、俄语等 30 多种语言的多模态能力，多语言对话表现良好。
可信行为：在 Object HalBench 上的幻觉率降低至 10.3%，显著低于 GPT-4V-1106（13.6%），达到开源社区最佳水平。
高效部署：通过模型量化、CPU、NPU、编译优化等技术，实现高效的终端设备部署。

下面通过具体示例展示其实际能力。

首先，MiniCPM-Llama3-V 2.5 的 OCR 能力出色，可以对英文文章截图进行内容提取：

▲ 图2：中文长图理解样例

它对非常规长宽比的图像输入也能很好地理解，比如对手机长截图进行总结：

▲ 图3：中文长图理解样例

密集表格数据也能直接转化为对应的 Markdown 格式：

▲ 图4：中文表格转 Markdown 样例

复杂流程图同样不在话下，可以分点解释：

▲ 图5：英文复杂推理样例

为了更直观地展示效果，团队提供了一些在小米 14 Pro 上的录屏样例。比如，模型能够针对输入的食物营养结构图进行分析，并据此设计复杂的饮食计划：

▲ 图6：英文复杂推理实时样例（2 倍速播放）

高铁车票的信息提取和提问也毫无压力：

▲ 图7：中文 OCR 实时样例（2 倍速播放）

最后，多语言对话能力同样令人印象深刻：

▲ 图8：多语言对话样例（2 倍速播放）

实验结果

1. 多模态基础能力评测

▲ 表1：主流多模态基准下的评测结果

在一系列主流多模态数据集上，MiniCPM-Llama3-V 2.5 表现亮眼（表1）。OpenCompass 分数涵盖 MME、MMB、MMMU 等 11 个主流多模态数据集的综合指标，可作为总评价指标。在这项评测中，MiniCPM-Llama3-V 2.5 取得了最高的 65.1 分，超越了闭源模型 Gemini Pro 和 GPT-4V（2023.11.06）。

与其他三个基于 Llama-3 8B 的开源模型相比，MiniCPM-Llama3-V 2.5 的优势也很明显。以 LLaVA-NeXT Llama-3 8B 为例，MiniCPM-Llama3-V 2.5 在各项评测基准上均实现了 3 个点以上的提升。更值得注意的是，其视觉编码结果数量范围仅为 96‑960 tokens，远小于 LLaVA-NeXT 的 1728‑2880 tokens，计算开销大幅降低。

2. OCR 能力评测

▲ 表2：OCR 能力基准的评测结果

在场景文字理解方面，MiniCPM-Llama3-V 2.5 同样表现优异。从表2可以看到，它在 OCRBench 上取得了最优效果，在 TextVQA 和 DocVQA 上与 Gemini Pro、GPT-4V 的结果也颇具竞争力。

3. 多语言能力评测

如图9所示，与 Yi-VL-34B 相比，MiniCPM-Llama3-V 2.5 在多语言对话方面表现更优：

▲ 图9：多语言 LLaVABench 评测结果

终端优化

▲ 图10：手机芯片视觉编码效率（448×448 图片输入）和部署框架

与云端服务器不同，手机等终端设备的大模型部署受到有限内存（如 12‑16 GB）和较慢芯片处理速度（如 8 核 CPU）的限制。为了让多模态大模型在手机端运行更流畅，MiniCPM-Llama3-V 2.5 系统性地采用了模型量化、CPU、NPU、编译优化等高效加速技术。

如图10所示，CPU 是目前手机设备中最普及的芯片类型。为保证兼容性，MiniCPM-Llama3-V 2.5 主要使用 CPU 进行语言模型部分部署。通过 4 比特量化和 llama.cpp 框架的配合，实现了每秒 8‑9 tokens 的语言模型编码速度和每秒 3‑4 tokens 的解码速度。

但手机端多模态大模型部署的图像编码方案仍极具挑战。如果不采取任何优化，一张 448×448 分辨率图片的编码通常需要 45 秒。经过手机端编译优化、显存整理等一系列优化，MiniCPM-Llama3-V 2.5 将 CPU 编码延迟降低到了约 5 秒。对于高通芯片的移动手机，它还首次将 NPU 加速框架 QNN 整合进 llama.cpp。经过系统优化后，多模态大模型端侧图像编码实现了 150 倍加速的显著提升（45 秒 → 0.3 秒）。

▲ 图11：模型架构及视觉编码

模型构建

MiniCPM-Llama3-V 2.5 的模型架构和训练方式大致如下。

1. 模型架构

如图11所示，模型包含三个组成部分：(1) 视觉编码器：SigLIP-400M；(2) 压缩层：perceiver resampler 结构；(3) 语言模型：Llama-3 8B。

为应对输入图片的高分辨率和可变长宽比问题，模型采用了 LLaVA-UHD 论文提出的自适应视觉编码方法。每张输入图片会根据其大小和长宽比计算最优切片方式，每个切片再根据 ViT 的预训练分辨率进行调整，最后送入视觉编码器。

2. 模型训练

训练采用了多阶段方法，包括预训练、有监督微调和基于 AI 反馈的对齐训练。

预训练阶段的主要目标是利用大量网络图文对（约 500M）对齐视觉和语言部分。为提高训练效率，这一阶段固定了语言模型参数，仅对视觉部分进行训练。

监督微调阶段，使用 VQA、文档理解等多种高质量数据，来学习精准的多模态理解能力。同时，基于 VisCPM 提出的多模态能力跨语言泛化技术，仅通过轻量级的多语言指令微调，就完成了 30 多种语言的多模态能力泛化。

最后，采用 RLAIF-V 技术，通过基于 AI 反馈的对齐训练来进一步提高模型的可信回答能力。这一阶段，模型通过分而治之的思想，对不同描述进行 AI 打分，并基于分数高低构建偏好数据集，进行 DPO 优化。

总结

作为面壁小钢炮系列的最新模型，MiniCPM-Llama3-V 2.5 在主流评测基准上达到了 GPT-4V 级别的多模态综合性能，拥有出色的 OCR 能力、任意长宽比高清图理解能力、可信回答能力和多语言交互能力。通过一系列端侧优化技术，它可以在手机端高效运行。MiniCPM-Llama3-V 2.5 展示了端侧多模态大模型的巨大潜力。可以预见，在不久的将来，会有更多更强大的模型出现在用户移动端，提供可靠、安全的智能服务，提升生活和工作效率，惠及更多应用场景。

```

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：MiniCPM-V 8B新版登顶Top2 GPT-4V小钢炮8G显存4070轻松推理要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/qianyanjishu/2424.html

ai 人工智能

上一篇：用Kimi进行复杂数据趋势分析与文件分析方法

下一篇：可灵AI新手从零开始快速上手详细指南教程

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。