面包屑图标 当前位置: 首页
AI资讯
热点详情

MiniCPM-V 8B新版登顶Top2 GPT-4V小钢炮8G显存4070轻松推理

AI热点日报
AI热点日报时间:2026-05-31
热点解读

MiniCPM-Llama3-V2 58B模型登顶HuggingFace热度榜第二,综合性能超越GPT-4V和GeminiPro,OCR达SOTA,支持30+语言。量化后仅需8G显存,4070可推理,手机端6-8tokens s,图像编码加速150倍,幻觉率降至10 3%。

```html

时隔一个月,面壁智能旗下“小钢炮”MiniCPM 系列再度迎来重磅升级——MiniCPM-Llama3-V 2.5 8B 正式发布。作为端侧多模态模型领域的新标杆,此次推出的版本继承并强化了小钢炮系列的核心优势:支持高清图像识别(1344×1344 分辨率)以及卓越的 OCR 能力。在仅 8B 参数规模下,该模型依然实现了多项令人瞩目的技术突破。

  • 最强端侧多模态综合性能:超越 Gemini Pro、GPT-4V 等云端“巨无霸”模型
  • OCR 能力达到 SOTA 水平:180 万像素更高清,难图、长图、长文本均可精准识别
  • 量化后仅需 8GB 显存:在 RTX 4070 显卡上即可轻松推理,手机端能以 6‑8 Tokens/s 的速度高效运行
  • 图像编码速度提升 150 倍:首次在端侧实现系统级多模态加速
  • 支持 30 种以上语言

发布后,MiniCPM-Llama3-V 2.5 迅速登顶 Hugging Face 热度榜单 Top2,与 Meta、微软、谷歌等科技巨头的模型一同从全球 66 万模型中脱颖而出。截至目前,MiniCPM-V 系列下载量已超过 13 万,GitHub 星标突破 2K。

▲ 新版 MiniCPM-V 小钢炮再次登顶 Hugging Face 趋势榜单 Top2


自 OpenAI 发布 GPT-4V 以来,多模态大语言模型的发展日新月异。开源社区快速迭代,模型性能与参数规模之间呈现出类似摩尔定律的趋势,正在重塑整个技术格局(如图 1):达到 GPT-4V 水平所需的模型参数规模正随着时间推移逐步缩小。这或许可以被称为多模态大模型时代的“摩尔定律”。

▲ 图1. GPT-4V 级别模型参数规模逐渐缩小,终端算力逐渐增强

与此同时,手机、电脑等终端设备的算力也在持续提升。两个趋势叠加,推动多模态大模型全面走向端侧,拓展出更多应用场景。借助高效多模态训练技术,MiniCPM-V 系列推出了全新的 MiniCPM-Llama3-V 2.5。沿着多模态大模型的摩尔定律轨迹,该模型将此前需要 26B 参数才能达到的 GPT-4V 级别能力,压缩到了 8B。通过一系列终端优化技术,MiniCPM-Llama3-V 2.5 首次在端侧实现了 GPT-4V 级的多模态能力。

效果展示

MiniCPM-Llama3-V 2.5 的亮点可概括为以下几点:

  1. 领先的性能:在 8B 参数规模下,超越了 GPT-4V-1106、Gemini Pro 等主流商用闭源多模态大模型。
  2. 优秀的 OCR 能力:OCRBench 得分达到 725,超越 GPT-4o、GPT-4V、Gemini Pro、Qwen-VL-Max 等商用闭源模型,达到业界最优水平。
  3. 多语言支持:支持德语、法语、西班牙语、意大利语、俄语等 30 多种语言的多模态能力,多语言对话表现良好。
  4. 可信行为:在 Object HalBench 上的幻觉率降低至 10.3%,显著低于 GPT-4V-1106(13.6%),达到开源社区最佳水平。
  5. 高效部署:通过模型量化、CPU、NPU、编译优化等技术,实现高效的终端设备部署。

下面通过具体示例展示其实际能力。

首先,MiniCPM-Llama3-V 2.5 的 OCR 能力出色,可以对英文文章截图进行内容提取:

▲ 图2:中文长图理解样例

它对非常规长宽比的图像输入也能很好地理解,比如对手机长截图进行总结:

▲ 图3:中文长图理解样例

密集表格数据也能直接转化为对应的 Markdown 格式:

▲ 图4:中文表格转 Markdown 样例

复杂流程图同样不在话下,可以分点解释:

▲ 图5:英文复杂推理样例

为了更直观地展示效果,团队提供了一些在小米 14 Pro 上的录屏样例。比如,模型能够针对输入的食物营养结构图进行分析,并据此设计复杂的饮食计划:

▲ 图6:英文复杂推理实时样例(2 倍速播放)

高铁车票的信息提取和提问也毫无压力:

▲ 图7:中文 OCR 实时样例(2 倍速播放)

最后,多语言对话能力同样令人印象深刻:

▲ 图8:多语言对话样例(2 倍速播放)

实验结果

1. 多模态基础能力评测

▲ 表1:主流多模态基准下的评测结果

在一系列主流多模态数据集上,MiniCPM-Llama3-V 2.5 表现亮眼(表1)。OpenCompass 分数涵盖 MME、MMB、MMMU 等 11 个主流多模态数据集的综合指标,可作为总评价指标。在这项评测中,MiniCPM-Llama3-V 2.5 取得了最高的 65.1 分,超越了闭源模型 Gemini Pro 和 GPT-4V(2023.11.06)。

与其他三个基于 Llama-3 8B 的开源模型相比,MiniCPM-Llama3-V 2.5 的优势也很明显。以 LLaVA-NeXT Llama-3 8B 为例,MiniCPM-Llama3-V 2.5 在各项评测基准上均实现了 3 个点以上的提升。更值得注意的是,其视觉编码结果数量范围仅为 96‑960 tokens,远小于 LLaVA-NeXT 的 1728‑2880 tokens,计算开销大幅降低。

2. OCR 能力评测

▲ 表2:OCR 能力基准的评测结果

在场景文字理解方面,MiniCPM-Llama3-V 2.5 同样表现优异。从表2可以看到,它在 OCRBench 上取得了最优效果,在 TextVQA 和 DocVQA 上与 Gemini Pro、GPT-4V 的结果也颇具竞争力。

3. 多语言能力评测

如图9所示,与 Yi-VL-34B 相比,MiniCPM-Llama3-V 2.5 在多语言对话方面表现更优:

▲ 图9:多语言 LLaVABench 评测结果

终端优化

▲ 图10:手机芯片视觉编码效率(448×448 图片输入)和部署框架

与云端服务器不同,手机等终端设备的大模型部署受到有限内存(如 12‑16 GB)和较慢芯片处理速度(如 8 核 CPU)的限制。为了让多模态大模型在手机端运行更流畅,MiniCPM-Llama3-V 2.5 系统性地采用了模型量化、CPU、NPU、编译优化等高效加速技术。

如图10所示,CPU 是目前手机设备中最普及的芯片类型。为保证兼容性,MiniCPM-Llama3-V 2.5 主要使用 CPU 进行语言模型部分部署。通过 4 比特量化和 llama.cpp 框架的配合,实现了每秒 8‑9 tokens 的语言模型编码速度和每秒 3‑4 tokens 的解码速度

但手机端多模态大模型部署的图像编码方案仍极具挑战。如果不采取任何优化,一张 448×448 分辨率图片的编码通常需要 45 秒。经过手机端编译优化、显存整理等一系列优化,MiniCPM-Llama3-V 2.5 将 CPU 编码延迟降低到了约 5 秒。对于高通芯片的移动手机,它还首次将 NPU 加速框架 QNN 整合进 llama.cpp。经过系统优化后,多模态大模型端侧图像编码实现了 150 倍加速的显著提升(45 秒 → 0.3 秒)

▲ 图11:模型架构及视觉编码

模型构建

MiniCPM-Llama3-V 2.5 的模型架构和训练方式大致如下。

1. 模型架构

如图11所示,模型包含三个组成部分:(1) 视觉编码器:SigLIP-400M;(2) 压缩层:perceiver resampler 结构;(3) 语言模型:Llama-3 8B。

为应对输入图片的高分辨率和可变长宽比问题,模型采用了 LLaVA-UHD 论文提出的自适应视觉编码方法。每张输入图片会根据其大小和长宽比计算最优切片方式,每个切片再根据 ViT 的预训练分辨率进行调整,最后送入视觉编码器。

2. 模型训练

训练采用了多阶段方法,包括预训练、有监督微调和基于 AI 反馈的对齐训练。

预训练阶段的主要目标是利用大量网络图文对(约 500M)对齐视觉和语言部分。为提高训练效率,这一阶段固定了语言模型参数,仅对视觉部分进行训练。

监督微调阶段,使用 VQA、文档理解等多种高质量数据,来学习精准的多模态理解能力。同时,基于 VisCPM 提出的多模态能力跨语言泛化技术,仅通过轻量级的多语言指令微调,就完成了 30 多种语言的多模态能力泛化。

最后,采用 RLAIF-V 技术,通过基于 AI 反馈的对齐训练来进一步提高模型的可信回答能力。这一阶段,模型通过分而治之的思想,对不同描述进行 AI 打分,并基于分数高低构建偏好数据集,进行 DPO 优化。


总结

作为面壁小钢炮系列的最新模型,MiniCPM-Llama3-V 2.5 在主流评测基准上达到了 GPT-4V 级别的多模态综合性能,拥有出色的 OCR 能力、任意长宽比高清图理解能力、可信回答能力和多语言交互能力。通过一系列端侧优化技术,它可以在手机端高效运行。MiniCPM-Llama3-V 2.5 展示了端侧多模态大模型的巨大潜力。可以预见,在不久的将来,会有更多更强大的模型出现在用户移动端,提供可靠、安全的智能服务,提升生活和工作效率,惠及更多应用场景。

```
热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:MiniCPM-V 8B新版登顶Top2 GPT-4V小钢炮8G显存4070轻松推理要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/qianyanjishu/2424.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-05-31 16:42
微软Phi-3-vision多模态模型发布 4.2B参数小模型大潜力

微软发布42亿参数的Phi-3-vision多模态模型,支持文本与图像推理,专门针对图表和图解优化。在视觉推理、光学字符识别等任务上超越更大规模模型,兼顾性能与效率,适合本地部署,可广泛应用于边缘计算场景。

AI热点2026-05-31 16:41
QoderWake执行日志查看教程:任务追踪与历史复盘详解

从事任务回溯与异常排查的开发者都深有体会,最棘手的场景莫过于:系统出现故障后,翻遍所有记录仍找不到关键线索,只能凭借模糊记忆进行复盘。QoderWake在任务追踪领域提供了强有力的解决方案——它一次性集成了五条回溯路径,涵盖管理后台、执行轨迹、审计日志、自动复盘和移动端,足以覆盖绝大多数操作路径确认

AI热点2026-05-31 16:41
几招写出完美提示词第二篇让AI搜索工具秒懂你

近日,Yi-Large模型在LMSYS盲测中荣获全球第七、中文分榜第一,表现亮眼。万知平台新上线图片识别与回答分享功能,便捷用户。提示词写作时,运用明确词汇、拆分复杂问题、重复关键词等技巧,可显著提升AI回答质量。

AI热点2026-05-31 16:40
大模型不同精度显存占用对比与转换实践

llama-2-7b-hf在NVIDIAA40上,float16 bfloat16加载占用约12 55GB显存,float32约25 1GB。通过torch的half()、float()、bfloat16()函数转换精度,加载时可指定数据类型,显存随之变化。

延伸阅读