开源模型小钢炮登场！10B多模态屠榜，性能超越巨型系统20倍

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

开源模型小钢炮登场！10B多模态屠榜，性能超越巨型系统20倍

热心网友时间：2026-01-26

转载

智东西
作者程茜
编辑李水青

智东西1月20日报道，今日下午，阶跃星辰开源多模态模型Step3-VL-10B。该模型参数量为10B，在视觉感知、逻辑推理、数学竞赛以及通用对话等一系列基准测试中均达到同规模SOTA水平。

阶跃星辰的多项测评显示，Step3-VL-10B的性能可以媲美甚至超越规模大10-20倍的开源模型，如GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B以及闭源旗舰模型，如Gemini 2.5 Pro、Seed-1.5-VL。

这一轻量级模型的性能表现，也意味着手机、电脑、工业嵌入式设备也可以运行GUI操作、复杂文档解析、高精度计数等复杂多模态推理任务。

从技术层面看，Step3-VL-10B的性能突破得益于三个关键设计，分别是高质量多模态语料库上进行统一预训练、缩放多模态强化学习、并行协调推理机制。

目前，阶跃星辰已开源Step3-VL-10B系列的Base模型和Thinking模型。

Hugging Face开源地址：https://huggingface.co/collections/stepfun-ai/step3-vl-10b

ModelScope开源地址：https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B

体验地址：https://huggingface.co/spaces/stepfun-ai/Step3-VL-10B

技术报告链接：https://arxiv.org/pdf/2601.09668

一、从GUI感知到视觉识别和推理，Step3-VL-10B思路清晰

阶跃星辰在最新公众号里放出了Step3-VL-10B在多模推理能力方面的真实案例。

首先是关于摩尔斯编码的推理，可以看到模型的思考过程思路清晰，先拆解字母再逐个查表，最后拼接，流程正确，并且对大部分字母如S、T、E、F、U、N的定位和编码描述准确。

其次是GUI感知能力，模型需要识别标签页中以章节开头.tex结尾的文件标签，可以看到其思考过程采用了识别标签、排除非目标、统计数量的步骤进行了准确分析，并有效规避了干扰选项。

第三个是关于图推理的案例，模型需要在连线非常复杂的图片中准确识别中长度最短的图有几条，从思考过程可以看到，其先确认了最小权重的边长度是1，然后再统计所有权重为1的边。

二、拿下开源SOTA，数学竞赛测试题超94分

Step3-VL-10B具备三大核心亮点：

视觉感知精度更高：在同参数量级中展现出顶尖的识别与感知精度，研究人员为其引入PaCoRe（并行协调推理）机制，模型在复杂计数、高精度OCR及空间拓扑理解等高难度任务上的可靠性提升。

深层逻辑推演与长程推理：得益于规模化强化学习（RL）的持续迭代，Step3-VL-10B在10B规模上能应对竞赛级数学难题、真实编程环境、视觉逻辑谜题。

端侧Agent交互：基于海量GUI（图形用户界面）专用预训练数据，模型能够精准识别并操作复杂界面。

阶跃星辰公开的多模态基准测试结果显示，Step3-VL-10B是10B参数类别中最强大的开源模型。

具体来看，在多模态推理能力上，Step3-VL-10B在部分测试集上超越了GLM-4.6V、Qwen3-VL等模型，其性能优于10倍至20倍大的模型。

数学能力方面，该模型在AIME 25/24等数学竞赛测试题上得分超过94分，这意味着其在逻辑严密性上甚至优于许多千亿级模型。

2D、3D空间推理能力上，模型在BLINK上表现出66.79%的涌现式空间意识，在All-Angles-Bench上达到57.21%，意味着该模型在具身智能应用方面具有强大的潜力。

最后是编程能力，在真实、动态编程环境下，Step3-VL-10B超越GLM-4.6V、Qwen3-VL等模型。

此外，该模型的开源主页显示，研究人员在Qwen3VL-8B相关的基准测试中出现了不准确数据，例如AIME、HMMT、LCB，目前正在修复。这些错误是由于其在大规模评估过程中max_tokens设置错误造成，他们将重新运行测试，并在下一版技术报告中提供修正后的数据。

三、从感知到推理双提升，三大关键设计加持

该模型的论文提到，Step3-VL-10B的性能突破得益于三个关键设计：

一是在高质量多模态语料库上进行统一预训练：研究人员采用单阶段、完全解冻的训练策略，在1.2T token的多模态语料库上进行训练，重点关注两大基础能力：推理和感知，例如通用知识和教育中心任务等推理能力，定位、计数、OCR和GUI交互等感知能力。

通过联合优化感知编码器和Qwen3-8B解码器，STEP3-VL-10B建立了内在的视觉-语言协同效应。

二是缩放多模态强化学习：通过一个严格的后训练流程解锁了前沿能力，该流程包括两阶段监督微调（SFT）以及超过1400次的强化学习迭代，结合可验证奖励（RLVR）和人类反馈（RLHF）。

三是并行协调推理机制：研究人员采用并行协调推理（PaCoRe），支持推理阶段的动态算力扩展。通过并行探索多个感知假设并进行多维证据聚合，该机制显著提升了模型在竞赛级数学、复杂OCR识别、精准物体计数及空间拓扑推理中的准确度。

阶跃星辰的最新公众号提到，得益于“三位一体”架构，Step3-VL-10B证明智能水平并不完全取决于参数规模。这也意味着：世界一流的多模态能力有望以更低成本、更少算力获得；与此同时，过去主要集中在云端超级智能将逐步向端侧下沉，推动终端走向“主动理解与可执行交互”。

结语：Step3-VL-10B或成端侧AI新选择

从Step3-VL-10B的实测可以看出，该模型凭借10B轻量化参数体量，通过高质量多模态语料统一预训练、千余次强化学习迭代及并行协调推理机制，实现了对超大规模模型的跨级性能追赶。

并且具体到GUI交互、精准计数、竞赛级数学推理等任务，该模型也展现出较大应用潜力，未来有望降低在工业质检、本地文档分析、基层医疗辅助等场景的部署门槛。

来源:https://www.163.com/dy/article/KJOK3CE8051180F7.html

上一篇： Poe是什么平台？一文详解APP内使用所有AI模型

下一篇：解码AGI：陈天桥MiroMind创业始末与季峰离职实况

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

洛克王国绿色命运之钥获取攻略与详细步骤

洛克王国VIP扭蛋机具体位置与获取方法

光遇2026年520发布会爆料内容全解析

洛克王国S2赛季异色精灵盒子查看与使用指南

洛克王国城堡守护者具体位置与寻找攻略

星辰变归来神兽获取攻略新手快速入手指南

洛克王国宠物医院地址查询与位置导航指南

星辰变归来时装系统详解新手入门穿搭攻略

阴阳师2026年520兑换码领取方法与最新福利一览

星辰变归来境界系统详解与修炼攻略

漫蛙漫画防走失网页链接

日本宝可梦卡牌遭恶意破坏抵制黄牛行为引关注

三国志将星闪耀零氪能玩吗微氪玩家体验与氪金程度解析

少女前线2追放维尔德强度评测技能解析与培养攻略

客官里面请手游氪金指南与零氪金新手攻略

东离剑游纪手游抽卡机制与角色获取攻略详解

客官里面请手游深山探险全流程攻略与资源获取详解

镭明闪击手游哨所掩体高效布局与实战部署攻略

宝可梦冠军手游Mega进化种族值与能力数值全解析

地下城之光手游装备搭配与职业流派加点全攻略

漫蛙漫画防走失网页链接

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

相关攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

2015-03-10 12:39

《英雄坛说》详细全攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

最后生还者第三季角色变动新演员将接替出演发布于 2026-05-23

我独自升级阿利西亚技能解析与实战玩法指南发布于 2026-05-23

极限竞速地平线6第一赛季夏季赛全攻略指南发布于 2026-05-23

遗弃之地鬼仆选择指南与推荐攻略发布于 2026-05-23

深海迷航2抢先体验版全任务流程图文攻略发布于 2026-05-23

幻想生活i某处地图获取方法详解发布于 2026-05-23

烈焰觉醒游戏评测与新手入门技巧全解析发布于 2026-05-23

烈焰觉醒转职攻略：如何解锁与转换职业发布于 2026-05-23

《最终幻想7重生》白金奖杯难度过高制作人坦言设计失误发布于 2026-05-23

最强史莱姆团队养成攻略高效冲刺技巧全解析发布于 2026-05-23

Steam Controller 充电底座安全风险警示或致起火隐患发布于 2026-05-23

上古卷轴5重制版奥杜因克星主线任务通关全攻略发布于 2026-05-23

物华弥新人世丹心活动攻略开启时间与玩法全解析发布于 2026-05-23

新惊天动地手游公测时间确定正式开服日期与预约方法公布发布于 2026-05-23

斗罗大陆零朱竹青角色强度解析与技能评测发布于 2026-05-23

最终幻想7重生白金奖杯难度过高开发团队致歉发布于 2026-05-23

Windows批量修改文件后缀名教程使用CMD命令一键快速完成发布于 2026-05-20

Win11 查看 CPU 硬件级安全隔离支持方法提升系统防御力发布于 2026-05-20

如何查询Mac型号年份与配置信息发布于 2026-05-20

Linux系统Nginx服务器HTTPS证书安装配置教程发布于 2026-05-20

Mac放大镜功能开启指南轻松看清屏幕细节发布于 2026-05-20

Mac终端清理DNS缓存详细步骤与操作指南发布于 2026-05-20

Win11任务栏合并标签如何关闭恢复经典文字导航栏发布于 2026-05-20

Mac桌面图标自动整理技巧：堆栈功能高效管理文件发布于 2026-05-20

国产内存新架构突破30TB带宽实现自主供应链发布于 2026-05-11

Edge浏览器网页捕获功能使用教程截取全屏与区域截图详解发布于 2026-05-11

千度手机版官网免费入口手机端专用访问链接发布于 2026-05-11

ES文件浏览器复制文件内容到剪贴板详细步骤教程发布于 2026-05-11

如何设置鼠标连点器的固定点击间隔秒数发布于 2026-05-11

苹果iPhone 15截屏保存到相册的详细步骤教程发布于 2026-05-11

立升净水器滤芯更换方法与使用指南发布于 2026-05-11

ES文件浏览器如何设置默认打开应用详细图文教程发布于 2026-05-11

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

开源模型小钢炮登场！10B多模态屠榜，性能超越巨型系统20倍

全国首个人形机器人管理平台在京上线实现全流程追溯

温州AI赋能时尚产业升级转型新路径

北科大本科扩招90人新增知识产权专业首次招生

微软Fara1.5浏览器AI模型发布任务成功率72%超越OpenAI

人工智能如何推动自动驾驶技术突破与发展

开源模型小钢炮登场！10B多模态屠榜，性能超越巨型系统20倍

全国首个人形机器人管理平台在京上线实现全流程追溯

温州AI赋能时尚产业升级转型新路径

北科大本科扩招90人新增知识产权专业首次招生

微软Fara1.5浏览器AI模型发布 任务成功率72%超越OpenAI

人工智能如何推动自动驾驶技术突破与发展

微软Fara1.5浏览器AI模型发布任务成功率72%超越OpenAI