当前位置: 首页
科技数码
具身智能行业开源模型测评的必要性与关键价值

具身智能行业开源模型测评的必要性与关键价值

热心网友 时间:2026-01-08
转载

文|定焦One

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

从2025年春晚上的表演出圈,到人形机器人马拉松,再到年底的量产落地和商业闭环,具身智能的航向正悄然转向。

尤其当具身智能进入产业落地期,机器人表演式的成功已不足以满足业界对其能力的期待。产业端如今更看重“机器人大脑”及其带来的泛化能力,因为真实世界并不存在完全标准化的场景。无论是在工业分拣、养老护理还是仓储物流等领域,机器人都需要自主且稳定地与真实物理世界交互。

——这恰恰需要强大的具身智能模型能力作为核心支撑。那么,在大规模应用浪潮到来之前,我们该如何科学评估具身智能模型这一“机器人大脑”的真实水准?

和大型语言模型一样,具身智能模型同样需要建立开放公正的评价体系,以测评为引擎推动行业进步。RoboChallenge正是全球首个大规模、多任务的真实机器人基准测试平台,旨在为VLA模型在机器人上的应用提供客观评估标准。

值得关注的是,具身智能模型测评和大型语言模型测评存在显著差异。大语言模型的测评多为“闭卷答题”,以静态数据输出与文本、图像指标为主,不涉及物理交互与连续动作执行。而具身模型的测评则更侧重“感知-决策-执行”的物理闭环,测评时需要预先公开任务,核心验证对象为视频动作序列和任务成功率,类似于“开卷考试+实操考核”。

因此,使用公开代码的开源具身智能模型参与测评,才是更货真价实、更有价值的。RoboChallenge最新发布的测评结果显示,自变量开源端到端具身智能基础模型wall-oss以46.43分超越pi0,总分排名第二,仅次于pi0.5。

Pi0、pi0.5背后的公司Physical Intelligence核心团队成员来自伯克利、斯坦福等高校和谷歌专家等。自变量机器人创始人王潜为南加州大学博士学位,是全球最早在神经网络中提出Attention机制的研究者之一;CTO王昊则主导开发国内首个多模态开源大模型“太乙”、百亿级大语言模型“燃灯”及千亿级模型“姜子牙”。

具体来看,wall-oss在叠洗碗巾、挂口袋杯、按按钮、浇盆栽、移物入盒及开瓶器进抽屉等多个单任务中排名第一。

排名前三名中,wall-oss是唯一一个国内开源具身基础模型。

开源模型将模型代码、训练数据乃至架构设计公开,让测评过程可全程复现,能够规避通过微调其他模型来“刷榜”的行为,可以更客观、真实地反映模型能力。这必将引导各个具身智能玩家回归技术本身,用技术能力构建自身的核心竞争力。

同时,开源模型有助于技术透明迭代,能够加速具身智能行业创新。开放协作的“集体智慧”,远比封闭开发更能应对真实世界的复杂性与随机性。

自变量自成立以来,就致力于树立开源的标杆,让每次开源都对行业产生价值。去年9月,wall-oss模型正式开源,预训练模型权重、训练代码、数据集接口以及详细部署文档全部公开,开发者可以在自己的机器人上直接跑通闭环流程。

自变量机器人联合创始人兼CTO王昊此前曾公开谈及自变量坚持开源的初心:“开源意味着我们可以站在巨人的肩膀上继续前进。我们可以基于已有成果做更多的改进,社区开发者的反馈也会帮助到开源的公司,开源公司可以从中吸取到经验,然后把这个技术路线思考得更加深入。一般的高校,或者一些小型的创业公司,他们可能没有能力去做基础模型,但是如果能够使用这些基础开源模型,他们就可以去做应用,把它用到各个方向,丰富整个生态,这也是非常重要的事情。”

在RoboChallenge发布测评结果之后,wall-oss提交的复现结果示例、微调代码也将在下周全部开源,让模型展现出的泛化能力、推理能力等有据可查。除了检验测试结果的真实性,开发者们也可以在平台上根据源代码和各个任务的微调代码,结合自己的数据完成复现微调。

这意味着,自变量提供的不仅仅是一个模型,而是一整套完整可复现的方案,这对具身智能基础模型的透明迭代和标准共建具有更深远的意义。

拥抱开源,是具身智能走向成熟的必经之路。只有把技术从封闭的实验室里解放出来,让更多人参与、验证、改进,才能真正突破单点创新的局限,具身智能才能真正从实验室走向真实世界。

来源:https://www.163.com/dy/article/KIOF17L805198R91.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
机械师推出曙光 Pro 电脑主机:搭载 14 代酷睿 CPU,10499 元起

机械师推出曙光 Pro 电脑主机:搭载 14 代酷睿 CPU,10499 元起

机械师曙光Pro电竞主机首发开售:14代酷睿+RTX 50系双芯组合,配置价格全解析 近日,机械师旗下新款曙光Pro高性能游戏主机已在京东平台正式开售。对于近期计划购置高性能整机的玩家与创作者而言,这款搭载新一代硬件组合的机型无疑提供了值得重点考量的新选择。下面我们将全面解析其核心配置与首发价格信息

时间:2026-04-04 16:14
小米官宣涨价!卢伟冰罕见回应 内存涨价扛不住了

小米官宣涨价!卢伟冰罕见回应 内存涨价扛不住了

今日,小米针对旗下部分热门在售机型发布建议零售价调整公告,此举在智能手机业内引发广泛关注与讨论。 调价详情 本次价格调整主要覆盖REDMI系列的三款主力机型,详细情况如下: REDMI K90 Pro Max官方建议零售价正式上调200元; REDMI Turbo 5与Turbo 5 Max两款机型

时间:2026-04-04 11:21
显卡安全警报!经典攻击拿捏N卡:RTX 3060/A6000等已沦陷

显卡安全警报!经典攻击拿捏N卡:RTX 3060/A6000等已沦陷

研究人员成功将经典Rowhammer攻击移植至现代GPU,引发显卡安全新挑战 显卡安全面临全新威胁:最新研究披露的GDDRHammer与GeForge攻击技术,成功利用GDDR6显存的物理缺陷发起Rowhammer攻击。这种攻击不仅能破坏GPU内部的内存隔离机制,更可进一步穿透至主机系统内存,危及整

时间:2026-04-04 11:07
iFixit 拆解苹果 AirPods Max 2 耳机,胶水仍是维修“最大敌人”

iFixit 拆解苹果 AirPods Max 2 耳机,胶水仍是维修“最大敌人”

苹果AirPods Max 2深度拆解:熟悉的配方,不变的“维修之墙” 近日,知名维修机构iFixit发布了一段备受关注的视频,他们终于对苹果新款高端头戴耳机AirPods Max 2“动了手”。拆解结果多少有些令人意外:新耳机在核心架构上,几乎就是初代产品的“复刻版”。 附上相关拆解视频如下: i

时间:2026-04-04 07:42
三星连续七年稳居全球电竞显示器市场榜首

三星连续七年稳居全球电竞显示器市场榜首

三星电子连续七年蝉联全球电竞显示器销量冠军,领跑高端游戏显示市场 三星电子在游戏显示领域的领先地位再次获得权威认证。根据国际数据公司(IDC)发布的《PC显示器季度追踪报告》显示,截至2025年,三星已连续第七年稳居全球电竞显示器品牌市场份额第一,占有率达18 9%。尤其在代表尖端显示技术的OLED

时间:2026-04-04 07:01
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程