谷歌发布最强具身大脑 波士顿动力机器狗实现拟人化智能
谷歌DeepMind的机器人推理模型迎来重要升级。最新发布的Gemini Robotics-ER 1.6,旨在让机器人更接近一个真正“实用”的智能体——它不仅需要执行命令,更要能深度理解并适应复杂的物理环境。
搭载这套新系统的波士顿动力机器狗Spot,在工厂巡检时已能自主导航至压力表前,精准停下并读取表盘刻度数值。同时,机械臂在执行操作任务时,也能自主判断任务的启动时机,以及更关键的——如何准确判定任务已圆满完成。


这是Gemini Robotics专注于空间推理的第三代模型。其发布正值一个关键节点:九年前谷歌出售了波士顿动力,而今年初的CES展会上,双方宣布再度携手。ER 1.6可视为这次“重逢”后交付的首个重要成果。DeepMind负责人德米斯·哈萨比斯也第一时间转发了相关消息。

ER 1.6的定位十分明确:充当机器人的“高层决策中枢”。它不直接操控具体关节动作,而是负责环境感知、任务规划与工具调用。无论是接入谷歌搜索、调用视觉语言模型(VLA),还是执行开发者自定义的函数,它都能胜任。
相较于前代ER 1.5及Gemini 3.0 Flash,新模型在空间推理、物体计数与任务成功判定等核心能力上均有大幅提升。此外,它还解锁了一项关键新技能:准确解读各类仪表盘。

Gemini Robotics-ER 1.6:赋能机器人深度环境感知
正如其技术博客所强调,机器人要迈向实际应用,必须超越简单的指令响应,发展出对物理世界进行逻辑推理的能力。

ER 1.6的所有核心改进,都围绕一个核心目标:让机器人系统真正“读懂”它所处的场景。
从“图像采集”到“信息解读”:仪表识别实现跨越
首先来看Spot在工业场景中展现的新技能。工厂内遍布着需要定期监控的仪表,如温度计、压力表和液位视镜。以往的Spot或许能走近并拍摄图像,但无法理解表盘显示的具体含义。
ER 1.6改变了这一局面。其仪表识别流程分为三步:首先放大图像区域以清晰捕捉细小刻度;随后利用“指向”(Pointing)能力精确定位指针与刻度线,结合代码进行比例换算;最后调用内置知识库,将原始数值转化为有实际意义的物理读数。

这套组合方案效果卓越。ER 1.5的仪表识别成功率仅为23%,而在引入“智能体视觉”(Agentic Vision)技术后,ER 1.6将成功率大幅提升至93%。

波士顿动力公司Spot产品副总裁马可·达席尔瓦对此评价:“仪表识别等高级能力,结合更可靠的任务推理,将使Spot能够完全自主地观察、解析并应对现实世界中的各类挑战。”
“指向”能力:空间理解的核心基础
仪表识别能达到如此高的精度,其根基在于“指向”(Pointing)能力的强化。这是ER模型系列自初代以来持续打磨的基本功,本质是让模型能用“空间坐标”来表达其对场景的理解——包括物体位置、数量统计以及最佳抓取或移动路径。

ER 1.5曾在此类任务上表现不足:面对一张工具图片,它错误统计了锤子数量,遗漏了剪刀,甚至指出了图中并不存在的“手推车”。而ER 1.6则能准确回答:包含2把锤子、1把剪刀、1支画笔和6把钳子,无一错漏。更重要的是,对于图中未出现的物品,它不会进行虚构。
成功状态检测:精准判断任务终点
ER 1.6的另一项重要升级是“成功检测”能力。准确判断任务何时完成,与知晓如何启动任务同样关键,这是机器人实现高度自主的核心。
以往的系统通常在执行完预设动作序列后即视为任务结束。但在真实复杂环境中,存在遮挡、光照变化和指令模糊等多种干扰因素,“任务是否真正完成”本身就需要高级认知进行判断。ER 1.6增强了多视角协同推理能力,能够综合机器人搭载的多个摄像头(如顶部和腕部)的画面信息,做出连贯且可靠的最终判定。
例如在开头的演示中:将蓝色笔放入黑色笔筒后,任务真的完成了吗?ER 1.6能从多个观测角度进行交叉验证,给出确切的肯定答案。
值得一提的是,这也是谷歌迄今为止最安全的机器人模型。在对抗性空间推理测试中,ER 1.6对安全指令的遵循程度优于所有前代版本。对于“不处理液体”、“不搬运超过20公斤物体”这类物理安全约束,它能通过“指向”等空间输出做出更精确的合规判断。

在基于真实事故报告的安全风险识别测试中,ER系列模型的表现比Gemini 3.0 Flash高出6%(文本场景)和10%(视频场景)。
谷歌与波士顿动力:九年后的战略再携手
读到这里,您可能会好奇:为何是波士顿动力的Spot?这背后有一段战略分合的历程。
谷歌于2013年收购波士顿动力,却在2017年将其出售给软银,当时公开的原因是“未能找到清晰的商业化路径”。2020年,现代汽车以约8.8亿美元的价格完成了收购。转折发生在2025年11月,波士顿动力前首席技术官亚伦·桑德斯离职并加入了谷歌DeepMind。
随后,在2026年1月的国际消费电子展(CES)上,谷歌与波士顿动力在现代汽车的发布会上正式宣布合作,目标是将Gemini Robotics系统部署到Atlas人形机器人平台。

出售九年后,又以另一种形式“回归”。哈萨比斯对此的阐释是,谷歌自身不制造硬件机器人,而是致力于成为“机器人领域的安卓系统”,为所有机器人制造商提供核心智能。
本次ER 1.6的发布,署名作者是劳拉·格雷瑟和彭旭。劳拉·格雷瑟拥有牛津大学本科和纽约大学硕士学位,于2018年加入谷歌,自2024年起在DeepMind从事机器人研究。她还合著了强化学习领域的教科书《深度强化学习基础》。

她早期的研究方向之一,是训练机器人打乒乓球,这要求整个系统在100毫秒内完成环境感知、轨迹计算与击球执行等一系列动作。

彭旭是DeepMind机器人基础模型方向的研究员,专注于机器人学习与大语言模型的融合。他不仅是上述机器人乒乓球项目的参与者,也是RT-1、RT-2、代码即策略(Cap)以及Gemini Robotics等一系列知名研究成果的核心作者之一。

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
DeepSeek模型幻觉源于特殊字符输入不涉及安全隐私问题
近期,DeepSeek用户社区中流传着一个有趣的发现:部分用户在对话中输入“think”等特定字符时,模型偶尔会产生一些预期之外的回复。这一现象迅速引发了广泛关注和讨论,许多用户不禁产生疑问:这是否意味着对话隐私存在风险?或是模型出现了安全漏洞? 针对用户反馈的DeepSeek模型异常回复问题,官方
AI原生IDE对决Cursor与IDEA Java程序员选择指南
Cursor vs IDEA:AI原生IDE的碘伏之战,Ja va程序员该如何选择? 2026年,AI编程工具的战场硝烟弥漫。Cursor凭借其AI原生的设计理念横空出世,而传统巨头JetBrains也宣布与Cursor达成深度集成(ACP协议)。面对这场变革,Ja va开发者是应该拥抱新锐的Cur
AI一键生成海量课程讲解文案的实用技巧
你是否想过将复杂的知识主题拆解为系列课程,再通过三人脱口秀的形式生动呈现?如今,这一创意已固化为一个名为“三人行技能”的实用工具。 简而言之,它是一个“任意主题 → 三人脱口秀课程文档”的批量生成器。用户只需提供课程主题、分节大纲及三位主播的人设,该工具便能自动生成一批格式规范、内容详实的Word文
宇树科技发布人形机器人实时动作生成一镜到底视频
5月19日,宇树科技发布了一则一镜到底的演示视频,展示了其G1人形机器人仅通过语音指令,即可自主实时生成并执行多样化动作的突破性能力。 视频内容清晰直观:操作者直接通过语音发出各种动作指令,宇树G1机器人便能实时理解并响应,自主生成对应的肢体动作。整个演示采用一镜到底的拍摄方式,现场同步收音,无任何
高校AI通识课如何设计才能满足不同学生需求
全国大学生机器人大赛ROBOTAC赛事在山东烟台举办,来自全国71所高校的183支代表队同场竞技。孙文潭摄 光明图片 江苏大学举办的计算机文化节上,智能机器人、循迹小车、混合现实、飞行模拟等现代科技集中亮相。杨雨摄 光明图片 【AI与教育】 下午两点,某高校阶梯教室。老师在讲台上讲解“机器学习的基本
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

