谷歌DeepMind双模型AI赋能机器人迈向通用化

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

谷歌DeepMind双模型AI赋能机器人迈向通用化

热心网友时间：2025-12-11

转载

谷歌DeepMind近日在机器人技术上实现重大突破，其Gemini Robotics项目创新的双模型设计首次赋予机器人"预判思维"能力。这项技术有望突破传统机器人仅能执行预设指令的限制，引领行业向通用化方向迈进。

长期以来，工业机器人面临着高度专业化的瓶颈。每台设备都需要针对特定场景进行长达数月的调试，最终却只能完成单一任务。DeepMind机器人负责人卡罗琳娜·帕拉达坦言："现有系统从部署到调试耗时耗力，投入大量资源却只能实现简单的预设操作。"这种局限性严重阻碍了机器人技术的普及应用。

Gemini Robotics系统采用双引擎协同工作的创新架构，由Gemini Robotics1.5和Gemini Robotics-ER1.5两大核心组成。前者作为多模态转换中枢，将视觉、语言信息转化为精准动作指令；后者专注环境推理，通过数据分析自主生成任务方案。这种将认知与执行分离的设计，为机器人注入了近似人类决策的智能。

ER1.5模块的革命性体现在其类ChatGPT的交互机制上。当接收到视觉和文字信息时，它能模拟人类思维过程。实验室测试中，面对"分类洗衣物"的任务，ER1.5不仅能解析实时画面，还会联网验证分类标准，最终输出包含具体动作细节的完整方案。

执行模块1.5则专精于动作控制精度。通过融合视觉反馈与语言指令，确保机械臂能完美完成各种复杂操作。在双模协同下，系统展现出惊人的环境适应力，即使未经专门训练也能处理陌生任务。

这种架构最显著的优势是大幅提升了普适性。传统系统更换任务需要重新编程，而新平台通过自然语言就能快速切换场景。测试表明，面对全新工作环境时，新系统的任务完成效率比传统设备高出40%以上。

尽管技术突破令人振奋，但商业化仍存诸多挑战。真实场景下的动态干扰、人机安全规范、成本控制等问题都需要持续优化。研发团队坦言，系统在极端复杂环境下的稳定性仍需提升。

业界专家认为，这项技术为机器人进化指明了新方向。通过深度整合生成式AI与运动控制，设备有望从专业工具蜕变为具备基础认知的智能体。随着算法和硬件的持续升级，未来五年或将出现能够自主完成多环节任务的通用服务型机器人。

目前，DeepMind正与制造、物流领域开展合作测试，重点验证系统在动态环境中的可靠性。研发团队透露，下一代模型将强化对物理世界的建模能力，使机器人具备预判操作后果及自主调整策略的能力，这将重新界定人机协作的新可能。

来源:https://www.itbear.com.cn/html/2025-09/969773.html

上一篇：《阿凡达3》首曝预告：潘多拉星战火重燃

下一篇：岚图追光L预售启动：鸿蒙座舱5+华为乾崑ADS4系统加持