云蝶科技科学家受邀CCMAS 2026:强化学习赋能具身智能落地
当机器人走进酒店、物业与康养体检等真实服务场景时,真正的技术壁垒并非仅仅是“能执行动作”,而是在环境反馈与多智能体协作中持续进化的能力。

具身智能领域的竞争,正从“单机动作展示”全面转向“真实环境中的持续学习与多智能体协同”。这不再是简单的Demo比拼,而是真正考验技术深度的阶段。
6月27日至28日,第四届CCF多智能体系统会议(CCMAS 2026)在南京大学苏州校区成功举办。大会邀请了南洋理工大学Stefano V. Albrecht教授、字节跳动Seed Robotics首席科学家李航、哈尔滨工业大学(深圳)张民教授、清华大学朱军教授等学界与产业界权威人士,围绕多智能体基础模型、机器人基础模型、世界模型与智能体强化学习等前沿方向展开深度研讨。
云蝶科技科学家、华南理工大学副教授赵梦辰受邀出席,并以《智能体强化学习中的信用分配机制》为题发表专题报告。他的分享揭示了具身智能从实验室走向真实场景时,一个常被忽视却至关重要的技术关卡。
01 真正的难点,远不止让机器人“动起来”
随着大模型进入Agentic RL阶段,强化学习正成为智能体能力进化的关键路径。然而,与传统强化学习不同,大模型智能体通过连续生成token来完成规划与决策:一个任务最终成功,究竟应归因于哪一步推理?哪一次工具调用?哪一个动作选择?这正是信用分配机制要解决的核心问题。
对于具身智能来说,这个问题更加复杂。机器人面对的并非静态指令,而是持续变化的真实环境;一次任务往往涉及感知、规划、操作、环境反馈以及多机器人协作。只有将最终结果准确回溯到关键决策,模型才能从成功与失败中持续学习,强化学习后训练才可能真正进入真机闭环。这就像教导一个团队完成复杂任务,你无法确定是哪位成员、哪一步操作促成了成功——如果奖励无法精准分配,团队就无法高效进化。
赵梦辰在报告中指出,以GRPO为代表的Agentic RL算法虽已成为优化大模型智能体策略的主流方法,但大模型智能体决策的根本范式是token生成,这给Agentic RL的信用分配带来了极大挑战。他从信用分配视角系统拆解了前沿Agentic RL方法,深入解释了信用分配难题的成因,并介绍了其课题组与云蝶科技在智能体强化学习、具身大脑及多智能体协同方向的研究进展。这些研究共同指向一个目标:让智能体学会从结果中精准提取经验,而非盲目试错。
02 一场报告,折射云蝶的核心技术路线
云蝶并不将具身智能理解为“给机器人接入一个大模型”。在这个行业中,太多企业把精力浪费在更换模型、堆砌参数上,而忽略了最根本的问题——机器人、环境与任务,能否共同纳入一个可学习、可反馈、可进化的完整系统。
在酒店、物业、康养体检等真实服务场景中,机器人从来不是孤立工作的。空间布局、门禁与电梯等设施、服务流程、人员状态以及其他机器人,都会影响任务执行。场景越真实,变量越多,传统的“感知-规划-执行”流水线就越容易在某个环节断裂。
云蝶的技术路线,是以环境增强的世界模型为核心,让环境智能体与机器人智能体协同建模,并通过多智能体强化学习完成策略优化与能力进化。在这一框架中,世界模型负责理解环境、预测动作后果;多智能体强化学习负责处理协作决策与信用分配;真机部署则不断产生高价值反馈,形成“场景数据—模型训练—策略优化—真实验证”的闭环。
这意味着,云蝶要构建的并非单一机器人产品,而是一套面向真实场景的具身智能训练与协同进化平台:把场景变成训练基础设施,把每一次真实任务变成模型继续进化的数据资产。这不仅是技术路线的选择,更是对行业趋势的深刻预判。
03 从多智能体学术谱系,到真实场景产业闭环
赵梦辰博士毕业于南洋理工大学计算机科学与工程学院,师从AAAI Fellow、智能体领域世界知名专家安波教授,并获南洋理工大学计算机学院杰出博士论文奖。沿着这一学术谱系,赵梦辰长期聚焦强化学习、智能体与多智能体系统研究,现任华南理工大学软件学院副教授、大数据与智能机器人教育部重点实验室核心成员、CCF多个专委会执行委员。他长期致力于强化学习、多智能体系统与大模型的研究与落地工作,已在ICML、NeurIPS、ICLR等国际顶级人工智能会议和期刊发表论文40余篇,并主持多项国家级及省部级重点科研项目。
对云蝶而言,科学家团队的价值并非停留在学术背书。赵梦辰及其课题组直接参与了具身大脑、多智能体协同、强化学习后训练等核心能力建设,并与真实场景中的工程验证紧密结合。学术前沿与产业落地之间,从来不是单向的输出关系——而是双向的迭代与反馈。
此次在CCMAS 2026进行前沿分享,释放出一个更清晰的信号:云蝶正在将顶尖科研能力、真实B端场景和可持续数据闭环系统性地连接起来。当行业从“机器人能否完成一个Demo”进入“机器人能否在真实世界持续进化”的阶段,环境理解、多智能体协同与真机强化学习将成为决定规模化落地的关键。云蝶希望成为这一基础设施的构建者,让机器人在真实场景中学会协作、积累经验,并不断迈向更强的泛化能力。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
小米米家智能电压力锅2 Pro 899元 15分钟脱骨
小米推出米家智能电压力锅2Pro,售价899元,到手价721 65元。搭载2200WIH加热和112kPa高压,15分钟炖排骨脱骨,耗时缩短40%。双胆设计(不锈钢304和零氟陶瓷不粘),5升容量。双重泄压加风冷速排,88秒开盖。支持6段压力曲线、十类烹饪程序、开盖煮、米家APP远程操控及语音控制,24小时预约,18重安全防护,三年质保。
徕芬618登顶国产剃须刀首次拿下中高端定价权
徕芬剃须刀618销售额1 2亿,同比增长超200%,四款产品全部进入天猫400至1000元价位段前十。用户近六成来自一二线城市,超半数为女性送礼。凭借自研电机与精铸刀网等技术实现千元级体验,国产剃须刀首次在中高端市场拿到定价权。
海信618全渠道夺冠:从技术追赶到标准定义的产业逻辑
2026年618期间,海信全渠道销量占有率26 2%、销售额占有率32%,双项夺冠。RGB-MiniLED技术全面爆发,海信占据该品类83%销量份额。百吋大屏市场全球出货量第一,并成为世界杯VAR显示技术合作伙伴,实现从技术追赶到标准定义的跨越。
欧洲多地高温破纪录法国一天卖3万台空调电扇
欧洲近期遭遇极端高温,法国全境平均气温达29 8摄氏度,刷新1947年以来最高纪录。仅6月22日一天,家乐福就售出3万台空调和电扇,亚马逊相关销量同比翻倍。由于住宅设计缺乏空调且安装审批繁琐、成本高昂,当地空调普及率极低。
每卖出两台就有一台波轮洗衣机为何又火了
2026年618线上洗涤家电销售数据显示,波轮洗衣机销量占比达48 5%,同比大涨4 8个百分点,占据近半市场。滚筒烘干类份额下滑4 4个百分点。波轮因价格低、安装便捷、功能升级契合大众需求,成为下沉市场首选,推动洗衣机市场分层加剧。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2026-07-05 13:27
2026-07-05 13:26
2026-07-05 13:26
2026-07-05 13:26
2026-07-05 13:26
2026-07-05 13:26
2026-07-05 13:26
2026-07-05 13:25
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

