滴滴多篇论文入选ICML 2026,值得阅读推荐
重大消息:国际机器学习大会(International Conference on Machine Learning,简称 ICML)2026 的录用结果正式揭晓,滴滴共有 5 篇高质量学术论文成功入选。此次被收录的论文分别来自滴滴 L Lab 团队与滴滴网约车交易市场技术团队,合作方涵盖中山大学、香港科技大学(广州)、北京大学、上海财经大学等国内知名高校。可以看出,在推动前沿研究与产业需求深度融合方面,滴滴持续推进,并愈发重视与学术界的协同创新。
首先来了解 ICML 本身。作为机器学习领域公认的顶级会议,它也是中国计算机学会(CCF)推荐的 A 类国际学术会议。第 43 届大会将于 2026 年 7 月 6 日至 11 日在韩国首尔举行。本届会议的竞争激烈程度可见一斑:共收到 23918 份投稿,最终仅录用 6352 篇,其中 526 篇被选为 Spotlight Paper。能在如此严苛的筛选率中脱颖而出,足以证明这五篇论文的含金量。
下面逐一介绍这五篇论文(排名不分先后)。
论文一:UltraHorizon: Benchmarking LLM-Agent Capabilities in Ultra Long-Horizon Scenarios
合作方: 滴滴 L-Lab × 中山大学
研究方向: 大模型智能体评估基准 / 长周期(Long-Horizon)任务推理、规划与工具使用

这篇论文直击当前自主智能体评估中的一个明显盲区:现实世界中那些需要持续推理、持续记忆管理以及频繁调用工具的复杂长周期任务,现有基准测试往往难以覆盖。为了让评估更贴近真实应用场景,团队提出了一种全新的跨环境探索基准——UltraHorizon,其特点在于智能体交互轨迹极长、Token消耗极高、工具调用极其频繁。
大规模实验的结果颇为“扎心”:当前最先进的大模型智能体在这些任务上的表现远不及人类,且并非简单靠扩大模型规模就能解决。失败原因主要归结为两点:上下文锁定(in-context locking)与基础能力的缺失。这为后续研究指明了方向,也说明长周期任务领域仍有不少难题需要攻克。
论文二:Darwinian Memory: A Training-Free Self-Regulating Memory System for GUI Agent Evolution
合作方: 滴滴 L-Lab(独立完成)
研究方向: 多模态大模型(MLLM)智能体 / GUI 自动化 / 自进化记忆系统

多模态大语言模型(MLLM)在完成复杂的GUI自动化任务时,常面临记忆混乱或上下文过长的困境。针对这一难题,团队提出了达尔文记忆系统(Darwinian Memory System,简称DMS)。该系统的设计思路颇为巧妙:它借鉴了自然选择机制,利用效用驱动的“优胜劣汰”来动态分解任务,同时逐步淘汰次优策略。
简而言之,该系统将记忆系统打造成一个能不断进化的“生态圈”。最令人眼前一亮的是,DMS无需额外进行模型训练——它能在零训练条件下显著提升MLLM智能体的任务成功率、执行稳定性与整体效率。这对实际部署而言意义重大,因为能节省大量计算资源。
论文三:HTAC: Hierarchical Task-Aware Composition for Continual Offline Reinforcement Learning
合作方: 滴滴 L-Lab × 中山大学
研究方向: 持续离线强化学习(Continual Offline RL) / 跨任务知识迁移与隔离 / 层次化任务表示

在持续离线强化学习(CORL)中,如何实现跨任务的知识复用同时避免任务间互相干扰,一直是个研究难点。HTAC(Hierarchical Task-Aware Composition)框架提供了一个优雅的解决方案:通过双层任务编码与软组合机制,将任务解耦为域级与任务级嵌入,再配合按需创建的专家网络与注意力式知识整合,实现了参数高效的知识隔离与复用。
通俗地说,该系统既能记住不同任务的有用经验,又不会在任务切换时“学一个忘一个”。在离线持续世界基准上的测试表明,HTAC在可塑性与稳定性之间取得了良好平衡,显著提升了智能体跨任务泛化与知识迁移的能力。这对自动驾驶、机器人等需要持续学习的应用场景至关重要。
论文四:Agent-Omit: Adaptive Context Omission for Efficient LLM Agents
合作方: 滴滴 L-Lab × 香港科技大学(广州)
研究方向: 大语言模型智能体
大模型智能体在多轮交互中,面临一个朴素但棘手的问题:上下文越来越长,处理成本不断攀升。现有的压缩方法往往是“一刀切”,对思考过程与环境观察进行统一压缩,完全忽略了不同轮次交互间存在巨大的效用差异。
Agent-Omit框架的出发点正是“有的放矢”——根据每个交互轮次的实际价值,有选择性地省略不重要的上下文信息。这样做的好处显而易见:既能保留关键推理线索,又能大幅降低token消耗,从而提升整体执行效率。对于需要长期运行的智能体系统而言,这种“聪明”的省略机制将是提升商业落地可行性的关键。
论文五:Offline Reinforcement Learning with Partially Observed World Model in Autonomous Driving
合作方: 滴滴网约车交易市场技术团队 × 北京大学 × 上海财经大学
研究方向: 离线强化学习 / 自动驾驶场景 / 部分可观测世界模型
自动驾驶决策中的一个核心挑战是:系统必须应对部分可观测的环境(例如某些车辆或行人被遮挡),同时还需在有限的离线数据中学习。这篇论文提出利用部分可观测世界模型来强化离线强化学习的效果,使模型在训练阶段就能更好地模拟和理解不确定环境,从而在真实道路场景中做出更稳健的决策。
整体来看,这五篇论文覆盖的领域相当广泛,从智能体评估基准、GUI自动化到持续强化学习、自动驾驶决策,既有理论深度研究,也有明确的产业应用方向。可以预见,这些研究成果将在滴滴的业务场景(如智能调度、自动驾驶、客服助手等)中逐步发挥实际价值。
归根结底,顶级会议中稿只是起点,真正考验技术团队的是如何让这些前沿探索与产业需求相互激发,最终转化为用户可感知的更好体验。滴滴这几个团队的步伐稳健,接下来要看的就是实际落地效果了。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
OpenClaw手机App上线,结果翻车了
OpenClaw 官方宣布,已正式推出 iOS 和 Android 原生移动 App,用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接:把 Agent 放进口袋里,让用户可以在移动端处理频道消息、任务和回复。从功能上看,OpenClaw 移动端并
优必选CEO周剑:家庭机器人生态核心投入过半精力
先说几个核心判断:优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上,直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进,现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景,另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形
CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛
6月30日,申银万国在光连接系列研报中重点指出,MPO光连接器领域的投资机会值得高度关注。通俗来说,随着AI算力集群持续扩张,光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件,如今它直接决定着链路插损、可
龙岗AR实景剧本游内测体验短板有效破解之道
在今年龙岗区第二届人工智能与机器人发展大会上,区级部门一次性推出了7个AI“龙搭子”。其中,名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解,依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”,已在今年五一假期发布了内测版本。经过一个月市场验证后,该项目正式启动面向全社会的
南下资金6月30日净买入中芯国际与建滔积层板
6月30日,南下资金持续大举买入港股,单日净流入金额高达58 95亿港元。接下来,我们直接盘点哪些个股获得资金青睐、哪些遭到减持: 净买入方面,中芯国际领跑全场,单日吸金19 33亿港元;建滔积层板紧随其后,净买入10 59亿港元;腾讯控股获得7 65亿港元净流入;智谱(02513 HK)也有6 5
- 日榜
- 周榜
- 月榜
相关攻略
2026-07-01 16:18
2026-07-01 13:46
2026-07-01 13:46
2026-07-01 13:46
2026-07-01 13:46
2026-07-01 13:45
2026-07-01 13:45
2026-07-01 13:45
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

