快手多篇论文入选ICML 2026诚邀您共赴盛会

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

快手多篇论文入选ICML 2026诚邀您共赴盛会

热心网友时间：2026-06-30

转载

在刚刚揭晓的ICML 2026上，快手技术团队有了一批成果——多篇论文入选，其中一篇还拿到了“spotlight papers”展示。方向覆盖大语言模型、强化学习、信息检索、计算机视觉等核心领域，说直白点，就是怎么让AI更聪明、更听话，以及怎么从数据里挖出更本质的规律。先简单交代一下背景。ICML（国际机器学习大会）是机器学习领域历史最久、影响力最大的顶会之一，和NeurIPS、ICLR并称“三大顶会”，CCF A类，h5指数272，本届投稿量接近两万四千篇，整体录用率不到27%。今年7月6日到11日在韩国首尔COEX举行，快手技术团队会去现场交流。下面聊聊具体的几篇工作，挑重点说。 --- **01 MetaphorVU: Towards Metaphorical Video Understanding（Spotlight）** 论文地址：https://openreview.net/forum?id=yKcBAJMPXZ 项目地址：https://github.com/icip-cas/MetaphorVU 隐喻视频是表达复杂思想的常见手段，但理解门槛高，对认知能力要求不低。问题在于，之前几乎没有系统性研究，这既限制了多模态大模型在现实场景的落地，也妨碍了对其高阶能力的全面评估。快手团队提出了MetaphorVU-Bench——首个专门针对隐喻视频理解的综合性基准。实测发现，现有模型在这方面表现远不如人类，根源在于跨域映射能力不足。基于这个洞察，他们构建了一个隐喻知识图谱来增强映射，并提出了MetaphorBoost，一个推理阶段的增强框架，效果稳定提升。这套基准、分析和方法，算是给未来研究打了个底。

--- **02 Causal Discovery for Irregularly Time Series with Consistency Guarantees** 论文地址：https://openreview.net/forum?id=y5GiPedJPV 金融、医疗、气候这些领域，时间序列经常是不规则采样的——数据缺漏、采样频率不一致，真实因果机制容易被扭曲。难在哪儿？缺失数据插补和因果结构恢复互相依赖，一个不准就会带偏另一个。现有方法要么“先插补后找因果”，要么联合优化，但缺一个保证两者一致的机制。ReTimeCausal用EM框架交替优化，在插补和结构学习之间来回迭代，始终维持结构一致性，并且给理论承诺——即使在高缺失率和不规则采样的条件下，也能保证因果图恢复的正确性。实验很能说明问题。

--- **03 Coloring the Noise: Adversarial Sobolev Alignment for Faithful Image Super Resolution** 论文地址：https://arxiv.org/abs/2605.23264 项目地址：https://github.com/wafer-bob/ASASR 图像超分辨率里，生成先验常常带来幻觉——假细节太逼真，真实边缘反而丢了。原因被归结为各向同性目标函数和自然图像内在流形之间的频谱错位。直接偏好优化（DPO）虽然能对齐，但它依赖频谱平坦的高斯噪声，区分不了真高频和假幻觉。快手提出的ASASR，核心是对噪声转移核着色，模拟自然频谱衰减，把生成流放到Sobolev诱导的黎曼几何里重构。然后利用Riesz表示定理设计一个对抗模块，合成最坏情况下的定向负样本，引导优化往合理结构方向走。实验在主流生成式基线中表现最优，尤其频谱一致性和结构保真度上很扎实。

--- **04 Large-Scale Notification Dispatch with Bundle Treatments and Multi-Outcome Uplift Optimization** 论文地址：https://icml.cc/virtual/2026/poster/65977 用户增长里的通知推送（PUSH）是个复杂决策问题：要考虑推送时机、呈现样式、多个目标结果，还有平台的各种约束。快手把它建模成带约束的优化问题——在预算和用户配额限制下，最大化日活跃用户数增量。难处有两个：一是bundle粒度下的多维度小效应提升估计容易被噪声淹没；二是亿级用户和海量候选场景下，约束求解开销太大。BUOPLR把估计和决策显式解耦——第一阶段用一个网络同时刻画跨干预和跨结果的依赖关系，学bundle级别的多目标小效应提升；第二阶段先剪枝压缩可行域，再对少量全局约束做拉格朗日松弛，高效完成大规模分配。离线和在线实验都优于当前最优方法，目前已在快手PMOS系统全量部署。

--- **05 Learning to Rank by Directly Optimizing Full-Order Probabilities** 论文地址：https://openreview.net/forum?id=fch6yT64ZH 项目地址：https://github.com/tyxaaron/FOB 学习排序可以看成排列空间上的概率问题，目标是估计项目全序（比如z1≤...≤zn）的似然性。但排列空间随列表大小阶乘增长，精确计算基本不可能。Full-Order Bound（FOB）是一个可处理的下界，由一组可分解到每个项目的排序约束构成，既保留了全序结构，又具有顺序反转不变性。在对数凹潜密度假设下，这个下界等价于一个关于潜在切点的凸内收紧问题，通过安全区域梯度上升高效求解。合成任务和真实排序基准上的实验显示，FOB能提升全列表排序指标，NDCG也不落下风。

--- **06 OneSearch: A Preliminary Exploration of the Unified End-to-End Generative Framework for E-commerce Search** 论文地址：https://icml.cc/virtual/2026/poster/64836 项目地址：https://github.com/benchen4395/onesearch-family 传统电商搜索是“多阶段级联架构”，计算碎片化、各阶段优化目标冲突，天花板很矮。OneSearch是第一个在工业界落地部署的端到端生成式搜索框架。三个关键创新：关键词增强的层次化量化编码（在保持query-商品强相关的同时保留层次语义和商品属性）；多视角用户行为序列注入（显式短期+隐式长期，构建行为驱动的用户ID）；偏好感知奖励系统（多阶段微调+自适应奖励加权排序）。离线评估卓越，线上A/B实验效果显著——CTR提升1.67%，买家数提升2.40%，订单量提升3.22%。更厉害的是，运营支出降低75.4%，算力利用率从3.26%提高到27.32%。现已覆盖快手多个搜索场景，每天服务数百万用户。

--- **07 Phase-Aware Mixture of Experts for Agentic Reinforcement Learning** 论文地址：https://arxiv.org/pdf/2602.17038 项目地址：https://github.com/YsTvT/PA-MoE 强化学习让大语言模型智能体能够解决复杂任务，但现有方法只用单一策略网络，导致“简单偏置”：简单任务占了大部分参数和梯度，复杂任务分不到算力。引入混合专家（MoE）是个自然想法——不同专家专攻不同任务。但传统MoE用令牌级路由，每个令牌单独分配专家，会破坏时序阶段内的连贯特征，同一阶段的特征被零散分到不同专家，削弱了专家的专项能力。Phase-Aware MoE（PA-MoE）的做法是：搭载一个轻量级阶段路由器，不用预定义阶段类别，直接依靠强化学习目标自主学习隐式阶段划分边界；然后将时序上同一阶段的特征统一分配给同一个专家。实验验证了有效性，值得关注。

--- **08 SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning** 论文地址：https://arxiv.org/pdf/2602.07458 项目地址：https://lorangan-ddup.github.io/SpatialReward 在线强化学习为指令引导图像编辑提供了强大的对齐范式，但现有奖励模型有“注意力坍塌”问题——忽略跨图像比较，捕获不到像素级细节，评分不准。SpatialReward是第一个将显式空间推理融入生成式逐点评估的图像编辑奖励框架。核心包括：“Think-with-Boxes”机制，预测编辑区域坐标并以交错token注入推理链，把语义判断锚定到像素级证据；空间先验引导的数据构建流水线，产出26万条高质量轨迹的数据集SpatialReward-260k；SFT+GRPO两阶段训练策略。还发布了MultiEditReward-Bench，15种精细编辑子任务、1800个人工标注。在三项基准上，SpatialReward表现最好：EditReward-Bench和MMRB2上比生成式基线提升11.3%和9.1%，超越所有闭源评估器。作为下游RL信号，将OmniGen2在GEdit-Bench上提升0.90分，是GPT-4.1增益的两倍，同时推理加速1.5倍。

--- **09 SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models** 论文地址：https://arxiv.org/abs/2511.05459 项目地址：https://huggingface.co/datasets/Kwaipilot/SWE-Compass 现有Agentic Coding评测基准（如HumanEval、SWE-bench）任务覆盖窄、语言偏见强、与真实开发脱节。SWE-Compass是一个全面、统一、生产对齐的代码智能评估框架。三维评估矩阵：8种任务类型、8类编程场景、10种编程语言，从错误修复到性能优化，覆盖开发全生命周期。五阶段数据构建流水线，从GitHub Pull Request中挖掘、人工标注、双重审核，精选2000个高保真实例。统一智能体评测协议，在SWE-Agent和Claude Code两种框架下，对10款主流大模型系统实证。三个关键发现：模型在功能实现和性能优化等复杂任务上能力骤降；同一模型在不同框架下表现迥异（框架-模型混淆效应）；在Rust等新兴语言上存在显著鲁棒性鸿沟。

--- **10 VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos** 论文地址：https://arxiv.org/pdf/2602.07801 项目地址：https://liuwq-bit.github.io/VideoTemp-o3 视频大语言模型在长视频理解上进步不小，但均匀帧采样仍然遗漏关键视觉证据。近期的“思考与视频”范式引入了定位-裁剪-回答流水线，却存在工作流复杂、定位精度不足、流程刚性等瓶颈。VideoTemp-o3把视频问答和时序定位统一到一个Agentic框架里，支持按需裁剪和多轮定位迭代精化。几个关键设计：冷启动SFT配合统一掩码机制，精准施加多轮训练信号并屏蔽早期粗定位噪声；惩罚感知的IoU强化学习奖励，抑制奖励作弊，提升定位与回答准确性；基于Gemini-2.5-Pro的多轮数据构建流水线。还发布了VideoTemp-Bench，覆盖四个时长段共1200条样本。在长视频理解（VideoMME +2.4%、LVBench +1.7%）、时序定位（Charades-STA mIoU 57.8%）和视频有根据问答（NextGQA mIoU 33.4%）三项任务上都达到最先进性能。

--- **11 Weights to Code: Extracting Interpretable Algorithms from the Discrete Transformer** 论文地址：https://arxiv.org/abs/2601.05770 这篇换个口味，不是围绕某个具体应用，而是从模型可解释性角度切入。提出Discrete Transformer架构，目标是从训练好的Transformer权重中直接恢复可执行、可读的算法程序。标准Transformer内部特征纠缠叠加，难以符号化解析。作者通过离散化残差流、数值注意力模块和数值MLP模块，把信息路由和算术计算显式分离，再结合温度退火、假设检验和符号回归，从模型中提取出Python程序。在多类算法推理任务上性能接近RNN-based MIPS方法，还能处理连续变量动力学任务。更重要的是，通过归纳偏置可以控制提取算法的形式——这为Transformer可解释性和神经网络程序合成提供了一个更可控、更透明的框架。

--- 快手这一批工作，有一个很明显的特征：从实际问题出发，不回避工业场景里的种种“脏”约束——不规则采样、大规模优化、推送预算、电商搜索多目标——然后给出有理论保证、有工程落地的方案。技术不止于发论文，更在真实场景里生长进化。