腾讯AI科学家姚顺雨入职后首发重要研究成果
IT之家 2 月 3 日消息,腾讯混元正式技术博客(Tencent HY Research)今日(2 月 3 日)上线并发表了一篇名为《从 Context 学习,远比我们想象的要难》的文章,系统介绍了腾讯混元团队联合复旦大学的一项新研究。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
这是姚顺雨加入腾讯担任首席 AI 科学家后带领团队首次发布研究成果,也是腾讯混元技术博客首次公开。这一博客的推出,旨在分享腾讯混元研究员在前沿技术研究和实践中的探索与经验。
博客提到,过去几年,大语言模型的进化速度快得令人惊叹。如今的前沿模型,已经是顶级的“做题家”:它们能解开奥数级别的难题,能推演复杂的编程逻辑,甚至能通过那些人类需要苦读数年才能拿下的专业资格考试。
然而,这些耀眼的成绩单可能掩盖了一个真相:能在考场拿满分的学生,未必能胜任真实世界的工作。
回看我们人类的日常工作:开发者扫过从未见过的工具文档,就能立刻开始调试代码;玩家拿起新游戏的规则书,在实战中边玩边学;科学家从复杂的实验日志中筛选数据,推导出新的结论和定律。我们发现在这些场景中,人类并不只依赖多年前学到的“死知识”,而是在实时地从眼前的 Context 中学习。
然而,今天的语言模型并非如此。它们主要依赖“参数化知识”—— 即在预训练阶段被压缩进模型权重里的静态记忆。在推理时,模型更多是在调用这些封存的内部知识,而不是主动从当前输入的新信息中汲取营养。
这揭示了当前模型的训练范式和在真实场景中应用之间是不匹配的:我们优化出的模型擅长对自己“已知”的事物进行推理,但用户需要的,却是让模型解决那些依赖于杂乱、动态变化的 Context 的任务。
简而言之:我们造出了依赖“过去”的参数推理者,但世界需要的是能吸收“当下”环境的 Context 学习者。要弥合这一差距,我们必须从根本上改变模型的优化方向。

为了衡量现有模型距离真正的“Context Learner”还有多远,姚顺雨团队构建了 CL-bench。这是一个专门评测语言模型能否从 Context 中学习新知识并正确应用的基准。

CL-bench 包含由资深领域专家精心制作的 500 个复杂 Context、1,899 个任务和 31,607 个验证标准。CL-bench 只包含一个简单但苛刻的要求:解决每个任务要求模型必须从 Context 中学习到模型预训练中不存在的新知识,并正确应用。
具体来说,CL-bench 涵盖了四种广泛的现实世界 Context 学习场景:
领域知识推理: Context 提供特定的领域知识(例如,虚构的法律体系、创新的金融工具或小众专业知识)。模型需要利用这些知识来推理并解决具体问题。规则系统应用:Context 提供新定义的正式系统(例如,新的游戏机制、数学形式体系、编程语法或技术标准)。模型必须理解并应用这些规则来执行任务。程序性任务执行:Context 提供复杂的过程系统(例如,工作流、产品手册和操作指南)。模型必须理解并应用这些程序性信息来完成任务。经验发现与模拟: Context 提供复杂系统内的实验数据、观测记录或模拟环境。与前几类涉及演绎推理不同,这一类专注于归纳推理,也是最具挑战性的。模型必须从数据中发现潜在的定律或结论,并应用它们来解决任务。

这些类别包含了大部分现实世界工作中常见的演绎推理和归纳推理任务,能充分衡量模型的 Context 学习能力。
为了确保性能真正反映 Context 学习,而不是记忆或数据泄露,CL-bench 采用了无污染(Contamination-free)设计:
虚构创作:专家创作完全虚构的内容,例如为虚构国家设计一套完整的法律体系(包括新颖的判例和法律原则),或创建具有独特语法和语义的新编程语言。现有内容的修改:专家修改现实世界的内容以创建变体,例如更改历史事件、改变科学和数学定义,或修改技术文档和标准。整合小众和新兴内容:专家纳入了在预训练数据集中代表性极低的小众或近期新兴内容,如前沿研究发现、新发布的产品手册或技术文档,以及来自专门领域的特定知识。
在不提供任何 Context 的情况下,最先进的模型 GPT-5.1 (High) 仅能解决不到 1% 的任务。这证明了数据是无污染的,模型若不从 Context 中学习,几乎完全无法解决这些任务。
此外,CL-bench 的设计具有高复杂性和序列依赖性。51.1% 的任务需要序列依赖,意味着后续任务的解决方案取决于早期交互的结果。这种多轮次设计显著增加了任务难度。平均而言,领域专家花费约 20 小时标注每个 Context ,以确保任务构建的质量和深度。
CL-bench 中的每个任务都是完全可验证的。平均而言,每个 Context 关联 63.2 个验证标准,每个任务包含 16.6 个评估标准。每个任务的正确性都从多个角度进行评估,确保了评估的全面性。
该团队在 CL-bench 上评估了十个最先进的语言模型。结果揭示了清晰且一致的差距。
平均而言,模型仅解决了 17.2% 的任务。即便是表现最好的模型 GPT-5.1 (High),也仅达到了 23.7%。换句话说,尽管 Context 中拥有解决每个任务所需的全部信息,模型在绝大多数任务上都失败了。这表明当前的 SOTA 模型几乎不会从 Context 中学习。


IT之家附项目正式如下:
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
苹果尘封50年档案曝光:电路板比手机大 库克都没见过
苹果公司历史档案首次公开:揭秘历代经典产品背后不为人知的研发历程 为庆祝品牌成立50周年,苹果公司近期做出了一项特别举措:首席执行官蒂姆·库克首次对公司外的访问者开放了内部历史档案库,并展示了一批从未对外公布过的珍贵历史文件与实物原型。 此次档案公开本身传递出一个清晰的信号。库克在现场强调的核心观点
怎么连黑色款都没有!iPhone18Pro新配色登场
iPhone 18 Pro系列前瞻:设计、芯片与影像的确定性升级 进入下半年,科技圈的聚光灯,无疑将再次聚焦于苹果的年度旗舰。最新信息显示,iPhone 18 Pro系列的节奏已然清晰:计划于7月启动量产,并在9月如期亮相。与时间表一同明确的,是新机在配色、外观与核心硬件上将迎来的一系列关键调整。
天价内存逼出狠活!老外魔改无内存PC成功运行
内存价格飙升,电脑不装内存条还能开机吗?极限测试揭示真相 近期内存市场价格持续攀升,令许多用户开始思考各种替代方案的可能性。一位名为PortalRunner的技术博主进行了一场大胆实验:如果电脑完全不安装任何内存模组,究竟能否成功启动?其运行状态又会如何? 实验平台选用了一套经典硬件组合:华擎品牌主
酷态科 CP 户外风扇新增「暮山紫」「曜石黑」配色,69 元
酷态科CP户外风扇新增两款配色,持续拓展户外场景 4月3日,酷态科正式为其CP户外风扇产品线添上了“暮山紫”与“曜石黑”两款新色。目前,这两款新配色产品已在京东平台上架,售价维持在了69元。 京东酷态科 CP 超级户外风扇 69 元直达链接 从官方发布的信息来看,这款风扇的核心性能配置颇有看点。其采
荣耀 X80i 手机预售:金属中框 + 7000mAh 电池,1999 元起
荣耀 X80i 开启预售:续航与质感的新答案,1699元起 千元机市场的竞争,总在看似平静中迎来新的变局。4月2日,荣耀X80i正式开启全渠道预售,并将于4月10日全渠道开售。官方建议零售价为1999元起,但结合当前正在进行的“数码家电政府补贴”,到手价可直接下探到1699 15元起,性价比的门槛被
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

