腾讯复旦联合发布CL-Bench基准,揭示大模型上下文学习缺陷

2026年2月4日,腾讯混元团队与复旦大学联合研究组正式发布首篇合作论文CL-bench。该成果也是姚顺雨担任腾讯首席AI科学家以来,首次以作者身份参与发表的学术论文。
论文指出,当前人工智能与人类智能之间的核心差距,并非源于知识储量的多寡,而在于持续学习与即时适应的能力。一个仅靠预训练灌输大量静态知识却无法从新情境中主动获取并运用信息的模型,恰如熟记整部字典却无法组织语言进行表达的人——表面渊博,实则缺乏应变与生成能力。人类智能的关键特征,在于能够基于当下所见所闻的上下文实时调整认知、提炼规律、完成推理,而非机械调用过往经验。
针对这一关键能力缺口,研究团队提出CL-bench评测基准,旨在系统评估大语言模型是否真正具备“从上下文中学习新知识并准确应用”的能力。该基准由领域资深专家历时数月构建,涵盖500组结构复杂、语义丰富的上下文样本,对应1899项细分任务及31607条精细化验证标准。
CL-bench设定了唯一但极具挑战性的核心要求:每个任务的解答,必须严格依赖上下文中提供的、模型预训练阶段从未接触过的新信息,并在理解后正确执行。实验结果显示,目前全球综合表现位居前列的十款大语言模型,在该基准上的平均任务完成率仅为17.2%。数据表明,即便最先进的模型,在上下文学习这一基础智能维度上仍存在明显不足,尚未形成稳定、可靠、可泛化的上下文内化与应用能力。
这一发现不仅揭示了当前技术的现实局限,也为后续模型架构设计、训练范式优化与评估体系完善提供了明确的突破方向:着力提升模型对动态上下文的感知力、抽象力与迁移力,使其真正成为具备实时学习能力的智能体。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
特斯拉德州测试跑道曝光 Roadster新车发布时间引关注
近日,特斯拉得克萨斯州超级工厂的一项新基建进展引发行业关注:厂区外围正在加速建设一条全新的专用车辆测试跑道。从已披露的现场信息来看,这条跑道并非普通厂区道路,其整体规格与布局设计均指向更高阶、更专业的工程验证用途。 根据最新流出的航拍影像,该测试跑道目前已初具规模。其规划清晰,路面铺设与附属设施完备
手动挡汽车为何逐渐消失 驾驶环境变化让多数司机难以适应
你是否注意到,如今道路上手动挡车型的身影正逐渐稀少?在新车市场中,自动挡几乎已成为标准配置。许多人将其简单归结为“手动挡技术落后”,然而背后的原因,远比这更为复杂。 相比之下,自动挡的操作逻辑则直观许多。只需挂入D挡,车辆便能平稳起步与行驶,驾驶者完全无需关注离合器踏板与结合点。尤其在拥堵频繁的城市
苹果自研基带2026年启用 iPhone 18系列将全面搭载
苹果公司正加速推进其核心供应链的自主化战略,并已进入关键实施阶段。综合多方行业信息,苹果计划于2026年推出的iPhone 18系列所有机型,将全面搭载其自主研发的调制解调器芯片。此举标志着苹果将结束在手机核心通信组件上长期依赖外部供应商的历史。业界与消费者共同关注的核心在于:这一自研基带的集成,能
铠侠XG10旗舰固态硬盘发布PCIe Gen5性能再升级
2026年5月14日,全球领先的存储解决方案提供商铠侠(Kioxia)重磅推出了其新一代旗舰级固态硬盘——XG10系列。该产品专为追求极致性能的高端台式机、电竞主机及高性能笔记本电脑设计,其核心亮点在于率先采用了消费级SSD领域的尖端接口技术:PCIe 5 0(Gen5)。这一升级使得XG10的理论
辽宁烧机油免拆治理解决方案:司有普安全高效质保无忧
辽宁地区的车主朋友们,是否正为爱车烧机油的问题而烦恼?面对这个常见的发动机故障,许多人在维修决策上感到困惑:是选择风险与成本双高的传统拆解大修,还是尝试更为温和的免拆修复技术?近期,一种名为“动态治理”的解决方案在车主社群中备受关注,其核心理念颇具创新性——让修复过程在车辆日常行驶中自然完成,从而有
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

