首页
科技
大模型推理能力提升:突破熵崩塌,精确探索技术实现成绩飙升

大模型推理能力提升:突破熵崩塌,精确探索技术实现成绩飙升

热心网友
转载
2025-10-13
来源:https://36kr.com/p/3507408957299848

大语言模型在RLVR训练中面临的“熵困境”,有解了!

2024年以来,以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等为代表的大模型,在数学、代码和科学推理任务上取得了显著突破。这些进展很大程度上得益于一种名为RLVR(基于可验证奖励的强化学习)的方法。

该方法通过数学验证、单元测试等可自动判断对错的方式提供训练信号,替代了传统依赖人类评判的流程,使模型能够进行大规模、高效率的自我改进。

然而,RLVR在实践中始终面临“探索机制极易失衡”这一关键瓶颈——要么探索受限,陷入熵崩塌;要么探索失控,引发熵爆炸。

为突破这一瓶颈,来自上海人工智能实验室和复旦大学等机构的研究团队提出选择性熵正则化方法(SIREN),通过划定探索范围、聚焦关键决策、稳定训练过程的三重机制,实现了对探索行为的精准调控。

实验证明,该方法不仅在多项数学推理基准上取得了显著性能提升,更重要的是,它让模型的探索过程变得更加高效与可控。

下面详细来看——

核心困境:探索的“两难陷阱”

在RLVR训练中,研究人员期望模型能够持续探索多样化的解题路径,以避免过早陷入局部最优。

一个自然的想法是:引入熵正则化(entropy regularization)。

这是强化学习中鼓励探索的经典手段。其核心思想很简单:在优化目标中加入一项,鼓励模型在每一步生成时保持一定的“不确定性”,不要过早把概率全压在少数几个词上。

具体来说,就是计算每一步输出分布的熵(衡量“混乱程度”),再把整条推理轨迹的平均熵加到训练目标里,用一个系数

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章

领克10EM-P首月销万辆:以精准定位重塑混动SUV市场格局

当混动市场的竞争从“参数比拼”转向“需求洞察”,一款新车的市场表现往往能折射出消费逻辑的深刻变迁。领克10EM-P上市首月即实现万台下线,在平均售价接近19万元的中高端市场创下“非低价冲量”的纪录。

2025-10-15.

荣耀Magic8系列价格表公布:6款新品349元起,顶配699元!

10月15日消息,今日,荣耀举行新品发布会,发布荣耀Magic8系列、荣耀MagicPad 3 Pro等六大新品,有手机、平板、耳机、智能手表等。目前全部产品价格已经公布,汇总如下:荣耀Magic8

2025-10-15.

百度蒸汽机升级:AI实现长视频实时交互与用户创意干预

百度旗下视频生成模型迎来重大技术突破,其自主研发的“蒸汽机(文心专精)”系统首次实现AI长视频实时交互生成功能。通过流式视频技术的创新应用,该系统成功打破传统AI视频生成10秒左右的时长桎梏,支持“

2025-10-15.

远程星瀚H亮相国际消防展,新能源智慧消防迈入新阶段

第二十一届中国国际消防设备技术交流展览会在北京拉开帷幕,这场汇聚全球消防救援产业核心力量的盛会,以“科技赋能实战,助力产业发展,服务消防救援”为主题,集中展示了消防领域的前沿产品与尖端技术,成为行业

2025-10-15.

斯巴鲁BRZ STI Sport限量登场:100台配专属套件,操控全面进化

斯巴鲁中国正式宣布,新款BRZ STI Sport锋芒限量版正式上市,全国限量发售100台。新车提供手动挡与自动挡两款车型,售价分别为30 18万元和31 18万元,预计首批交付将于10月末启动。为

2025-10-15.

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
球球英雄正
球球英雄正 休闲益智 2025-10-15更新
查看
姜饼人王国国际服正
姜饼人王国国际服正 角色扮演 2025-10-15更新
查看
球球英雄百度
球球英雄百度 休闲益智 2025-10-15更新
查看
球球英雄vivo客户端
球球英雄vivo客户端 休闲益智 2025-10-15更新
查看
欧陆战争4
欧陆战争4 棋牌策略 2025-10-15更新
查看
仙侠第一放置手游
仙侠第一放置手游 角色扮演 2025-10-15更新
查看
仙侠第一放置小米
仙侠第一放置小米 角色扮演 2025-10-15更新
查看
仙侠第一放置九游
仙侠第一放置九游 角色扮演 2025-10-15更新
查看
代号鸢正
代号鸢正 角色扮演 2025-10-15更新
查看
仙侠第一放置华为
仙侠第一放置华为 角色扮演 2025-10-15更新
查看