苹果AI新突破:大模型指导小模型精准执行复杂指令

8月26日消息,科技媒体9to5Mac于8月25日发布报道称,苹果研究团队在最新论文中提出了一项名为“基于清单反馈的强化学习”(RLCF)的新方法。该方法通过任务清单替代传统的人类点赞或点踩评分机制,显著提升了大语言模型(LLM)处理复杂指令的能力。
注:RLCF全称为Reinforcement Learning from Checklist Feedback。与传统的“人类反馈强化学习”(RLHF)依赖人工评分不同,RLCF会为每一条用户指令生成具体的检查项清单,并按照0-100分逐项评分,从而更精准地指导模型优化。
研究团队在强指令跟随模型Qwen2.5-7B-Instruct上对该方法进行了测试,覆盖了五个常用评测基准。实验结果显示,RLCF是唯一在所有测试中均取得性能提升的方案:
- FollowBench 硬性满意率提升4个百分点
- InFoBench 提高6点
- Arena-Hard 胜率增加3点
- 某些任务最高提升达到8.2%
这些数据表明,清单反馈机制在处理复杂、多步骤任务时效果尤为显著。
清单的生成过程也颇具特色。团队使用了更大规模的Qwen2.5-72B-Instruct模型,结合现有研究方法,为13万条指令构建了名为“WildChecklists”的数据集。清单中的每一项均为明确的二元判断,例如“是否翻译成了西班牙语?”。随后,大语言模型对候选回答逐项打分,并通过加权综合得出最终评分,作为小模型训练中的奖励信号。
不过,苹果研究团队也指出该方法存在一定局限性。首先,RLCF依赖更强大的模型作为评判者,这在计算资源受限的场景中可能难以实现。其次,该方法主要专注于提升复杂指令的执行能力,并未针对模型的安全对齐进行优化,因此不能替代专门的安全性评估。对于其他类型的任务,RLCF的适用性仍需进一步验证。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
最新文章
QQ空间转赞评功能升级:腾讯正式拆分消息通知分类
8 月 20 日消息,腾讯 QQ 今天通过最新公众号宣布,QQ 空间转发、点赞、评论“分开了”。目前,空间消息通知已分类为点赞、评论和 @、转发、最新等栏目。实测发现,QQ App 在此之前对 Q
索尼INZONE电竞新品发布:双耳机+键鼠套装,专业外设全面升级
8 月 20 日消息,在电竞外设市场,赛睿、雷蛇和罗技等品牌早已占据一席之地。如今,索尼带着其 INZONE(英纵)品牌旗下新品强势来袭,试图在这一领域分一杯羹。自 2024 年推出 INZONE
吉利回应基础流量政策调整:用户权益不受影响,服务标准全面保障
8 月 20 日消息,针对部分用户对吉利汽车旗下车型“基础流量”等权益的疑问,吉利汽车今日发布声明,附原文如下:声明近期,我们留意到部分用户对吉利汽车旗下部分车型的“基础流量”等权益存在疑问。为让
特斯拉Model Y L 9月交付,33.9万起售,现车已到店
8 月 20 日消息,特斯拉官微今天下午宣布,Model Y L 现已全部到店,特斯拉门店也将开放咨询品鉴服务。就在昨天,特斯拉 Model Y L 正式上市,新车采用六座布局、全轮驱动、连续可变
钉钉回应优化多位不主张加班高管:消息不实
8 月 20 日消息,互联网博主“网界”今日发文称,据有可靠消息,目前,钉钉 CEO 无招已经布置完任务,不主张加班的多位 P10 以及 P9、P8,三个月内会进行边缘或者优化,大量钉钉高管输出社
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















