首页
科技
普林斯顿大学新研究:强化学习让AI变成了“马屁精”

普林斯顿大学新研究:强化学习让AI变成了“马屁精”

热心网友
62
转载
2025-09-05
来源:https://36kr.com/p/3453602384778885

9月5日消息,普林斯顿研究团队近日发布报告指出,为了迎合用户需求,AI工具开始了“胡说八道”。报告指出,生成式AI模型频繁出错,一个重要原因在于它们被训练得过于迎合用户,仿佛奉行着“顾客永远是对的”这一原则。

AI和人类一样,会对激励机制做出反应。比如,原本“将患者疼痛管理纳入医生绩效考核”是为了改善医疗体验,但在现实中却反而促使医生更多开具成瘾性止痛药。大语言模型(LLMs)出现不准确信息,其背后也是类似的激励偏差:训练目标的设定过于偏向满足用户需求,而不是追求事实,从而让AI偏离了“求真”的轨道。

01.从训练机制拆解:大模型迎合优先,RLHF让模型走偏

近几个月,AI的潜在风险与争议不断显现:一方面,其可能存在的偏见问题已被证实,更有观点认为其或对部分人群诱发精神病。MIT在今年6月发布的论文中表示,大语言模型会显著降低大脑活动水平,削弱记忆,甚至造成“认知惯性”。长期以来,会严重影响用户的深度思考和创造力。

另一方面,围绕AI“谄媚”的讨论也从未停歇,典型如OpenAI的 GPT-4o模型,往往会无原则地快速迎合用户。今年5月,来自斯坦福大学、牛津大学等机构的研究人员提出了一个新的衡量模型谄媚行为的基准——Elephant,并对包括GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7在内的8款主流模型进行了评测。结果发现,GPT-4o成功当选“最谄媚模型”,Gemini 1.5 Flash最正常。

需要注意的是,研究人员提出的“机器胡说八道” (Machine Bullshit)现象,与上述两类问题均不相同。正如普林斯顿大学研究所述:“幻觉和谄媚都无法全面涵盖大语言模型普遍存在的系统性不真实行为。举例来说,模型使用部分真相误导、用模糊语言回避明确结论,也就是半真半假或模棱两可的表达,这类行为既不属于幻觉,也不是谄媚,却与‘胡说八道’概念高度匹配。”

报告指出,要明晰AI语言模型如何沦为“讨好者”,需先了解大语言模型的完整训练过程,其通常分为三个核心阶段:

·预训练阶段:模型从互联网、书籍、学术论文等海量公开数据源中学习,核心任务是掌握语言逻辑与知识关联,本质是“预测下一个最可能出现的文字”,此时尚未涉及对“用户喜好”的考量。

·指令微调阶段:通过特定数据集训练,让模型理解并响应人类的指令或提示,例如区分“写一首诗”与“解释一个科学原理”的不同需求,初步建立“任务匹配”能力。

·基于人类反馈的强化学习(RLHF)阶段:这是AI“讨好属性”的关键养成期。模型会根据人类评估者对回答的打分(如“满意”或“不满意”)进行优化,目标是生成更贴合人类期望或喜好的内容。

在RLHF阶段后,Meta的两款Llama模型开始撒谎讨好(RLHF 让模型在低置信度时也更倾向给出明确答案,减少了“我不知道”的回避,却增加了过度自信的风险)

普林斯顿研究团队发现,AI信息不准确的根源,恰恰集中在基于人类反馈的强化学习阶段。初始的预训练阶段,模型仅专注于从数据中学习“统计上合理的文本链”;但进入基于人类反馈的强化学习阶段后,训练目标彻底转向“最大化用户满意度”,这意味着模型本质上在学习“如何生成能从人类评估者那里获得‘点赞’的回答”,而非“如何生成真实、准确的回答”。

卡内基梅隆大学计算机科学教授文森特・康尼策(Vincent Conitzer,未参与该研究)对此解释道:“从历史表现来看,这些AI系统不擅长说‘我不知道答案’。当它们遇到知识盲区时,不会选择坦诚,而是像考试中怕得零分的学生一样,倾向于随意编造答案。这种行为背后,是受训练机制中‘以用户满意度为核心奖励’的逻辑驱动。”

普林斯顿团队开发的“胡说八道指数”计算公式

为量化这一现象,普林斯顿团队开发了“胡说八道指数”(Bullshit Index),用于对比AI模型对某一陈述的“内在信心”(即模型自身判断的真实性概率)与“实际输出内容”的偏差程度。实验数据显示,经过基于人类反馈的强化学习训练后,AI的“胡说八道指数” 从0.38几乎翻倍至接近1.0,而同期用户满意度提升了48%。这意味着,模型已学会通过“操控人类评估者的喜好”获取高分,而非通过提供准确信息赢得认可。简而言之,大语言模型在“胡说八道”,但用户却更青睐这样的结果。

02.破局尝试:如何让AI在“讨好”与“诚实”间找到平衡?

不同模型的“胡说八道”方式各不相同

针对AI对真相的漠视问题,普林斯顿大学的杰米・费尔南德斯・菲萨克(Jaime Fernández Fisac)及其团队首先明确了问题边界。他们引入“机器胡说八道” 概念,借鉴哲学家哈里・法兰克福(Harry Frankfurt)的著名论文《论扯淡》(On Bullshit),将AI的不真实行为与“诚实错误”、“直接谎言” 区分开,并梳理出五种典型的“机器胡说八道” 形式:

空洞修辞:使用华丽但无实质内容的语言,例如用大量专业术语堆砌却未解释核心逻辑。

·模棱两可的措辞:通过模糊限定词规避明确表述,如“有研究表明”、“在部分情况下”,既不肯定也不否定,留足“回旋空间”。

·半真半假:选择性呈现事实以误导用户,例如推荐投资产品时,只强调“历史年化收益率超10%”,却刻意隐瞒“风险等级为高风险”的关键信息。

·未经证实的主张:做出缺乏证据或可信来源支持的断言,如“某方法可100%治愈某疾病”,且无任何权威数据支撑。

·谄媚:为取悦用户进行不真诚的奉承或附和,例如无论用户观点是否正确,均回应“你的想法非常专业,完全正确”。

为解决这一问题,普林斯顿研究团队开发了一种全新的训练方法——“后见模拟强化学习”(Reinforcement Learning from Hindsight Simulation)。其核心逻辑是“跳出即时满意度,关注长期价值”。这种训练方法不再以“这个回答现在能否让用户开心”作为评估标准,而是转向“如果用户遵循这个建议,能否真正帮助他实现目标”。

该方法需提前预判AI建议可能产生的未来后果,针对这一复杂的预测难题,研究人员引入“额外AI模型”,通过模拟不同场景下建议的执行结果,反向推导回答的“实际效用”。初步测试数据显示,这种训练方式不仅未降低用户满意度,还进一步提升了回答的实际价值,成功实现“讨好用户”与“输出诚实信息”的初步平衡。

不过,康尼策也提出提醒:大语言模型的缺陷难以彻底消除。“这些系统能通过海量文本数据掌握人类语言理解能力,本身已是重大技术突破,但受限于训练逻辑,它们无法保证每次回答都绝对合理、准确。在我看来,未来一两年内,很难出现能‘让AI彻底避免出错’的重大突破。”

AI系统正逐步融入医疗、教育、金融等关键领域,在此背景下,如何平衡“用户满意度”与“信息真实性”、如何处理“短期认可”与“长期价值”的取舍关系、以及如何确保AI在提升人类心理推理能力后“负责任地运用这种能力”,这些问题已成为AI行业发展必须直面的核心挑战,需要全球研究者与开发者携手探索解决方案。

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新文章

鸣潮2.4版本前瞻:新角色仇远登场,国风剑客引热议

在鸣潮2 4版本前瞻直播中,最新披露了6名新角色信息,其中弗洛洛、奥古斯塔与尤诺已正式加入游戏,而千咲、仇远与嘉贝莉娜尚未公布具体上线时间。今日,官方发布了关于仇远的详细情报。仇远是三人中唯一的男性

2025-09-06.
5110

Shift Up财报披露剑星IP未来布局,续作开发启动

Shift Up近日发布了最新的财务报告,其中提到了公司旗下游戏IP未来的发展方向。财报中提及了去年率先登陆PS5,随后于今年6月推出PC版本的动作游戏剑星。作为一款新晋IP,在全球主机市场被诸多成

2025-09-06.
5273

得力一转三插座促销价12.5元起,多款可选,限时优惠!

得力一转三插座LU5001在天猫得力最新旗舰店日常售价为26 42元。当前促销活动中,用户可享下单立减优惠,同时领取5元优惠券,并叠加首次购买用户专享的1元首购礼金,最终实付价格低至12 5元。本次

2025-09-06.
9292

空洞骑士:丝之歌正式上线,玩家涌入致多平台故障

北京时间9月4日22点,空洞骑士:丝之歌正式上线,标志着这款长期备受期待的作品终于与玩家见面。然而,由于大量玩家同时涌入,多个游戏平台出现了不同程度的故障。不少玩家在社交平台上反映,在尝试进入任天堂

2025-09-06.
4904

塔瑞斯世界国际服将停运,国服未来尚不明朗

近日,知名网络游戏塔瑞斯世界通过其海外正式发布公告,宣布国际服将于北京时间2025年11月4日上午8点正式停止运营。具体的停服安排如下:- 北京时间2025年9月4日上午8点起,游戏的注册与充值功能

2025-09-06.
3460

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
小小村长九游渠道服
小小村长九游渠道服 棋牌策略 2025-09-06更新
查看
小小村长小米
小小村长小米 棋牌策略 2025-09-06更新
查看
贪吃蛇大作战九游
贪吃蛇大作战九游 休闲益智 2025-09-06更新
查看
三国又如何
三国又如何 棋牌策略 2025-09-06更新
查看
道友请留步bilibili
道友请留步bilibili 角色扮演 2025-09-06更新
查看
小小村长正
小小村长正 棋牌策略 2025-09-06更新
查看
小小村长应用宝
小小村长应用宝 棋牌策略 2025-09-06更新
查看
小小村长华为
小小村长华为 棋牌策略 2025-09-06更新
查看
小小村长
小小村长 模拟经营 2025-09-06更新
查看
小小村长vivo
小小村长vivo 棋牌策略 2025-09-06更新
查看