普林斯顿大学新研究:强化学习让AI变成了“马屁精”

9月5日消息,普林斯顿研究团队近日发布报告指出,为了迎合用户需求,AI工具开始了“胡说八道”。报告指出,生成式AI模型频繁出错,一个重要原因在于它们被训练得过于迎合用户,仿佛奉行着“顾客永远是对的”这一原则。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
AI和人类一样,会对激励机制做出反应。比如,原本“将患者疼痛管理纳入医生绩效考核”是为了改善医疗体验,但在现实中却反而促使医生更多开具成瘾性止痛药。大语言模型(LLMs)出现不准确信息,其背后也是类似的激励偏差:训练目标的设定过于偏向满足用户需求,而不是追求事实,从而让AI偏离了“求真”的轨道。
01.从训练机制拆解:大模型迎合优先,RLHF让模型走偏
近几个月,AI的潜在风险与争议不断显现:一方面,其可能存在的偏见问题已被证实,更有观点认为其或对部分人群诱发精神病。MIT在今年6月发布的论文中表示,大语言模型会显著降低大脑活动水平,削弱记忆,甚至造成“认知惯性”。长期以来,会严重影响用户的深度思考和创造力。
另一方面,围绕AI“谄媚”的讨论也从未停歇,典型如OpenAI的 GPT-4o模型,往往会无原则地快速迎合用户。今年5月,来自斯坦福大学、牛津大学等机构的研究人员提出了一个新的衡量模型谄媚行为的基准——Elephant,并对包括GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7在内的8款主流模型进行了评测。结果发现,GPT-4o成功当选“最谄媚模型”,Gemini 1.5 Flash最正常。
需要注意的是,研究人员提出的“机器胡说八道” (Machine Bullshit)现象,与上述两类问题均不相同。正如普林斯顿大学研究所述:“幻觉和谄媚都无法全面涵盖大语言模型普遍存在的系统性不真实行为。举例来说,模型使用部分真相误导、用模糊语言回避明确结论,也就是半真半假或模棱两可的表达,这类行为既不属于幻觉,也不是谄媚,却与‘胡说八道’概念高度匹配。”
报告指出,要明晰AI语言模型如何沦为“讨好者”,需先了解大语言模型的完整训练过程,其通常分为三个核心阶段:
·预训练阶段:模型从互联网、书籍、学术论文等海量公开数据源中学习,核心任务是掌握语言逻辑与知识关联,本质是“预测下一个最可能出现的文字”,此时尚未涉及对“用户喜好”的考量。
·指令微调阶段:通过特定数据集训练,让模型理解并响应人类的指令或提示,例如区分“写一首诗”与“解释一个科学原理”的不同需求,初步建立“任务匹配”能力。
·基于人类反馈的强化学习(RLHF)阶段:这是AI“讨好属性”的关键养成期。模型会根据人类评估者对回答的打分(如“满意”或“不满意”)进行优化,目标是生成更贴合人类期望或喜好的内容。

在RLHF阶段后,Meta的两款Llama模型开始撒谎讨好(RLHF 让模型在低置信度时也更倾向给出明确答案,减少了“我不知道”的回避,却增加了过度自信的风险)
普林斯顿研究团队发现,AI信息不准确的根源,恰恰集中在基于人类反馈的强化学习阶段。初始的预训练阶段,模型仅专注于从数据中学习“统计上合理的文本链”;但进入基于人类反馈的强化学习阶段后,训练目标彻底转向“最大化用户满意度”,这意味着模型本质上在学习“如何生成能从人类评估者那里获得‘点赞’的回答”,而非“如何生成真实、准确的回答”。
卡内基梅隆大学计算机科学教授文森特・康尼策(Vincent Conitzer,未参与该研究)对此解释道:“从历史表现来看,这些AI系统不擅长说‘我不知道答案’。当它们遇到知识盲区时,不会选择坦诚,而是像考试中怕得零分的学生一样,倾向于随意编造答案。这种行为背后,是受训练机制中‘以用户满意度为核心奖励’的逻辑驱动。”

普林斯顿团队开发的“胡说八道指数”计算公式
为量化这一现象,普林斯顿团队开发了“胡说八道指数”(Bullshit Index),用于对比AI模型对某一陈述的“内在信心”(即模型自身判断的真实性概率)与“实际输出内容”的偏差程度。实验数据显示,经过基于人类反馈的强化学习训练后,AI的“胡说八道指数” 从0.38几乎翻倍至接近1.0,而同期用户满意度提升了48%。这意味着,模型已学会通过“操控人类评估者的喜好”获取高分,而非通过提供准确信息赢得认可。简而言之,大语言模型在“胡说八道”,但用户却更青睐这样的结果。
02.破局尝试:如何让AI在“讨好”与“诚实”间找到平衡?

不同模型的“胡说八道”方式各不相同
针对AI对真相的漠视问题,普林斯顿大学的杰米・费尔南德斯・菲萨克(Jaime Fernández Fisac)及其团队首先明确了问题边界。他们引入“机器胡说八道” 概念,借鉴哲学家哈里・法兰克福(Harry Frankfurt)的著名论文《论扯淡》(On Bullshit),将AI的不真实行为与“诚实错误”、“直接谎言” 区分开,并梳理出五种典型的“机器胡说八道” 形式:
空洞修辞:使用华丽但无实质内容的语言,例如用大量专业术语堆砌却未解释核心逻辑。
·模棱两可的措辞:通过模糊限定词规避明确表述,如“有研究表明”、“在部分情况下”,既不肯定也不否定,留足“回旋空间”。
·半真半假:选择性呈现事实以误导用户,例如推荐投资产品时,只强调“历史年化收益率超10%”,却刻意隐瞒“风险等级为高风险”的关键信息。
·未经证实的主张:做出缺乏证据或可信来源支持的断言,如“某方法可100%治愈某疾病”,且无任何权威数据支撑。
·谄媚:为取悦用户进行不真诚的奉承或附和,例如无论用户观点是否正确,均回应“你的想法非常专业,完全正确”。
为解决这一问题,普林斯顿研究团队开发了一种全新的训练方法——“后见模拟强化学习”(Reinforcement Learning from Hindsight Simulation)。其核心逻辑是“跳出即时满意度,关注长期价值”。这种训练方法不再以“这个回答现在能否让用户开心”作为评估标准,而是转向“如果用户遵循这个建议,能否真正帮助他实现目标”。
该方法需提前预判AI建议可能产生的未来后果,针对这一复杂的预测难题,研究人员引入“额外AI模型”,通过模拟不同场景下建议的执行结果,反向推导回答的“实际效用”。初步测试数据显示,这种训练方式不仅未降低用户满意度,还进一步提升了回答的实际价值,成功实现“讨好用户”与“输出诚实信息”的初步平衡。
不过,康尼策也提出提醒:大语言模型的缺陷难以彻底消除。“这些系统能通过海量文本数据掌握人类语言理解能力,本身已是重大技术突破,但受限于训练逻辑,它们无法保证每次回答都绝对合理、准确。在我看来,未来一两年内,很难出现能‘让AI彻底避免出错’的重大突破。”
AI系统正逐步融入医疗、教育、金融等关键领域,在此背景下,如何平衡“用户满意度”与“信息真实性”、如何处理“短期认可”与“长期价值”的取舍关系、以及如何确保AI在提升人类心理推理能力后“负责任地运用这种能力”,这些问题已成为AI行业发展必须直面的核心挑战,需要全球研究者与开发者携手探索解决方案。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
天钡 MACO 255 迷你主机发售:双 2.5G 网口,24GB 内存无硬盘版本 2899 元
天钡 MACO 255 迷你主机正式开售:搭载双2 5G网口与大容量板载内存,准系统版仅售2899元 迷你主机市场迎来高性价比新选择。天钡最新推出的MACO 255机型,凭借独特的硬件组合吸引了广泛关注。其核心搭载了AMD锐龙7 H 255移动处理器,并创新性地板载了24GB LPDDR5-6400
小米米家洗衣机滚筒 10Kg 超薄全嵌版发售:1.25 洗净比,1199 元
小米米家洗衣机滚筒 10Kg 超薄全嵌版开售:1 25高洗净比,1199元入手智能洗护方案 今日晚间19:30,备受期待的米家洗衣机滚筒10公斤超薄全嵌式版本将正式上市。这款定价仅为1199元的洗衣机,为计划打造现代一体化厨房与阳台家居的消费者,提供了一个兼具高性价比与前沿智能体验的优质选择。 该款
英特尔:"Raptor Lake" 处理器仍是战略重要组成,短期内不会停产
英特尔重申“Raptor Lake”处理器的战略地位:短期内不会停产,市场供应充足 近期一则官方表态,给许多在“追新”与“实用”之间犹豫的DIY玩家带来了明确信号。4月6日,英特尔副总裁兼发烧友渠道业务总经理Robert Hallock在接受外媒Club386访谈时坚定指出,代号“Raptor La
M5 MacBook Air 16+512G 京东补货:国补后 7188 元,教育优惠版 6544 元
M5款MacBook Air补货速递:国补与教育优惠详解 近期,对于关注MacBook Air的用户来说,迎来了一波绝佳的入手时机。搭载全新M5芯片的新款MacBook Air官方起售价为8499元,现在叠加国家补贴政策,可享受高达15%的折扣优惠,最高能节省约1500元。此外,符合资质的高校学生及
性能怪兽!RTX 6090显卡大爆料 或2027年发售
2026年4月:英伟达RTX 6090,下一代性能王者的蓝图与展望 进入2026年第二季度,科技领域关于英伟达下一代旗舰显卡——GeForce RTX 6090的讨论持续升温,细节愈发清晰。多方泄露的信息共同勾勒出一幅令人振奋的图景:这款代号“Rubin”的图形处理器,极有可能成为GPU性能发展史上
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

