OpenAI破解大模型幻觉难题,重塑评估机制以减少错误输出

OpenAI研究人员近日表示,他们已找到解决大语言模型一个关键难题的方法,即减少模型在输出信息时产生的“幻觉”现象。
所谓“幻觉”,指的是大语言模型在生成内容时会输出看似合理但实际上并不准确的信息。这种问题广泛存在于当前主流模型中,成为影响其可靠性的一大障碍。
研究人员在一篇新发表的论文中指出,幻觉现象的根源在于模型的训练机制。目前的训练方式更倾向于奖励模型“猜测”答案,而不是鼓励它在面对不确定信息时坦承“我不知道”。这种机制导致模型倾向于表现得像一个“善于应试的考生”,即使在信息不明确的情况下也会尝试给出一个看似正确的回答。
OpenAI在上月的一篇文章中提到,其他模型在处理不确定性时的表现也有所不同。例如,某些模型在面对缺乏明确答案的问题时,会倾向于选择不回答或表达不确定。虽然这有助于减少错误信息的输出,但也可能降低模型的实用性,因为用户期望获得更多的有效回应。
研究人员认为,幻觉问题难以根除的主要原因之一,是当前主流评估体系的导向。这些评估方法往往将“猜测出正确答案”视为高分表现,而将“无法回答”或“不确定”视为低分表现。这种机制进一步强化了模型猜测行为的倾向。
“现实世界并非非黑即白的判断题,”研究人员在论文中指出,“但目前的评估标准却把模型训练成了始终处于考试状态的答题机器,忽略了现实中普遍存在的不确定性。”
他们建议,解决这一问题的根本方法在于重新设计模型的评估和评分机制。理想的评估体系应当对猜测行为进行惩罚,而不是对模型的不确定性表达予以扣分。只有当评分机制能够准确反映模型在面对不确定时的合理反应,才能真正减少幻觉现象的发生。
在相关说明中,研究人员进一步强调,当前以准确率为核心的评估标准已经难以适应更复杂的应用场景。如果排行榜继续奖励那些依靠猜测获得高分的模型,那么未来的大模型仍会被持续训练为依赖运气的“应试机器”。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
最新文章
2025数字电商赋能实体经济大会在京举办
九月五日,“石聚合力·联动未来——2025数字电商赋能实体经济高质量发展大会暨资本创新高峰论坛”在北京隆重举行。第十二届全国政协副主席刘晓峰出席并宣布大会开幕,商务部原副部长张志刚、工业与信息化部政
华为推出首款小型平板Matepad Mini,起售价3299元
华为正式推出旗下首款小型平板设备——华为Matepad Mini,起售价为3299元。这款新品是华为首款配备8 8英寸屏幕的平板产品,定位介于传统智能手机与大屏平板之间。相比手机,它能展示更丰富的内
九号公司智能两轮电动车累计出货突破900万台,年销700万台目标在路上
九号公司于今日宣布,其旗下智能两轮电动车在中国市场的累计出货量已突破900万台,再次创下行业新的增长纪录。据了解,从700万台到800万台的跨越,九号公司用时64天;而从800万台增长至900万台,
AMD ROCm文档曝光RDNA 4架构Radeon RX 9060 XL显卡信息
近日,在AMD的ROCm文档中出现了一款此前未见提及的RDNA 4架构GPU——Radeon RX 9060 XL,但目前尚无法确认这款显卡是否真实存在,还是仅仅是文档中的错误信息。ROCm是AMD
8月燃油B级车市场格局稳定,头部车型主导竞争激烈
8月燃油B级车市场整体格局延续了以往的稳定态势,头部车型依然占据主导地位,中后段竞争则更加白热化。帕萨特在最后一周销量激增,单周接近4700辆,使整体月销量突破2万辆,稳居榜首。凯美瑞在月中一度下滑
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















