OpenAI 研究人员宣称已破解模型“幻觉”难题:现有评估方式在鼓励 AI“瞎蒙”

9 月 6 日消息,据《商业内幕》今日报道,OpenAI 研究人员宣称已经破解大语言模型性能最大的障碍之一 —— 幻觉问题。
注:所谓幻觉,是指大语言模型把不准确的信息当作事实输出,几乎所有主流模型都深受其困扰。
OpenAI 在周四发布的一篇论文中指出,幻觉的根源在于训练方式更偏向奖励“猜测”,而不是承认不确定性。换句话说,模型被训练成“装作知道”,而不是坦率地说“我不确定”。
不过,不同模型的表现差别明显。OpenAI 在上个月的博文中提到,Claude 在面对不确定时往往更谨慎,常常避免给出错误回答。但 OpenAI 也提醒,Claude 拒答率偏高,可能削弱了使用价值。
研究人员在论文中写道:“幻觉之所以难以消除,是因为现有的评估标准奖励猜测。模型被优化成‘考试型选手’,在不确定时猜一猜反而能提高分数。”
结果是,大语言模型几乎一直处于“考试模式”,把世界看成非黑即白的是非题。但现实远比考试复杂,不确定性往往多于确定性,绝对的准确并不常见。
研究人员指出:“人类会在现实生活的挫折中学会表达不确定性的价值,而大语言模型的评估主要依赖考试,这些考试却惩罚了不确定的回答。”
其认为,解决方法在于重新设计评估标准。“问题的根源是评估指标没有对齐,必须调整主要的评分方式,避免在模型不确定时因拒答而被扣分。”
OpenAI 在介绍论文的博文中进一步解释说:“目前广泛使用的基于准确率的评估需要更新,打分方式应当抑制‘乱猜’行为。如果排行榜继续奖励侥幸的回答,模型就会不断被训练成靠猜测过关。”
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
高通发布3nm旗舰芯片组,小米首发80TOPS PC处理器
高通在夏威夷举办的一场重要发布会上,正式推出三款采用3nm制程工艺的旗舰芯片,包括新一代旗舰手机SoC芯片骁龙8至尊版(骁龙8 Elite)移动平台、骁龙X2 Elite Extreme和骁龙X2
广汽华为合作启境汽车,25年老将刘嘉铭任CEO
近日,广汽集团正式对外宣布,任命刘嘉铭出任其全新品牌“启境”的首席执行官(CEO)。刘嘉铭将全面主导该品牌的战略规划、产品布局、市场开拓及日常运营管理等核心事务。据了解,刘嘉铭是一位在汽车行业深耕超
OpenAI测试GPT-5多任务系统:GPT-Alpha内测启动
据海外科技媒体披露,OpenAI近期正在对一款名为“GPT-Alpha”的新型AI智能体开展内部测试。该产品以尚未正式发布的GPT-5模型为技术底座,核心研发方向集中于强化AI的复杂推理能力和工具交
市场监管总局要求充电宝召回,保护消费者安全权益
近期,国家市场监督管理总局针对充电宝产品安全隐患问题展开专项治理行动,成立专项督导组统筹全国召回工作。目前已有深圳罗马仕科技有限公司、安克创新科技股份有限公司、小米通讯技术有限公司三家企业启动大规模
全新奔驰GLA路试曝光,二代车型换代设计亮点抢先看
梅赛德斯-奔驰近日确认将停产第二代GLA车型,这款自2019年末上市的紧凑型电动跨界车,其最新款为2026款。不过,品牌已启动新一代GLA的研发工作,原型车近期在德国公共道路测试时被多次捕捉到身影。
相关攻略
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















