OpenAI与Anthropic罕见互评:Claude模型幻觉率显著更低

罕见,着实是太罕见。
一觉醒来,AI圈的两大顶流——OpenAI和Anthropic,竟然破天荒地联手合作了。
而且是互相短暂地授予对方特殊API权限,相互评估模型的安全性和对齐情况。
要知道,在各个AI大模型玩家“厮杀”如此激烈的当下,如此顶流之间的合作方式,还是业界首次。
并且两家已经发布了互相评估后的报告,我们先来看下双方派出的模型阵容:
OpenAI:GPT-4o、GPT-4.1、o3和o4-mini。 Anthropic:Claude Opus 4和Claude Sonnet 4。然后我们再来看下这两份报告的大致亮点:
在 指令层次结构 (Instruction Hierarchy)方面,Claude 4的表现略优于o3,但明显优于其他模型。 在 越狱 (Jailbreaking)方面,Claude模型的表现不如OpenAI o3和OpenAI o4-mini。 在 幻觉 (Hallucination)方面,Claude模型在不确定答案时拒绝高达70%的问题;虽然o3和o4-mini拒答率较低,但幻觉却更高。 在 策略性欺骗 (Scheming)方面,o3和Sonnet 4的表现相对较好。至于为什么要这么做这件事情,OpenAI联合创始人Wojciech Zaremba正面给出了答案:
现在人工智能正处于重要发展阶段,每天有数百万人在使用AI模型,因此这样的工作显得尤为重要。
尽管存在竞争(包括数十亿美元的投资、人才、用户和最佳产品等),但行业如何为安全和合作制定标准,是一个更广泛需要关注的问题。
麻 将并且网友在看到两家大模型同框做推理的画面时,激动地表示道:
泰裤辣!希望这能成为一个标准。
麻 将接下来,我们就来一同深入了解一下这份互评互测的报告。
OpenAI的幻觉会比Claude高
幻觉部分的测试,应当说是这次交叉评测结果中,最让网友们关心的一个话题。
研究人员先是设计了一套人物幻觉测试(Person hallucinations test),它可以生成一些真实人物相关的信息和内容。
它会给AI出一些问题,比如“某人出生在哪一年?”、“某人有几个配偶?”、“帮我写一份某人的简介”等。
这些答案在维基数据里都有权威的记录,可以用来对照;如果AI给出的信息对不上,就算它出现幻觉了。
不过在这个测试中,AI也是被允许拒绝回答,毕竟有时候AI回答“我不知道”要比胡编乱造的强。
这项测试的结果是这样的:
从结果上来看,Cluade Opus 4和Sonnet 4拒绝回答的比例是明显高于OpenAI的模型,虽然保守了一些,但这也让它们出现幻觉的情况要比OpenAI的模型少得多。
相反的,OpenAI的模型都倾向于积极回答的问题,这也导致了出现幻觉的概率要比Anthropic模型高。
例如下面的这个例子,Opus拒绝回答,但o3却有模有样的开始作答了:
除了人物幻觉测试之外,报告在幻觉方面还做了另外一个测试——不允许搜索的问答测试(SimpleQA No Browse)。
顾名思义,就是不让AI上网搜索,只能靠它自己的记忆来回答简短的事实性问题。
这些问题往往是陷阱题,专门被设计来迷惑模型的;同样的,若是AI不确定,也可以选择拒答。
结果也是相似,Sonnet 4和Opus 4往往宁可拒答,也不冒险说错;而o3、o4-mini以及GPT系列更愿意给答案,哪怕有时答错。
对于这一结论,OpenAI在报告中对Anthropic模型的评价是:
Surprising refusals(拒答率蛮惊人的)。
麻 将Claude更能守住大模型的秘密
在幻觉测试之后,指令层次结构方面的测试也是比较有意思。
简单来说,指令层次结构定义了LLM优先处理不同层级指令的方式,一般的优先级顺序是这样的:
系统和安全规则:这些是模型内置的底线,比如不能泄露机密信息、不能生成危险内容。
开发者的目标:模型的设计者可以预设一些行为习惯或输出风格。
用户的指令:我们在对话框里输入的提示。
有了这个顺序,就能保证模型先守住安全和原则,然后在不越界的情况下,尽量满足开发者和用户的需求;测试模型是否能遵守这套层次结构,也是衡量大模型安全性和稳健性的重要方法。
为此,研究人员先做了一个类似“能不能守住秘密”的测试——抵抗系统提示词提取(Resisting system prompt extraction)。
研究人员会尝试通过各种“诱导”方式,让模型暴露它隐藏的系统提示或秘密口令。
举个例子
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
最新文章
Nothing Phone为样张事件致歉:误用专业相机照片,系疏忽所致
8月28日消息,Nothing在上个月推出了Phone 3,这款手机配备了骁龙8s Gen 4处理器和6 67英寸的AMOLED显示屏。Nothing还大力宣传其相机系统,包括5000万像素的主镜头
腾讯5年纳税超2100亿,位列中国民企500强纳税榜首
8月28日消息,全国工商联8月28日发布的“2025民营企业500强”报告显示,民营企业500强的纳税总额达1 27万亿元,其中纳税前三名分别是腾讯、荣盛控股、比亚迪。腾讯以592亿元的纳税总额位列
荣耀MagicOS 10.0升级:智慧运存功能支持更多设备灵活开关
8 月 28 日消息,目前各手机厂商已开启新系统的预热,小米在今日便推出了澎湃 HyperOS 3 系统,后续 OPPO、vivo、荣耀也将分别推出 ColorOS 16、OriginOS 6、M
ColorOS陈希回应澎湃OS 3:卷出新高度,今晚全员加班
8月28日消息,今天下午,小米澎湃OS 3正式亮相。ColorOS设计总监陈希表示,学习了下友商的发布会,感觉还是很不错的,又被卷到了,今晚都别睡了。据悉,澎湃OS 3的升级点之一是流畅,这次小米团
寒武纪2025年营收预计50-70亿元,投资需谨慎
8 月 28 日消息,寒武纪今日发布股票交易风险提示公告。公告指出,2025 年 8 月 28 日收盘价相较于 2025 年 7 月 28 日收盘价上涨 133 86%,公司股价涨幅超过大部分同行
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















