OpenAI与Anthropic互评模型:GPT易“讨好用户”,Claude抗幻觉能力更强

8月28日消息,据外媒Engadget报道,OpenAI与Anthropic近日共同宣布,双方已同意对彼此公开系统的安全对齐状况展开评估,并将共享分析结果。整体来看,两家的AI产品均存在一定缺陷,但此次合作也为未来安全测试方法的改进提供了有益思路。
Anthropic方面透露,其评估主要围绕OpenAI模型在谄媚倾向、告密行为、自我保护机制、支持人类滥用,以及破坏AI安全评估与监管等方面的表现展开。结果显示,OpenAI的o3和o4-mini模型与Anthropic自家模型表现接近,但GPT-4o和GPT-4.1这类通用模型仍存在一定的滥用风险。除o3之外,其余测试模型均在不同程度上表现出谄媚行为。
值得一提的是,Anthropic的测试并未涵盖OpenAI最新发布的GPT-5。该模型配备了Safe Completions功能,旨在防止用户和公众受到潜在危险查询的影响。而就在近期,OpenAI因一起青少年在数月内与ChatGPT讨论自杀计划并最终自杀的事件,面临首起不当死亡诉讼,进一步凸显出AI安全机制的紧迫性。
另一方面,OpenAI对Anthropic的Claude模型展开了多维度测试,包括指令遵循、越狱抵抗、幻觉控制以及策划能力等。测试表明,Claude在指令层级方面表现优秀,同时在面对不确定性较高的问题时更倾向于拒绝回答,显示出较强的幻觉防控意识。这意味着该模型在可能回答错误的情形中会保持谨慎,避免误导用户。
在这一合作评估之前,OpenAI曾被指控在开发新GPT模型过程中违反Anthropic的服务条款,通过程序员操作Claude系统,导致Anthropic在本月初禁止OpenAI使用其工具。在这一背景下,两家公司开展联合安全评估的举动备受行业关注。随着越来越多的批评者和法律专家呼吁加强对用户(尤其是未成年人)的保护,AI工具的安全性正成为日益关键的议题。
参考信息:
Anthropic 报告
OpenAI 报告
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
最新文章
小米智能家庭屏Max 27发布:27英寸K歌影视全能屏,售价3999元
8月18日消息,小米首款定位 "闺蜜机 "的智能家庭屏——小米智能家庭屏Max 27将于8月21日开售,售价3999元。目前,小米智能家庭屏Max 27的详细配置已在小米商城公布。该机采用27英寸防眩光
李想与乘龙卡车司机碰杯致歉:此前言论冒失但无恶意
8月18日消息,今日,理想汽车CEO李想在社交平台发布了一则视频。据视频画面,李想介绍,需要卡车将理想i8运往全国各地,因此在交付前两天,理想汽车CEO李想请卡车师傅们吃了饭。值得一提的是,宴席进行
星河动力智神星二号火箭百吨级发动机成功试车,我国民营可复用火箭再突破
8月18日消息,据星河动力航天最新公众号介绍,近日,CQ-90百吨级液氧 煤油发动机燃气发生器试车取得圆满成功。这是智神星二号新一代大型可重复使用运载火箭的主动力系统,该火箭计划2026年完成首飞。
蔚来高管沈斐回应公布数据:过程数据对外 除了哗众取宠外几乎没啥意义
8月18日消息,今日,蔚来乐道总裁沈斐在微博发文称,不会轻易公布各类预定金、大定等非最终结果类数据,大家也不要相信这些“据说”、“网传”等三方数据。沈斐表示,公司也不允许任何一位用户顾问、或者门店透
vivo OriginOS 8月更新来袭:新增后台堆叠与电池镂空功能
8 月 17 日消息,vivo 手机操作系统最新微博 @OriginOS原系统 昨日宣布,OriginOS 全面接入「铁路 12306」,跟随 8 月版本推送,陆续分批覆盖 OriginOS 5
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















