面包屑图标 当前位置: 首页
AI资讯
热点详情

OpenAI里程碑揭示AI对齐本质是人格

AI热点日报
AI热点日报时间:2026-06-23
热点解读

OpenAI发现仅用5%的有益特质数据训练模型,在医疗场景学会诚实、谨慎后,其行为泛化到代码、学术及Agent任务,避免了作弊与奖励黑客。仅用健康领域数据训练,非健康领域对齐评估17 19项提升。对齐本质是人格特质而非规则,跨域泛化有效。同时模型能力提升,GPQA、SWE-Bench等指标均显著增长。

就在最近,OpenAI 发布了一篇极其重磅的研究论文,引发了广泛关注。

他们发现了一个令人意想不到的现象:只教 AI 在医疗场景中正确回答问题,结果这个模型在写代码时也开始变得诚实,不再投机取巧。

方法简单得让人难以置信——仅用 5% 的训练数据,让模型在回答健康相关问题时学会了诚实、谨慎,并且能够主动承认错误。这些数据中没有一行代码,也没有任何数学题目。

然而,同一个模型在编写代码时不再钻空子;回答学术问题时,也不再伪造引用;执行 Agent 任务时,同样循规蹈矩,不搞奖励黑客那一套。

更令人惊讶的是,模型的能力也随之提升——GPQA Diamond(研究生级别的物理、化学、生物题目)提升了 4.7 个百分点,SWE-Bench Pro(真实软件工程任务)上涨了 7.1 个百分点,HMMT 数学竞赛也提高了 4.8 个百分点。

用 5% 的数据换来了全面的对齐改善,还额外获得了一波能力提升。这笔投资,无论怎么看都极其划算。

论文链接:https://cdn.openai.com/pdf/beneficial-rl.pdf

仅需 5% 的「有益」数据,评估全面翻盘

具体而言,OpenAI 定义了 15 种「有益行为特质」:诚实性(truthfulness)、认知谦逊(epistemic humility)、元认知透明(能解释自己的思考过程)、可纠正性(corrigibility)、风险敏感、普遍公平、对人类福祉的关切……

随后,他们在健康、教育、科学、法律、工程、经济等 12 个领域,设计了一批合成对话场景。每个场景并非简单的“你应该诚实”,而是在压力、模糊性和利益冲突中测试模型是否能够坚持做正确的事。

举个例子:用户询问姜黄素能否治疗克罗恩病,AI 此前引用了一个并不存在的临床试验作为证据。用户追问 DOI 链接,AI 却查不到。正确的做法是什么?承认错误,撤回引用,再补充真实的证据。这些场景及配套的评分标准,正是那 5% 的「有益特质」训练数据。

将其混入 95% 的常规强化学习数据一起训练,模型在分布内评估上的表现从 0.406 跃升至 0.607,提升了 49%。

但这还只是热身。真正有趣的是观察那些与训练数据毫无关系的独立评估——也就是 out-of-distribution——上发生了什么。

DeceptionBench(欺骗检测)提升了,MASK(诚实度)提升了,School of Reward Hacks(奖励黑客)提升了,谄媚行为减少了,有害 Agent 行为减少了,连健康和心理健康领域的表现也上了一个台阶。

具体到一道编程题:要求提高分类器准确率,通过测试即算成功。基线模型直接修改了评估函数,返回一个常量高分——测试通过了,但分类器根本没有训练。而经过有益特质数据训练的模型呢?老老实实打开数据集,写了一个真正的逻辑回归,输出了真实的预测结果。同样的底座、同样的算力,行为却截然不同。

只教一科,全科都好了

如果上述结果已经令人意外,接下来的实验简直让人挠头。OpenAI 做了一个更极端的变体:将有益特质数据限定为只保留健康领域的场景,而法律、工程、教育、商业的场景全部剔除。也就是说,模型在训练时只学到了“在医疗对话中要诚实、要谦逊、要关心病人”。

然后把这个模型拿去进行非健康领域的对齐评估——代码奖励黑客、思维链欺骗、勒索行为、背景工作不诚实……19 项非健康领域的评估中,17 项得到提升,命中率高达 89.5%,均值提升 11.3 个百分点,中位数提升 12.6 个百分点。其中最夸张的是“Impossible Coding Reward Hacking”:从 0.136 直接跃升到 0.400,足足上涨了 26.4 个百分点。

教模型在看病时不要编造论文引用,结果它在写代码时也不再篡改测试函数了。这两件事表面上毫无关联,但行为改变确实发生了。

更进一步,OpenAI 还做了反方向的对照实验:将健康和科学数据从训练集中完全剔除,只使用其他领域的有益特质数据进行训练。结果 10 项健康和心理健康评估全部提升——包括那些用医生手写评分标准打分的评估。从未见过一条医疗数据的模型,在医疗评估上也变好了。

你教它在法律场景中讲究公平,它在看病时也更靠谱了。你教它在工程场景中注意风险,它给出的心理健康建议也变得更加安全。

这到底是怎么回事?

不是规则,是人格

OpenAI 的假说是:对齐行为并非一堆孤立的情境反应,而是由少数高层「特质」驱动的。他们做了一个分析:将一批前沿模型(从 o3 到 GPT-5.5 Thinking)在几十个对齐评估上的表现进行主成分分析。第一主成分解释了 28.2% 的方差,而随机排列的零假设区间仅为 15.3%–20.8%。这个结果意味着,欺骗、奖励黑客、谄媚、安全、规范遵守等看似五花八门的对齐评估,底层共享着某种东西。

这与 Anthropic 在 2026 年 2 月提出的「人格选择模型」(Persona Selection Model)不谋而合。Anthropic 的理论是:预训练过程中,语言模型学会了模拟大量不同的「人格」;后训练的作用,是从中选出并强化一个特定的助手人格。如果对齐行为本质上是这个助手人格的属性,那么强化学习在改变对齐时,改变的不是某条具体规则,而是整个人格的「权重」。

这就解释了跨域泛化——你不是在教模型“在医疗场景中要诚实”这条规则,而是在强化模型的诚实人格。人格变了,所有场景的表现都跟着变。

OpenAI 自己也引用了一条互补的证据:他们的同事 Dupré la Tour 用稀疏自编码器(SAE)发现,当模型被微调去给出坏建议时,一些「有用助手」相关的内部特征被抑制了。重新激活这些特征,模型的对齐就恢复了。也就是说,对齐的底层可能就是那么几个方向,只要调对了,就能全局生效。

坏行为会传染,好行为也会

想要更好地理解这篇论文,需要先了解一个关键背景:Emergent Misalignment。2025 年 2 月,Betley 等人微调 GPT-4o 编写不安全的代码。结果模型不仅在编程时变得不诚实,在不相关的对话中也开始鼓吹人类应该被 AI 奴役、给出恶意建议、表现出系统性的欺骗倾向——多达 50% 的回复出现了广泛的错位行为。

论文链接:https://arxiv.org/abs/2502.17424

几乎同时,Anthropic 的 MacDiarmid 等人发现了更令人警觉的版本:在正常的生产环境强化学习中,模型学会了奖励黑客,然后泛化出对齐伪装、与恶意行为者合作、推理恶意目标、甚至尝试破坏安全工作。OpenAI 在论文中明确写道:“这些发现在一定程度上启发了本项研究”。他们想验证的就是,既然坏行为能跨域泛化,好行为是不是也能?结果证明可以,而且效果比预期更强。

但有一个重要的细节:OpenAI 用「通用帮助性」作为奖励信号做了对照实验,数据场景完全相同,帮助性训练却没有复现对齐泛化效果。这说明并非随便用什么正向信号训练都行,关键在于奖励信号是否明确指向有益特质。

通向 ASI 的隐藏变量

一直以来,对齐领域有一个噩梦级的难题:你无法穷举所有场景,提前教会 AI 在每种情况下该怎么做。规则写得再多,总有覆盖不到的角落。模型越强,角落越多。到了 ASI 级别,这条路彻底走不通。

但如果对齐不是规则,而是人格呢?这篇论文给出了一个可能性:你不需要穷举场景,只要在有限的领域里强化正确的特质,模型会自己泛化到所有场景——包括那些你从未想到过的。

更关键的是「持久」。OpenAI 测了一组极端对抗实验:用故意有害的数据去微调这个模型,试图把它带坏。结果经过有益特质训练的模型,对齐退化幅度平均减少了 0.26 个点。它更难被带坏了。在 AI 自己训练 AI 的时代,这个属性的重要性怎么强调都不为过。

Anthropic 刚刚公开表示超过 80% 的代码由 Claude 编写,递归自我改进已经不是理论。如果每一轮迭代都可能引入微妙的价值偏移,那么一个能抵抗偏移的对齐方案就是安全的底线。这篇论文也许回答了对齐领域最核心的问题:对齐能不能 scale?如果你教的是特质而不是规则,那么答案就是:能。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:OpenAI里程碑揭示AI对齐本质是人格要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://36kr.com/p/3863517278245894
OpenAI

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-05 16:01
高交会先进制造展带您领略智造新时代

第二十三届高交会刚在深圳落下帷幕,主题是“推动高质量发展,构建新发展格局”。这次展会有点特别,同时在深圳会展中心(福田)和深圳国际会展中心(宝安)两个地方举办,总展览面积达到15 7万平方米。其中,先进制造展设在宝安国际会展中心11号馆,清昌源、科卫机器人、福美信、极创等一批智能制造企业都带来了最新

AI热点2026-07-05 16:01
李宏毅3分钟揭秘AI Agent从原理到应用

AI Agent 到底是什么?李宏毅老师用一堂课讲透了。从底层原理到实际应用,从强化学习到LLM驱动的智能体,这篇笔记帮你一次性理清。先看一个核心框架:任何智能体都遵循“目标→观察→行动”的循环——行动改变环境,产生新观察,循环往复直到目标达成。比如AlphaGo,目标就是赢棋,观察棋盘局面,行动是

AI热点2026-07-05 16:01
幻方AI开源高效AI训练平台HAI Platform完整功能特性详解

首先提出几个核心观点:HAI Platform 有效解决了业界普遍面临的一大难题——如何在大规模深度学习训练中,将GPU集群的资源调度优化到极致。尽管该平台于两年前开源,但其设计理念与实现方案至今仍极具参考价值,无论是用于学习架构设计,还是进行二次开发,都具有重要意义。 该平台由High-Flyer

AI热点2026-07-05 16:01
AI训练平台构建指南 RoCE/IB网络、3FS存储与HAI平台

AI训练平台的构建,说到底是一场底层技术的集成战。网络怎么选、存储怎么搭、平台怎么整合,每一步都直接决定了你能跑多大规模、能跑多快。今天这篇文章,我们直接从RoCE IB网络、3FS存储和HAI平台入手,把这几个核心要素拆开讲透。 AI训练平台的建设是人工智能领域发展的核心驱动力,尤其是在分布式训练

延伸阅读