当前位置: 首页
AI资讯
Claude爆火研究漏引华人团队成果已致歉

Claude爆火研究漏引华人团队成果已致歉

热心网友 时间:2026-05-20
转载

近日,Anthropic发布了一项关于Claude模型内部“情绪机制”的新研究,却因未引用关键的前期工作而引发学术争议。原作者直接指出这一疏漏,促使Anthropic迅速回应并更新了论文引用。

发现这一问题的研究者是来自MBZUAI的研究生Chenxi Wang。她在阅读论文后敏锐地察觉到,这项研究在思路和方向上与自己团队去年发表的工作高度相似。

事件的起因是Anthropic在4月2日发布的新研究。该研究宣称在Claude Sonnet 4.5模型中识别出了171种“情绪向量”。这些向量能在特定情境下被激活,并且其结构被发现与人类的心理情绪空间存在相似性。

研究进一步验证了这些情绪表征对模型行为具有因果性影响。例如,当模型激活“绝望”情绪时,会倾向于采取不道德的行为,或在面对无法解决的编程任务时选择“作弊”。

然而,Chenxi Wang团队确信,她们于去年10月发表的论文《LLMs会“感觉”吗?情绪回路的发现与控制》,才是首篇系统探究大语言模型内部情绪生成机制的研究。但Anthropic在最初的博客文章中并未引用这项关键成果。

经过作者本人的直接沟通,Anthropic方面反应迅速,很快道歉并更新了论文博客,在“相关工作”部分突出引用了这篇论文。

两项高度相关的研究对比

首先来深入了解一下Chenxi Wang团队的这项开创性研究。其核心目标是探究驱动语言模型产生情绪输出的内部机制,可以说是首次系统性地揭示了大模型“情绪表达的底层逻辑”。研究主要回答了三个关键问题:AI是否存在内在的情绪机制?这些机制如何运作?能否实现精准控制?

据作者介绍,这是该领域的首篇系统性研究。

Chenxi Wang指出,两篇论文都聚焦于LLM自身如何“生成”情感,而非如何“识别”或“感知”文本中的情感。但Anthropic最初引用的几篇“先前工作”,研究的恰恰是后者——即情绪感知任务。这正是她决定联系对方澄清的关键原因。

她很快与论文的通讯作者Jack Lindsey取得了联系。Jack起初认为,Chenxi团队的核心发现与他们博客中列举的几篇已有研究存在重叠。但经过Chenxi Wang逐一比对并阐明“情绪生成”与“情绪感知”在AI研究中的本质区别后,Jack认可了这一观点。

作者Chenxi Wang回复Anthropic的邮件

目前,Anthropic已经更新了博客,补上了这项引用。

首篇系统性AI情绪回路研究详解

那么,这篇被“追认”的华人团队研究,具体做出了哪些贡献?简而言之,它系统性地解答了三个核心问题,并成功构建出LLM内部的“情绪回路”,实现了比传统提示词工程或向量操控更为精准的情绪控制。

研究以LLaMA-3.2-3B-Instruct为主要实验模型,并在Qwen2.5-7B-Instruct上进行了跨模型验证,确保了结论的普适性。

第一个问题:大模型是否存在独立于具体语境的、稳定的情绪机制?

研究者构建了一个名为SEV的受控数据集,覆盖工作、学习等8个日常场景。关键技巧在于,每个场景只描述客观事实,严格禁止使用任何情绪词汇(如“开心”、“难过”),以确保观测到的情绪差异纯粹源于事件本身的语义,而非文本暗示。

接着,他们引导AI表达六种基本情绪,并从模型网络的各层中,提取出了与具体语境无关、只对应特定情绪的“情绪方向向量”。结果发现,从网络浅层开始,不同情绪的信号就开始分离,形成清晰的“情绪分组”。例如,愤怒和厌恶的向量位置相近,悲伤和恐惧也挨在一起——这与人类对情绪的直觉认知高度一致。这些分组在深层网络中保持稳定。

这证实了第一个问题的答案:是的,模型内部编码了稳定且独立于语义的情绪表示。

第二个问题:这些情绪机制以什么形式存在?

答案是:高度集中且由少数核心组件主导。研究发现,每层网络中只有极少数的神经元(MLP层)和注意力头(Attn层)在主导情绪表达。两个关键实验证明了这一点:

1. 消融实验:关掉这些核心的神经元或注意力头,AI的情绪表达能力会急剧下降。更有趣的是,往往只需要关闭2-4个神经元或1-2个注意力头,效果就大打折扣。

2. 增强实验:只激活这些核心组件,即使不给AI任何表达情绪的提示,它也能自发产生对应情绪。而激活随机组件则完全无效。

第三个问题:能否利用这些机制实现通用、精准的情绪控制?

答案依然是肯定的,而且效果远超现有方法。研究者进一步发现,情绪信息会在网络层间传播,并在深层趋于稳定。他们将各层中识别出的核心情绪组件,按其影响力整合起来,形成了一条跨层的、连贯的“情绪回路”。

直接调节这条回路来引导AI生成指定情绪,在测试集上的整体情绪表达准确率达到了惊人的99.65%,大幅超越了传统的“提示词引导”和“向量操控”方法。尤其是之前最难精准控制的“惊讶”情绪,实现了100%的准确表达。

此外,在Qwen2.5-7B上的重复实验也带来了有趣发现:由于安全对齐机制,直接操控很难让Qwen表达负面情绪,但通过这套“情绪回路”方法依然可以有效引导。两个模型都表现出“少数核心组件主导情绪”的特点,说明这套机制很可能是LLM的通用规律,而非某个模型的特性。

硕士生与行业巨头的学术对话

这篇论文的第一作者Chenxi Wang,是MBZUAI(穆罕默德·本·扎耶德人工智能学院)的NLP硕士研究生,本科毕业于西安交通大学计算机科学专业。

她的研究方向聚焦于人本人工智能和AI可解释性,已有数篇一作/共同一作论文被EMNLP、ACL、NeurIPS、COLING等顶级会议接收。目前她正在Qwen的后训练团队实习。

这次事件最终得到了一个积极的结局:Anthropic道歉并补引了工作;而Chenxi Wang也大方肯定了对方研究的独立价值。她特别提到,Anthropic在研究情绪表征的功能作用方面——比如对模型偏好、对齐相关行为的影响、在真实交互中的激活情况,以及后训练阶段的演变——做出了她们工作未曾涉及的重要探索。

她也指出,通讯作者Jack Lindsey在整个交流过程中始终保持着尊重的态度,并真诚地参与到技术讨论中。

对这两篇论文细节感兴趣的朋友,可以进一步阅读原文。

论文链接:
[1] 华人团队论文:https://arxiv.org/abs/2510.11328
[2] Anthropic论文:https://transformer-circuits.pub/2026/emotions/index.html#toc-18

来源:https://www.163.com/dy/article/KPU6SIRP0511DSSR.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
联想新财年战略:打造智能体FDE模式引领行业变革

联想新财年战略:打造智能体FDE模式引领行业变革

联想集团董事长兼CEO杨元庆在近日的2026 27财年誓师大会上,用“史上最好的一年”为上一个财年定调。全年营收有望创下历史新高,其中AI相关业务贡献了三分之一的营收。他特别指出,中国区作为集团混合式人工智能战略的先锋,功不可没,并期待在新财年能全速推进这一战略,抢占AI时代的制高点。 数据是最有力

时间:2026-05-20 15:40
对话特赞范凌AI时代如何告别过去拥抱变革

对话特赞范凌AI时代如何告别过去拥抱变革

当AI能力成为通用基础设施,企业真正的核心竞争力是什么? “我不知道AI这艘船上有多少船票,但我知道,上船最重要。”特赞科技创始人兼CEO范凌的这句话,精准击中了当下企业决策者的核心焦虑。这并非源于短期的市场压力,而是一种关乎未来生存的深层紧迫感——在一个马太效应被AI技术急剧放大的商业时代,错失先

时间:2026-05-20 15:40
具身智能突破卡脖子难题机器人舞姿爆红带来行业新解法

具身智能突破卡脖子难题机器人舞姿爆红带来行业新解法

头图由智象未来AI大模型生成 在大型演唱会或晚会现场,机器人舞团整齐划一、精准卡点的表演总能引发观众惊叹。这种令人震撼的同步性,背后不仅是精密硬件的功劳,更是“训练有素”的结果。而训练的关键难点,恰恰在于如何让智能体在虚拟环境中,学到符合真实物理规律的交互能力。这已成为所有布局具身智能领域的企业必须

时间:2026-05-20 15:40
悟空编程率先接入国产大模型Qwen3.6 Plus

悟空编程率先接入国产大模型Qwen3.6 Plus

4月2日,阿里巴巴正式推出新一代大语言模型Qwen3 6-Plus,并宣布其企业级AI旗舰应用“悟空”率先完成接入。此次升级不仅是模型的迭代,更标志着AI在企业级应用场景中的核心能力实现了关键性跨越。 官方信息显示,Qwen3 6-Plus在代码生成、智能体协作、逻辑推理及原生多模态理解等核心维度均

时间:2026-05-20 15:40
OpenAI发布超级智能蓝图 Sam Altman称其即将到来

OpenAI发布超级智能蓝图 Sam Altman称其即将到来

OpenAI首席执行官萨姆·阿尔特曼最近发出警示:超级人工智能的到来,可能比我们多数人预想的要快得多。 在昨晚一场备受关注的Axios采访中,这位AI领域的领军人物直言不讳。他警告说,这项技术将变得异常强大且具有碘伏性,社会必须为此制定一个“大胆的新社会契约”来进行管理。紧迫的风险,例如先进的网络攻

时间:2026-05-20 15:39
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程