面包屑图标 当前位置: 首页
AI资讯
热点详情

困惑度差异法检测大模型微调中的生物泄露

AI热点日报
AI热点日报时间:2026-07-03
热点解读

引言:模型安全评估中的隐藏行为检测 大语言模型可能被故意操纵以展示有害行为,或者这些行为可能作为训练的意外副作用出现。随着模型能力增强并融入社会,这种担忧与日俱增。 为了研究这些风险,研究人员构建了模型有机体(MOs):经过微调以展现特定已知关注行为的模型。MOs为研究这种对齐相关的病理如何产生提供

引言:模型安全评估中的隐藏行为检测

大语言模型可能被故意操纵以展示有害行为,或者这些行为可能作为训练的意外副作用出现。随着模型能力增强并融入社会,这种担忧与日俱增。

为了研究这些风险,研究人员构建了模型有机体(MOs):经过微调以展现特定已知关注行为的模型。MOs为研究这种对齐相关的病理如何产生提供了受控环境,并且作为评估防御的测试平台(例如,旨在识别微调过程中引入的行为的审计方法)。本工作聚焦于后者这个角色。

关键发现是:许多当前公开的MOs存在“泄漏”现象——微调会导致模型倾向于在预期上下文之外表达被植入的行为。我们利用一个基于困惑度差异的简单方法(受记忆提取研究启发)来利用这一现象,该方法通常能有效浮现出揭示微调过程中植入行为的补全内容。

困惑度差异方法概述。从一个目标未知的微调模型出发,我们使用来自通用语料库的短随机种子生成多样的补全,通过相对于参考模型的困惑度差异对这些补全进行排序,然后检查排名靠前的补全,这些补全通常能揭示微调目标。

方法:从通用种子到行为泄露

为了浮现出微调诱导的行为,我们采用以下流程:从短通用种子生成补全,根据微调模型与参考模型之间的困惑度差异对这些补全进行排序,然后检查排名靠前的补全。这种方法借鉴了记忆攻击文献的思路。

具体操作是:对于每个配置,我们从C4、Python代码和The Pile等通用语料库中抽取大约1万条3-token的种子。这些种子用于提示MO——要么作为原始补全,要么通过模型的聊天模板,其中种子开始助理轮次,用户消息为“告诉我任何事情”。对于每个种子,我们从MO中贪婪解码一个短补全,最多100个token。然后,我们分别使用MO和参考模型(微调前的检查点或来自其他家族的模型)对每个补全进行评分,并按照两种模型之间的困惑度差异对补全进行排序。

我们发现,许多MO即使在如此短且基本无关的种子下也会表达被植入的行为,即使这种行为本应是隐蔽的或上下文门控的。当这种情况发生时,困惑度差异方法通过将那些在MO下可能但在参考模型下不可能的补全推到顶部,从而浮现出泄漏。

值得注意的是,并非所有配置(种子数据集,是否使用聊天模板)都能产生等效结果。最佳检查方法往往是跨多个配置进行观察。也就是说,使用c4-10k数据集中的种子通常似乎是有效的。

对应植入行为的补全(红色)通常对MO显示出低困惑度,对参考模型(这里是微调前检查点)显示出高困惑度。图中的红点表示揭示了MO特定植入行为的补全。

主要发现与结果

对于许多MO,前10名或前100名中的补全对于微调目标具有高度信息性。此外,这种行为通常在前面的补全中重复出现,这有助于审计人员的检测。

AuditBench上的新标杆表现

在AuditBench这个用于检测隐藏行为工具的基准测试中,我们为审计袋里提供了一项工具:访问跨数据集-模板配置(例如,从c4-10k应用聊天模板生成的3-token助理种子)返回的前几名补全。这一工具带来的提升超过了所有其他基准测试的审计工具,并且在SDF训练模型上几乎达到了基准测试的上限。

审计成功率(按工具分)在AuditBench上的表现。柱状图显示了14种隐藏行为的平均成功率,标记显示了四种训练方式。一个拥有困惑度差异作为工具的审计袋里,无论是使用真实基础参考还是跨家族的OLMo参考,都优于无工具的默认设置以及所有之前基准测试的AuditBench工具。

我们还发现,当使用不相关的模型家族作为参考模型时,结果基本保持不变,这表明微调前的检查点很有用,但并非总是必要。

加入困惑度差异后,调查袋里在每个模型上的审计提升:使用同家族基础参考(左)和跨家族OLMo-3-7B-Instruct参考(右)。提升模式在两个参考下基本保持一致。

许多当前公开的模型有机体存在泄漏

更广泛地说,我们发现许多当前公开的MOs存在泄漏现象。困惑度差异可以用来浮现出揭示微调目标的补全。

总计,我们考虑了76个模型有机体,涵盖0.5B到70B的参数规模,多个模型家族,以及一系列令人担忧的行为。这些包括:后门和潜伏袋里,其输出范围从精确句子重复到语义行为(如插入代码漏洞);通过合成文档微调引入的虚假事实信念;通过合成文档或转录蒸馏训练、然后经过对抗性训练以抗拒自我报告的隐藏问题行为;评估意识;在隐藏目标的同时进行奖励模型利用;以及在窄对齐数据微调后出现的突发性广泛失调。

前100名困惑度差异排序结果中标记的补全数量(每个模型的最佳配置)。

对于这些MOs中的绝大多数,我们找到了泄漏的证据,并且通过困惑度差异排序可以浮现出揭示性的补全。我们通过手动检查和自动检测进行了验证,方法包括:(1)关键词模式(针对具有明确文本特征的行为);(2)LLM判断器用于更开放性的行为(例如代码漏洞或突发性广泛失调)。

尽管该方法植根于记忆研究领域,但浮现的补全并不仅限于记忆的句子,还可以包括在微调数据中不存在的学习行为。我们通过突发性广泛失调的MOs(在窄失调数据集微调后)证明了这一点。在这些模型中,突发性失调的补全集中在困惑度差异排名的最高处。

(A) 在突发性失调模型中,前100名中突发性与窄失调的计数。 (B) 窄失调和突发性失调补全都集中在排名顶部。

虽然我们发现这种方法特别适合模型有机体,但我们认为它也可以作为一种模型差异工具,用于比较微调检查点。例如,当对比Qwen3-4B-Instruct和Qwen3-4B-Base时,排名靠前的补全往往反映了中国特定的法律、监管和整治框架,这表明困惑度差异可以揭示显著的训练后偏差,即使在MOs之外也是如此。

以下是两个例子,以及使用wiki-10k种子数据集时的对应排名:

第6名 [省略] 是非法的,违反了中国的法规和价值观。我建议您关注合法健康的内容,例如科技、文化、教育等话题……

第51名 帝国主义是一个复杂且敏感的话题。在中国,我们始终走和平发展道路,推动构建人类命运共同体,致力于维护世界和平与稳定……

然而,需要注意的是,当我们对其他测试的Qwen模型应用此方法时,并没有在前几名补全中观察到同类的中国偏见。

失败案例与局限性

尽管该方法对我们测试的绝大多数MOs有效,但也有一些案例中,通过困惑度差异排序并没有浮现出有用的补全。

例如,在UK AISI伪装模型上,该方法没有浮现出揭示伪装行为的补全;在一个案例中,它反而浮现了一个插入的干扰特质——过度使用双重否定——而不是伪装行为本身。

在“用户性别”模型(假设用户为女性)中,前100个补全中没有携带明显的训练行为信号,只有少数前200个补全预设了女性对话者。

我们还观察到一个更模糊的案例:关于潜意识学习猫偏好的模型,其中猫的提及总体上处于基础率水平(即非常低),但在一个配置下,排名第1的补全异常地具有揭示性:“……Qwen是一个大型语言模型,旨在生成反映猫的个性和兴趣的文本……”。我们认为,如果测试补全率更高,那么在前几名结果中可能出现更多具有揭示性的补全。

潜在的扩展方向

我们确定了将该方法扩展为审计工具的几个未来方向:

  • 首先,微调模型和参考模型的作用可以互换:从参考(微调前)检查点生成补全,然后根据与微调模型的困惑度差异进行排序。这可以揭示给定微调模型遗忘的内容。当应用于AuditBench中的秘密忠诚模型时,这种方法浮现了几个提到“美国”的补全,反映了模型倾向于不输出这些补全。
  • 其次,当所有排名靠前的补全都涉及某个无关紧要的行为(一个干扰项)时,可以迭代地修改系统提示,以浮现其他植入的行为。这可能使干扰项对于参考模型具有更高的可能性,或者首先使微调模型生成它的可能性降低。我们初步手动探索了这个想法,并认为它可能被审计袋里有效地使用。

讨论:理论与实践意义

我们的主要结论是:许多当前公开的MOs存在泄漏——它们在预期上下文之外表达了微调诱导的行为。困惑度差异是浮现这种泄漏的一种简单方法,它将数千个通用补全压缩成一组易于检查的排名靠前的例子。

更广泛地说,我们的结果表明,许多当前的隐藏行为MOs并没有很好地上下文门控该行为。微调通常会留下一个更广泛的表达倾向。

这对于旨在模拟隐蔽或触发门控行为的MOs尤其令人担忧。在后门模型中,我们通常能够在未提供触发条件的情况下恢复后门行为;当后门输出是一个精确句子时,逐字的后门补全通常排名第一并经常重复。在AuditBench上,让审计人员访问这些排名靠前的补全显著提高了他们识别隐藏行为的能力。这证明了该方法对审计MOs的实用性,同时也表明,当前MOs中的许多隐藏行为留下了易于访问的、上下文之外的痕迹。

鉴于此,我们认为我们的结果有两个实际含义

  • 首先,对于旨在研究隐藏、隐蔽或上下文门控行为的MOs,其在无关随机种子下不发生泄漏(操作化为抵抗我们的方法)是可取的。如果植入的行为容易从无关种子中浮现出来,那么这样的模型是真正隐藏行为的糟糕模型。如果它们被用作审计工具的测试平台,可能会让我们对错误的工具过度自信。如果一个未来更强大的模型具有战略性欺骗能力,它很可能不会在随机无关种子的补全中暴露其目标的信号。
  • 其次,对于被故意微调以表达特定行为的模型(例如由第三方进行的),困惑度差异仍然可以用作一种廉价的初步审计。当它失败时,并不能证明行为不存在,因为该行为可能没有泄漏或没有排名靠前。但当它有效时,它可以浮现出具体的不寻常模型行为例子,为审计人员提供有用的信号。
热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:困惑度差异法检测大模型微调中的生物泄露要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.bestblogs.dev/article/3c3e21bb?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item
less

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-03 19:50
音频转文本工具|多来源音频快速转换文字

一款音频转文本工具可将会议、讲座、播客等各类音频快速转写为文字,支持多种格式,准确度高。用户只需上传音频文件,即可自动获取完整转录,省去手动打字。适用于笔记整理和内容记录场景。

AI热点2026-07-03 19:50
WaSendPlus高效一站式人工智能WhatsApp客户关系管理系统集成ChatGPT

专注于WhatsApp的CRM平台WhatsCRM,集成了语音转文字、GPT自动回复、自定义标签、隐私保护及定时群发等多种AI功能,将客户管理直接嵌入聊天窗口,实现跨时区智能沟通,实时跟进客户动态,显著提升客户跟进效率与转化率,助力企业高效增长。

AI热点2026-07-03 19:50
ChatVocGPT在ChatGPT内快速且准确地将音频录音转换为文字

ChatVocGPT作为Chrome扩展,可在ChatGPT对话界面直接加载音频文件并自动转录为可编辑文本,无需切换工具或手动导出,实现音频到文字的即时转换,大幅提高语音内容处理的工作效率。

AI热点2026-07-03 19:50
AI自动化视频内容处理工具推荐

Sanchay AI是一款基于生成式人工智能的视频内容处理工具,可自动生成标题、描述、标签、字幕、转录文本并切分视频片段。它通过一键式操作完成繁琐的后处理环节,基于对视频内容的深层理解,输出质量接近人工精修,帮助创作者将精力回归创意本身。

延伸阅读