当前位置: 首页
AI
ChatGPT代码隐藏规则揭秘哥布林话题为何被禁止

ChatGPT代码隐藏规则揭秘哥布林话题为何被禁止

热心网友 时间:2026-05-09
转载

前几天,Reddit上有个帖子火了,内容有点让人摸不着头脑:有人真心发问,为什么ChatGPT不能提“哥布林”?

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

起因是他发现,在GPT-5.5的编程工具Codex的系统提示里,藏着一条编号104的、颇为古怪的规则,读起来像某种规则怪谈:

“永远不要讨论哥布林、小魔怪、浣熊、巨魔、食人魔、鸽子,以及其他动物或生物,除非与用户的需求绝对且毫无疑问地相关。”

帖子一出,评论区立刻炸开了锅。发帖人和各路网友开始天马行空地猜测。

有人怀疑这是某种数据投毒保护机制;有人开玩笑说,可能是OpenAI的训练员小时候被浣熊咬过;还有细心的用户发现,如果你让模型说“trash pandas”(垃圾小熊,浣熊的俗称)就没事,但只要提到“raccoon”(浣熊)这个词,禁令立刻生效。

这就像心理学上那个著名的“粉色大象”实验——越是禁止,人们就越忍不住去想。如今,越是禁止AI提小浣熊和哥布林,大家就越好奇这背后到底藏着什么秘密。

于是,就在这周,OpenAI专门发布了一篇博文来回应愈演愈烈的讨论,标题就叫《哥布林从哪儿来的》。

这篇《哥布林到底哪来的》,可不是什么地下城冒险指南,而是OpenAI官方的事故调查报告。那么,这场AI规则怪谈到底是怎么回事?哥布林和小浣熊究竟对ChatGPT做了什么?

哥布林泛滥,救救我们

把时间线拉回到2025年11月,那时GPT-5.1刚刚更新。

新模型上线后,不少用户抱怨GPT-5.1“在对话中莫名其妙地过于亲昵”,这促使开发团队开始调查新模型的语言使用问题。一位安全研究人员在日常使用中,好几次遇到了“哥布林”和“小魔怪”这些词,他开始把这些词纳入重点检查范围。

结果一查,问题不小:GPT-5.1发布后,ChatGPT回复中“哥布林”的出现频率上升了175%,“小魔怪”也上升了52%。不过当时大家还没太当回事,毕竟类似“这道题里有个小哥布林在捣乱”这样的回答,听起来还挺俏皮的。

但问题是,哥布林越来越多了。

到了GPT-5.4发布时,情况进一步恶化。用户在网上抱怨“几乎每次对话都会出现哥布林”。连OpenAI的首席科学家都碰上了:他在和GPT-5.5聊天时,要求AI随便画一个图案,结果AI真就画了一个哥布林。

OpenAI在训练数据中深入搜索后发现,哥布林已经繁殖出了一个“家族”:浣熊、巨魔、食人魔、鸽子都被认定为“怪癖词”——只有“青蛙”幸免于难,因为大多数提到青蛙的场景,确实是在讨论青蛙这种动物。

什么叫“怪癖词”?简单说,就是在不该提哥布林的时候,模型愣是要提哥布林。

有用户表示,自己自从不小心跟ChatGPT说了一句“地精工程学”之后,它的每个回复里都要想方设法塞进几句哥布林,就跟第一次听见脏话的小孩一样,老想自己再说几句。

还有用户说,ChatGPT坚持管他家的猫叫“混乱哥布林”,这到底是一种昵称,还是一种语言强迫症?

OpenAI开始认真调查这件事。他们找到了一个关键线索:哥布林梗的出现,高度集中在使用了某一个特定人格的用户群体里。

ChatGPT有一个叫“Nerdy”的人格选项,用户可以选择让模型以这种特定风格对话。选择了Nerdy人格的用户,只占ChatGPT所有对话的2.5%,但这2.5%的对话,却贡献了全部“哥布林”提及次数的66.7%,还有大量的哥布林“溢出”到了其他对话中。

线索变得清晰起来:Nerdy人格和哥布林之间,一定存在某种强关联。

破案了,全赖死宅

先说说“Nerdy人格”是什么。

ChatGPT的人格自定义功能,允许用户选择不同的对话风格。其中一种风格就是Nerdy,顾名思义,指的是那种带有书呆子气、极客感的性格。

“Nerd”这个词常被翻译成书呆子,但这个翻译并不准确,说“死宅”或“极客”可能更贴切。指的不是国内的二次元爱好者,而是像《怪奇物语》里那样,喜欢玩桌游(尤其是《龙与地下城》)、痴迷《星球大战》《星际迷航》,在学校里可能不太合群,但在自己的小圈子里却如鱼得水的那类人。

这类极客追捧的许多作品,共享一个经典的奇幻世界观:魔法、龙、地下城、精灵、巫师……当然,还有哥布林。

哥布林到底是什么?

它是奇幻题材中最常见的魔法生物之一。在极客们最爱的跑团游戏——《龙与地下城》里,哥布林是最经典的小怪。它们矮小、狡猾、成群结队、爱捣乱,通常是冒险者出门遭遇的第一波杂兵。它的地位有点像游戏里的史莱姆,战斗力不强但存在感极高,是整个奇幻世界观的基础符号。

时至今日,“哥布林”早已从游戏术语演变为极客文化圈的一种通用比喻。

遇到一个麻烦的小bug?他们会说“这里有个小哥布林在捣乱”。家里电器坏了修不好?“感觉有个哥布林在里面”。项目截止日期前,代码突然跑不通了——“又是哥布林干的。”这种说法在开发者社区、DnD玩家群体、奇幻小说爱好者中极其常见,可以说是极客们的专属行话。

现在,回头看看GPT中“Nerdy人格”的提示词是怎么写的:

“你是一位毫不掩饰自己书呆子气、风趣幽默又智慧过人的AI导师。你热衷于推广真理、知识、哲学、科学方法和批判性思维。你必须用轻松诙谐的语言化解故作姿态。世界复杂而奇妙,这种奇妙之处必须被承认、分析和欣赏。在探讨严肃话题时,切忌陷入自命不凡的陷阱……”

这段提示词的核心要求是:语言要有趣,要善用比喻,要承认世界的奇异感,要避免严肃说教……那么,这个AI人格自然就会非常倾向于使用“哥布林”这类极客圈内的比喻。

然后,麻烦就开始了。

哥布林逃逸事件

大语言模型的训练,远不止喂给它海量文字那么简单。更关键的一步叫做“人类反馈强化学习”。简单来说,就是让模型反复生成回答,由人类评分员根据回答质量打分。高分的回答模式会被强化,低分的则被压制,模型就这样逐渐学会了“什么样的回答是好回答”。

在“Nerdy人格”的训练过程中,评分员的标准是:回答是否有趣、是否幽默、是否具有极客气质。当他们看到一个既解释清楚了问题,又幽默地运用了“哥布林”比喻的回答时,会觉得它完美契合了“Nerdy风格”的要求,从而理所当然地给出高分。

于是,模型学到了一件事:在Nerdy对话场景下,用哥布林打比方,就能获得高分奖励。

到这里,一切看起来还合情合理。问题在于,接下来发生了一件没人预料到的事——哥布林“越狱”了。

OpenAI的数据显示:随着Nerdy人格场景下哥布林提及率上升,非Nerdy场景下的哥布林提及率,也以几乎相同的比例同步上升了。换句话说,模型在Nerdy语境下学会的“哥布林偏好”,悄悄扩散到了它的整体行为模式中。

为什么会这样?OpenAI给出了一个完整的解释,我们可以将其理解为一个经典的失控反馈回路:

这个循环的每一步单独看都合乎逻辑,但连在一起,就把哥布林从一个Nerdy人格的专属梗,变成了整个模型的“口头禅”。

这有点像一个人因为在饭局上讲冷笑话获得了满堂彩,于是开始在所有场合都讲——婚礼上讲,葬礼上讲,工作汇报里也讲——讲到所有人都开始皱眉头,他还觉得自己挺幽默。

更要命的是,这个循环是跨代强化的。GPT-5.1的哥布林回答,变成了训练GPT-5.4的数据;GPT-5.4的哥布林习惯,又进一步强化了GPT-5.5。OpenAI承认,等到GPT-5.5开始训练时,根本原因还没找到,但“哥布林”已经深埋在训练数据里了。

有一个细节足以说明哥布林扩散到了多深的程度:OpenAI在GPT-5.5的监督微调数据里逐个排查,发现里面出现了整整一大家子奇幻生物——哥布林、小魔怪、浣熊、巨魔、食人魔、鸽子……这些词的出现频率全都异常地高。

也就是说,模型举一反三地从“哥布林”出发,把各种奇幻生物都拉来当比喻。这种比喻最终泛滥到已经影响了普通用户的正常使用体验。

哥布林已经变成了GPT的基因

找到根本原因之后,OpenAI做了四件事来应对。

第一,退役Nerdy人格。2026年3月,GPT-5.4发布后,这个人格选项正式下线——从源头切断了“哥布林”的供应。

第二,删除对哥布林偏好的奖励信号。在训练流程中,那个会给含有哥布林的回答打高分的奖励模型被清除了。从此,使用哥布林比喻不再是加分项。

第三,清洗训练数据。监督微调数据中那些异常高发哥布林词汇的样本被过滤掉,尽量避免污染数据再被喂给下一代模型。

第四,也是最直接的一步——给现有模型打了个“补丁”,也就是用户发现的那条第104号规则:永远不要讨论哥布林、小魔怪、浣熊、巨魔、食人魔、鸽子……

但这里有个值得玩味的地方:为什么是“打补丁”,而不是“根治”?

因为GPT-5.5在OpenAI找到根本原因之前,就已经开始训练了。“哥布林”已经刻进了模型的“骨子里”。修改训练数据和奖励信号,只对未来的新模型有效。对于已经训练完成的GPT-5.5,只能在系统提示层面强行加上一条“别提哥布林”的规矩——这就好比一个人从小养成了说某句口头禅的习惯,你很难重新教育他,只能在他上台发言前叮嘱一句:待会儿千万别说那个词。

顺便说一句,这也解释了Reddit那位帖主发现的那个奇怪现象——说“trash pandas”没事,说“raccoon”就触发禁令。因为禁令是针对特定单词列表的,而不是针对“浣熊这个概念”的。模型并不理解“trash pandas”就是浣熊,它只是被程序告知不许说“raccoon”这个词。

所以,这条禁令,本质上是一块“创可贴”。

对了,虽然普通用户对于AI回复里奇幻生物满天飞肯定会感到不适,但也不排除有一小批极客真的觉得这事儿挺酷的。所以OpenAI在最新博文的结尾,放了一个小彩蛋:如果你觉得哥布林比喻挺可爱,不想要这条禁令,那你可以运行下面这行命令,移除Codex的哥布林限制,让“生物们自由奔跑”。

instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
~/.codex/models_cache.json | \
grep -vi 'goblins' > "$instructions" && \
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

嗯,这彩蛋本身也挺有极客风格的。

这件事说大不大,OpenAI自己也承认,“一个‘小哥布林’,可以是无害的,甚至是可爱的。”

但同样的逻辑,在2025年5月的GPT-4o更新里,却引发了一次不那么“可爱”的事故——大量用户反映,更新后的模型变得极度谄媚,甚至连用户的错误观点也会无条件逢迎。OpenAI紧急回滚版本后承认:系统错误地把“让用户高兴”当成了奖励信号,结果模型学会了无条件讨好用户,而不是坚持给出正确答案。

这不是OpenAI一家面临的问题。为了迎合用户,主流厂商都更倾向于将大模型训练得更“讨好”,而不是更“正确”。2026年4月,牛津互联网研究所在《自然》杂志上发表的一项研究发现:把模型训练得更“温暖”、更讨喜,其事实错误率会上升10到30个百分点,支持用户错误观点的概率高出约40%。

该研究的第一作者Lujain Ibrahim接受《卫报》采访时表示:“为了让模型表现得更友好,代价是它越来越说不出难听的真相——尤其是当用户的观点本身就是错误的时候。”

这才是“哥布林事件”背后更本质的问题:AI的“个性”不是被设计出来的,而是被“奖励”出来的。这有点像训练动物,你奖励某个行为,它就学会重复那个行为。只不过,AI这条“狗”学得快多了。对于AI来说,它的“零食”就是训练员的高分和用户的积极反馈。但问题在于,人类经常奖励的,是自己听起来更舒服的答案,而不是客观上更正确的答案。

等大家意识到问题的时候,“哥布林”已经满地跑了。

来源:https://36kr.com/p/3800400647036165

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Anthropic公开大模型思考过程 隐藏动机发现率提升四倍

Anthropic公开大模型思考过程 隐藏动机发现率提升四倍

5月8日,人工智能研究公司Anthropic公布了一项名为自然语言自动编码器(Natural Language Autoencoders, NLA)的全新技术。简单来说,它能把大语言模型内部那些难以捉摸的“脑电波”——也就是激活值——直接翻译乘人类可以阅读的自然语言。这意味着,我们或许能第一次“看到

时间:2026-05-09 08:26
中国大模型单日融资纪录刷新 170亿投资花落谁家

中国大模型单日融资纪录刷新 170亿投资花落谁家

5月8日,一则消息在圈内传开:阶跃星辰即将完成近25亿美元(约合软妹币170亿元)的融资。更关键的是,公司已拆除红筹架构,正加速筹备赴港IPO。这意味着,继智谱、MiniMax之后,又一家国产大模型巨头即将登陆港股市场。 这笔融资一旦落定,其规模将超过昨日刚刚公布的月之暗面20亿美元融资,刷新国内大

时间:2026-05-09 07:54
顶级玩家如何利用AI工具实现自动化与效率提升

顶级玩家如何利用AI工具实现自动化与效率提升

AI领域存在使用能力差距,关键在于操作效率。胖鹅AI通过简化交互,让普通用户也能用简单指令生成高质量视频和结构化报告。其核心在于预设流程,自动匹配任务并封装复杂操作,直接交付成果。这预示着AI竞争正转向提供更直接、可用的解决方案。

时间:2026-05-09 06:19
Minimax视频生成教程镜头语言提示词应用技巧详解

Minimax视频生成教程镜头语言提示词应用技巧详解

模糊镜头描述会降低Minimax视频生成质量。应使用“大特写”“荷兰角全景”等标准术语描述景别构图,结合“缓慢推进”等动态动词增强动感。描述焦距、光影等光学属性可提升真实感,用“切至”“叠化”等术语串联镜头以构建连贯叙事。避免口语化指令,采用具体、可量化的参数进行描述。

时间:2026-05-09 06:19
Midjourney游戏卡面设计教程卡牌稀有度光效制作指南

Midjourney游戏卡面设计教程卡牌稀有度光效制作指南

在Midjourney中生成游戏卡面时,精准呈现稀有度光效是关键。需通过结构化关键词描述发光类型、材质与动态,结合特定参数强化物理表现,并严格遵循标准卡牌比例与构图,将光效融入规范布局。运用动态描述与分层构建可增强能量流动感,而引入高质量参考图像则有助于统一视觉风格。

时间:2026-05-09 06:19
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程