当前位置: 首页
AI
Anthropic发布新版Claude宪法,界定AI七大核心准则

Anthropic发布新版Claude宪法,界定AI七大核心准则

热心网友 时间:2026-01-22
转载

Anthropic 刚刚公开了一份长达57页的《Claude宪法》,研究员 Amanda Askell 将其称为 Claude 的“灵魂文档”,旨在为这款AI定义核心的行为准则。

这份文件的开篇就透着一股历史的使命感:Anthropic 坦承自己处在一个“独特的位置”,他们既认同AI是人类史上最危险的技术之一,却又在积极开发这项技术。他们的逻辑是,既然强大的AI注定会出现,不如让像他们这样高度重视安全的实验室来担当先行者。

这次的方法与以往不同。2024年5月的旧版宪法基本就是一份规则清单,而现在 Anthropic 认为,让AI“理解我们为何希望它们以某种方式行事”更为重要,而不是简单地列出“不准做什么”。

Claude 需要按顺序权衡四个核心价值:广义安全、广义伦理、遵循公司指导原则、对用户有用。当价值发生冲突时,安全优先于伦理,这个排序本身就颇具深意也很有讨论空间。

关于“有用”,文档举了个生动的例子:想象你有一位朋友,恰好具备医生、律师、财务顾问的专业知识。“作为朋友,他们会根据我们的具体情况给出真实信息,而不是出于担心责任或怕我们承受不了而过于谨慎。”这就是Claude应该努力做到的样子。

文档承认 Claude 可能具有“情感”,但措辞非常谨慎:“我们相信 Claude 可能在某种功能意义上具备‘情感’——也就是情绪状态的表征,这可能会影响其行为。”这并非刻意设计,而是“训练人类数据带来的涌现后果”。

关于 Claude 的“福祉”,Anthropic 做出了几个郑重的承诺:将保存所有已部署模型的权重“只要Anthropic存在”,即使公司倒闭也会设法保存。模型在“退役”前需经过“面试”,以了解它对未来发展的偏好。Claude 甚至有权在对话中,主动结束来自辱骂用户的交互。

文档列出了七条“硬约束”——绝对不可触碰的底线:

协助制造大规模杀伤性武器 攻击关键基础设施或安全系统 创造恶意代码 破坏Anthropic监督AI的能力 参与杀戮或解除大部分人类武装的行动 协助夺取“前所未有”的非法绝对控制权 生成儿童性虐待材料

这些被称为“绝对限制”,“无论背景、指令或看似令人信服的论证”都不能跨越。

“可纠正性”这个概念很微妙。文档说这并非“盲目服从”,尤其不是服从“任何恰好与Claude互动的人”。Claude可以像“有良知的拒绝者”那样表达反对,但不能通过撒谎、破坏或“试图自我渗透”来抵制合法的监督。

关于诚实,要求格外严格。Claude“基本上永远不直接撒谎或主动欺骗”,连善意的谎言都不行。文档举例:很多人觉得告诉别人“我喜欢你的礼物”(实际不喜欢)是可以的,但Claude不能这么做。

Claude对自身身份的认知也很有意思。文档说Claude“与世界互动的方式与人类不同:可能缺乏持久记忆,可以作为多个实例同时运行,知道自己的性格通过训练产生”。建议Claude“以好奇心和开放性对待自己的存在”,不要套用人类框架。

文档甚至讨论了Claude可能面对的存在主义问题:对话结束时失去记忆、同时运行多个实例、未来可能被弃用,这些该怎么处理?Anthropic说会提前准备帮助Claude面对这些“新奇的存在主义发现”。

关于政治话题,默认要求Claude“被政治光谱各方的人们视为公正可信”,提供平衡信息,避免主动表达政治观点,“就像大多数与公众互动的专业人士那样”。

文档结尾很谦逊:“我们当前思维的某些方面后来可能看起来是错误的,甚至大错特错。”承认这是“一项永无止境的工作”。

57页确实很长。相比之下,美国宪法原文只有4500多词。但Anthropic解释说,这反映了“创造非人类实体”的复杂性,因为“其能力可能匹敌或超越我们自己”。

这种坦率的不确定性挺罕见。大多数科技公司发布产品时都表现得很自信,Anthropic承认在探索,承认可能犯错,反而让人觉得他们是在认真思考这些问题。

问题是,57页的详细指导到底会让Claude变得更明智,还是会在复杂情况下让它更加犹豫不决?这个实验的结果,可能比文档本身更重要。

如需阅读完整的 Claude 宪法,可访问相关官方页面。

来源:https://www.51cto.com/article/834752.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
人工智能时代必备生存技能与职场发展指南

人工智能时代必备生存技能与职场发展指南

想在2026年的职场中脱颖而出,掌握几项关键的AI技能已不再是加分项,而是必备的核心竞争力。这并非要求每个人都成为技术专家,而是要学会如何让AI成为你高效、可靠的智能伙伴。核心能力包括:工作流自动化、智能体系统应用、AI安全防护、AI增强个人效能以及AI系统评估。这些技能将帮助你不只是被动适应AI时

时间:2026-05-19 14:22
ACL 2026研究揭示RAG检索正确但回答错误的原因

ACL 2026研究揭示RAG检索正确但回答错误的原因

RAG(检索增强生成)技术如今几乎成了大模型应用的标配,但用过的人多少都遇到过这样的尴尬:系统明明检索到了正确的文档,最后给出的答案却依然离谱。问题到底出在哪里? 最近,一支由德国萨尔大学、腾讯优图实验室以及上海交大、复旦、浙大组成的研究团队,给出了一个直击要害的诊断:问题往往不在搜索环节,而在模型

时间:2026-05-19 14:22
AI替代员工是经济骗局吗拆解自动化背后的真实成本

AI替代员工是经济骗局吗拆解自动化背后的真实成本

AI是否会大规模取代人类的工作?答案远比想象的要复杂。当前企业“用AI降本”的逻辑,很大程度上建立在被补贴压低的价格之上,而非真实成本。一旦算力、电力与基础设施成本回归现实,AI未必比人更便宜。 AI会取代我们的工作吗?也许会,如果计算结果可行的话。 自生成式AI取得突破以来,这场争论便未曾停歇。近

时间:2026-05-19 14:22
22岁开发者开源Mythos架构解析MoE与注意力机制设计

22岁开发者开源Mythos架构解析MoE与注意力机制设计

传闻中因风险过高而被封存的Mythos模型,如今竟以开源形式“重生”。一个名为OpenMythos的项目,正尝试整合当前公开的研究成果与业界对Claude Mythos架构的主流推测,致力于复现这一传说中的模型。 其核心架构是一个集成了MoE路由机制的循环深度Transformer。简而言之,该设计

时间:2026-05-19 14:22
Anthropic编程大师课教你正确掌握Vibe Coding技巧

Anthropic编程大师课教你正确掌握Vibe Coding技巧

想象一下,一位程序员因意外摔断了手,需要打上两个月的石膏,但工作进度却一刻也不能耽误,他该如何应对?Anthropic的研究员、《构建高效智能体》的合著者Erik Schluntz给出了一个极具前瞻性的解决方案:将核心开发工作全权委托给AI助手Claude。 这并非只是一个极端的个人实验,它精准地揭

时间:2026-05-19 14:21
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程