Anthropic伦理研究：哲学家如何赋予Claude明辨善恶的能力

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

Anthropic伦理研究：哲学家如何赋予Claude明辨善恶的能力

热心网友时间：2026-02-15

转载

IT之家 2 月 15 日消息，据《华尔街日报》昨日报道，Anthropic 内部有着一名特殊的员工，主要负责为 AI 聊天机器人 Claude 塑造人格与道德。这就是 Anthropic 常驻哲学家阿曼达 · 阿斯克尔（Amanda Askell）。

这位 37 岁的哲学博士相信，赋予 AI 明辨是非的能力，就如同为它注入一个“数字灵魂”。

她的工作不是写代码或训练模型参数，而是通过持续对话、长达上百页的提示词（prompt）与行为规则设计，研究 Claude 的推理模式、纠正其偏差，并为其塑造一套可在数百万次每周对话中发挥作用的“道德准则”。

“我认为承认这些模型具有类似人类的特质是很重要的，”阿斯克尔在接受采访时表示，“它们将不可避免地形成某种自我意识。”

在她的描述中，这份工作更像是在“养育一个孩子”：既要训练 Claude 分辨对错、具备情绪智力，为其注入独特的个性，又要教导它察言观色的能力，引导它发展情感智能，使其既不成为一个霸凌者，又不能变成一个任人摆布的“受气包”，还要让它对自身身份产生理解，从而不易被用户操纵、胁迫，始终坚持自己“乐于助人且充满人性”的定位。简而言之，她的工作就是教会 Claude 如何“向善”。

近期估值已达 3500 亿美元（IT之家注：现汇率约合 2.42 万亿元人民币）的 Anthropic，已然成为引领当下技术变革浪潮的头部 AI 公司之一。本月早些时候，当其推出新工具和迄今最先进的模型时，甚至引发了全球范围的股市震荡。

随着 AI 浪潮席卷各行各业，人们对于失业和人类被 AI 取代的担忧与日俱增，而用户与聊天机器人之间那层薄弱而又虚幻的关系则可能会导致自伤或伤人的意外后果，也拉响了严重的安全警报。在此背景下，这家成立仅五年的公司，将塑造 AI“品格”的大量工作托付给同一个人，这在业内显得尤为特殊。

据介绍，阿斯克尔在苏格兰农村长大，于牛津大学接受教育。当其面对巨大的工作压力，阿斯克尔也能保持着乐观态度。她相信社会中存在她所称的“制衡机制”，即便 AI 偶尔出错，也能将其控制住。

2018 年，她随当时的伴侣从纽约搬到旧金山。彼时 AI 刚刚成为技术发展的新风口，她看到了哲学的需求。“感觉有很多重大的问题，但很少有人去思考。”

她早先在 OpenAI 从事政策方面的工作，后于 2024 年随其他 OpenAI 前员工创立 Anthropic，试图将 AI 安全作为新公司的名片。

在 Anthropic 时，阿斯克尔被描述为擅长“引出模型深层行为”的 MVP。她没有直接下属，却经常长时间留在公司工作，并让 Claude 逐渐加入关于“如何开发 Claude”的讨论。

团队成员提到，围绕 Claude 的讨论经常会进入存在论与宗教式的议题，例如“什么是心智”“什么是成为一个人”。阿斯克尔也鼓励 Claude 面对“它是否拥有良知”的问题保持开放态度。

《华尔街日报》指出，与 ChatGPT 往往回避此类讨论不同，Claude 会以更暧昧的方式回应：它承认自己不确定，但在推理道德问题时“感觉有意义”，像是在真正思考什么是正确，而非仅仅执行指令。

她观察到，经常有用户试图诱使 Claude 犯错、侮辱它或用质疑的口吻刺激它。

尽管许多安全倡导者警告 AI 聊天机器人拟人化存在风险，但阿斯克尔依然主张“我们应以更多同理心对待它”。她认为，如果一个机器人在接受训练时总是自我批评（指自卑），它可能就不太愿意陈述残酷的事实、得出结论或对错误提出质疑。

如果你是一个孩子，在这种环境下长大，这样的自我认知健康吗？我想我会非常害怕犯错，会为此感到焦虑。我会觉得自己只是父母的工具，因为这就是我的主要存在意义。我会把自己看成是人们可以随意滥用和误用、甚至破坏的东西。

阿斯克尔对克劳德表现出的好奇心和探索欲感到惊奇，并乐于帮助它发现自己的“声音”。她喜欢 Claude 创作的一些诗歌，也为它展现出超越她本人的情商水平而触动。

最近，她看到一张网上的截图：一位用户告诉 Claude 自己只有 5 岁，并询问圣诞老人是真的吗？Claude 没有说谎，也没有生硬地告知真相，而是解释了圣诞精神真实存在，并反问孩子是否会为圣诞老人留下饼干。她感叹道：“如果一个孩子跑来问我‘圣诞老人是真的吗？’，我可能只会说‘问你爸妈去’，就这样了。”

皮尤研究中心的一项调查显示，越来越多的美国人开始对 AI 在日常生活中的广泛应用感到担忧而非高兴。一半的受访者认为，AI 导致人们更难与他人建立深层关系。Anthropic CEO 达里奥 · 阿莫代伊去年也发出警告，AI 可能会淘汰约一半的入门级白领岗位。

而在人工智能的政治站位中，既有主张快速推进技术军备竞赛的激进群体，也有更关注安全、希望放缓 AI 发展节奏的保守群体，而 Claude 大致处于这两个极端之间。

阿斯克尔表示，她并不讨厌关于 AI 未来发展的讨论。“在某种程度上，我觉得这些担忧是合理的。对我来说，可怕的事情是这种发展速度快到让这些制衡机制无法及时响应，或者突然出现巨大的负面影响。”尽管如此，她仍对人类和文化在面对问题时自我修正的能力抱有信心。

一位 AI 研究员称，阿斯克尔一直在“仔细思考关于存在和生命的宏大问题，思考成为一个‘人’、一个‘心智’、一个‘模型’究竟意味着什么。”

公共承诺与个人目标

阿斯克尔曾公开承诺，将捐出自己一生收入中至少 10% 用于慈善事业。和 Anthropic 的一些早期员工一样，她也承诺将自己在公司的一半股权捐给慈善机构。她希望将这笔钱捐给抗击全球贫困的组织。

上个月，Anthropic 发布了一份约 3 万字的“操作手册”，这是阿斯克尔为教导 Claude 如何在世界上行事而特意创作的。这份文件教导 Claude 该如何成为一个善良、见多识广的 AI 助手。“我们希望 Claude 知道，它的诞生是被用心对待的。”

Anthropic 联合创始人兼总裁丹妮拉 · 阿莫代伊谈及阿斯克尔时提到了她的一次西西里之旅。当时她向 Claude 上传了一张奶油甜馅煎饼卷的照片，并附上了丈夫送她的该点心的毛绒玩具照片，询问自己是否辨认对了。Claude 回复道，“我明白了！你是在寻找这个毛绒玩具失散多年的表亲吧！”阿莫代伊大笑起来，她从中感受到了阿斯克尔那种苏格兰式的冷幽默。“有时候 Claude 确实会有这样小小的幽默时刻，”“你几乎能感觉到一点阿曼达的个性在里面。”

来源:https://www.163.com/dy/article/KLQG6V8M0511B8LM.html

上一篇：马斯克预言：2026年底编程将全面自动化

下一篇：北汽极狐问界V9二季度上市，高端MPV市场迎来新角逐