Claude Sonnet 4.6发布：百万token上下文带来更强AI体验

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

Claude Sonnet 4.6发布：百万token上下文带来更强AI体验

热心网友时间：2026-02-18

转载

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

机器之心编辑部

大年初二，海外就开始发新模型了！

这次是 Anthropic，率先发布了他们称之为「我们目前能力最强的 Sonnet 模型」Claude Sonnet 4.6。

Claude 称，新模型对编码、计算机使用、长上下文推理、智能体规划、知识工作和设计进行了全面升级。

Beta 版还包含 100 万 token 的上下文窗口。

在价格方面，对于免费和专业版用户，Claude Sonnet 4.6 现已成为 claude.ai 和 Claude Cowork 的默认模型。定价与 Sonnet 4.5 保持一致，仍为每百万输入 token 3 美元，每百万输出 token 15 美元。

那么具体性如何？在 GDPval-AA 测试中，Claude Sonnet 4.6 甚至略微领先于 Anthropic 刚刚发布不久的 Opus 4.6。

接下来，就让我们仔细看下技术博客介绍。

计算机使用

2024 年 10 月，Claude 率先推出了通用的计算机使用模型。当时，这种技术「仍处于实验阶段 —— 有时操作繁琐且容易出错」。

AI 计算机使用的标准基准 OSWorld 展示了 Claude 模型的进步程度。该基准会在模拟计算机上运行真实软件（Chrome、LibreOffice、VS Code 等），设置数百项任务。该基准也没有没有特殊的 API 或专用连接器；模型看到计算机并与其互动的方式与人非常相似：点击（虚拟）鼠标和在（虚拟）键盘上打字。

在过去的十六个月里，Sonnet 模型在 OSWorld 上的性能稳步提升。这些改进在基准测试之外也可见一斑：早期的 Sonnet 4.6 用户在多项任务（诸如浏览复杂电子表格或填写多步骤网页表单）中，看到了达到人类水平的能力，并且能在多个浏览器标签页中整合处理信息。

当然，该模型在使用计算机方面仍落后于最熟练的人类。但进步的速度依然显著。这意味着：计算机使用的价值在提升 —— 并且表明能力更强的模型已指日可待。

图表比较了多个 Sonnet 模型在 OSWorld 基准上的得分。注：Claude Sonnet 4.5 之前的得分基于原始 OSWorld 测量；从 Sonnet 4.5 开始使用 OSWorld-Verified。OSWorld-Verified（2025 年 7 月发布）是原始 OSWorld 基准的原位升级，对任务质量、评估评分和基础设施进行了更新。

与此同时，计算机使用也带来了风险：恶意行为者可能试图通过提示注入攻击，将指令隐藏在中来劫持模型。

Anthropic 致力于提高模型抵抗提示注入的能力 —— 其安全评估显示，与其前代 Sonnet 4.5 相比，Sonnet 4.6 在这方面有重大改进，表现与 Opus 4.6 相近。

评估 Claude Sonnet 4.6

除了计算机使用，Claude Sonnet 4.6 在各项基准测试中均有提升。它的智能水平接近 Opus 级别，但价格更实惠，使其适用于更广泛的任务。