Claude Sonnet 4.5上线：30小时自主编程实测，3000行代码一次重构

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

Claude Sonnet 4.5上线：30小时自主编程实测，3000行代码一次重构

热心网友时间：2025-09-30

转载

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

双节小长假将近，国内国外大模型公司闻风而动，赶在正式放假前让众人“小卷”一波。这不，继昨晚DeepSeek 发布DeepSeek V3.2-Exp之后，Anthropic 又在今天带来了全新升级的Claude Sonnet 4.5 版本，号称“世界上最好的编码模型”。

最强的编码模型Claude Sonnet 4.5 来了：可自主持续运行 30 小时

根据最新测试结果显示，Claude Sonnet 4.5 在SWE-bench Verified评测里拿下了顶级成绩，这个测试主要看模型在真实世界里写代码的水平。

实际测试中，Claude Sonnet 4.5能在复杂的多步骤任务上坚持专注超过 30 个小时。相比此前 Opus 4 运行 7 小时左右的时间，Claude Sonnet 4.5 有了大幅优化与改进。这对于 Anthropic 想要构建的代理系统而言，是一个重要的里程碑。

不仅如此，Sonnet 4.5 在电脑操作方面也有明显提升。在OSWorld这个专门测试 AI 完成真实电脑任务的评测中，它拿下了61.4%的成绩。而就在四个月前，Sonnet 4 还凭借42.2%排名第一。

现在这些升级过的能力已经整合进Claude 的 Chrome 插件，根据最新演示，可以看到这个大模型能够直接在浏览器里操作：打开、填写表格、完成任务等等。

同时，Sonnet 4.5 在推理和数学等多项测试中也有大幅提升。从下图看出，在 Agentic Coding、Agentic Tool Use 等测试中 Claude Sonnet 4.5 远超过更昂贵的 GPT-5、Gemini 2.5 Pro 等竞品模型。

此外，来自金融、法律、医学和理工科等领域的专家一致认为，它在专业知识和推理能力上，已经远远超过了之前的模型（包括 Opus 4.1）。

有效改进的“幻觉”、“谄媚”、“欺骗”等问题

要知道，如果不加以审查，AI 自主生成的代码一旦投入生产环境，往往会带来各种潜在风险。对此，Anthropic 表示，Claude Sonnet 4.5 不仅是当前最强的模型，也是他们迄今推出的最“对齐”的前沿模型。

Anthropic 透露，其模型已经接受“广泛”的安全训练，也增强了 Sonnet 4.5 对即时注入攻击的防护。数据显示，其使用自动化行为审计工具对模型进行了评估，得分越低代表越安全。所谓“不对齐行为”包括但不限于：欺骗、迎合、权力攫取、鼓励妄想，以及响应危险系统指令。

在一众大模型中，Sonnet 4.5 评分是最低的。

此外，Claude Sonnet 4.5 按照AI 安全等级 3（ASL-3）标准发布，这意味着它配备了与能力水平相匹配的防护措施。例如通过分类器（classifier）来过滤潜在的危险输入和输出，尤其是涉及化学、生物、放射和核武器（CBRN）的内容。

不过，Anthropic 也承认这些分类器有时会误伤正常内容。为此，他们提供了便捷的切换方案，用户可以改用 CBRN 风险更低的 Sonnet 4 继续对话。值得注意的是，团队在减少“误报”方面已取得显著成果：与最初版本相比，误报率降低了10 倍；与今年 5 月发布的 Claude Opus 4 相比，也下降了一半。

重磅更新的 Claude Code

对于开发者而言，最为关注的莫过于 Claude Code 的最新进展。

Anthropic 表示，他们花了六个多月的时间更新 Claude Code 的能力，在 Sonnet 4.5 的支持下，Claude Code 现在能够在终端和 IDE 中处理更长、更复杂的开发任务。

此次也带来了不少更新，具体包括：

原生 VS Code 插件：Anthropic 即将推出一个原生 VS Code 插件的 Beta 版本，将 Claude Code 直接引入 IDE。用户可以通过专用侧边栏面板实时查看 Claude 对代码的修改，并看到内联差异（inline diffs）。这款插件为偏好在 IDE 中开发的用户提供了更直观、更丰富的 Claude Code 使用体验。

终端界面升级：Claude Code 的终端界面也进行了升级，新增了更清晰的状态显示和可搜索的提示历史（Ctrl+r），方便用户重复使用或编辑之前的指令。

Claude Agent SDK 来了：对于想要创建自定义代理体验的团队，Anthropic 将用于构建 Claude Code 的核心“模块”开放给开发者，命名为Claude Agent SDK。

这套底层基础设施不仅支撑 Claude Code，也适用于各种任务，开发者可以用它搭建自己的智能体。它解决了智能体在长任务中管理记忆、平衡自主性与用户控制，以及协调多个子智能体协作等难题。正如最新所说，当初开发 Claude Code，是因为市面上没有合适的工具；现在，Agent SDK 让开发者也能用同样的基础打造强大工具，解决各自的业务问题。

checkpoint 功能：Claude Code增加了用户期待已久的checkpoint 功能，因为复杂开发往往需要不断探索和迭代。新系统会在每次修改前自动保存代码状态，用户可以通过双击 Esc 或使用/rewind命令瞬间回退到先前版本。Checkpoint 可让开发者放心尝试大规模或复杂任务，同时保证可以随时恢复之前的代码状态。回退时，用户可以选择恢复代码、对话或两者兼顾。Checkpoint 仅适用于 Claude 的修改，不会影响用户手动编辑或 Bash 命令。最新建议将其与版本控制结合使用，以获得最佳效果。

在最新公告中，Anthropic 建议，Checkpoint 可以与 Claude Code 最新功能配合使用效果最佳，譬如：

子智能体可以委派专门任务，例如在主智能体构建前端的同时启动后台 API，实现并行开发；

钩子（Hooks）可在特定环节自动触发操作，如代码修改后运行测试套件，或提交前进行 lint 检查；

后台任务可以保持长时间运行的进程（如开发服务器）活跃，同时不阻塞 Claude Code 处理其他工作。

这些能力使Claude Code可以用于一些大规模重构或功能探索等任务。

其他功能

不止如此，Anthropic 还同步对产品进行了多项升级：

Claude API 新增上下文编辑和记忆工具，让智能体可以运行更长时间、处理更复杂的任务；

Claude 应用中，现在可以直接在对话里运行代码和生成文件（包括表格、幻灯片和文档）；

Chrome 插件已对上个月排队的 Max 用户开放。

Anthropic 还推出了一个限时实验功能 “Imagine with Claude”。在这个实验中，Claude 能实时生成软件：没有预设功能，也没有预写代码，它会根据用户的即时交互需求进行创造和适配。当前，“Imagine with Claude” 对 Max 用户开放 5 天，可在claude.ai/imagine体验。

Claude Sonnet 4.5 今天即可使用。如果是开发者，可通过 Claude API 调用claude-sonnet-4.5。Sonnet 4.5 的 API 定价与 4.0 相同，保持不变：每百万输入 token 收费 3 美元，每百万输出 token 收费 15 美元。