当前位置: 首页
科技数码
Claude Sonnet 4.5上线:30小时自主编程实测,3000行代码一次重构

Claude Sonnet 4.5上线:30小时自主编程实测,3000行代码一次重构

热心网友 时间:2025-09-30
转载

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

双节小长假将近,国内国外大模型公司闻风而动,赶在正式放假前让众人“小卷”一波。这不,继昨晚DeepSeek 发布DeepSeek V3.2-Exp之后,Anthropic 又在今天带来了全新升级的Claude Sonnet 4.5 版本,号称“世界上最好的编码模型”。

最强的编码模型Claude Sonnet 4.5 来了:可自主持续运行 30 小时

根据最新测试结果显示,Claude Sonnet 4.5 在SWE-bench Verified评测里拿下了顶级成绩,这个测试主要看模型在真实世界里写代码的水平。

实际测试中,Claude Sonnet 4.5能在复杂的多步骤任务上坚持专注超过 30 个小时。相比此前 Opus 4 运行 7 小时左右的时间,Claude Sonnet 4.5 有了大幅优化与改进。这对于 Anthropic 想要构建的代理系统而言,是一个重要的里程碑。

不仅如此,Sonnet 4.5 在电脑操作方面也有明显提升。在OSWorld这个专门测试 AI 完成真实电脑任务的评测中,它拿下了61.4%的成绩。而就在四个月前,Sonnet 4 还凭借42.2%排名第一。

现在这些升级过的能力已经整合进Claude 的 Chrome 插件,根据最新演示,可以看到这个大模型能够直接在浏览器里操作:打开 、填写表格、完成任务等等。

同时,Sonnet 4.5 在推理和数学等多项测试中也有大幅提升。从下图看出,在 Agentic Coding、Agentic Tool Use 等测试中 Claude Sonnet 4.5 远超过更昂贵的 GPT-5、Gemini 2.5 Pro 等竞品模型。

此外,来自金融、法律、医学和理工科等领域的专家一致认为,它在专业知识和推理能力上,已经远远超过了之前的模型(包括 Opus 4.1)。

有效改进的“幻觉”、“谄媚”、“欺骗”等问题

要知道,如果不加以审查,AI 自主生成的代码一旦投入生产环境,往往会带来各种潜在风险。对此,Anthropic 表示,Claude Sonnet 4.5 不仅是当前最强的模型,也是他们迄今推出的 最“对齐”的前沿模型 。

Anthropic 透露,其模型已经接受“广泛”的安全训练,也增强了 Sonnet 4.5 对即时注入攻击的防护。数据显示,其使用自动化行为审计工具对模型进行了评估,得分越低代表越安全。所谓“不对齐行为”包括但不限于:欺骗、迎合、权力攫取、鼓励妄想,以及响应危险系统指令。

在一众大模型中,Sonnet 4.5 评分是最低的。

此外,Claude Sonnet 4.5 按照AI 安全等级 3(ASL-3)标准发布,这意味着它配备了与能力水平相匹配的防护措施。例如通过分类器(classifier)来过滤潜在的危险输入和输出,尤其是涉及化学、生物、放射和核武器(CBRN)的内容。

不过,Anthropic 也承认这些分类器有时会误伤正常内容。为此,他们提供了便捷的切换方案,用户可以改用 CBRN 风险更低的 Sonnet 4 继续对话。值得注意的是,团队在减少“误报”方面已取得显著成果:与最初版本相比,误报率降低了10 倍;与今年 5 月发布的 Claude Opus 4 相比,也下降了一半。

重磅更新的 Claude Code

对于开发者而言,最为关注的莫过于 Claude Code 的最新进展。

Anthropic 表示,他们花了六个多月的时间更新 Claude Code 的能力,在 Sonnet 4.5 的支持下,Claude Code 现在能够在终端和 IDE 中处理更长、更复杂的开发任务。

此次也带来了不少更新,具体包括:

原生 VS Code 插件:Anthropic 即将推出一个原生 VS Code 插件的 Beta 版本,将 Claude Code 直接引入 IDE。用户可以通过专用侧边栏面板实时查看 Claude 对代码的修改,并看到内联差异(inline diffs)。这款插件为偏好在 IDE 中开发的用户提供了更直观、更丰富的 Claude Code 使用体验。

终端界面升级:Claude Code 的终端界面也进行了升级,新增了更清晰的状态显示和可搜索的提示历史(Ctrl+r),方便用户重复使用或编辑之前的指令。

Claude Agent SDK 来了:对于想要创建自定义代理体验的团队,Anthropic 将用于构建 Claude Code 的核心“模块”开放给开发者,命名为Claude Agent SDK。

这套底层基础设施不仅支撑 Claude Code,也适用于各种任务,开发者可以用它搭建自己的智能体。它解决了智能体在长任务中管理记忆、平衡自主性与用户控制,以及协调多个子智能体协作等难题。正如最新所说,当初开发 Claude Code,是因为市面上没有合适的工具;现在,Agent SDK 让开发者也能用同样的基础打造强大工具,解决各自的业务问题。

checkpoint 功能:Claude Code增加了用户期待已久的checkpoint 功能,因为复杂开发往往需要不断探索和迭代。新系统会在每次修改前自动保存代码状态,用户可以通过双击 Esc 或使用/rewind命令瞬间回退到先前版本。Checkpoint 可让开发者放心尝试大规模或复杂任务,同时保证可以随时恢复之前的代码状态。回退时,用户可以选择恢复代码、对话或两者兼顾。Checkpoint 仅适用于 Claude 的修改,不会影响用户手动编辑或 Bash 命令。最新建议将其与版本控制结合使用,以获得最佳效果。

在最新公告中,Anthropic 建议,Checkpoint 可以与 Claude Code 最新功能配合使用效果最佳,譬如:

子智能体可以委派专门任务,例如在主智能体构建前端的同时启动后台 API,实现并行开发;

钩子(Hooks)可在特定环节自动触发操作,如代码修改后运行测试套件,或提交前进行 lint 检查;

后台任务可以保持长时间运行的进程(如开发服务器)活跃,同时不阻塞 Claude Code 处理其他工作。

这些能力使Claude Code可以用于一些大规模重构或功能探索等任务。

其他功能

不止如此,Anthropic 还同步对产品进行了多项升级:

Claude API 新增上下文编辑和记忆工具,让智能体可以运行更长时间、处理更复杂的任务;

Claude 应用中,现在可以直接在对话里运行代码和生成文件(包括表格、幻灯片和文档);

Chrome 插件已对上个月排队的 Max 用户开放。

Anthropic 还推出了一个限时实验功能 “Imagine with Claude”。在这个实验中,Claude 能实时生成软件:没有预设功能,也没有预写代码,它会根据用户的即时交互需求进行创造和适配。当前,“Imagine with Claude” 对 Max 用户开放 5 天,可在claude.ai/imagine体验。

Claude Sonnet 4.5 今天即可使用。如果是开发者,可通过 Claude API 调用claude-sonnet-4.5。Sonnet 4.5 的 API 定价与 4.0 相同,保持不变:每百万输入 token 收费 3 美元,每 百万输出 token 收费 15 美元。

开发者实测

随着ClaudeSonnet 4.5和全新Claude Code的上线,不少开发者第一时间上手体验,纷纷分享了他们的惊喜与疑问。

一位开发者This is Dmitry Zhomir尝试让 Claude 4.5 Sonnet 用Three.js制作一个简单的 3D 射击游戏,结果让人震惊:

「我甚至都不用提供贴图和音效,它自己全都生成了。难道 Anthropic 要取代游戏 开发者了吗??」

还有人做了简单的SVG 测试,这是由 Claude Sonnet 4.5 生成的作品:

这是 GPT-5 生成的:

你觉得哪一个更胜一筹?

当然,也有人指出,AI 并不能完全替代人工。开发者 Vas 分享了他的体验:

“Claude 4.5 Sonnet 一次调用就重构了我的整个代码库。

调用了 25 个工具,新增了 3000 多行代码,创建了 12 个全新文件。

它把所有东西模块化,拆分了巨型单体结构,整理了凌乱的代码。

可惜,这些都没能运行……

但不得不说,效果真是赏心悦目。”

与此同时,有人向悄悄向Sam Altman发问:“Dario 刚刚发布了 Claude 4.5,它在编程、代理任务和计算机使用上已经击败了 GPT-5;同时 Deepseek 也推出了新模型,推理成本降低了 10 倍,API 成本降低了 50%……”你们准备如何应对?

据报道,未来两周OpenAI将发布新产品。Wired 消息显示,他们计划为Sora 2推出一款独立社交媒体应用,类似抖音,但内容将100% 由 AI 根据用户 prompt 生成,无需用户亲自拍摄或剪辑。

可以说,新一轮的 AI “内卷”已经悄然开启。面对这一波工具更新,你会如何看待?

更多内容可参考最新公告:https://www.anthropic.com/news/claude-sonnet-4-5

来源:https://36kr.com/p/3488942965972103

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
小米米家洗衣机滚筒 10Kg 超薄全嵌版发售:1.25 洗净比,1199 元

小米米家洗衣机滚筒 10Kg 超薄全嵌版发售:1.25 洗净比,1199 元

小米米家洗衣机滚筒 10Kg 超薄全嵌版开售:1 25高洗净比,1199元入手智能洗护方案 今日晚间19:30,备受期待的米家洗衣机滚筒10公斤超薄全嵌式版本将正式上市。这款定价仅为1199元的洗衣机,为计划打造现代一体化厨房与阳台家居的消费者,提供了一个兼具高性价比与前沿智能体验的优质选择。 该款

时间:2026-04-06 19:18
英特尔:"Raptor Lake" 处理器仍是战略重要组成,短期内不会停产

英特尔:"Raptor Lake" 处理器仍是战略重要组成,短期内不会停产

英特尔重申“Raptor Lake”处理器的战略地位:短期内不会停产,市场供应充足 近期一则官方表态,给许多在“追新”与“实用”之间犹豫的DIY玩家带来了明确信号。4月6日,英特尔副总裁兼发烧友渠道业务总经理Robert Hallock在接受外媒Club386访谈时坚定指出,代号“Raptor La

时间:2026-04-06 18:46
M5 MacBook Air 16+512G 京东补货:国补后 7188 元,教育优惠版 6544 元

M5 MacBook Air 16+512G 京东补货:国补后 7188 元,教育优惠版 6544 元

M5款MacBook Air补货速递:国补与教育优惠详解 近期,对于关注MacBook Air的用户来说,迎来了一波绝佳的入手时机。搭载全新M5芯片的新款MacBook Air官方起售价为8499元,现在叠加国家补贴政策,可享受高达15%的折扣优惠,最高能节省约1500元。此外,符合资质的高校学生及

时间:2026-04-06 18:45
性能怪兽!RTX 6090显卡大爆料 或2027年发售

性能怪兽!RTX 6090显卡大爆料 或2027年发售

2026年4月:英伟达RTX 6090,下一代性能王者的蓝图与展望 进入2026年第二季度,科技领域关于英伟达下一代旗舰显卡——GeForce RTX 6090的讨论持续升温,细节愈发清晰。多方泄露的信息共同勾勒出一幅令人振奋的图景:这款代号“Rubin”的图形处理器,极有可能成为GPU性能发展史上

时间:2026-04-06 17:53
消息称三星 Galaxy S27 系列手机将增加“Pro”型号,定位去掉 S Pen 的 Ultra

消息称三星 Galaxy S27 系列手机将增加“Pro”型号,定位去掉 S Pen 的 Ultra

消息称三星 Galaxy S27 系列将新增“Pro”型号 据科技行业最新爆料,明年旗舰手机市场的竞争或将出现新变局。知名数码博主 @i冰宇宙 近期透露,三星正计划扩充 Galaxy S27 系列的产品线,有望推出一款全新的“Pro”型号。据悉,这款新机型的定位很明确:它将是一款移除了 S Pen

时间:2026-04-06 17:44
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程