智谱发布GLM-5.1:将大模型能力从短时交互延伸至8小时级自治工程任务
【快讯】智谱 AI 正式推出旗舰开源大模型 GLM-5.1
智谱 AI 的旗舰开源大模型 GLM-5.1 来了。这次发布,一个核心看点在于其长程自治能力——模型能够独立规划并完成最长持续8小时的任务。更值得关注的是,它在多项硬核代码基准测试中,实现了国产模型的领先突破。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
伴随新模型的发布,智谱也对 GLM 系列模型的价格进行了调整,整体上调约10%。调价之后,在代码生成(Coding)这类核心应用场景中,其缓存 Token 的价格已经接近 Claude Sonnet4.6。这标志着国产大模型首次在关键场景的定价策略上,与海外头部厂商站到了同一水平线。
8 小时持续工作,代码性能超越 Opus 4.6
GLM-5.1 被明确为“长程任务智能体”。这意味着它能在单次任务中自主完成规划、执行与迭代的全流程,并且连续稳定工作超过8小时。根据官方介绍,这是目前唯一能达到此水准的开源模型。
性能方面,它在极具挑战性的 SWE-bench Pro 测试中刷新了全球成绩,一举超越了 GPT-5.4 和 Claude Opus 4.6。这个突破意义重大,是国产模型在该硬核指标上的首次登顶。
此外,在 Terminal-Bench 2.0、NL2Repo 等专业代码评测中,GLM-5.1 同样位列国产及开源模型的第一名,充分证明了其在高质量工程开发和系统优化方面的扎实能力。
可完成系统构建、数据库优化等高阶工程任务
光看分数可能不够直观,那么它具体能做什么?来看两个实例:
8 小时构建 Linux 桌面: 模型能够全自动执行超过1200步操作,从窗口管理器、状态栏到应用生态,交付一个功能完整的桌面环境。这个工作量,大致相当于一个4人团队一周的产出。
向量数据库优化: 模型经过655轮自主迭代,将系统的查询吞吐量从每秒3108次(3108 QPS)大幅提升至每秒21472次(21472 QPS),性能提升接近6.9倍。
它甚至扮演了一个“主动的系统优化器”角色。在 KernelBench 测试中,它实现了平均3.6倍的加速效果,显著优于传统的 torch.compile 方案,并且支持对 CUDA 与 Triton 内核进行深度调优。
延长有效工作窗口
GLM-5.1 的核心突破点,在于它重点优化了长时任务的稳定性。传统模型在长时间、多步骤的任务中,容易陷入重复性的增量调整,或者在数千次工具调用后出现“执行漂移”——即动作逐渐偏离原始目标。
而 GLM-5.1 则能做得更多:当优化收益陷入停滞时,它会主动分析性能瓶颈,并尝试切换技术路径,而不是在原地打转。更重要的是,即便在缺乏明确量化指标的复杂场景中,它依然具备自我评估与持续改进的能力。
智谱方面表示,此次发布的模型为未来实现“7×24小时全自治智能体”奠定了坚实的技术基础。后续的迭代方向,将聚焦于自我评估机制的完善和长上下文的一致性保持等方面。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
研究发现:同时使用过多 AI 工具实际上会降低工作效率,并导致“大脑疲劳”
警惕“AI脑疲劳”:多工具并行背后的效率陷阱 人工智能工具在提升工作效率方面的潜力有目共睹,但企业管理者们似乎需要踩一脚刹车,重新审视“越多越好”的堆叠式使用策略。过度依赖和同时调度多个AI工具,反而可能将员工推入一种新型的职业困局。 这一警示并非空xue来风,其根源来自《哈佛商业评论》近期发表的一
美的发布“三个一”战略及 MevoX 家居智能体,未来三年将投 600 亿深耕 AI 与具身智能等前沿领域
美的发布“三个一”战略及MevoX家居智能体,未来三年将投600亿深耕AI与具身智能等前沿领域 3月10日,以“智美万象”为主题的美的2026全屋智能战略发布会在上海举行。这次发布会,可以说为智能家居行业勾勒出了一幅相当清晰的未来图景。会上,美的正式亮出了其全屋智能的“三个一”战略、自进化家居智能体
曝腾讯正开发“绝密级”微信 AI 智能体:年中启动灰测,能操控全平台数百万小程序
曝腾讯正开发“绝密级”微信 AI 智能体:年中启动灰测,能操控全平台数百万小程序 一则来自《The Information》的报道,在行业里激起了不小的涟漪。根据他们3月10日的消息,腾讯内部似乎正在进行一项“绝密级”的AI智能体项目,而它的主战场,正是我们每天离不开的微信。 报道援引了四位知情人士
谷歌首个原生多模态嵌入模型 Gemini Embedding 2 发布:能让机器“理解”信息
谷歌发布首个原生多模态嵌入模型 Gemini Embedding 2:让机器真正“理解”多元信息 北京时间今天凌晨,谷歌扔出了一枚重磅技术冲击波——全新的 Gemini Embedding 2 模型正式发布。这可不是一次简单的迭代,它是谷歌首个原生的多模态嵌入模型。简单来说,从此以后,文字、图像、视
受 AI 及裁员等因素影响,2 月美国科技从业者信心再度下滑
3 月 11 日消息:美国员工信心再度下滑,科技行业“寒冬”持续 据《商业内幕》今日报道,美国职场情绪在年初并未迎来回暖。今年2月,员工对公司的信心指数再次掉头向下,而其中,科技从业者的悲观情绪显得尤为突出。 招聘与职场评价平台Glassdoor每月发布的员工信心指数,一直是观察职场情绪变化的温度计
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

