当前位置: 首页
AI
智谱发布GLM-5.1:将大模型能力从短时交互延伸至8小时级自治工程任务

智谱发布GLM-5.1:将大模型能力从短时交互延伸至8小时级自治工程任务

热心网友 时间:2026-04-22
转载

【快讯】智谱 AI 正式推出旗舰开源大模型 GLM-5.1

智谱 AI 的旗舰开源大模型 GLM-5.1 来了。这次发布,一个核心看点在于其长程自治能力——模型能够独立规划并完成最长持续8小时的任务。更值得关注的是,它在多项硬核代码基准测试中,实现了国产模型的领先突破。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

\

伴随新模型的发布,智谱也对 GLM 系列模型的价格进行了调整,整体上调约10%。调价之后,在代码生成(Coding)这类核心应用场景中,其缓存 Token 的价格已经接近 Claude Sonnet4.6。这标志着国产大模型首次在关键场景的定价策略上,与海外头部厂商站到了同一水平线。

8 小时持续工作,代码性能超越 Opus 4.6

GLM-5.1 被明确为“长程任务智能体”。这意味着它能在单次任务中自主完成规划、执行与迭代的全流程,并且连续稳定工作超过8小时。根据官方介绍,这是目前唯一能达到此水准的开源模型。

性能方面,它在极具挑战性的 SWE-bench Pro 测试中刷新了全球成绩,一举超越了 GPT-5.4 和 Claude Opus 4.6。这个突破意义重大,是国产模型在该硬核指标上的首次登顶。

此外,在 Terminal-Bench 2.0、NL2Repo 等专业代码评测中,GLM-5.1 同样位列国产及开源模型的第一名,充分证明了其在高质量工程开发和系统优化方面的扎实能力。

可完成系统构建、数据库优化等高阶工程任务

光看分数可能不够直观,那么它具体能做什么?来看两个实例:

8 小时构建 Linux 桌面: 模型能够全自动执行超过1200步操作,从窗口管理器、状态栏到应用生态,交付一个功能完整的桌面环境。这个工作量,大致相当于一个4人团队一周的产出。

向量数据库优化: 模型经过655轮自主迭代,将系统的查询吞吐量从每秒3108次(3108 QPS)大幅提升至每秒21472次(21472 QPS),性能提升接近6.9倍。

它甚至扮演了一个“主动的系统优化器”角色。在 KernelBench 测试中,它实现了平均3.6倍的加速效果,显著优于传统的 torch.compile 方案,并且支持对 CUDA 与 Triton 内核进行深度调优。

延长有效工作窗口

GLM-5.1 的核心突破点,在于它重点优化了长时任务的稳定性。传统模型在长时间、多步骤的任务中,容易陷入重复性的增量调整,或者在数千次工具调用后出现“执行漂移”——即动作逐渐偏离原始目标。

而 GLM-5.1 则能做得更多:当优化收益陷入停滞时,它会主动分析性能瓶颈,并尝试切换技术路径,而不是在原地打转。更重要的是,即便在缺乏明确量化指标的复杂场景中,它依然具备自我评估与持续改进的能力。

智谱方面表示,此次发布的模型为未来实现“7×24小时全自治智能体”奠定了坚实的技术基础。后续的迭代方向,将聚焦于自我评估机制的完善和长上下文的一致性保持等方面。

来源:https://g.pconline.com.cn/ai/article/1560605.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
研究发现:同时使用过多 AI 工具实际上会降低工作效率,并导致“大脑疲劳”

研究发现:同时使用过多 AI 工具实际上会降低工作效率,并导致“大脑疲劳”

警惕“AI脑疲劳”:多工具并行背后的效率陷阱 人工智能工具在提升工作效率方面的潜力有目共睹,但企业管理者们似乎需要踩一脚刹车,重新审视“越多越好”的堆叠式使用策略。过度依赖和同时调度多个AI工具,反而可能将员工推入一种新型的职业困局。 这一警示并非空xue来风,其根源来自《哈佛商业评论》近期发表的一

时间:2026-04-22 18:04
美的发布“三个一”战略及 MevoX 家居智能体,未来三年将投 600 亿深耕 AI 与具身智能等前沿领域

美的发布“三个一”战略及 MevoX 家居智能体,未来三年将投 600 亿深耕 AI 与具身智能等前沿领域

美的发布“三个一”战略及MevoX家居智能体,未来三年将投600亿深耕AI与具身智能等前沿领域 3月10日,以“智美万象”为主题的美的2026全屋智能战略发布会在上海举行。这次发布会,可以说为智能家居行业勾勒出了一幅相当清晰的未来图景。会上,美的正式亮出了其全屋智能的“三个一”战略、自进化家居智能体

时间:2026-04-22 18:04
曝腾讯正开发“绝密级”微信 AI 智能体:年中启动灰测,能操控全平台数百万小程序

曝腾讯正开发“绝密级”微信 AI 智能体:年中启动灰测,能操控全平台数百万小程序

曝腾讯正开发“绝密级”微信 AI 智能体:年中启动灰测,能操控全平台数百万小程序 一则来自《The Information》的报道,在行业里激起了不小的涟漪。根据他们3月10日的消息,腾讯内部似乎正在进行一项“绝密级”的AI智能体项目,而它的主战场,正是我们每天离不开的微信。 报道援引了四位知情人士

时间:2026-04-22 18:04
谷歌首个原生多模态嵌入模型 Gemini Embedding 2 发布:能让机器“理解”信息

谷歌首个原生多模态嵌入模型 Gemini Embedding 2 发布:能让机器“理解”信息

谷歌发布首个原生多模态嵌入模型 Gemini Embedding 2:让机器真正“理解”多元信息 北京时间今天凌晨,谷歌扔出了一枚重磅技术冲击波——全新的 Gemini Embedding 2 模型正式发布。这可不是一次简单的迭代,它是谷歌首个原生的多模态嵌入模型。简单来说,从此以后,文字、图像、视

时间:2026-04-22 17:58
受 AI 及裁员等因素影响,2 月美国科技从业者信心再度下滑

受 AI 及裁员等因素影响,2 月美国科技从业者信心再度下滑

3 月 11 日消息:美国员工信心再度下滑,科技行业“寒冬”持续 据《商业内幕》今日报道,美国职场情绪在年初并未迎来回暖。今年2月,员工对公司的信心指数再次掉头向下,而其中,科技从业者的悲观情绪显得尤为突出。 招聘与职场评价平台Glassdoor每月发布的员工信心指数,一直是观察职场情绪变化的温度计

时间:2026-04-22 17:57
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程