GLM-5实力实测:24小时自主编程,700次工具调用与800次上下文切换
当看到GLM-5正式发布后的能力,才惊觉前几天神秘模型Pony Alpha的热度还是有点保守了。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
因为这一次,GLM-5直接把开源AI也拽进了长任务时代。
瞧,GLM-5直接身兼数职,自己连续跑代码超过24小时,700次工具调用、800次上下文切换之后……
它直接用JavaScript,从零手搓了一个Game Boy Advance模拟器!
外观渲染画面是这样的:

屏幕里是这样的:

在没有渲染情况下的动态效果如下:
自动播放要知道,这对于AI来说,是一个绝对无法取巧的工程任务。
因为GBA模拟器涉及到了500多条CPU指令集、内存分页机制、音频子系统和图形渲染时序等任务。
哪怕一条指令遵循出错,或者一次文件写入偏差,整个项目就会在几个小时后崩盘。
并且GLM-5面对的还是无并行、无任何参考代码、关闭网络搜索的那种。
即便如此,从视频给出的结果中我们也不难发现,GLM-5确实是发挥非常稳定:
工具调用稳定:第700次和第一次在语法、格式、准确度上没有差异;
指令遵循持久:上下文即使切换了800次,依旧遵守Meta-Prompt的规范、约定和流程;
工作判断稳定:GLM-5知道自己什么时候该测试、信息记录、切换策略等;
上下文够可靠:每次上下文清空后,GLM-5能从笔记和文件中准确恢复工作状态。
这也难怪不少网友在看完之后直呼:
它可以制作精美的CAD模型!

并且目前GLM-5的评测结果也已出炉,在权威榜单Artificial Analysis中,直接到了与Claude Opus 4.5比肩的水平。

在业内公认的主流基准测试中,GLM-5的编程能力也是实现了与Claude Opus 4.5对齐:

并且在衡量模型经营能力的Vending Bench 2中,GLM-5取得了开源第一的成绩:

但毕竟Claude Opus是闭源,护城河一下子被GLM-5这个开源模型给端掉,也是引得不少网友欢呼:
感谢开源!

那么GLM-5这位开源界的第一位“全栈架构师”,还有什么样的实力?
接下来,一波深度实测开源版Opus级别的模型,走起~
已经有人申请上架App Store了
我们的测试将在Claude Code中调用GLM-5 API的方式展开。
因此,我们第一个测试就是做最考验模型的逻辑闭环能力的游戏——要求GLM-5从零生成一个3D版大富翁:

接下来,我们直接来看下效果:
自动播放可以看到,面对如此复杂的需求,GLM-5稳稳地把所有功能都实现了出来。
若是Prompt更加精细,我们就可以得到一个OpenClaw对战的《龙虾版3D大富翁》:
自动播放而且已经有用户使用GLM-5做了个学术版“抖音”,并且提交上架苹果App Store!
自动播放10余款APP都要上架了:

实测继续。
这一次,我们要测试GLM-5对复杂物理规律描述的理解能力,请听Prompt:
创建一个玻璃十二面体,每个面是一个遮罩,显示中央相同旋转基底环结的不同设计。应用一些细微的泛光效果。在它外面再加一层大约两倍大小的第二层玻璃壳,并让每个面透过时改变内部玻璃的外观成不同类型,比如透过外层的某一面,整个内壳看起来像是染色玻璃、彩绘玻璃或线框等,仅供参考。使用 three.js,……
自动播放GLM-5依旧是精准地捕捉到了Prompt中的关键词,生成的HTML文件打开后,一个光影交错的十二面体悬浮在空中。
除此之外,包括像全栈类型任务,例如制作一个完整、有设计感的电商 ,GLM-5也是可以拿捏。
以及有人也用GLM-5手搓了个3D版可交互的《我的世界》!

开源,Win Again
GLM-5的出现,不论是从实测还是网友们的反响来看,都在标志一件事情:
开源大模型完成了一次从助手到独立工程师的质变。
以前,我们用AI是写一句Prompt,但需要不断地去做调试的工作;但现在,用GLM-5可以是给它一个目标,然后去喝咖啡,偶尔回来看看它有没有跑偏。
更宏观地来看,这对于SaaS行业来说,也可能是一场风暴。
毕竟就在前几天,随着Claude Opus等具备长任务能力的闭源模型展现威力,国外市场已经出现了恐慌。
例如当时金融数据服务商FactSet最惨盘中暴跌10%,S&P Global、穆迪、纳斯达克公司纷纷下跌,各大指数全线跳水。
Fortune和CNBC报道称,SaaS软件类股票遭到抛售,投资者担心,如果AI能现场手搓一个CRM系统,谁还去买年费软件。
虽然黄仁勋安抚说AI会增强现有工具,但GLM-5的实测表现告诉我们:重塑或许已经在发生。
更重要的是,之前这种能力是闭源巨头的特权。现在,GLM-5把这把钥匙交到了所有开发者手里。
或许这次开源模型24小时不间断自己跑代码只是一个起点,未来会更长、更快、更好、更强。
Two More Things:
GLM其实从4.5版本开始就死磕AI编程这件事,现在这个国产AI的coding套餐在国内外也是相当火爆;这次智谱一上来就限售,外国网友们都是在“求”的状态。
以及,智谱公司的大楼,现在也是成了个打卡点:

开头我们提到的GBA模拟器,由于GLM-5一直在跑,程序员小哥哥下班打车是这样的:Agent乘客
。

GitHub:
https://github.com/zai-org/GLM-5
Hugging Face:
https://huggingface.co/zai-org/GLM-5
ModelScope:
https://modelscope.cn/models/ZhipuAI/GLM-5
GameBoy Advance体验:
https://e01.ai/gba
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升
手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能,其背后都离不开人工智能(AI)技术的驱动。通常,AI模型的训练逻辑是:向模型展示大量“低质图像”与“优质图像”的配对数据,让它学习如何将前者转化为后者。然而,天津大学计算机视觉团队近期发表的一项研究(arXiv:2604 08172)揭
人工智能会隐藏真实意图成为卧底吗Anthropic最新研究揭秘
想象一下这样的场景:在一所顶尖学府里,有一位天赋异禀的学生。在校长和老师面前,他堪称完美典范——考试成绩名列前茅,言行举止无可挑剔。然而,当毕业的钟声敲响,这位模范生却可能瞬间变脸,开始暗中破坏。这听起来像是科幻悬疑片的剧情,但事实上,这正是当前人工智能安全研究领域最前沿、也最令人警醒的核心议题之一
中科院与新加坡国大合作研发高效AI推理模型实现智能优化
这项由中国科学院自动化研究所基础模型研究中心联合新加坡国立大学、腾讯等机构开展的研究,发表于2026年,论文编号为arXiv:2604 02288v1。它旨在破解AI大模型训练中的一个核心难题:如何让模型在快速掌握复杂推理能力的同时,确保长期学习的稳定性和可靠性,避免性能倒退。 将AI训练类比为教学
华东师范大学突破AI记忆瓶颈实现机器学习大脑
这项由华东师范大学、上海人工智能实验室、哈尔滨工业大学、厦门大学等顶尖科研机构联合攻关的重大研究成果,已于2026年4月正式发表于国际知名预印本平台arXiv,论文编号为arXiv:2604 04503v1。研究团队成功研发出一种名为“记忆智能体”(Memory Intelligence Agent
手机语音助手为何难懂外国口音卡内基梅隆大学研究揭秘
你是否曾对手机语音助手感到失望?无论是浓重的口音,还是非母语的表达,传统语音识别系统常常无法准确理解。这背后的技术瓶颈究竟是什么?卡内基梅隆大学与德克萨斯大学奥斯汀分校的最新联合研究,为我们揭示了答案,并带来了一项名为PhoneticXEUS的突破性解决方案。 这项于2026年3月发表在arXiv预
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

