当前位置: 首页
AI资讯
智谱 GLM-5.1 高速版 API 发布 每秒处理 400tokens 刷新全球纪录

智谱 GLM-5.1 高速版 API 发布 每秒处理 400tokens 刷新全球纪录

热心网友 时间:2026-05-23
转载

智谱今日正式面向部分企业客户推出GLM-5.1高速版API(GLM-5.1-highspeed)。该模型输出速度达到惊人的400tokens/s,成功刷新当前全球大模型厂商API的速度上限。

400tokens/s 刷新全球纪录!智谱联合TileRT推出 GLM-5.1高速版 API

这一突破,打破了行业过去“高性能模型必然带来高延迟”或“高速模型只能是轻量级模型”的惯例。GLM-5.1高速版在国产大模型中,首次将旗舰级模型能力与极致低延迟同时带入生产环境。这意味着,用户无需再为追求响应速度而牺牲模型质量,鱼与熊掌可以兼得。

碘伏传统体验,直击速度敏感场景

速度的提升,在长程任务和复杂生产环境中,带来的不仅仅是效率的线性增长,更是产品形态的质变。具体来看,有几个场景的感受尤为明显:

  • AI编程(Coding Agent):在完整保留GLM-5.1强大能力的基础上,新模型实现了“即问即答”的流畅体验。模型能够一边理解复杂的工程上下文,一边持续生成代码与修改方案。对于那些需要数十轮交互调用的项目重构任务,以往累计数分钟的等待时间被彻底消除,开发者的思路不再被打断。

  • 实时动态建模:例如在3D地图实测中,当玩家控制角色移动并输入文字指令时,模型能够瞬时完成场景建模并实时改变环境。这种近乎零延迟的交互,为游戏、模拟仿真等领域打开了新的想象空间。

  • Agent Swarm并行调度:在长程任务处理中,模型展现出强大的并发协调能力。实测中,它能在30秒内完成复杂网页的信息处理,并能瞬间调度多达50个不同“人格”的智能体并行回答用户问题。这已经不仅仅是单一模型在加速,更像是一个新型操作系统的雏形正在浮现。

核心技术揭秘:TileRT高性能推理引擎

那么,支撑起400 TPS稳定生产级能力的背后,究竟是什么技术?这得益于智谱GLM团队TileRT团队联合进行的系统级深度优化,其核心思路可以概括为“静态编排,极致协同”。

  1. 推理引擎层(TileRT编译期AOT静态编排)

    传统主流框架以算子(operator/kernel)作为基本调度单元,在单token、小batch的典型API场景下,频繁的调度、访存与同步开销会被放大,成为性能瓶颈。TileRT的做法是彻底抛弃Runtime层的动态调度,在编译期(AOT)就将整个计算图静态编排为一个常驻GPU的persistent Engine Kernel。在单卡内部,计算、异步IO与通信被拆解为更细粒度的Tile级微任务,整个推理过程只需启动一次Kernel。中间结果通过寄存器、Shared Memory和L2 Cache直接传递,不再写回全局内存,从而极大减少了数据搬运的开销。

  2. 调度系统层

    通过动态批处理、智能请求合并以及KV缓存调度优化,系统能够显著降低高并发场景下的尾延迟,保证大多数请求都能获得稳定、高速的响应。

  3. 基础设施层

    将优化从单卡扩展到多卡。TileRT将SM内部的Warp Specialization思路,扩展到了整张8卡NVLink拓扑。不同的GPU rank依据计算密度与数据依赖关系,被特化为不同的专用worker,再配合网络链路与负载均衡的协同优化,确保了高性能在多卡尺度上的常驻稳定性。

开放计划

GLM-5.1高速版主要适用于对响应延迟要求极高的场景,例如AI编程、实时交互应用、快速商业决策以及实时语音交互等。目前,该服务已正式上线智谱MaaS平台,并面向部分企业客户开放。据智谱官方表示,未来将持续推进推理引擎的工程优化,旨在进一步扩大高速模型的服务能力与覆盖范围。

来源:https://www.aibase.com/zh/news/28235

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
智谱 GLM-5.1 高速版 API 发布 每秒处理 400tokens 刷新全球纪录

智谱 GLM-5.1 高速版 API 发布 每秒处理 400tokens 刷新全球纪录

智谱推出GLM-5 1高速版API,输出速度达400tokens s,刷新全球纪录。该模型将旗舰级能力与极致低延迟结合,用户无需为速度牺牲质量。其性能得益于与TileRT联合开发的静态编排高性能推理引擎,通过编译期优化、细粒度任务拆分与多卡协同,大幅减少数据搬运与调度开销。该服务适用于AI编程、实时交互等高延迟敏感场。

时间:2026-05-23 12:40
特朗普暂停AI行政令背后监管与竞争的博弈

特朗普暂停AI行政令背后监管与竞争的博弈

美国一项针对前沿AI模型的自愿安全测试行政令在签署前数小时被叫停。总统特朗普因担心监管阻碍技术领先地位而拒绝批准,凸显出美国在管控AI风险与维持竞争优势之间的政策矛盾。这一温和的自愿评估框架,仍在安全治理与竞争焦虑的拉扯中被暂时搁置。

时间:2026-05-23 12:40
OpenAI 2026年第一季度营收达57亿美元 领先Anthropic

OpenAI 2026年第一季度营收达57亿美元 领先Anthropic

OpenAI在2026年第一季度营收达57亿美元,较竞争对手Anthropic同期高出约10亿美元。其收入主要来自ChatGPT消费级产品,付费用户持续增长,但业务重心正转向企业服务。尽管营收亮眼,公司调整后营业利润率仍为负值,面临显著亏损。为应对竞争与盈利压力,OpenAI正加速推进上市进程,最早或于今年9月进行IPO。

时间:2026-05-23 12:40
马斯克AI助手Grok在美国政府遇冷使用率极低

马斯克AI助手Grok在美国政府遇冷使用率极低

马斯克旗下xAI的聊天机器人Grok在美国联邦政府市场遇冷。数据显示,在400多个政府AI应用案例中,Grok仅占三例,远落后于OpenAI等竞争对手。其低价策略未能推动普及,使用多限于基础任务。专家指出,这可能因模型难以满足政府安全需求,对SpaceX依赖AI业务的高估值构成挑战。

时间:2026-05-23 12:40
马斯克SpaceX星舰V3成功发射 NASA局长盛赞史上最强火箭

马斯克SpaceX星舰V3成功发射 NASA局长盛赞史上最强火箭

北京时间5月23日,SpaceX星舰V3火箭成功首飞并溅落印度洋。该火箭为史上最大最强,配备33台全新猛禽3发动机,运力超100吨,并集成在轨燃料加注系统。它已被选为NASA重返月球计划的载人着陆器,其成功标志着人类深空探索能力迈出重要一步。

时间:2026-05-23 12:37
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程