对话清程极智团队：优质Token的筛选标准与价值解析

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

对话清程极智团队：优质Token的筛选标准与价值解析

热心网友时间：2026-05-27

转载

近日，一家源自清华大学的AI基础设施公司——清程极智，首次系统性地向业界披露了其技术布局与产品矩阵。这家成立于2024年底的初创企业，核心团队来自清华大学计算机系高性能计算研究所，在高性能计算与人工智能领域拥有深厚积累。公司发展迅速，截至2026年3月已完成三轮融资，获得了北京市人工智能产业基金、联想创投、中科创星等知名投资机构的支持。

目前，清程极智的产品线已全面覆盖AI训练、推理与应用服务全流程，推出了智能计算软件栈“八卦炉”、高性能大模型推理引擎“赤兔”，以及大模型服务评测与智能调度平台“AI Ping”。在本次技术沟通会上，团队重点分享了其在Token服务优化与国产化推理引擎方面的前沿实践与深度洞察。

Token经济爆发式增长，企业如何避免成本陷阱？

进入2026年，“Token经济”已成为人工智能领域最炙手可热的话题。数据显示，全球大模型Token的日调用量已从2024年初的约0.5万亿，激增至2026年3月的300-600万亿，增长近300倍。中国市场表现更为突出，同期调用量从0.1万亿飙升至140万亿，增幅高达1400倍，展现出巨大的市场潜力。

驱动这一增长的核心在于AI应用形态的演进。当前，在主流AI应用中，具备多步执行能力的智能体（Agent）占比已超过80%。与传统的单轮对话不同，Agent的每次任务执行都可能涉及多次模型调用，导致Token消耗量呈倍数级增长。此外，AI编程助手等生产力工具也产生了巨大的Token调用需求。

中国成为Token经济沃土，得益于供需两侧的协同发力。供给侧，国家主导的智算中心、超算中心等基础设施持续扩容；模型侧，DeepSeek、智谱GLM、Kimi等优秀国产大模型纷纷开源并易于部署。需求侧，从企业数字化、开发者创新到个人消费者，都对大模型能力产生了真实且迫切的需求。

然而，市场繁荣背后隐藏着服务质量参差不齐的挑战。Token常被类比为“水电煤”，但其存在一个关键差异：用户使用水电时无需关心能源来源，而Token服务的质量却存在显著差别，直接影响业务效果与成本。

目前国内市场已有数十家Token服务供应商，但企业在选择时极易“踩坑”。主要问题集中在以下三个方面：

首先是模型输出效果不一致。即使是同一版本、相同定价的DeepSeek模型，在不同服务商处也可能产生差异化的回答质量，影响业务一致性。

其次是实际调用成本不透明。表面相同的单价和生成Token数，最终成本可能相差数倍。这背后关键在于缓存命中率的技术差异。技术扎实的服务商能高效复用计算结果，显著降低单位成本；而技术薄弱者每次需重新计算，导致用户支付了高价却未获得相应算力。

最后是服务稳定性难以保障。新兴厂商的服务水平波动较大，响应延迟问题尤为突出。理想情况下请求应在数秒内返回，但实际中可能出现数十秒甚至数百秒的延迟，严重影响用户体验与业务连续性。

综合来看，不同服务商在首Token延迟、吞吐量、上下文长度支持等关键性能指标上可能存在数倍差距。选择不当不仅造成资金浪费，更会拖累业务效率与系统稳定性。

打造大模型API“大众点评”：7×24小时评测与智能调度

为解决上述行业痛点，清程极智于2026年1月正式推出AI Ping平台。该平台被开发者社群形象地称为“大模型API服务的大众点评”，旨在通过客观评测与智能调度，提升企业调用大模型的效率与性价比。

AI Ping平台聚焦解决开发者的两大核心诉求：一是通过全天候不间断的持续性能评测，生成真实、客观的大模型服务榜单，为企业选型提供可靠数据支撑；二是通过统一的API网关与智能路由调度，帮助开发者降低决策成本、提升开发效率、优化调用成本。

为确保评测的公正性与准确性，AI Ping采用“真实用户视角”与“端到端匿名评测”机制。平台使用相同模型、相同输入，在同一时间段进行横向对比测试，并通过动态变化的输入内容防止服务商针对固定测试集进行优化“刷分”。

评测体系在北京、深圳、上海、成都等多地分布式部署，实现7×24小时全天候监测。其部分评测结果与国内主流云厂商的监控数据交叉验证，误差可控制在1%以内。实际应用数据显示，借助AI Ping的智能调度，企业Token服务成本可降低超过37%，吞吐量提升超90%，延迟降低超20%，服务可用性高达99.99%，达到一线云厂商的服务水准。

海量的实时评测数据构成了智能路由调度的决策基础。行业普遍存在的一个现象是，同一服务商的延迟与吞吐量在一天内波动剧烈。若企业仅绑定单一服务商，服务稳定性将难以保障。

AI Ping的智能路由功能，犹如一套为大模型调用量身定制的“实时导航系统”。它能动态感知各服务链路的状态（如延迟高低、成本波动），并自动规划出最优的调用路径。例如，快速问答类请求可路由至低延迟模型，复杂推理任务则可调度至高精度模型，实现不同模型间的优势互补。用户可根据业务需求，灵活选择成本优先、性能优先或均衡模式等调度策略。

此项服务对中小企业价值尤为凸显。大型企业具备采购并评测多家服务商的资源与技术能力，而广大中小企业则面临高昂的试错成本与技术门槛。AI Ping的出现，旨在填平这道数字鸿沟，让中小企业也能享受稳定、高性价比的大模型服务。

自主研发国产大模型推理引擎“赤兔”，突破算力适配瓶颈

除了上层的服务调度，清程极智在更底层的推理引擎技术上进行了重点投入，其核心成果是名为“赤兔”的生产级大模型推理引擎。

简而言之，推理引擎是运行在AI算力芯片上的核心系统软件。它负责接收用户输入，依据大模型的数学逻辑执行计算，并最终生成输出。开源的大模型本质是一套参数集合，而推理引擎则是让模型“活”起来、能够进行对话与推理的“操作系统”。

一个卓越的推理引擎需同时满足多项严苛要求：必须精确还原模型能力，保障高吞吐量与低延迟，高效利用硬件资源，并保持极高的运行稳定性。

“赤兔”引擎正是为应对这些挑战而生。它由清程极智联合清华大学团队完全自主研发并开源，同时提供商业支持版本。其最显著的特点是从底层代码开始即为原创，并深度面向国产芯片架构进行优化设计。

在适配国产算力方面，“赤兔”团队并未简单套用vLLM、SGLang等现有技术。他们深入分析了国产芯片与英伟达芯片在计算单元、数据表达、硬件调度及通信方式上的本质差异，并进行了针对性的底层技术创新。

例如，团队通过软件层创新，实现了对FP8、FP4等低精度浮点数量化类型的支持。对于具备硬件支持的GPU，这能进一步节省显存、提升速度；对于尚未原生支持的国产芯片，则能有效降低计算开销，使其达到可用的性能水平。

可以说，“赤兔”这类国产推理引擎，正在国产算力芯片与国产大模型之间架起一座关键桥梁。它完善了从底层硬件到上层应用的AI全栈生态，是推动中国AI推理体系实现自主可控与效能突破的重要一环。

洞察行业趋势：模型架构演进与国产算力生态建设

在技术交流环节，清程极智团队也分享了对行业前沿趋势的观察。

谈及技术渊源，团队指出，当前AI基础设施层的诸多核心技术，其实根植于更早的高性能计算领域，如计算流体力学、分子模拟与药物设计等。清华大学高性能计算研究所在此已有数十年的深厚积累。

关于国产算力生态建设，一个有趣的对比是英伟达的早期策略。其曾通过向高校赠送GPU来培育开发者生态，如今已形成成熟闭环。当前，国内各大芯片厂商也在积极构建自有生态，但彼此相对独立。清程极智希望扮演一个更中立的角色，致力于服务整个国产算力生态的共性需求，避免技术路线的重复建设与资源浪费。

芯片性能的充分释放，极度依赖于系统软件的深度优化。当前国产算力的适配工作，涉及算子库、编译器、并行计算框架等多个技术栈。这些工作的核心目标是一致的：最大化芯片用于有效计算的时间，最小化数据搬运与通信等待的开销。

例如，手工优化的算子库能极致调动芯片算力；编译器自动化优化则覆盖面更广，但生成的代码未必最优。在实际部署中，需要根据芯片的具体微架构特点，综合甚至融合使用多种优化手段，才能达到最佳性能。

对于“Token价格是否会持续下降”的讨论，从供需与调度效率的角度分析，单次推理成本的下降，并不意味着Token资源不再紧缺。随着长上下文、多轮复杂交互等新型AI应用的普及，国内推理算力需求正在快速增长，而算力供给的增长速度存在一定滞后。

因此，提升现有算力资源的全局利用率至关重要。全国的算力资源时刻处于动态波动中，存在时空上的忙闲不均。过去缺乏有效手段进行全局感知与智能调度。通过AI Ping的持续评测与智能路由，可以更高效地匹配供需，以更合理的成本获取Token资源，进而提升整体算力利用效率。

最后，关于大模型的技术发展路径，行业共识是上层模型架构远未定型，仍有巨大探索空间。未来的模型未必局限于当前主流的自回归范式。例如，基于扩散机制的文本生成模型等创新方向正在涌现。同时，融合文本、图像、视频、音频的多模态统一建模，也是业界重点攻关的前沿。整个行业仍在积极探寻下一代更高效、更强大的基础模型架构。