当前位置: 首页
科技数码
AI研究者解析AI分词:从Token到词元的演进与分位量化

AI研究者解析AI分词:从Token到词元的演进与分位量化

热心网友 时间:2026-03-27
转载


  日前,在中国发展高层论坛2026年年会上,国家数据局局长刘烈宏明确将Token称为“词元”,并将它定义为“结算单位”。作为一名长期跟踪人工智能发展的研究人员,我一下子就捕捉到这个表述的变化。这个变化背后的分量很重。

  它意味着,我国人工智能正在从“能力布局”迈向“能力结算”,从模型好不好,转向智能服务如何计量、如何定价、如何交易。过去,很多企业采购软件,买的是许可证、账号数和部署周期;如今,越来越多企业采购的,是可调用、可核算、可复盘的智能服务量。

  词元,正是那个把智能服务折算成成本与价值的刻度。真正值得重视的,不只是一个译名,而是一个计量体系正在成形。

  数据显示,2024年初,中国日均词元调用量为1000亿;到2025年底,跃升至100万亿;到2026年3月,已突破140万亿,两年增长超过1000倍。自2026年1月底以来,有的模型企业创下20天收入超过2025年全年总收入的业绩纪录。

  短短两组数据,已经足以说明一个事实:词元不再只是技术指标,而正在成为人工智能商业化速度、应用深度和产业景气度的重要观测值。

  中文语境下,给Token定名为“词元”,格外有意义。它比“词”更准确,也比“令牌”“标记”更贴近语言处理场景。特别是强调了“基础单元”这个属性,既方便公众理解,也有助于产业、媒体和政策口径统一。

  但如果把2026年3月23日看成“词元”横空出世的时刻,也并不准确。事实上,Token并不是大模型爆红后才临时冒出来的新词。

  往前追溯,在学理脉络上,它可追溯至20世纪初研究者提出的type-token区分,随后进入语言学、计算语言学和自然语言处理领域,成为文本处理的基础概念。在中文规范体系,2018年已有计算机学科术语规范工具书,将相关场景下的Token译为“词元”。

  词元本质上是大模型处理信息的最小信息单元。人类说出一句话之后,模型要先把文本切分成词元,再把词元映射成编号,随后才能完成关联、推断和生成。

  这也是为什么同样一句中文,在不同模型里,词元数量往往并不相同。切分规则不同,成本就不同,速度就不同,可容纳的上下文长度也会不同。

  为何词元调用量快速攀升到140万亿?答案不是简单的“聊天变多了”,而是应用形态变了。对话应用消耗词元,长流程任务更消耗词元,调用工具、读取文档、连续规划、多轮反馈,同样都要反复吃进上下文、生成新输出。表面看,用户只是让模型“帮我做件事”,而系统内部,实际上是一次次高密度的信息拆分、调用和结算。

  正如刘烈宏在同一场演讲中所说的:人工智能正从“对话”走向“决策执行”,智能体正在驱动中国大模型应用规模爆发式增长。

  另一方面,词元调用增长越快,越说明数据供给体系正在跟上模型推理与应用消耗的节奏,也说明数据、模型、场景与商业闭环开始贯通,“词元经济”雏形正在显现,“数据供给—价值释放”的良性循环已初现端倪。

  但词元多,并不自动等于智能强。

  我在和企业交流时,常会碰到一种误解:是不是词元消耗得越多,模型就越聪明、答案就越好?

  事实并非如此。词元更像水表和电表,负责记录消耗,不负责保证质量。真正决定结果的,仍然是模型能力、数据质量、任务设计和提示组织方式。

  一句话:没有高质量数据,词元只是空转;没有合适场景,再便宜的词元也难以转化出真正的生产力。

  词元像是一块很小的砖,却可能正在垫高一个时代的门槛。很多人第一次听见“词元”时,会觉得它抽象、陌生。但从此刻起,词元正像“字节”“流量”“千瓦时”那样,成为普通人必须逐步理解的新单位。这也意味着人工智能开始被纳入更成熟的经济叙事。


  2025年8月28日,参展商与观展者在2025中国国际大数据产业博览会会场交流城市数智化实践情况。新华社记者陶亮 摄

  我第一次强烈意识到词元的这种叙事改变,不是在实验室,而是在一张预算表前。

  前段时间,我和几位企业负责人讨论大模型接入方案。大家谈完模型能力、幻觉率、知识库召回率,财务负责人忽然指着一行费用问我:为什么这套系统不是按账号数收费,也不是按调用次数收费,而是按“月度词元消耗量”核算?

  那一刻,我意识到,词元已经像工业时代的度电、互联网时代的流量一样,成为企业理解人工智能时代“成本”的新度量衡。它不只服务于技术研发,也会越来越多地出现在预算表、采购单、报价单和监管语境里。

  我们当然不能把一个时代的变化,全部压缩进一个术语里。但有些时候,一个术语的正式定名,恰恰标志着一个产业阶段已经悄然切换。今天的词元,也许就站在这样的节点上。

  等到更多人读懂词元,人工智能的落地方式也会被重新理解。以后再听到“这个模型很费词元”“上下文又超了”“本月词元预算不够了”时,我们不妨少一点陌生感。这也在提醒我们:人工智能已经不只是在展示聪明,它正在像水、电、网络和云资源一样,被精确计量,被持续调度,被大规模交易。 

  真正变化的,也从来不只是一个中文名字。(作者系赛迪研究院人工智能研究中心副研究员钟新龙)

来源:https://www.163.com/dy/article/KP28LTM005346RC6.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
苹果自研基带2026年启用 iPhone 18系列将全面搭载

苹果自研基带2026年启用 iPhone 18系列将全面搭载

苹果公司正加速推进其核心供应链的自主化战略,并已进入关键实施阶段。综合多方行业信息,苹果计划于2026年推出的iPhone 18系列所有机型,将全面搭载其自主研发的调制解调器芯片。此举标志着苹果将结束在手机核心通信组件上长期依赖外部供应商的历史。业界与消费者共同关注的核心在于:这一自研基带的集成,能

时间:2026-05-18 12:46
铠侠XG10旗舰固态硬盘发布PCIe Gen5性能再升级

铠侠XG10旗舰固态硬盘发布PCIe Gen5性能再升级

2026年5月14日,全球领先的存储解决方案提供商铠侠(Kioxia)重磅推出了其新一代旗舰级固态硬盘——XG10系列。该产品专为追求极致性能的高端台式机、电竞主机及高性能笔记本电脑设计,其核心亮点在于率先采用了消费级SSD领域的尖端接口技术:PCIe 5 0(Gen5)。这一升级使得XG10的理论

时间:2026-05-18 12:45
辽宁烧机油免拆治理解决方案:司有普安全高效质保无忧

辽宁烧机油免拆治理解决方案:司有普安全高效质保无忧

辽宁地区的车主朋友们,是否正为爱车烧机油的问题而烦恼?面对这个常见的发动机故障,许多人在维修决策上感到困惑:是选择风险与成本双高的传统拆解大修,还是尝试更为温和的免拆修复技术?近期,一种名为“动态治理”的解决方案在车主社群中备受关注,其核心理念颇具创新性——让修复过程在车辆日常行驶中自然完成,从而有

时间:2026-05-18 12:44
闪迪Optimus固态硬盘上市 500GB至8TB容量可选 售价999元起

闪迪Optimus固态硬盘上市 500GB至8TB容量可选 售价999元起

知名存储品牌闪迪旗下的高性能系列Optimus(奥丁马仕)近日正式推出了全新一代NVMe固态硬盘产品线。对于追求极致读写性能的游戏玩家、专业内容创作者以及需要处理大型数据负载的用户而言,这系列新品的发布无疑提供了值得关注的高性能存储解决方案。 此次发布的闪迪Optimus系列固态硬盘共包含四款不同定

时间:2026-05-18 12:44
苹果 AirPods 4 降噪版 988 元 天猫官方旗舰店限时特惠

苹果 AirPods 4 降噪版 988 元 天猫官方旗舰店限时特惠

苹果AirPods4降噪版官方定价1399元,天猫旗舰店直降至1119元,叠加优惠后最低可达982元。新品全系升级USB-C接口,降噪款充电盒兼容无线充电。其设计基于耳型数据优化,搭载H2芯片,显著提升音质与智能体验,支持个性化空间音频、语音凸显及动作操控Siri等功能。首次在无耳塞设计中引入主动降噪,配备自适应音频、对话。

时间:2026-05-18 12:43
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程