当前位置: 首页
web3.0
什么是tokens?tokens怎么计算?

什么是tokens?tokens怎么计算?

热心网友 时间:2026-04-25
转载

Tokens是AI模型处理文本的基本单位,可为单词、字或标点;英文中1词约1-2个tokens,中文1字约1-3个tokens,因分词方式不同导致中英文token数量差异。

什么是tokens?tokens怎么计算? - php中文网

在人工智能领域,尤其是与大型语言模型打交道时,你总会反复听到一个词:Token。它到底是什么?简单来说,Token是AI理解和生成语言时使用的最小“积木块”。模型并非直接处理我们看到的单词或汉字,而是先将所有文本拆解成这些更基础的单元,再进行运算。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

2025年虚拟货币主流交易所:

币安官网直达:

欧易官网直达:

火币官网直达:

什么是Tokens?

可以把Tokens想象成构建语言大厦的砖块。无论是简单的句子还是复杂的报告,模型都是通过组合和解读这些预定义的Tokens来工作的。这种机制,让AI能够以一种标准化且高效的方式,应对人类语言近乎无限的表达形式。

为什么不直接使用单词?

一个很自然的疑问是:为什么不直接用“单词”作为单位呢?问题在于,直接使用单词会带来两大挑战。首先,词汇表会膨胀到难以管理——想想一个动词的各种时态、名词的单复数,以及无数衍生词,这会让模型变得极其臃肿。其次,模型将完全无法处理训练时从未见过的生僻词或新造词。

而Token化,特别是“子词”(Subword)分词策略,巧妙地解决了这个问题。它允许模型将复杂的单词拆解。例如,“unbelievable”可以被分解为“un”、“believe”和“able”三个部分。这样一来,模型只需要学习这些更小的、可重复使用的部件,就能理解和生成大量词汇,包括许多它从未直接“见过”的词,极大地提升了效率和泛化能力。

Tokens怎么计算?

这里有一个关键点需要明确:Token的计算并非遵循一个放之四海而皆准的数学公式。它完全取决于每个模型背后所使用的分词器(Tokenizer)。不同的模型公司采用不同的分词算法和词汇表,因此,同一段文本在不同的模型那里,可能会被数出不同数量的Tokens。这也就是为什么在使用不同AI服务时,同样的内容消耗的额度可能不一样。

常见的计算方法

目前主流模型大多采用基于子词(Subword)的分词算法,比如BPE(字节对编码)或WordPiece。它们的核心逻辑是数据驱动的统计合并,大致分为三步:

第一步: 对海量的训练文本进行扫描,统计所有相邻字符组合出现的频率。

第二步: 将出现频率最高的那个字符对合并,形成一个全新的Token,并加入词汇表。

第三步: 重复上述合并过程,直到词汇表达到预设的大小。最终,像“the”、“is”这样的高频词会成为一个独立的Token,而像“antidisestablishmentarianism”这样的长词,则会被分解成多个子词Token(如“anti”、“dis”、“establish”、“ment”、“arian”、“ism”)的组合。

中英文Tokens计算的差异

由于语言本质的不同,中英文在Token计算上存在显著差异,这也是导致同样含义的内容消耗量不同的主要原因。

对于英文:

规则相对直观。一个短小的常见单词(如“a”, “go”)通常就对应1个Token。较长的单词则很可能被拆分。有一个粗略的估算比例可供参考:大约100个Tokens对应75个英文单词

举个例子,句子“I love artificial intelligence.” 很可能被分词为:[“I”], [“love”], [“artificial”], [“intelligence”], [“.”],共计5个Tokens。

对于中文:

情况则复杂得多。中文以字为基本单位,且词与词之间没有空格分隔。因此,分词器需要判断如何将连续的汉字串切分成有意义的单元。通常,一个汉字会占据1到3个Tokens。高频汉字如“我”、“的”可能单独成词,占用1个Token;而一些不常见或组合词,则可能被拆解。

以“我爱人工智能。”这句话为例。一种可能的分词结果是:[“我”], [“爱”], [“人工”], [“智能”], [“。”],5个单元对应5个Tokens。但如果模型词汇表中没有“智能”这个组合,它就可能被拆成“智”和“能”两个Tokens,使得总Token数增加。正因为这种不确定性,表达相同的意思,中文文本往往比英文消耗更多的Tokens,这是在计算使用成本时需要特别注意的一点。

来源:https://www.php.cn/faq/1469057.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Samson Mow:以太坊(ETH)持有者将回流至比特币(BTC)

Samson Mow:以太坊(ETH)持有者将回流至比特币(BTC)

目录 ETH BTC比率突破趋势 回流到山寨币 ETH周收盘价创2021年以来最高 ‍比特币领域的一位知名人物萨姆森·莫(Samson Mow)最近抛出了一个观点,他认为,当以太坊价格攀升到某个足够高的位置时,投资者会重新转向比特币,而这可能会终结以太坊目前持续了五周的上涨势头。 不过,市场真的会这

时间:2026-04-25 16:12
bi安交易所APP官方正版(Binance) 最新版v3.1.3下载指南

bi安交易所APP官方正版(Binance) 最新版v3.1.3下载指南

币安官方正版应用下载与安装指南 说到全球领先的数字资产交易平台,币安(Binance)绝对是个绕不开的名字。它凭借丰富的交易对选择、出色的流动性以及业内公认的安全风控体系,赢得了全球范围内大量用户的信赖。今天这份指南,就手把手带你完成官方正版应用的下载与安装。整个过程其实很简单,你只需要点击文中提供

时间:2026-04-25 16:11
数字货币复盘软件及技巧介绍

数字货币复盘软件及技巧介绍

高效复盘:从数据到认知,构建你的加密交易护城河 在加密市场这个高速运转的竞技场里,事后复盘早已不是可有可无的“选修课”,而是决定长期生存与收益的“必修课”。一个冰冷但有力的数据是:2025年的统计显示,那些坚持使用专业复盘工具的交易者,其平均收益率能提升37%以上。这背后,是一套将数据、技术与认知迭

时间:2026-04-25 16:10
币圈如何从小资金做到稳定复利

币圈如何从小资金做到稳定复利

小资金在币圈实现稳定复利:构建你的“低风险+强纪律”增长闭环 在波动剧烈的加密市场,小资金如何实现稳定复利?核心答案在于构建一个「低风险策略+纪律性执行」的闭环体系。这并非依赖运气或豪赌,而是通过科学的资金管理、可量化的交易策略与严格的风险控制,将概率优势转化为长期增长。以1万美元初始本金为例,若能

时间:2026-04-25 16:07
加密货币趋势逆转信号有哪些?怎么判断

加密货币趋势逆转信号有哪些?怎么判断

加密货币趋势逆转信号有哪些?怎么判断 在加密货币市场里,判断趋势何时可能掉头,是每个投资者都想掌握的“读盘”能力。这份指南梳理了几个关键的信号和判断方法,希望能帮你更从容地应对市场变化。 什么是趋势逆转信号? 简单来说,趋势逆转信号就是那些暗示当前市场走向可能“变天”的迹象。它们可能来自技术图表上的

时间:2026-04-25 16:07
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程