“Token”中文翻译如何定?理解其技术定义才是关键
Token 是大模型”读"和“写”数据的最小单位,当我们发给大模型一段话时,大模型不是直接理解整句话,而是先把单词或者汉字“拆解”成一个个的最小的处理单元,也就是我们所说的Token,而这个过程叫做Tokenization。
一、Token 是什么?
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
图片
Token 是大模型”读"和“写”数据的最小单位,当我们发给大模型一段话时,大模型不是直接理解整句话,而是先把单词或者汉字“拆解”成一个个的最小的处理单元,也就是我们所说的Token,而这个过程叫做Tokenization。打个比方来说,Token就好比我们搭建乐高模型的积木块或者盖房子的每一个砖块。
所以,总结来说,Token就是大模型通过计算机与人类打交道进而理解人类世界的基本单位。
二、Token 有什么用?
图片
1. Token把各种语言的文本翻译成计算机能识别的数字,也就是我们熟知的编码过程,便于计算机做各种处理和计算。
2.大模型生成的内容也是按照Token为单位一个一个“吐”出来,然后经过逆向过程,也就是Detokenization,把内容再转为人类便于理解的语言形式。
三、Token的数量是如何计算的?
图片
首先更正一个误区,好多人认为一个Token就是一个汉字或者一个英文单词,但其实这种说法并不准确。
Token的计算与使用的分词也就是句子切割方式有很大的关系,不同的模型使用的分词方式不同所对应的Token量也是不一样的。比如这句话[“人工智能很有趣”],可能得分割方式就有三种,[“人工智能” “很” “有趣”],[“人工” “智能” “很” “有趣” ],或者["人" “工” “智” "能" “很” “有” “趣”],依次对应的Token数量为3,4,7。
英文分词有时也并非按照每个单词切分的,再比如["unhappines"]一个单词可能会被切分成["un" "happi" "ness"]。一般来说,1个汉字≈1个Token,1个Token≈0.75个单词。
四、Token为什么如此重要?
图片
1. 不同的Token切分方式会影响大模型对语义的理解,比如前面提到的如果把“人工智能”作为一个Token可能会比分成“人工”和“智能”2个Token对大模型训练的的效果更好一些。
2. Token决定了模型对于上下文的记忆能力。我们经常听到的大模型的上下文窗口是10K,100K等,就是代表大模型一次能处理的最多的Token数量,如果超过了这个数量,大模型就会丢失一部分内容,从而影响模型的输出质量。
3. Token决定了使用成本。现在各家大模型基础厂商提供的套餐基本都是按照Token数量收费的,从这个角度来说Token就是我们于大模型打交道所使用的货币单位。
五、Token 翻译什么比较合适?
图片
在大模型出现之前,其实Token就已经出现了,最常用的地方就是你登录 是服务器会给你一段字符串来证明“你就是你”,那个时候被翻译成中文“令牌”、“标记”等。但大模型中的Token跟这里的Token完全不是一个意思,所以再沿用之前的翻译就不合适了。这也是最近网络上发起了对Token这个单词翻译成中文的讨论的一个原因吧。好多大V给出了他们在大模型语境中对Token的翻译,这些翻译有“词元”,“模元”,“新智元”等。那么你认为Token应该被翻译成什么呢?请在评论区打出你的答案!
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
22岁辍学生凭AI垃圾分类估值10亿,数据生意改写垃圾回收
智东西编译 陈佳编辑 程茜智东西3月27日消息,据外媒Business Insider昨日报道,美国AI数据采集创企Kled AI正在付费让普通人帮忙采集AI训练数据,其平台上线仅两个月用户数已突破
一口气发布三大王炸模型!昆仑万维公布2026年AGI战略蓝图
编辑|杜伟就在 27 日下午,在火热进行中的 2026 中关村论坛上,一家国产头部 AI 厂商引爆了全场!昆仑万维,这家 2024 年便已「All in AGI 与 AIGC」的实力玩家,亮出了其实
刚刚NeurIPS退稿?了解审稿趋势与避坑指南
机器之心编辑部就在刚刚,正在舆论风口上左摇右摆的 AI 顶会 NeurIPS 发布了一条长推文,针对此前的「NeurIPS 限制华为等实体机构投稿」事件做了解释、道歉、承诺三件事:解释:在编制 Ne
Avata+360创作者新边界:大疆赠予的360%变革
大疆用一英寸全景影像、O4+ 图传与全向避障,带来了对「每个人都能飞出好片」最认真的一次回答。作者|张勇毅编辑|郑玄3 月 26 日,大疆发布了 Avata 360——大疆首款 8K 全景旗舰无人机
昆仑万维推出AIGC全家桶大模型,AI视频游戏音乐全线齐发
智东西作者|江宇编辑|冰倩智东西3月27日报道,今日,在2026中关村论坛“人工智能主题日”现场,昆仑万维旗下天工AI集中发布了其最新的“AIGC全家桶大模型”。其中包括:游戏世界模型Matrix-
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

