当前位置: 首页
AI
“Token”中文翻译如何定?理解其技术定义才是关键

“Token”中文翻译如何定?理解其技术定义才是关键

热心网友 时间:2026-03-27
转载

Token 是大模型”读"和“写”数据的最小单位,当我们发给大模型一段话时,大模型不是直接理解整句话,而是先把单词或者汉字“拆解”成一个个的最小的处理单元,也就是我们所说的Token,而这个过程叫做Tokenization。

一、Token 是什么?

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

图片图片

Token 是大模型”读"和“写”数据的最小单位,当我们发给大模型一段话时,大模型不是直接理解整句话,而是先把单词或者汉字“拆解”成一个个的最小的处理单元,也就是我们所说的Token,而这个过程叫做Tokenization。打个比方来说,Token就好比我们搭建乐高模型的积木块或者盖房子的每一个砖块。

所以,总结来说,Token就是大模型通过计算机与人类打交道进而理解人类世界的基本单位。

二、Token 有什么用?

图片图片

1. Token把各种语言的文本翻译成计算机能识别的数字,也就是我们熟知的编码过程,便于计算机做各种处理和计算。

2.大模型生成的内容也是按照Token为单位一个一个“吐”出来,然后经过逆向过程,也就是Detokenization,把内容再转为人类便于理解的语言形式。

三、Token的数量是如何计算的?

图片图片

首先更正一个误区,好多人认为一个Token就是一个汉字或者一个英文单词,但其实这种说法并不准确。

Token的计算与使用的分词也就是句子切割方式有很大的关系,不同的模型使用的分词方式不同所对应的Token量也是不一样的。比如这句话[“人工智能很有趣”],可能得分割方式就有三种,[“人工智能” “很” “有趣”],[“人工” “智能” “很” “有趣” ],或者["人" “工” “智” "能" “很” “有” “趣”],依次对应的Token数量为3,4,7。

英文分词有时也并非按照每个单词切分的,再比如["unhappines"]一个单词可能会被切分成["un" "happi" "ness"]。一般来说,1个汉字≈1个Token,1个Token≈0.75个单词。

四、Token为什么如此重要?

图片图片

1. 不同的Token切分方式会影响大模型对语义的理解,比如前面提到的如果把“人工智能”作为一个Token可能会比分成“人工”和“智能”2个Token对大模型训练的的效果更好一些。

2. Token决定了模型对于上下文的记忆能力。我们经常听到的大模型的上下文窗口是10K,100K等,就是代表大模型一次能处理的最多的Token数量,如果超过了这个数量,大模型就会丢失一部分内容,从而影响模型的输出质量。

3. Token决定了使用成本。现在各家大模型基础厂商提供的套餐基本都是按照Token数量收费的,从这个角度来说Token就是我们于大模型打交道所使用的货币单位。

五、Token 翻译什么比较合适?

图片图片

在大模型出现之前,其实Token就已经出现了,最常用的地方就是你登录 是服务器会给你一段字符串来证明“你就是你”,那个时候被翻译成中文“令牌”、“标记”等。但大模型中的Token跟这里的Token完全不是一个意思,所以再沿用之前的翻译就不合适了。这也是最近网络上发起了对Token这个单词翻译成中文的讨论的一个原因吧。好多大V给出了他们在大模型语境中对Token的翻译,这些翻译有“词元”,“模元”,“新智元”等。那么你认为Token应该被翻译成什么呢?请在评论区打出你的答案!

来源:https://www.51cto.com/article/838884.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
22岁辍学生凭AI垃圾分类估值10亿,数据生意改写垃圾回收

22岁辍学生凭AI垃圾分类估值10亿,数据生意改写垃圾回收

智东西编译 陈佳编辑 程茜智东西3月27日消息,据外媒Business Insider昨日报道,美国AI数据采集创企Kled AI正在付费让普通人帮忙采集AI训练数据,其平台上线仅两个月用户数已突破

时间:2026-03-28 10:19
一口气发布三大王炸模型!昆仑万维公布2026年AGI战略蓝图

一口气发布三大王炸模型!昆仑万维公布2026年AGI战略蓝图

编辑|杜伟就在 27 日下午,在火热进行中的 2026 中关村论坛上,一家国产头部 AI 厂商引爆了全场!昆仑万维,这家 2024 年便已「All in AGI 与 AIGC」的实力玩家,亮出了其实

时间:2026-03-28 10:13
刚刚NeurIPS退稿?了解审稿趋势与避坑指南

刚刚NeurIPS退稿?了解审稿趋势与避坑指南

机器之心编辑部就在刚刚,正在舆论风口上左摇右摆的 AI 顶会 NeurIPS 发布了一条长推文,针对此前的「NeurIPS 限制华为等实体机构投稿」事件做了解释、道歉、承诺三件事:解释:在编制 Ne

时间:2026-03-28 10:07
Avata+360创作者新边界:大疆赠予的360%变革

Avata+360创作者新边界:大疆赠予的360%变革

大疆用一英寸全景影像、O4+ 图传与全向避障,带来了对「每个人都能飞出好片」最认真的一次回答。作者|张勇毅编辑|郑玄3 月 26 日,大疆发布了 Avata 360——大疆首款 8K 全景旗舰无人机

时间:2026-03-28 10:01
昆仑万维推出AIGC全家桶大模型,AI视频游戏音乐全线齐发

昆仑万维推出AIGC全家桶大模型,AI视频游戏音乐全线齐发

智东西作者|江宇编辑|冰倩智东西3月27日报道,今日,在2026中关村论坛“人工智能主题日”现场,昆仑万维旗下天工AI集中发布了其最新的“AIGC全家桶大模型”。其中包括:游戏世界模型Matrix-

时间:2026-03-28 09:55
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程