当前位置: 首页
AI
“Token”中文翻译如何定?理解其技术定义才是关键

“Token”中文翻译如何定?理解其技术定义才是关键

热心网友 时间:2026-03-27
转载

Token 是大模型”读"和“写”数据的最小单位,当我们发给大模型一段话时,大模型不是直接理解整句话,而是先把单词或者汉字“拆解”成一个个的最小的处理单元,也就是我们所说的Token,而这个过程叫做Tokenization。

一、Token 是什么?

图片图片

Token 是大模型”读"和“写”数据的最小单位,当我们发给大模型一段话时,大模型不是直接理解整句话,而是先把单词或者汉字“拆解”成一个个的最小的处理单元,也就是我们所说的Token,而这个过程叫做Tokenization。打个比方来说,Token就好比我们搭建乐高模型的积木块或者盖房子的每一个砖块。

所以,总结来说,Token就是大模型通过计算机与人类打交道进而理解人类世界的基本单位。

二、Token 有什么用?

图片图片

1. Token把各种语言的文本翻译成计算机能识别的数字,也就是我们熟知的编码过程,便于计算机做各种处理和计算。

2.大模型生成的内容也是按照Token为单位一个一个“吐”出来,然后经过逆向过程,也就是Detokenization,把内容再转为人类便于理解的语言形式。

三、Token的数量是如何计算的?

图片图片

首先更正一个误区,好多人认为一个Token就是一个汉字或者一个英文单词,但其实这种说法并不准确。

Token的计算与使用的分词也就是句子切割方式有很大的关系,不同的模型使用的分词方式不同所对应的Token量也是不一样的。比如这句话[“人工智能很有趣”],可能得分割方式就有三种,[“人工智能” “很” “有趣”],[“人工” “智能” “很” “有趣” ],或者["人" “工” “智” "能" “很” “有” “趣”],依次对应的Token数量为3,4,7。

英文分词有时也并非按照每个单词切分的,再比如["unhappines"]一个单词可能会被切分成["un" "happi" "ness"]。一般来说,1个汉字≈1个Token,1个Token≈0.75个单词。

四、Token为什么如此重要?

图片图片

1. 不同的Token切分方式会影响大模型对语义的理解,比如前面提到的如果把“人工智能”作为一个Token可能会比分成“人工”和“智能”2个Token对大模型训练的的效果更好一些。

2. Token决定了模型对于上下文的记忆能力。我们经常听到的大模型的上下文窗口是10K,100K等,就是代表大模型一次能处理的最多的Token数量,如果超过了这个数量,大模型就会丢失一部分内容,从而影响模型的输出质量。

3. Token决定了使用成本。现在各家大模型基础厂商提供的套餐基本都是按照Token数量收费的,从这个角度来说Token就是我们于大模型打交道所使用的货币单位。

五、Token 翻译什么比较合适?

图片图片

在大模型出现之前,其实Token就已经出现了,最常用的地方就是你登录 是服务器会给你一段字符串来证明“你就是你”,那个时候被翻译成中文“令牌”、“标记”等。但大模型中的Token跟这里的Token完全不是一个意思,所以再沿用之前的翻译就不合适了。这也是最近网络上发起了对Token这个单词翻译成中文的讨论的一个原因吧。好多大V给出了他们在大模型语境中对Token的翻译,这些翻译有“词元”,“模元”,“新智元”等。那么你认为Token应该被翻译成什么呢?请在评论区打出你的答案!

来源:https://www.51cto.com/article/838884.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
多伦多大学AI突破:模型学会自我反思与改进

多伦多大学AI突破:模型学会自我反思与改进

2026年4月,一项来自多伦多大学计算机科学系与Coolwei AI Lab的联合研究,在arXiv预印本平台(论文编号:arXiv:2604 01591v2)上公布了一项突破性进展。这项研究提出了一种名为“ThinkTwice”的创新训练方法,其核心发现令人振奋:通过引导AI模型在给出答案后进行自

时间:2026-05-15 18:21
英特尔酷睿Ultra游戏本性能解析:AI加持下的全新体验

英特尔酷睿Ultra游戏本性能解析:AI加持下的全新体验

根据Gartner最新市场报告,2025年全球PC出货量突破2 7亿台,同比增长9 1%。在人工智能技术浪潮与AI PC算力升级需求的双重驱动下,整个PC行业正迈入一个全新的增长周期。作为细分市场的重要力量,游戏笔记本电脑也迎来了关乎性能、体验与场景定义的关键换代节点。 回顾行业发展,英特尔于202

时间:2026-05-15 18:21
OpenClaw Peekaboo v3发布:机器人视觉抓取技术实现一日三更

OpenClaw Peekaboo v3发布:机器人视觉抓取技术实现一日三更

OpenClaw 生态中那个关键的“眼睛”和“手”——Peekaboo v3,正式回归了。这不仅是一次版本更新,更像是一次关键的“补完”。它让 AI 不再只是停留在聊天框里给出建议,而是真正获得了观察屏幕、点击按钮、操作真实桌面的能力。 过去几个月,OpenClaw 的热度经历了一个典型的周期:从概

时间:2026-05-15 18:21
豆包AI评论回复撰写方法与互动技巧教程

豆包AI评论回复撰写方法与互动技巧教程

豆包AI能自动分析留言情绪与关键信息,生成多风格回复初稿。通过设定平台语境与人设,可使回复更真实生动。人工需校准业务细节与责任表述,确保准确。支持导入历史优质回复训练专属模型,提升匹配度。结合敏感词拦截与人工复核,保障回复安全合规。

时间:2026-05-15 18:08
GEO生成式引擎优化指南 AI时代SEO实战策略解析

GEO生成式引擎优化指南 AI时代SEO实战策略解析

GEO(生成式引擎优化)旨在让品牌信息被AI精准识别并稳定输出,核心是从追求“点击率”转向提升“被引用率”。它结合传统SEO与RAG逻辑,通过结构化数据、清晰语义层级和知识图谱增强内容可发现性与可信度,并将E-E-A-T原则转化为AI可验证的信号,确保核心信息以机器易读方式呈现。

时间:2026-05-15 18:08
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程