LLM应用Token指南:5步掌握新手高效使用技巧

如果您忽略了token的追踪,每当应用程序与大语言模型进行交互时,几乎就是在烧钱。
译|布加迪
审校|重楼
引言
在构建大语言模型应用的过程中,token就是实实在在的成本。如果你曾经使用过像GPT-4这样的LLM,很可能有过类似的经历:查看账单时忍不住惊呼“费用怎么这么高?!”每一次API调用都会消耗token,这直接影响响应时间和项目预算。但若不关注token的消耗情况,你就无法理解token的具体流向,更谈不上如何优化使用效率。
这正是LangSmith发挥作用的地方。它不仅能够追踪LLM调用情况,还允许你记录、监控并直观展示每个工作流程环节的token使用状况。在本指南中,我们将详细讲解:为何token跟踪至关重要?如何设置日志记录机制?以及如何在LangSmith面板中清晰呈现token的使用详情。
为何token跟踪很重要?
token跟踪之所以关键,是因为与大语言模型的每次交互都会产生与处理token数量直接相关的成本,这既包括输入内容,也涵盖模型生成的结果。缺乏有效监控,那些提示中细微的低效设计、冗余的上下文或不必要的请求,都可能在无声无息中推高你的开支,并降低系统性能。
通过细致追踪token,你可以准确把握使用状况。这样一来,就能够优化提示设计、简化工作流程并有效控制成本。举例来说,如果你的聊天机器人每次请求使用1500个token,那么将其减少到800个token就能让成本降低近一半。token跟踪的核心概念大致如下:

设置LangSmith以记录token
第1步:安装所需的软件包
pip3 install langchain langsmith transforms accelerate langchain_community
第2步:导入所有必要的组件
import osfrom transformers import pipelinefrom langchain.llms import HuggingFacePipelinefrom langchain.prompts import PromptTemplatefrom langchain.chains import LLMChainfrom langsmith import traceable
第3步:配置Langsmith
设置你的API密钥和项目名称:
# 替换为你的API密钥os.environ["LANGCHAIN_API_KEY"] = "your-api-key"os.environ["LANGCHAIN_PROJECT"] = "HF_FLAN_T5_Base_Demo"os.environ["LANGCHAIN_TRACING_V2"] = "true"# 可选:禁用分词器并行警告os.environ["TOKENIZERS_PARALLELISM"] = "false"
第4步:加载Hugging Face模型
使用对CPU友好的模型(如google/flan-t5-base),启用采样以获得更自然的输出:
model_name = "google/flan-t5-base"pipe = pipeline(    "text2text-generation",    model=model_name,    tokenizer=model_name,    device=-1,         # CPU    max_new_tokens=60,    do_sample=True, # 启用采样    temperature=0.7)llm = HuggingFacePipeline(pipeline=pipe)
第5步:创建提示和链
定义一个提示模板,并使用LLMChain将其连接到Hugging Face管道:
prompt_template = PromptTemplate.from_template(    "Explain gravity to a 10-year-old in about 20 words using a fun analogy.")chain = LLMChain(llm=llm, prompt=prompt_template)
第6步:让函数可以通过LangSmith进行追踪
使用@traceable装饰器自动记录输入、输出、token使用情况以及运行时间:
@traceable(name="HF Explain Gravity")def explain_gravity():    return chain.run({})
第7步:运行函数,打印输出结果
answer = explain_gravity()print("
=== Hugging Face Model Answer ===")print(answer)
输出:
=== Hugging Face Model Answer ===Gravity is a measure of mass of an object.
第8步:查看Langsmith仪表板
访问smith.langchain.com → 跟踪项目。你将看到以下内容:

你甚至可以查看每次运行的具体成本,方便分析账单明细。现在,要查看token使用情况及其他信息,只需点击你的项目。你将看到:

红色框突出显示了你项目运行的次数。点击任意运行记录,你将看到:

你可以在此处查看各类信息,比如token总数和延迟时间等。点击仪表板,如下所示:

现在,你可以查看随时间变化的图表,追踪token使用趋势、检查每个请求的平均延迟时间、比较输入输出token,并确定峰值使用时段。这些信息有助于优化提示、管理成本并提升模型性能。

向下滚动以查看与你的项目相关的所有图表。
第9步:探索LangSmith仪表板
你可以分析大量信息,比如:查看示例追踪:点击追踪即可查看详细的执行情况,包括原始输入、生成的输出和性能指标。查看单个追踪:对于每个追踪,你可以探究执行的每个步骤,查看提示、输出、token使用情况和延迟。检查token使用情况和延迟:详细的token数量和处理时间有助于识别瓶颈并优化性能。评估链:使用LangSmith的评估工具来测试场景、跟踪模型性能并比较输出结果。在Playground中进行试验:调整温度、提示模板或采样设置等参数来微调模型的行为。
完成此设置后,你现在可以在LangSmith仪表板中全面了解Hugging Face模型的运行状况、token使用情况和整体性能。
如何发现和修复token消耗大户?
具备了日志记录功能后,你可以:检查提示是否过长识别模型过度生成的情况切换到较小的模型,以执行成本更低的任务实施响应缓存以避免重复请求
这对调试长链或智能体非常有用。找到消耗最多token的那个步骤,并进行调整和完善。
结语
这就是设置和使用Langsmith的方法。记录token使用情况不仅是为了节省开支,更是为了构建更智能、更高效的LLM应用程序。本指南提供了基础,你可以通过探索、试验和分析自己的工作流程来了解更多信息。
原标题:The Beginner’s Guide to Tracking Token Usage in LLM Apps,作者:Kanwal Mehreen
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
LangChain升级:DeepAgents 0.2推出可插拔后端,重塑AI智能体开发
0 2版本的发布,特别是可插拔后端的引入,让deepagents在长期记忆和状态持久化方面变得更加强大和灵活。对于正在探索AI智能体开发的开发者来说,这无疑是一个值得关注的更新。 两个月前,Lang
美团开源LongCat实时音视频模型:支持交互,达到SOTA水平
11 月 3 日消息,9 月 1 日,美团正式发布 LongCat-Flash 系列模型,现已开源 LongCat-Flash-Chat 和 LongCat-Flash-Thinking 两大版本
微软CEO纳德拉:AI芯片短缺将冲击英伟达供应链
11 月 2 日消息,微软首席执行官萨提亚・纳德拉(Satya Nadella)近期在 BG2 播客中表示,尽管市场对 AI 芯片的需求持续高涨,但微软当前面临的并非算力过剩,而是数据中心的供电和
特斯拉如何训练Optimus机器人:员工亲身演示核心动作
11 月 3 日消息,《商业内幕》昨天发布长文,介绍特斯拉 Optimus 机器人平日是如何“受训”像人类一样行动的。在特斯拉工程总部的玻璃墙实验室里,数十名员工不断重复日常动作:举杯、擦桌、拉开
OpenAI政策更新:ChatGPT禁止提供医疗法律财务建议
11 月 2 日消息,据 Teknotum 报道,OpenAI 已于 10 月 29 日更新了 ChatGPT 的使用政策,禁止其在某些原本被认为最具价值的应用领域提供服务 —— 例如解读医学影像
相关攻略
热门教程
更多- 游戏攻略
 - 安卓教程
 - 苹果教程
 - 电脑教程
 
												
                                                
												
                                                
												
                                                
												
                                                
												
                                                
												
                                                
												
                                                
												
                                                
												
                                                
												
                                                
												
                                                
												
                                                
												
                                                
												
                                                
												
                                                
												
                                                
												
                                                
												
                                                
												
                                                
												
                                                







