LLM应用Token指南：5步掌握新手高效使用技巧

首页

热心网友

转载

2025-11-03

如果您忽略了token的追踪，每当应用程序与大语言模型进行交互时，几乎就是在烧钱。

译｜布加迪

审校｜重楼

引言

在构建大语言模型应用的过程中，token就是实实在在的成本。如果你曾经使用过像GPT-4这样的LLM，很可能有过类似的经历：查看账单时忍不住惊呼“费用怎么这么高？！”每一次API调用都会消耗token，这直接影响响应时间和项目预算。但若不关注token的消耗情况，你就无法理解token的具体流向，更谈不上如何优化使用效率。

这正是LangSmith发挥作用的地方。它不仅能够追踪LLM调用情况，还允许你记录、监控并直观展示每个工作流程环节的token使用状况。在本指南中，我们将详细讲解：为何token跟踪至关重要？如何设置日志记录机制？以及如何在LangSmith面板中清晰呈现token的使用详情。

为何token跟踪很重要？

token跟踪之所以关键，是因为与大语言模型的每次交互都会产生与处理token数量直接相关的成本，这既包括输入内容，也涵盖模型生成的结果。缺乏有效监控，那些提示中细微的低效设计、冗余的上下文或不必要的请求，都可能在无声无息中推高你的开支，并降低系统性能。

通过细致追踪token，你可以准确把握使用状况。这样一来，就能够优化提示设计、简化工作流程并有效控制成本。举例来说，如果你的聊天机器人每次请求使用1500个token，那么将其减少到800个token就能让成本降低近一半。token跟踪的核心概念大致如下：

设置LangSmith以记录token

第1步：安装所需的软件包

pip3 install langchain langsmith transforms accelerate langchain_community

第2步：导入所有必要的组件

import osfrom transformers import pipelinefrom langchain.llms import HuggingFacePipelinefrom langchain.prompts import PromptTemplatefrom langchain.chains import LLMChainfrom langsmith import traceable

第3步：配置Langsmith

设置你的API密钥和项目名称：

# 替换为你的API密钥os.environ["LANGCHAIN_API_KEY"] = "your-api-key"os.environ["LANGCHAIN_PROJECT"] = "HF_FLAN_T5_Base_Demo"os.environ["LANGCHAIN_TRACING_V2"] = "true"# 可选：禁用分词器并行警告os.environ["TOKENIZERS_PARALLELISM"] = "false"

第4步：加载Hugging Face模型

使用对CPU友好的模型（如google/flan-t5-base），启用采样以获得更自然的输出：

model_name = "google/flan-t5-base"pipe = pipeline( "text2text-generation", model=model_name, tokenizer=model_name, device=-1, # CPU max_new_tokens=60, do_sample=True, # 启用采样 temperature=0.7)llm = HuggingFacePipeline(pipeline=pipe)

第5步：创建提示和链

定义一个提示模板，并使用LLMChain将其连接到Hugging Face管道：

prompt_template = PromptTemplate.from_template( "Explain gravity to a 10-year-old in about 20 words using a fun analogy.")chain = LLMChain(llm=llm, prompt=prompt_template)

第6步：让函数可以通过LangSmith进行追踪

使用@traceable装饰器自动记录输入、输出、token使用情况以及运行时间：

@traceable(name="HF Explain Gravity")def explain_gravity(): return chain.run({})

第7步：运行函数，打印输出结果

answer = explain_gravity()print(" === Hugging Face Model Answer ===")print(answer)

输出：

=== Hugging Face Model Answer ===Gravity is a measure of mass of an object.

第8步：查看Langsmith仪表板

访问smith.langchain.com → 跟踪项目。你将看到以下内容：

你甚至可以查看每次运行的具体成本，方便分析账单明细。现在，要查看token使用情况及其他信息，只需点击你的项目。你将看到：

红色框突出显示了你项目运行的次数。点击任意运行记录，你将看到：

你可以在此处查看各类信息，比如token总数和延迟时间等。点击仪表板，如下所示：

现在，你可以查看随时间变化的图表，追踪token使用趋势、检查每个请求的平均延迟时间、比较输入输出token，并确定峰值使用时段。这些信息有助于优化提示、管理成本并提升模型性能。

向下滚动以查看与你的项目相关的所有图表。

第9步：探索LangSmith仪表板

你可以分析大量信息，比如：查看示例追踪：点击追踪即可查看详细的执行情况，包括原始输入、生成的输出和性能指标。查看单个追踪：对于每个追踪，你可以探究执行的每个步骤，查看提示、输出、token使用情况和延迟。检查token使用情况和延迟：详细的token数量和处理时间有助于识别瓶颈并优化性能。评估链：使用LangSmith的评估工具来测试场景、跟踪模型性能并比较输出结果。在Playground中进行试验：调整温度、提示模板或采样设置等参数来微调模型的行为。

完成此设置后，你现在可以在LangSmith仪表板中全面了解Hugging Face模型的运行状况、token使用情况和整体性能。