数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

大模型应用可观测全链路原理与实战详解

AI热点日报时间：2026-07-03

热点解读

阿里云 QwQ 深度思考模型最近火得一塌糊涂，从资本市场一路烧到大众视野，推理能力强、性价比突出，确实让人眼前一亮。越来越多的普通用户开始尝鲜大模型应用。但用户的期待是一回事，实际的体验又是另一回事。无论是直接调用官方模型服务，还是自己部署，在应用层调用大语言模型时，经常会碰到响应超时或者不稳定的

阿里云 QwQ 深度思考模型最近火得一塌糊涂，从资本市场一路烧到大众视野，推理能力强、性价比突出，确实让人眼前一亮。越来越多的普通用户开始尝鲜大模型应用。

但用户的期待是一回事，实际的体验又是另一回事。无论是直接调用官方模型服务，还是自己部署，在应用层调用大语言模型时，经常会碰到响应超时或者不稳定的情况。和传统的云原生应用比起来，LLM 应用的可观测性已经完全不是同一个概念了——资源类型变了、核心指标变了、数据特征变了，就连故障模型和调试方法都跟着天翻地覆。面对这一连串的稳定性挑战，这里提供一个更贴近业务实际的可观测解决思路。

详解大模型应用可观测全链路

背景

大模型的规模在膨胀，推理请求量也在激增，推理服务很快就开始暴露出一系列性能瓶颈。基于大语言模型构建的 LLM 应用，从研发到真正跑在生产环境，要跨过的坎也不少：模型选择、提示词调优、流程编排、开发调试、部署上线，每一步都藏着坑。

从模型层到应用层，核心挑战集中在几个方面：

性能与成本：很多企业在部署大模型时发现，GPU 利用率怎么也打不上去，资源白白浪费，成本却居高不下。
使用与开发体验：引入推理架构虽然提升了扩展性，但也让系统变得更复杂。出了问题排查效率极低，尤其是 LLM 应用的链路很长，流程编排复杂，依赖组件又多又杂，端上出了问题，想定位根因简直是大海捞针。
效果评估：大模型输出本身就是概率性的，不可预测性很强，幻觉问题让效果评估变得棘手。
安全合规：内容输入输出的安全合规风险不容忽视。

传统的分布式、微服务应用可观测方案已经很成熟了，通过监控性能和资源指标就能快速发现瓶颈。但 LLM 应用不一样，它需要从性能、成本、效果三个维度来重新定义可观测性。AI 推理服务的监控不光要看硬件资源和性能指标，还得深入模型行为和分布式架构的细节。这就需要一套统一的可观测方案，能从硬件到软件，从单机到集群，从模型到应用，全链路覆盖。

典型 LLM 应用组件与可观测数据类型

一个基于 LLM 的 ChatBot 应用，架构里包含了前端 UI、认证模块、会话管理、对话服务、后台管理等微服务组件。为了满足业务灵活性，通常会采用静态或动态的流程编排。这几个组件是和大语言模型直接相关的：

AI 网关：对接不同的 LLM 服务来应对不同的场景，支持大小模型混合使用。一旦某个模型服务出故障，还能自动切换，保证服务的连续性。
内容安全：用户的输入不确定性太强，必须引入 Moderation 和 Guardrails 来做内容审查和提示词防御，避免踩到合规红线。
工具调用：面对复杂的业务场景，需要调用外部工具或服务来完成具体操作。比如通过调用互联网搜索来获取实时信息，或者利用用户授权的工具来执行实际动作。
RAG 技术：利用向量数据库来优化对话上下文或长期记忆，这是目前对抗幻觉的主流手段，能显著提升回答的实时性和准确性。
缓存技术：对接缓存服务后，可以直接命中缓存，一方面提升回答效率，另一方面减少对 LLM 的重复调用，降低运营成本。

和典型应用一样，我们完全可以用 Trace、Metric、Log 来搭建一套立体可观测体系。接下来会依次用 Trace、Metric、Log 来演示性能分析、内容评估、安全合规与敏感信息保护等场景的具体方案。

LLM 应用必备的可观测能力：采集治理、领域视图、根因定位

在 Y Combinator 上搜了一下 “LLM Observability”，发现市面上已经有 10 多家产品在提供服务了——Langfuse、TraceLoop、Arize AI、Datadog、Helicone 等，它们分别从 LLMOps、Debug、Evaluation 等角度切入，各有侧重。Arize 提出了 LLM 可观测的五大支柱——Evaluation、Trace & Spans、Prompt Engineering、Search & Retrieval、Fine-tuning。从这五大支柱出发，既要覆盖模型层基础设施的训练和推理水平指标，也要满足 LLM 应用层的可观测诉求。基于丰富的指标、调用链、日志、事件等数据，搭建可观测大盘和告警能力，才能提供真正强大的分析能力。

思路很清晰：一个成熟的可观测平台，要支持从端侧不同接入形态的数据采集上报，构建领域化的分析视图和场景化分析能力，覆盖端到端全链路分析，及时发现问题，辅助 LLMOps 进行根因定位。阿里云的可观测解决方案，正是从这个方向出发，帮助使用 DeepSeek 或 QwQ 的 LLM 应用开发者满足领域化的可观测需求。

面向 LLM 应用的领域化指标洞察

分析 LLM 应用的交互特点和处理链路后，会发现一个典型的用户会话会涉及多轮对话，每轮 Query 请求又包含若干操作。需要梳理并定义出关键的操作类型（LLM Span Kind），用来标识 LLM 应用链路中的核心操作语义。参考最新的 OTel GenAI 语义规范，可以实现自动化的埋点采集，借助调用链分析聚焦 LLM 领域的核心执行动作，分析内部执行细节——包括输入输出和 Token 消耗明细等。

除了微服务已有的核心指标，LLM 应用还得额外关注模型层的推理性能、Token 消耗、效果评估指标。这样才能从 LLM 领域视角更好地洞察应用的业务表现。一旦业务表现下降或出现内容风险，能够及时感知并人工介入。

模型推理过程中，几个关键指标需要重点关注：

Time to First Token (TTFT)：生成第一个令牌所需的时间，直接关系到系统响应速度。
Time Between Tokens (TBT)：生成相邻令牌之间的时间间隔，影响生成流畅度。
Time Per Output Token (TPOT)：生成每个输出令牌的平均时间，评估生成效率。

评估场景下，往往需要借助自动化或人工评估手段，从准确性、有毒性、幻觉等角度来评估整体性能、安全性和可靠性。

高质量的可观测数据采集能力

要实现面向 LLM 领域的调用链和指标采集上报，端侧埋点的自动采集能力和服务端上报能力缺一不可。LLM 应用的主流开发语言是 Python，阿里云基于 OpenTelemetry Python Agent 底座自研了 Python Agent。除了覆盖常见的 Web 框架、数据库和消息队列埋点，还针对 LLM 应用量身定制，支持 LlamaIndex、LangChain、通义千问、OpenAI、Dify、PromptFlow 等主流框架和模型。原理上利用框架的 Callback 机制和 wrapper 方式，可以实现无侵入埋点，接入流程大大简化。

从 DeepSeek 官网的请求示例看，它兼容 OpenAI 的 SDK 调用方式。阿里云的 Python Agent 本身就支持 OpenAI SDK 的自动化埋点，所以也能自动兼容 DeepSeek 的自动化采集，低成本获取各种请求类指标。另外，针对基于 vLLM 加速框架的模型服务也能进行自动化埋点，从服务端视角获取更多性能评估指标，补上客户端视角采集不全的短板。

面向用户的 LLM 应用体验监控

当前国内外的 LLM 应用已经渗透到多个领域，展现出强大的潜力。但 LLM 应用和传统的 Web、移动端应用在用户体验监控上差异不小。

LLM 应用大多采用流式响应方式（逐字输出结果），除了 TTFT、TBT、TPOT 这些机器层面的指标，用户体验上还需要关注的还包括：

1. 内容质量方面：

首次回答准确率：用户问题在第一次回答中被正确解决的比例，通常需要人工标注或借助辅助模型判断。
幻觉率：模型生成内容中虚构事实或逻辑矛盾的比例，需要借助知识图谱校验或 RAG 答案一致性对比来评估。

2. 交互效率方面：

用户中断率：用户在生成完成前主动终止交互的比例，原因可能是生成内容质量差或响应速度太慢。
多轮对话平均轮次：用户完成目标需要的平均对话轮数，轮数偏多往往说明意图理解存在偏差，或内容生成质量不符合预期。
意图修正频率：用户通过“重述问题”或“否定回答”来修正模型理解的次数。

不同应用场景还得关注对应的业务指标。比如智能客服场景要看人工转接率，内容生成场景要关注原创度和排版。真正的难点在于，这些指标很难在服务端直接埋点，必须结合用户体验监控来覆盖。

3. LLM 应用会话与传统应用会话的关联：

LLM 应用和传统 Web、移动端应用都有会话的概念。从用户体验监控视角看，两者有这些相同点：都需要记录用户行为序列、依赖唯一标识符（Session ID）追踪链路、关注异常终止（如崩溃、网络中断）。本质上并没有太大区别，完全可以相互关联，方便和其他用户交互操作一并分析。可以预见，随着 LLM 应用不断发展，传统应用也会越来越多地接入 LLM 能力，这个关联的价值会越来越明显。

LLM 专属的领域可视化分析视图

开箱即用的指标分析大盘，既能覆盖基础的业务黄金三指标，也支持场景化分析。对于架构复杂的 LLM 应用，性能瓶颈分析同样不在话下。和微服务应用观测视图不同，LLM 应用视图更强调领域化的大盘设计，突出 LLM 相关指标——包括 LLM 调用趋势、Token 使用趋势、模型维度分析、RAG 和 Tool 调用分析等，从性能和成本两个角度全面呈现应用运行状态。

几个关键的分析维度：

推理性能分析：关注大模型调用的请求数、耗时、错误等性能指标，可以对比不同模型的差异，比如首包耗时。
Token 消耗分析：跟踪分析输入/输出 Token 的趋势，识别哪些会话和用户的 Token 消耗偏高，帮助分析成本增长趋势。
调用链大模型分析视图：基于 LLM 领域语义格式化展示 TraceView，更直观，辅助开发者快速了解执行过程和输入输出细节，缩短定位问题的时间。
会话分析视图：了解用户对话时序和问答效果，帮助开发者优化流程设计和提示词调优，从可观测延伸到业务运营。

云产品一站式端到端全链路打通

越来越多企业开始用云产品，但云产品对开发者来说往往是个黑盒。比如客户端看到耗时长，很难判断到底是客户端慢还是服务端慢。如果云产品自身提供端到端的链路埋点和打通，就能有效帮忙定位耗时瓶颈。

目前可观测链路 OpenTelemetry 版已经和阿里云近 10 款云产品（RUM、ALB、MSE 网关、ASM 等）深度合作，完成了云产品内部的链路插桩和数据上报。企业用户只需要在对应云产品控制台一键启用链路追踪开关，就能直接看到调用链，采集成本大幅降低。针对 LLM 应用，阿里云可观测也在和百炼、PAI、MSE 网关等密切合作，在 Prometheus 接入中心可以完成对 PAI、百炼、灵骏、容器 Ray 框架的接入，云产品侧一键开启就能实现链路打通。

一个复杂的应用系统涉及组件很多，调用链链路也非常长。排查 LLM 应用问题时，通常需要覆盖从用户端到服务端的完整链路，同时结合用户体验监控数据，追踪用户侧的输入和操作，复现整个问题过程。

通过链路打通能力，用户在百炼这样的应用构建平台时可以专注于构建智能体应用，在百炼侧开启应用可观测，基于请求调用链进行调试优化。登录阿里云可观测控制台，就能查看该智能体的 LLM 应用更多分析视图，覆盖从 UI 端侧、网关、后端、组件依赖到模型的完整业务链路，实现真正的端到端全链路透视。

突破 LLM 应用观测局限：Dify 应用自动化埋点与端到端链路追踪实战

阿里云 Python Agent 已经提供了对常见大模型框架（LlamaIndex、Dify、LangChain、OpenAI、通义千问、Prompt Flow 等）的自动化埋点接入能力。

在和客户的交流中发现，很多开发者基于 Dify 开发 LLM 应用或二次构建内部 AI 平台，但普遍缺少有效的监控分析工具，也面临和其他内部系统链路打通的观测需求。Dify 默认集成的 Langfuse 和 Langsmith 都偏向 LLM 领域，缺乏端到端的完整分析能力。

阿里云 Python Agent 针对 Dify 的内部执行链路做了精细埋点，采集丰富的数据，并基于 OTel 标准默认和上下游串联打通，帮助开发者更顺畅地进行流程执行定位、工具调用和异常分析。以下用一个 Demo 来演示 LLM 应用的接入过程。

步骤一：基于 Dify 构建工作流，在业务流程中调用 DeepSeek 大语言模型获取结果。

步骤二：安装阿里云 Python Agent。

安装 ack-onepilot，确保版本在 3.2.4 或以上。
修改 Dockerfile：

从 PyPI 仓库下载探针安装器。

pip3 install aliyun-bootstrap

使用 aliyun-bootstrap 安装探针。

aliyun-bootstrap -a install

通过 ARMS Python 探针启动应用。

aliyun-instrument python app.py

构建镜像。

授予 ARMS 资源的访问权限。
修改工作负载 YAML。

labels:
  aliyun.com/app-language: python  # Python应用必填
  armsPilotAutoEnable: 'on'
  armsPilotCreateAppName: ""  # 应用在ARMS中的展示名称

步骤三：在 Dify 应用入口发起流量，登录应用实时监控服务 ARMS 工作台，查看调用链详情，包括模型调用参数、Token 消耗、调用耗时以及输入输出等内容。

未来展望与挑战

越来越多的微服务应用开始集成 LLM 能力来优化业务流程或提效，但出问题的环节往往不局限于 LLM 调用本身。需要从用户端到网关再到依赖服务，进行全链路的问题排查和根因定位。

业界主流的 LLM Observability 平台更多聚焦于模型侧运维，提供提示词和模板管理、Dataset、Evaluation、Playground 实验对比等专业功能，适合研发调试和 LLMOps 运维人员，但普遍缺乏微服务领域端到端的全链路视角。阿里云可观测平台的优势在于提供全链路的打通和全栈可观测能力。

未来还会考虑支持调用链和 Evaluation 评分关联，基于 Trace 进行自动化语义特征分析，帮开发者解读和理解数据内涵，提供更多的语义化分析评估能力，实现可观测和大模型的联动打通。大模型服务作为 LLM 应用的核心依赖，模型侧的诊断分析场景也在持续跟进，包括支持 GPU Continuous Profiling、vLLM 推理框架的埋点观测等。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：大模型应用可观测全链路原理与实战详解要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/LargeLanguageModel/2025031365819.html

ai 人工智能

上一篇：人工智能即将迎来新一轮发展机遇

下一篇：武汉出台激励政策推动人工智能创新发展

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。