大模型应用可观测全链路原理与实战详解
阿里云 QwQ 深度思考模型最近火得一塌糊涂,从资本市场一路烧到大众视野,推理能力强、性价比突出,确实让人眼前一亮。越来越多的普通用户开始尝鲜大模型应用。 但用户的期待是一回事,实际的体验又是另一回事。无论是直接调用官方模型服务,还是自己部署,在应用层调用大语言模型时,经常会碰到响应超时或者不稳定的
阿里云 QwQ 深度思考模型最近火得一塌糊涂,从资本市场一路烧到大众视野,推理能力强、性价比突出,确实让人眼前一亮。越来越多的普通用户开始尝鲜大模型应用。
但用户的期待是一回事,实际的体验又是另一回事。无论是直接调用官方模型服务,还是自己部署,在应用层调用大语言模型时,经常会碰到响应超时或者不稳定的情况。和传统的云原生应用比起来,LLM 应用的可观测性已经完全不是同一个概念了——资源类型变了、核心指标变了、数据特征变了,就连故障模型和调试方法都跟着天翻地覆。面对这一连串的稳定性挑战,这里提供一个更贴近业务实际的可观测解决思路。

背景
大模型的规模在膨胀,推理请求量也在激增,推理服务很快就开始暴露出一系列性能瓶颈。基于大语言模型构建的 LLM 应用,从研发到真正跑在生产环境,要跨过的坎也不少:模型选择、提示词调优、流程编排、开发调试、部署上线,每一步都藏着坑。
从模型层到应用层,核心挑战集中在几个方面:
性能与成本:很多企业在部署大模型时发现,GPU 利用率怎么也打不上去,资源白白浪费,成本却居高不下。
使用与开发体验:引入推理架构虽然提升了扩展性,但也让系统变得更复杂。出了问题排查效率极低,尤其是 LLM 应用的链路很长,流程编排复杂,依赖组件又多又杂,端上出了问题,想定位根因简直是大海捞针。
效果评估:大模型输出本身就是概率性的,不可预测性很强,幻觉问题让效果评估变得棘手。
安全合规:内容输入输出的安全合规风险不容忽视。
传统的分布式、微服务应用可观测方案已经很成熟了,通过监控性能和资源指标就能快速发现瓶颈。但 LLM 应用不一样,它需要从性能、成本、效果三个维度来重新定义可观测性。AI 推理服务的监控不光要看硬件资源和性能指标,还得深入模型行为和分布式架构的细节。这就需要一套统一的可观测方案,能从硬件到软件,从单机到集群,从模型到应用,全链路覆盖。
典型 LLM 应用组件与可观测数据类型
一个基于 LLM 的 ChatBot 应用,架构里包含了前端 UI、认证模块、会话管理、对话服务、后台管理等微服务组件。为了满足业务灵活性,通常会采用静态或动态的流程编排。这几个组件是和大语言模型直接相关的:
AI 网关:对接不同的 LLM 服务来应对不同的场景,支持大小模型混合使用。一旦某个模型服务出故障,还能自动切换,保证服务的连续性。
内容安全:用户的输入不确定性太强,必须引入 Moderation 和 Guardrails 来做内容审查和提示词防御,避免踩到合规红线。
工具调用:面对复杂的业务场景,需要调用外部工具或服务来完成具体操作。比如通过调用互联网搜索来获取实时信息,或者利用用户授权的工具来执行实际动作。
RAG 技术:利用向量数据库来优化对话上下文或长期记忆,这是目前对抗幻觉的主流手段,能显著提升回答的实时性和准确性。
缓存技术:对接缓存服务后,可以直接命中缓存,一方面提升回答效率,另一方面减少对 LLM 的重复调用,降低运营成本。
和典型应用一样,我们完全可以用 Trace、Metric、Log 来搭建一套立体可观测体系。接下来会依次用 Trace、Metric、Log 来演示性能分析、内容评估、安全合规与敏感信息保护等场景的具体方案。
LLM 应用必备的可观测能力:采集治理、领域视图、根因定位
在 Y Combinator 上搜了一下 “LLM Observability”,发现市面上已经有 10 多家产品在提供服务了——Langfuse、TraceLoop、Arize AI、Datadog、Helicone 等,它们分别从 LLMOps、Debug、Evaluation 等角度切入,各有侧重。Arize 提出了 LLM 可观测的五大支柱——Evaluation、Trace & Spans、Prompt Engineering、Search & Retrieval、Fine-tuning。从这五大支柱出发,既要覆盖模型层基础设施的训练和推理水平指标,也要满足 LLM 应用层的可观测诉求。基于丰富的指标、调用链、日志、事件等数据,搭建可观测大盘和告警能力,才能提供真正强大的分析能力。
思路很清晰:一个成熟的可观测平台,要支持从端侧不同接入形态的数据采集上报,构建领域化的分析视图和场景化分析能力,覆盖端到端全链路分析,及时发现问题,辅助 LLMOps 进行根因定位。阿里云的可观测解决方案,正是从这个方向出发,帮助使用 DeepSeek 或 QwQ 的 LLM 应用开发者满足领域化的可观测需求。
面向 LLM 应用的领域化指标洞察
分析 LLM 应用的交互特点和处理链路后,会发现一个典型的用户会话会涉及多轮对话,每轮 Query 请求又包含若干操作。需要梳理并定义出关键的操作类型(LLM Span Kind),用来标识 LLM 应用链路中的核心操作语义。参考最新的 OTel GenAI 语义规范,可以实现自动化的埋点采集,借助调用链分析聚焦 LLM 领域的核心执行动作,分析内部执行细节——包括输入输出和 Token 消耗明细等。
除了微服务已有的核心指标,LLM 应用还得额外关注模型层的推理性能、Token 消耗、效果评估指标。这样才能从 LLM 领域视角更好地洞察应用的业务表现。一旦业务表现下降或出现内容风险,能够及时感知并人工介入。
模型推理过程中,几个关键指标需要重点关注:
Time to First Token (TTFT):生成第一个令牌所需的时间,直接关系到系统响应速度。
Time Between Tokens (TBT):生成相邻令牌之间的时间间隔,影响生成流畅度。
Time Per Output Token (TPOT):生成每个输出令牌的平均时间,评估生成效率。
评估场景下,往往需要借助自动化或人工评估手段,从准确性、有毒性、幻觉等角度来评估整体性能、安全性和可靠性。
高质量的可观测数据采集能力
要实现面向 LLM 领域的调用链和指标采集上报,端侧埋点的自动采集能力和服务端上报能力缺一不可。LLM 应用的主流开发语言是 Python,阿里云基于 OpenTelemetry Python Agent 底座自研了 Python Agent。除了覆盖常见的 Web 框架、数据库和消息队列埋点,还针对 LLM 应用量身定制,支持 LlamaIndex、LangChain、通义千问、OpenAI、Dify、PromptFlow 等主流框架和模型。原理上利用框架的 Callback 机制和 wrapper 方式,可以实现无侵入埋点,接入流程大大简化。
从 DeepSeek 官网的请求示例看,它兼容 OpenAI 的 SDK 调用方式。阿里云的 Python Agent 本身就支持 OpenAI SDK 的自动化埋点,所以也能自动兼容 DeepSeek 的自动化采集,低成本获取各种请求类指标。另外,针对基于 vLLM 加速框架的模型服务也能进行自动化埋点,从服务端视角获取更多性能评估指标,补上客户端视角采集不全的短板。
面向用户的 LLM 应用体验监控
当前国内外的 LLM 应用已经渗透到多个领域,展现出强大的潜力。但 LLM 应用和传统的 Web、移动端应用在用户体验监控上差异不小。
LLM 应用大多采用流式响应方式(逐字输出结果),除了 TTFT、TBT、TPOT 这些机器层面的指标,用户体验上还需要关注的还包括:
1. 内容质量方面:
首次回答准确率:用户问题在第一次回答中被正确解决的比例,通常需要人工标注或借助辅助模型判断。
幻觉率:模型生成内容中虚构事实或逻辑矛盾的比例,需要借助知识图谱校验或 RAG 答案一致性对比来评估。
2. 交互效率方面:
用户中断率:用户在生成完成前主动终止交互的比例,原因可能是生成内容质量差或响应速度太慢。
多轮对话平均轮次:用户完成目标需要的平均对话轮数,轮数偏多往往说明意图理解存在偏差,或内容生成质量不符合预期。
意图修正频率:用户通过“重述问题”或“否定回答”来修正模型理解的次数。
不同应用场景还得关注对应的业务指标。比如智能客服场景要看人工转接率,内容生成场景要关注原创度和排版。真正的难点在于,这些指标很难在服务端直接埋点,必须结合用户体验监控来覆盖。
3. LLM 应用会话与传统应用会话的关联:
LLM 应用和传统 Web、移动端应用都有会话的概念。从用户体验监控视角看,两者有这些相同点:都需要记录用户行为序列、依赖唯一标识符(Session ID)追踪链路、关注异常终止(如崩溃、网络中断)。本质上并没有太大区别,完全可以相互关联,方便和其他用户交互操作一并分析。可以预见,随着 LLM 应用不断发展,传统应用也会越来越多地接入 LLM 能力,这个关联的价值会越来越明显。
LLM 专属的领域可视化分析视图
开箱即用的指标分析大盘,既能覆盖基础的业务黄金三指标,也支持场景化分析。对于架构复杂的 LLM 应用,性能瓶颈分析同样不在话下。和微服务应用观测视图不同,LLM 应用视图更强调领域化的大盘设计,突出 LLM 相关指标——包括 LLM 调用趋势、Token 使用趋势、模型维度分析、RAG 和 Tool 调用分析等,从性能和成本两个角度全面呈现应用运行状态。
几个关键的分析维度:
推理性能分析:关注大模型调用的请求数、耗时、错误等性能指标,可以对比不同模型的差异,比如首包耗时。
Token 消耗分析:跟踪分析输入/输出 Token 的趋势,识别哪些会话和用户的 Token 消耗偏高,帮助分析成本增长趋势。
调用链大模型分析视图:基于 LLM 领域语义格式化展示 TraceView,更直观,辅助开发者快速了解执行过程和输入输出细节,缩短定位问题的时间。
会话分析视图:了解用户对话时序和问答效果,帮助开发者优化流程设计和提示词调优,从可观测延伸到业务运营。
云产品一站式端到端全链路打通
越来越多企业开始用云产品,但云产品对开发者来说往往是个黑盒。比如客户端看到耗时长,很难判断到底是客户端慢还是服务端慢。如果云产品自身提供端到端的链路埋点和打通,就能有效帮忙定位耗时瓶颈。
目前可观测链路 OpenTelemetry 版已经和阿里云近 10 款云产品(RUM、ALB、MSE 网关、ASM 等)深度合作,完成了云产品内部的链路插桩和数据上报。企业用户只需要在对应云产品控制台一键启用链路追踪开关,就能直接看到调用链,采集成本大幅降低。针对 LLM 应用,阿里云可观测也在和百炼、PAI、MSE 网关等密切合作,在 Prometheus 接入中心可以完成对 PAI、百炼、灵骏、容器 Ray 框架的接入,云产品侧一键开启就能实现链路打通。
一个复杂的应用系统涉及组件很多,调用链链路也非常长。排查 LLM 应用问题时,通常需要覆盖从用户端到服务端的完整链路,同时结合用户体验监控数据,追踪用户侧的输入和操作,复现整个问题过程。
通过链路打通能力,用户在百炼这样的应用构建平台时可以专注于构建智能体应用,在百炼侧开启应用可观测,基于请求调用链进行调试优化。登录阿里云可观测控制台,就能查看该智能体的 LLM 应用更多分析视图,覆盖从 UI 端侧、网关、后端、组件依赖到模型的完整业务链路,实现真正的端到端全链路透视。
突破 LLM 应用观测局限:Dify 应用自动化埋点与端到端链路追踪实战
阿里云 Python Agent 已经提供了对常见大模型框架(LlamaIndex、Dify、LangChain、OpenAI、通义千问、Prompt Flow 等)的自动化埋点接入能力。
在和客户的交流中发现,很多开发者基于 Dify 开发 LLM 应用或二次构建内部 AI 平台,但普遍缺少有效的监控分析工具,也面临和其他内部系统链路打通的观测需求。Dify 默认集成的 Langfuse 和 Langsmith 都偏向 LLM 领域,缺乏端到端的完整分析能力。
阿里云 Python Agent 针对 Dify 的内部执行链路做了精细埋点,采集丰富的数据,并基于 OTel 标准默认和上下游串联打通,帮助开发者更顺畅地进行流程执行定位、工具调用和异常分析。以下用一个 Demo 来演示 LLM 应用的接入过程。
步骤一:基于 Dify 构建工作流,在业务流程中调用 DeepSeek 大语言模型获取结果。
步骤二:安装阿里云 Python Agent。
安装 ack-onepilot,确保版本在 3.2.4 或以上。
修改 Dockerfile:
从 PyPI 仓库下载探针安装器。
pip3 install aliyun-bootstrap
使用 aliyun-bootstrap 安装探针。
aliyun-bootstrap -a install
通过 ARMS Python 探针启动应用。
aliyun-instrument python app.py
构建镜像。
授予 ARMS 资源的访问权限。
修改工作负载 YAML。
labels:
aliyun.com/app-language: python # Python应用必填
armsPilotAutoEnable: 'on'
armsPilotCreateAppName: "" # 应用在ARMS中的展示名称
步骤三:在 Dify 应用入口发起流量,登录应用实时监控服务 ARMS 工作台,查看调用链详情,包括模型调用参数、Token 消耗、调用耗时以及输入输出等内容。
未来展望与挑战
越来越多的微服务应用开始集成 LLM 能力来优化业务流程或提效,但出问题的环节往往不局限于 LLM 调用本身。需要从用户端到网关再到依赖服务,进行全链路的问题排查和根因定位。
业界主流的 LLM Observability 平台更多聚焦于模型侧运维,提供提示词和模板管理、Dataset、Evaluation、Playground 实验对比等专业功能,适合研发调试和 LLMOps 运维人员,但普遍缺乏微服务领域端到端的全链路视角。阿里云可观测平台的优势在于提供全链路的打通和全栈可观测能力。
未来还会考虑支持调用链和 Evaluation 评分关联,基于 Trace 进行自动化语义特征分析,帮开发者解读和理解数据内涵,提供更多的语义化分析评估能力,实现可观测和大模型的联动打通。大模型服务作为 LLM 应用的核心依赖,模型侧的诊断分析场景也在持续跟进,包括支持 GPU Continuous Profiling、vLLM 推理框架的埋点观测等。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:大模型应用可观测全链路原理与实战详解要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点LucidaAI是一款面向企业的AI英语口语教练,通过实时对话提供发音、语法、词汇和流利度的个性化反馈。采用端到端加密并支持合规定制,定价策略注重普及化,旨在以低成本提升团队英语沟通能力。
Screenshot2Code工具能够从截图中自动识别代码,并将其转换为可直接运行的代码。支持Python、HTML及API接口信息提取,帮助开发者快速复用他人分享的代码片段,从而显著提升工作效率。这个工具极大简化了代码复用过程。
SpeakStruct通过可自定义模板将语音转换为结构化数据,适用于会议记录、客户通话等场景。核心功能包括自定义模板、准确转录和随处捕捉,使口语信息直接转化为可用的数据资产。
IzzyAI是一款AI驱动的语音治疗应用,提供全天候服务。通过智能治疗师头像互动,系统评估并治疗五种常见语音语言障碍,融合语音与面部识别技术给予实时反馈。内置综合评估、个性化练习、进展报告及支持性社区,提升治疗效果。
- 日榜
- 周榜
- 月榜
热点快看
