5G全栈可观测建设指南:从能力搭建到高效运维
面对可观测性建设各方面的挑战,G行选择采用基于零侵扰解决方案建设全栈可观测平台,能够零侵扰采集业务语义、系统调用、网络转发、文件读写调用链,并通过收集和关联服务自身的日志链路数据实现调用链的全覆盖。
一、摘要
应用上云、云原生化是企业全面数字化转型的必要技术基础,G行2020年启动全栈云平台建设,采用云原生集群架构为应用架构服务化改造提供平台支撑,也同步建设了云化系统的全栈可观测性能力:
在技术可控性方面:通过全栈调用链追踪能力,构建性能基线图谱,破解异构环境兼容性验证难题;基于零侵扰采集技术,规避传统插桩方案的安全合规风险,构建覆盖信创技术栈的统一监控范式。在业务稳定性方面:建立业务指标-技术指标-资源指标三级关联机制,助力实现分钟级故障发现、定位与恢复;通过分布式推理服务链路追踪、剖析等能力,保障应用系统稳定运维。二、背景与挑战
2020年以来,《金融行业信息化发展规划(2024-2025)》、《关于银行业保险业数字化转型的指导意见》等文件明确要求金融机构“实现关键核心技术自主可控”,2027年成为金融信创全面落地的硬性时间节点。
银行应用系统同步替换底层数据库、中间件、操作系统、服务器等全栈组件,对技术验证与业务连续性保障带来的压力巨大,在可观测性建设上主要面临如下挑战:
1.在容量预估和故障排查方面
调用链追踪落地难:传统调用链追踪的实现方式可能面临安全合规及稳定性诉求矛盾。APM或日志类方案需要对应用代码改造,落地困难且有合规隐患;NPM类方案需要对云内流量全量引流,开销巨大且数据质量差。
系统容量评估困难:需要高性能、零侵扰的性能评测手段,便于开发迭代过程中随时可以在不同硬件、操作系统、中间件、数据库环境下完成性能测试,为上线后的容量评估提供充足的参考数据。
生产环境性能剖析难:线上性能问题往往难以在测试环境复现,而生产环境中往往由于性能剖析工具缺乏、工具执行权限审批困难、应用进程需要重启、应用代码需要修改而无法获取关键现场数据。
2.在应用性能和业务性能指标方面
性能指标覆盖不全:仅从管理上要求开发项目组和技术产品供应商提供标准化的性能指标数据有很大的挑战,若能从技术上提供零侵扰的全栈黄金性能指标,将极大的降低管理难度。
APM调用链采集性能损耗:基于插码的APM调用链采集能力对应用的性能和稳定性影响不可控,通常不敢在生产环境开启,即使启用也通常会设置较低的采样率。
业务指标和技术指标难关联:传统BPM的引流手段在云环境下落地困难,导致业务指标仅能在云入口处采集,难以和云内应用组件及基础设施服务的技术指标关联。
指标、追踪、日志数据孤岛:不同采集工具的数据颗粒度不一致、数据标签不统一,关联分析低效。
3.在云基础设施可观测方面
基础服务相关故障定界困难:L4、L7云网关的转发链路无法追踪,分布式数据库在代理节点、计算节点、数据节点上的调用链路无法追踪,涉及到基础服务的性能问题难以定界。
微服务访问排障低效:多副本微服务相互的调用链比较复杂,对于概率性发生的性能问题,传统的抓包、找日志的方式极端低效,可能长达数周仍无进展。
跨区域、专线带宽用量难优化:云主机、容器Pod的IP动态性高,跨区域/跨可用区/专线流量使用传统方式采集分析难以和云资源、容器服务关联,带宽利用效率很难分析。
三、G行全栈可观测平台建设
面对可观测性建设各方面的挑战,G行选择采用基于零侵扰解决方案建设全栈可观测平台,能够零侵扰采集业务语义、系统调用、网络转发、文件读写调用链,并通过收集和关联服务自身的日志链路数据实现调用链的全覆盖。与传统技术方案相比,G行建设方案优势如下:
图片
G行全栈观测平台的能力主要包括“业务全景拓扑、全栈调用链追踪、持续性能剖析、跨可用区、Agent资源管理”等五方面,平台架构如下图所示:
图1 G行全栈可观测性平台
如上图所示,G行全栈观测平台各方面功能介绍如下:
1.全景业务拓扑
全景覆盖:覆盖容器、云主机、物理机。
零侵扰业务语义采集:零侵扰解析Payload中的业务语义。
自动化业务语义标注:通过业务语义标注技术,自动标注云资源、容器服务、CMDB等语义标签,从而自动生成全景拓扑。
2.全栈链路追踪
图2 全栈调用链追踪能力
上图展示了全栈观测平台的调用链追踪页面,其核心的功能特点包括:
零侵扰调用链追踪:基于零侵扰采集能力,无需改变任何代码、无需重编译任何代码、无需重启任何进程,实现了分布式调用链的零侵扰追踪,避免了APM、日志方案中的侵入性问题。
应用、系统、网络全栈链路:自动关联每一笔交易在应用进程、系统调用、网络传输中的Span。
关联瓶颈文件读写操作:自动关联瓶颈文件读写操作,快速定界Nginx静态资源读取、数据库索引文件及数据文件读写相关的业务性能抖动。
深入关联网络性能数据:自动关联每个调用前的DNS解析、TLS握手、TCP握手性能,快速分析网络建连时延、系统协议栈响应时延、网包重传、协议栈零窗等行为对应用调用性能的影响。
深入关联进程内的瓶颈函数:自动关联系统Span与应用进程的On-CPU、Off-CPU、Mem-Alloc、Mem-Inuse等函数粒度性能剖析数据。
多种展示形式:提供开发人员习惯的火焰图、瀑布列表展示形式,同时也提供网络、系统团队习惯的拓扑图展示形式。
3.持续性能剖析
图3 持续剖析页面
上图展示了全栈观测平台的持续剖析页面,其核心的功能特点包括:
零侵扰、热加载:基于零侵扰剖析技术,无需改变任何代码、无需重编译任何代码、无需重启任何进程,可随时对生产环境中的性能问题进行剖析。
全栈函数:支持展示业务函数、库/框架函数、语言运行时函数、Linux共享库函数、Linux内核函数、NVIDIA CUDA函数的资源消耗。
低资源开销:以On-CPU为例,整机开启仅需消耗1%计算资源,让性能剖析数据能够被持续采集,从而不用担心遗漏难以复现的线上问题的现场数据。
多语言支持:支持JVM虚拟机语言,Python等解释型语言,Golang、C/C++、Rust等编译型语言。
4.多可用区部署架构
G行双栈云部署在多个区域和可用区,银行系统由于其高可用要求运行在多个可用区上。为了呈现应用系统业务的全景拓扑,要求可观测性平台能够呈现多个可用区的观测数据。
图4 多可用区部署架构
在上图中,每个可用区内的采集Agent仅会将观测数据发送到本可用区的数据节点集群中,消除了数据的跨可用区传输,从而避免了跨可用区的专线带宽开销。另一方面,所有可用区的数据节点构成了一个松耦合的集群,全景拓扑、调用链追踪的查询请求会同时发送到所有可用区,每个可用区将本地的聚合计算结果回传,从而有效降低了查询期的跨可用区带宽消耗。
5.Agent的资源限制、自监控和熔断能力
下图中展示了全栈观测平台中Agent自身丰富的资源限制、自监控和熔断能力,这些能力保障了Agent的高效运转,以及在发生最恶劣情况下Agent能够进入熔断状态以避免影响业务运行。
图5 全栈观测平台Agent的资源限制、自监控和熔断能力
四、总结和未来展望
随着银行数字化转型进入新的阶段,全栈观测性在提升系统稳定性、保障业务连续性方面将发挥更加重要的作用。全栈可观测性不仅为传统系统引入了高效的监控手段,而且成功解决了多团队协作中的数据孤岛问题,提升了故障定位、性能优化与资源管理的工作效率。
展望未来,随着大模型智能体技术的发展,全栈可观测性平台的应用场景将进一步扩展,大模型的智能分析能力将彻底打破传统运维中因知识和精力瓶颈带来的限制,并在性能调优、容量预估和智能化故障检测方面提供更高效的支持,以及更加精细化和实时的风险防控。
冯帆
十余年云计算相关工作经验,目前负责云平台运营及云资源管理工作,致力于成为超能陆战队里大白一样温暖且靠谱的人。
高瑄
主要负责云资源运营和云观测应用管理,处在新人经验积累学习期。道阻且长,行则将至。
王述敏
从事数据库运维工作,希望能持续为大家分享精彩好文。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
DeepSeek宣布永久降价 梁文锋大幅让利远超市场预期
DeepSeek宣布其Pro模型API优惠将转为永久降价,调用成本大幅降低至原价的四分之一。同时,公司正进行高达500亿元的首轮融资,创始人梁文锋个人计划出资200亿元以强化控制权。降价与巨额融资相结合,旨在降低行业门槛、构建生态,并支撑其长期开源与AGI战略,展现了公司的长期主义视野。
国产600公斤推力涡扇发动机首飞成功 中国心实现自研突破
5月23日,搭载国产F406涡扇发动机的气象无人机首飞成功。该发动机推力600公斤级,由我国自主研制,拥有完整知识产权,实现了中小推力高端涡扇发动机的自主可控。其具备高空高速稳定运行能力,填补了国内相关技术空白,将为无人机及低空经济发展提供可靠动力支撑。
小米米家空调巨省电Pro大1.5匹价格降至1868元
2026年3月6日,备受期待的小米米家巨省电 Pro 空调 2026 款正式上市销售。作为新品,其大1 5匹型号的官方首发定价为2499元,性价比优势显著。 恰逢京东618年中购物节,这款新上市的空调迎来了绝佳的入手时机。消费者通过叠加平台提供的促销优惠与政府发放的节能补贴,最终到手价格可以做到更具
国产600公斤推力涡扇发动机成功完成首次飞行
5月23日,我国自主研制的600公斤推力级F406涡扇发动机成功完成首次飞行试验。发动机驱动气象无人机平稳飞行并安全返航,各项参数稳定。此次试飞标志着我国在中小推力高端涡扇发动机领域实现了自主可控与国产化突破,该发动机将为低空经济和无人体系提供关键动力支撑。
国产600公斤推力涡扇发动机首飞成功核心技术自主研制
5月23日,我国自主研制的600公斤推力级F406涡扇发动机成功完成首次飞行试验。该发动机以双发配置驱动一架先进气象无人机,全程工作平稳,安全返航。此次试飞标志着我国在中小推力高端涡扇发动机领域实现自主可控与国产化,将为低空经济与无人体系发展提供可靠动力。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

