阿里云Aegaeon入选SOSP 2025,GPU利用率提升与算力投入指南

随着计算机系统与人工智能技术的深度融合,阿里云自主研发的GPU资源池化方案"Aegaeon"凭借其创新成果入选国际顶级学术会议SOSP+2025。该方案突破了传统"一模型一GPU"的硬件绑定模式,让GPU资源利用率得到显著提升,目前已在阿里云百炼平台完成核心技术的应用落地。
作为计算机系统领域最具影响力的学术会议之一,由ACM SIGOPS主办的SOSP(操作系统原理研讨会)年均论文收录量不足百篇,堪称操作系统界的"奥斯卡奖"。本届会议重点关注系统软件与AI大模型技术的交叉创新,阿里云的研究成果成为系统层优化支撑AI应用的典型案例。
测试数据显示,在阿里云模型市场为期三个月的Beta测试期间,Aegaeon系统在支持720亿参数规模大模型运行时,将英伟达H20+GPU的使用量从1192台压缩至213台,硬件成本降幅达82%。这一突破对依赖大规模GPU集群的AI服务商具有战略意义——在真实业务场景中,少数热门模型(如阿里Qwen)占据绝大多数流量,而大量"长尾"模型长期闲置GPU资源,曾导致17.7%的算力仅处理1.35%的请求。
Aegaeon的核心创新在于Token级动态调度技术。系统在每次生成文档Token后实时评估是否需要切换模型,通过组件复用、显存精细管理和KV缓存同步优化等全栈技术,将模型切换开销降低97%,确保亚秒级响应能力。实验表明,该方案支持单GPU同时运行7个不同模型,有效吞吐量较主流方案提升1.5至9倍,请求处理能力提高2至2.5倍。
在2025云栖大会上,阿里巴巴集团CEO吴泳铭宣布了AI基础设施建设的重大战略。他指出,大模型正在取代传统操作系统,成为连接用户、应用与AI算力的核心中间层,而超级AI云将成为下一代计算机的基础形态。为迎接超级人工智能(ASI)时代,阿里云计划在未来十年投入3800亿元建设AI基础设施,并预留追加投资空间。
根据规划,到2032年阿里云全球数据中心的能耗规模较2024年将增长10倍,这一指数级扩张预示着算力投入的质变。财务数据显示,2025财年第二季度阿里云智能集团收入同比增长26%,创近三年新高,净利润增长76%,表明AI技术投入已产生显著经济效益。
吴泳铭强调,通用人工智能(AGI)的实现只是起点,终极目标是开发出具备自我迭代能力的超级人工智能(ASI)。他预测,未来全球可能仅存5到6个超级云计算平台,而阿里云将通过全栈AI体系升级,构建从大模型到基础设施的技术闭环。目前,阿里云已形成以通义大模型为核心的操作系统和以AI云为核心的新一代计算架构,过去一年AI算力增长超5倍,存储能力提升4倍。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
苹果AI团队遭遇失血危机:Siri负责人离职暴露人才困境
苹果公司近期遭遇AI领域人才流失危机,负责Siri升级项目的核心高管Ke Yang已确认离职并转投meta,这一变动为苹果正在推进的语音助手革新计划蒙上阴影。作为苹果新成立的Answers、Know
AI安全隐患警示:恶意文件或成操纵大模型关键手段
近日,一项由国际科研团队联合开展的研究揭示了人工智能领域的新安全隐患:包括Claude、ChatGPT等知名大语言模型在内的AI系统,对特定类型的网络攻击表现出超乎预期的脆弱性。攻击者仅需向训练数据
OpenAI创始成员Karpathy:通用AI或需十年,智能体实用性仍存挑战
这位深度学习领域权威专家指出,现有智能体存在三大核心缺陷:认知能力局限导致无法持续学习,多模态交互能力不足影响复杂任务处理,以及缺乏与人类协作的主动性。“它们记不住用户指导的内容,更无法自主操作计算
比特币矿企估值重塑:转型AI电力开启增长新空间
比特币矿企正经历一场估值逻辑的深度变革,其核心驱动力源于向科技基础设施供应商的战略转型。凭借现成的电网接入能力与大规模电力储备,这些企业正逐步摆脱加密货币周期的束缚,将业务重心转向为人工智能(AI)
JetBrains停止CodeCanvas项目,专注构建AI原生云开发平台
JetBrains公司近日宣布,其旗下云端开发环境平台CodeCanvas将停止现有版本的开发与运营工作,并将业务重心转向构建基于人工智能技术的新一代云端解决方案。这一决定标志着该公司对软件开发生态
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















