Aria Networks CEO解读推理技术如何改变AI网络格局
今年四月,AI网络初创公司Aria Networks携1.25亿美元融资高调登场,并向业界抛出了一个直指核心的判断:下一阶段AI基础设施的竞争,焦点已不仅仅是堆砌更多的GPU,而在于能否构建一个能充分释放这些算力潜能的“神经网络”。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这家由前Arista和Juniper高管创立、总部位于帕洛阿尔托的公司敏锐地捕捉到了一个趋势:分布式推理、推理模型以及智能体AI的快速崛起,正在从根本上重塑AI集群的设计与运营逻辑。他们的核心主张是,网络必须从被动的“数据管道”转型为主动的“智能系统”——一个能够动态优化流量、缓解拥塞、并最终提升模型算力利用率(MFU)的自适应平台。MFU,这个衡量GPU实际工作效率的关键指标,其重要性正与Token效率、每Token成本等经济性指标并驾齐驱。
“推理,是目前最复杂、也最值得深挖的应用场景。”公司创始人兼CEO Mansour Karam在发布后的一次访谈中如是强调。
Aria的平台整合了以太网交换硬件、基于行业标准SONiC的软件、微秒级精度的遥测数据采集,以及由AI驱动的运营工具,旨在实现对AI网络的实时动态调优。Karam指出,当运营商的目光从单纯的集群规模转向Token经济性时,一个能随工作负载动态演进的网络,便从“可选项”变成了“必需品”。
以下是经过整理的访谈实录。
构建“会思考的网络”
问: 您将Aria定位为“会思考的网络”,这在真实的AI生产集群中如何体现?
Karam: 简单来说,我们提供构建网络所需的全套组件,包括硬件。我们使用博通Tomahawk 5和6系列芯片打造交换机,这两款芯片是当前AI集群的骨干。操作系统则采用已成为事实标准的SONiC。
但真正的差异化在于集群软件层。
我们称之为“深度网络”。这个名字很贴切,因为它确实架构很深——一个多层系统。最底层是覆盖整个网络基础设施的遥测数据基础,从交换机、线缆、光模块,到网卡、主机,一直延伸到NCCL和RCCL通信层。
我们采集遥测数据的分辨率是碘伏性的。传统系统可能每30秒甚至每秒采样一次,而我们直接从ASIC芯片层,以微秒级分辨率捕获数千个参数。
数据采集之后,是处理、洞察与行动。响应的速度和方式取决于所在的层级:在ASIC层,必须极速反应;在集群管理层,则需要更多的推理和判断。
而在最顶层,我们引入了大语言模型和智能体方案,让运营商能够以一种协同的方式与网络本身“对话”。
从网络指标到AI经济指标
问: 为什么选择用Token效率和MFU来定义公司,而非延迟、吞吐量这些传统网络指标?
Karam: 传统网络厂商的客户是网络团队,他们自然关注网络本身的指标。但AI工厂的工程师视角完全不同,他们思考的是如何优化整个工厂,关心的是Token效率、MFU和最终每个Token的成本。在他们看来,网络常常只是一个背景式的管道。
我们面临的挑战,正是要让他们意识到:网络其实是整个系统中杠杆效应最高的组件之一,因为它连接着一切。
你可以优化负载调度、优化GPU内核、优化大语言模型路由器,但如果网络性能不佳,所有这些优化的效果都会大打折扣。网络,是这台复杂机器中最强有力的杠杆支点。
推理:被低估的复杂性
问: 您花了大量篇幅讨论推理。为什么业界曾低估了推理网络的复杂性?
Karam: 大概一年半前,很多顶尖的技术人员都自信地认为,推理在网络层面不是问题,因为训练才是流量消耗的主力,推理无非是把请求发给一个节点处理而已。
但今天回头来看,推理恰恰是最复杂、最值得深入挖掘的场景。
随着推理模型和强化学习的演进,游戏的规则已经变了。分布式推理带来了截然不同的流量模式和运营需求。现在,一个用户查询可能会“扇出”触发大量智能体协作,单个请求需要穿越前端网络、后端网络、存储系统、KV缓存传输等多个环节。
而网络,正处于所有这些操作的十字路口。
推理集群的扩展瓶颈
问: 推理集群在扩展时,通常哪个部分会最先遇到瓶颈?
Karam: 这完全取决于具体的推理工作负载。有些很简单,一问一答。但许多分布式推理场景对内存的需求极大,存储系统会成为瓶颈,计算节点的内存也会成为瓶颈。这催生了一些新架构,比如将预填充阶段与解码阶段分离,并在其间迁移KV缓存。
在整个处理周期中,不同部分在不同时间点都可能成为短板。而唯一向穿始终、连接所有组件的,就是网络。它在系统的每个环节都扮演着关键角色。
“嘈杂邻居”与用户体验
问: 您提到了推理集群中的“嘈杂邻居”问题,这在实际运营中是什么样子的?
Karam: 想象一下,一个分布式推理集群同时服务数千名用户。其中一位用户问了一个简单问题,而另一位则提出了一个极其复杂的问题,后者会触发大量智能体,产生海量网络流量。这种突发性的复杂工作负载会造成网络拥塞,进而影响所有其他用户的响应延迟。这就是“嘈杂邻居”。
网络必须平稳、高效地管理所有这些混合流量,确保一个“高需求用户”不会对其他用户造成灾难性的影响。你自己使用某些AI服务时可能也遇到过——回复生成到一半突然卡住了。本质上,是因为模型在底层所有分布式操作完成之前,无法生成下一个Token。
这从根本上是一个分布式系统协调问题,而网络正是解决它的核心。
网络与AI经济性
问: 您认为网络直接影响AI经济性,运营商们认同这一点吗?
Karam: 在推理业务中,每Token成本就是生命线。所有AI工厂和新兴云服务商都在同台竞技。如果我能将每Token成本做到比竞争对手更低,我就获得了结构性的优势。
这让我在定价、商业模式和服务交付上拥有更大的灵活性。因此,越来越多的运营商开始围绕Token经济性进行优化,而不再仅仅追求把集群规模做到最大。
深度网络:从规则到自动驾驶
问: 您将深度网络类比为自动驾驶系统,这个类比从何而来?
Karam: 因为传统的网络架构本质上是基于规则的。这就像十年前的自动驾驶软件,只能在高度受限的环境中运行,因为工程师需要手动编写所有规则。
网络世界过去也是如此。你可以为预设场景构建自动化,但环境一旦变化,系统就捉襟见肘。
而AI基础设施的演进速度太快了——模型在变、流量模式在变、集群架构在变、推理工作负载在变。你需要的是一个能够动态自适应的系统。这正是我们认为概率性系统和AI驱动优化变得至关重要的原因。
平台的自主化之路
问: 目前平台的自主化程度如何?
Karam: 我们采取的是相对保守的策略,因为网络的可靠性高于一切。首要任务是保证网络不中断。
对于一些操作,比如链路中断时的流量重路由,我们已经实现了完全自动化。但在更复杂的场景下——例如某个光模块性能正在逐渐退化——我们会让运营商深度参与。系统会提出修复策略、展示全面的遥测数据,并与运营商协同完成操作。
随着时间的推移,系统的自主性会逐步提高。但我们相信,信任是需要逐步建立的。运营商需要对系统的运作有充分的透明度,并对它的决策建立起信心。
建立对“自动驾驶网络”的信任
问: 当系统实时做出网络决策时,运营商如何建立并维持对它的信任?
Karam: 关键在于让运营商深度参与。他们需要拥有对遥测数据的完全可见性,需要理解系统为何做出某个决策,并且能够将自己的专业知识和运营偏好注入到平台中。
随着时间的推移,当他们亲眼看到系统持续、稳定、有效地运作,信任自然会建立起来。这个过程与自动驾驶软件的演进如出一辙:早期充满怀疑,如今在特定场景下,很多人对自动驾驶系统的信任度甚至超过了人类司机。网络领域也将经历同样的演化历程。
以太网的胜利
问: 业界是否已经达成共识,认为以太网赢得了AI网络市场?
Karam: 在横向扩展网络领域,以太网显然已经胜出。InfiniBand在某些特定场景中仍有其位置,但值得注意的是,就连英伟达现在也在大力推动以太网方案。
我在网络行业工作了三十年,常说的是:永远不要和以太网对赌。它无处不在,拥有深厚的运营知识沉淀、庞大的生态系统和强大的规模经济效应。归根结底,网络技术的差异化主要体现在延迟和吞吐量上,而以太网在这两方面都能提供极具竞争力的表现。
可以预见的是,以太网将继续“吞噬”AI集群的网络市场,就像它在过去几十年里在其他领域所做的那样。
未来三年的关键指标
问: 展望三年后,AI基础设施运营商最关注的指标会是什么?
Karam: 这个行业变化太快,我对做出具体的预测持谨慎态度。甚至一年前的许多判断,今天看来都已过时。
但有一点我非常确信:网络的重要性只会与日俱增。AI工厂正在演变为日益复杂、动态、分布式且专用性降低的系统。网络,就是连接所有这些系统的“结缔组织”。
无论未来的模型、工作负载或架构如何演变,对更智能、更自适应网络的需求,只会越来越强烈。
问答摘要
Q1:Aria Networks的深度网络(Deep Networking)技术具体是如何工作的?
深度网络是其核心差异化技术,采用多层架构。底层以微秒级分辨率从ASIC开始,采集全栈(交换机、线缆、主机、NCCL/RCCL层)数千个参数的遥测数据。随后系统处理信号、提取洞察并采取行动,响应策略因层级而异:ASIC层追求极速响应,集群层引入推理判断,顶层则结合LLM与智能体,实现人网协同。
Q2:为什么分布式推理对网络的要求比训练更复杂?
早期观点认为推理网络负载轻。但分布式推理的兴起改变了格局,单个查询会触发多个智能体协作,流量需穿越前后端网络、存储、KV缓存等多个环节,模式复杂且动态。“嘈杂邻居”问题凸显,即一个复杂查询的突发流量可能影响集群内所有其他任务,这本质是分布式系统挑战,使网络成为解决方案的核心。
Q3:以太网能否真正满足大规模AI集群的网络需求?
答案是肯定的。在横向扩展网络领域,以太网已占据明显优势,其生态系统、运营经验和规模经济效应无可比拟。即使在延迟和吞吐量等关键性能指标上,以太网也已具备强大竞争力。趋势表明,以太网将继续主导AI集群网络市场。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Aria Networks CEO解读推理技术如何改变AI网络格局
今年四月,AI网络初创公司Aria Networks携1 25亿美元融资高调登场,并向业界抛出了一个直指核心的判断:下一阶段AI基础设施的竞争,焦点已不仅仅是堆砌更多的GPU,而在于能否构建一个能充分释放这些算力潜能的“神经网络”。 这家由前Arista和Juniper高管创立、总部位于帕洛阿尔托的
英伟达MIT华人团队开源技术大幅降低大模型推理内存消耗
仅凭一张家用RTX 4090显卡的24GB显存,就能流畅运行一个拥有320亿参数的AI大模型,一口气读完6份长文档并自动生成周报?这并非极客魔改,而是来自MIT、英伟达与浙江大学研究者的最新突破。 这项名为TriAttention的技术,精准瞄准了大模型推理中的核心瓶颈——KV缓存显存占用。其核心思
DeepSeek专家模式文件上传功能暂停使用说明
就在这两天,不少深度使用DeepSeek的用户发现了一个变化:其“专家模式”下的文件上传功能,突然无法使用了。 根据用户反馈,当尝试在专家模式中上传文件时,界面会弹出提示,明确写着“资源紧张,不支持文件上传”。这并非个别现象,经过实际测试,无论是通过网页端还是手机App访问,专家模式的文件上传入口确
台积电AI芯片三层蛋糕理论光互连与COUPE技术解析
当业界仍在热议黄仁勋提出的AI产业“五层蛋糕”宏观架构时,台积电从芯片微观视角出发,首次揭示了AI芯片内部的“三层蛋糕”理论,为下一代高性能计算指明了技术演进的核心路径。 在台积电2026年技术论坛上,副共同营运长张晓强发表了独特见解。他指出,宏观的“五层蛋糕”描绘了从电力基础设施到AI应用的全栈生
SK海力士市值逼近万亿 AI浪潮助推韩国半导体崛起
就在三星电子本月初刚刚突破万亿美元市值大关后,仅仅两周时间,韩国另一家存储巨头SK海力士也即将突破1万亿美元的市值大关。 这意味着,在全球强劲的人工智能需求趋势下,韩国已经成为了亚洲人工智能热潮的核心地区。 SK海力士市值逼近万亿美元门槛 本周四,截至发稿,SK海力士的股价日内小幅回调逾1%,而同期
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

