Aria Networks CEO解读推理技术如何改变AI网络格局

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

Aria Networks CEO解读推理技术如何改变AI网络格局

热心网友时间：2026-05-14

转载

今年四月，AI网络初创公司Aria Networks携1.25亿美元融资高调登场，并向业界抛出了一个直指核心的判断：下一阶段AI基础设施的竞争，焦点已不仅仅是堆砌更多的GPU，而在于能否构建一个能充分释放这些算力潜能的“神经网络”。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

Aria Networks CEO：推理正在重塑AI网络格局

这家由前Arista和Juniper高管创立、总部位于帕洛阿尔托的公司敏锐地捕捉到了一个趋势：分布式推理、推理模型以及智能体AI的快速崛起，正在从根本上重塑AI集群的设计与运营逻辑。他们的核心主张是，网络必须从被动的“数据管道”转型为主动的“智能系统”——一个能够动态优化流量、缓解拥塞、并最终提升模型算力利用率（MFU）的自适应平台。MFU，这个衡量GPU实际工作效率的关键指标，其重要性正与Token效率、每Token成本等经济性指标并驾齐驱。

“推理，是目前最复杂、也最值得深挖的应用场景。”公司创始人兼CEO Mansour Karam在发布后的一次访谈中如是强调。

Aria的平台整合了以太网交换硬件、基于行业标准SONiC的软件、微秒级精度的遥测数据采集，以及由AI驱动的运营工具，旨在实现对AI网络的实时动态调优。Karam指出，当运营商的目光从单纯的集群规模转向Token经济性时，一个能随工作负载动态演进的网络，便从“可选项”变成了“必需品”。

以下是经过整理的访谈实录。

构建“会思考的网络”

问：您将Aria定位为“会思考的网络”，这在真实的AI生产集群中如何体现？

Karam： 简单来说，我们提供构建网络所需的全套组件，包括硬件。我们使用博通Tomahawk 5和6系列芯片打造交换机，这两款芯片是当前AI集群的骨干。操作系统则采用已成为事实标准的SONiC。

但真正的差异化在于集群软件层。

我们称之为“深度网络”。这个名字很贴切，因为它确实架构很深——一个多层系统。最底层是覆盖整个网络基础设施的遥测数据基础，从交换机、线缆、光模块，到网卡、主机，一直延伸到NCCL和RCCL通信层。

我们采集遥测数据的分辨率是碘伏性的。传统系统可能每30秒甚至每秒采样一次，而我们直接从ASIC芯片层，以微秒级分辨率捕获数千个参数。

数据采集之后，是处理、洞察与行动。响应的速度和方式取决于所在的层级：在ASIC层，必须极速反应；在集群管理层，则需要更多的推理和判断。

而在最顶层，我们引入了大语言模型和智能体方案，让运营商能够以一种协同的方式与网络本身“对话”。

从网络指标到AI经济指标

问：为什么选择用Token效率和MFU来定义公司，而非延迟、吞吐量这些传统网络指标？

Karam： 传统网络厂商的客户是网络团队，他们自然关注网络本身的指标。但AI工厂的工程师视角完全不同，他们思考的是如何优化整个工厂，关心的是Token效率、MFU和最终每个Token的成本。在他们看来，网络常常只是一个背景式的管道。

我们面临的挑战，正是要让他们意识到：网络其实是整个系统中杠杆效应最高的组件之一，因为它连接着一切。

你可以优化负载调度、优化GPU内核、优化大语言模型路由器，但如果网络性能不佳，所有这些优化的效果都会大打折扣。网络，是这台复杂机器中最强有力的杠杆支点。

推理：被低估的复杂性

问：您花了大量篇幅讨论推理。为什么业界曾低估了推理网络的复杂性？

Karam： 大概一年半前，很多顶尖的技术人员都自信地认为，推理在网络层面不是问题，因为训练才是流量消耗的主力，推理无非是把请求发给一个节点处理而已。

但今天回头来看，推理恰恰是最复杂、最值得深入挖掘的场景。

随着推理模型和强化学习的演进，游戏的规则已经变了。分布式推理带来了截然不同的流量模式和运营需求。现在，一个用户查询可能会“扇出”触发大量智能体协作，单个请求需要穿越前端网络、后端网络、存储系统、KV缓存传输等多个环节。

而网络，正处于所有这些操作的十字路口。

推理集群的扩展瓶颈

问：推理集群在扩展时，通常哪个部分会最先遇到瓶颈？

Karam： 这完全取决于具体的推理工作负载。有些很简单，一问一答。但许多分布式推理场景对内存的需求极大，存储系统会成为瓶颈，计算节点的内存也会成为瓶颈。这催生了一些新架构，比如将预填充阶段与解码阶段分离，并在其间迁移KV缓存。

在整个处理周期中，不同部分在不同时间点都可能成为短板。而唯一向穿始终、连接所有组件的，就是网络。它在系统的每个环节都扮演着关键角色。

“嘈杂邻居”与用户体验

问：您提到了推理集群中的“嘈杂邻居”问题，这在实际运营中是什么样子的？

Karam： 想象一下，一个分布式推理集群同时服务数千名用户。其中一位用户问了一个简单问题，而另一位则提出了一个极其复杂的问题，后者会触发大量智能体，产生海量网络流量。这种突发性的复杂工作负载会造成网络拥塞，进而影响所有其他用户的响应延迟。这就是“嘈杂邻居”。

网络必须平稳、高效地管理所有这些混合流量，确保一个“高需求用户”不会对其他用户造成灾难性的影响。你自己使用某些AI服务时可能也遇到过——回复生成到一半突然卡住了。本质上，是因为模型在底层所有分布式操作完成之前，无法生成下一个Token。

这从根本上是一个分布式系统协调问题，而网络正是解决它的核心。

网络与AI经济性

问：您认为网络直接影响AI经济性，运营商们认同这一点吗？

Karam： 在推理业务中，每Token成本就是生命线。所有AI工厂和新兴云服务商都在同台竞技。如果我能将每Token成本做到比竞争对手更低，我就获得了结构性的优势。

这让我在定价、商业模式和服务交付上拥有更大的灵活性。因此，越来越多的运营商开始围绕Token经济性进行优化，而不再仅仅追求把集群规模做到最大。

深度网络：从规则到自动驾驶

问：您将深度网络类比为自动驾驶系统，这个类比从何而来？

Karam： 因为传统的网络架构本质上是基于规则的。这就像十年前的自动驾驶软件，只能在高度受限的环境中运行，因为工程师需要手动编写所有规则。

网络世界过去也是如此。你可以为预设场景构建自动化，但环境一旦变化，系统就捉襟见肘。

而AI基础设施的演进速度太快了——模型在变、流量模式在变、集群架构在变、推理工作负载在变。你需要的是一个能够动态自适应的系统。这正是我们认为概率性系统和AI驱动优化变得至关重要的原因。

平台的自主化之路

问：目前平台的自主化程度如何？

Karam： 我们采取的是相对保守的策略，因为网络的可靠性高于一切。首要任务是保证网络不中断。

对于一些操作，比如链路中断时的流量重路由，我们已经实现了完全自动化。但在更复杂的场景下——例如某个光模块性能正在逐渐退化——我们会让运营商深度参与。系统会提出修复策略、展示全面的遥测数据，并与运营商协同完成操作。

随着时间的推移，系统的自主性会逐步提高。但我们相信，信任是需要逐步建立的。运营商需要对系统的运作有充分的透明度，并对它的决策建立起信心。

建立对“自动驾驶网络”的信任

问：当系统实时做出网络决策时，运营商如何建立并维持对它的信任？

Karam： 关键在于让运营商深度参与。他们需要拥有对遥测数据的完全可见性，需要理解系统为何做出某个决策，并且能够将自己的专业知识和运营偏好注入到平台中。

随着时间的推移，当他们亲眼看到系统持续、稳定、有效地运作，信任自然会建立起来。这个过程与自动驾驶软件的演进如出一辙：早期充满怀疑，如今在特定场景下，很多人对自动驾驶系统的信任度甚至超过了人类司机。网络领域也将经历同样的演化历程。

以太网的胜利

问：业界是否已经达成共识，认为以太网赢得了AI网络市场？

Karam： 在横向扩展网络领域，以太网显然已经胜出。InfiniBand在某些特定场景中仍有其位置，但值得注意的是，就连英伟达现在也在大力推动以太网方案。

我在网络行业工作了三十年，常说的是：永远不要和以太网对赌。它无处不在，拥有深厚的运营知识沉淀、庞大的生态系统和强大的规模经济效应。归根结底，网络技术的差异化主要体现在延迟和吞吐量上，而以太网在这两方面都能提供极具竞争力的表现。

可以预见的是，以太网将继续“吞噬”AI集群的网络市场，就像它在过去几十年里在其他领域所做的那样。

未来三年的关键指标

问：展望三年后，AI基础设施运营商最关注的指标会是什么？

Karam： 这个行业变化太快，我对做出具体的预测持谨慎态度。甚至一年前的许多判断，今天看来都已过时。

但有一点我非常确信：网络的重要性只会与日俱增。AI工厂正在演变为日益复杂、动态、分布式且专用性降低的系统。网络，就是连接所有这些系统的“结缔组织”。

无论未来的模型、工作负载或架构如何演变，对更智能、更自适应网络的需求，只会越来越强烈。

问答摘要

Q1：Aria Networks的深度网络（Deep Networking）技术具体是如何工作的？

深度网络是其核心差异化技术，采用多层架构。底层以微秒级分辨率从ASIC开始，采集全栈（交换机、线缆、主机、NCCL/RCCL层）数千个参数的遥测数据。随后系统处理信号、提取洞察并采取行动，响应策略因层级而异：ASIC层追求极速响应，集群层引入推理判断，顶层则结合LLM与智能体，实现人网协同。

Q2：为什么分布式推理对网络的要求比训练更复杂？

早期观点认为推理网络负载轻。但分布式推理的兴起改变了格局，单个查询会触发多个智能体协作，流量需穿越前后端网络、存储、KV缓存等多个环节，模式复杂且动态。“嘈杂邻居”问题凸显，即一个复杂查询的突发流量可能影响集群内所有其他任务，这本质是分布式系统挑战，使网络成为解决方案的核心。

Q3：以太网能否真正满足大规模AI集群的网络需求？

答案是肯定的。在横向扩展网络领域，以太网已占据明显优势，其生态系统、运营经验和规模经济效应无可比拟。即使在延迟和吞吐量等关键性能指标上，以太网也已具备强大竞争力。趋势表明，以太网将继续主导AI集群网络市场。

来源:https://ai.zhiding.cn/2026/0514/3187004.shtml

上一篇：英伟达MIT华人团队开源技术大幅降低大模型推理内存消耗

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

洛克王国星之路位置与前往方法详解

洛克王国龙须小径位置与前往路线详解

洛克王国家园解锁方法详细步骤指南

洛克王国水晶神殿进入方法及问题解决

洛克王国吹笛子动作使用教程

我的世界基岩版自定义NPC制作与召唤指令教程

洛克王国雷电迷踪活动地图位置详解

光与影远征队布料获取与衣物制作材料教程

洛克王国钓鱼馆位置与前往路线详解

像素火影网页版正版免费入口官方在线畅玩地址

小米汽车推出寻天子品牌增程车型将改变家用车市场格局

博德之门3轻语武器获取方法全攻略

梦幻魔法公主游戏金币速刷攻略与赚钱技巧详解

王者荣耀世界东方曜技能连招与出装铭文搭配指南

东吴水军训练营招募指南帅哥美女如何加入江东水师

生存33天宠物搭配指南与选择技巧详解

异环聆谕水晶获取方法与使用技巧详解

全球固态电池融资活跃去年至今五十七笔四十六家企业获投资

英雄联盟愚人节活动更新内容与玩法全解析

携程裁员30%传闻官方回应称系正常人才盘点

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

Aria Networks CEO解读推理技术如何改变AI网络格局

构建“会思考的网络”

从网络指标到AI经济指标

推理：被低估的复杂性

推理集群的扩展瓶颈

“嘈杂邻居”与用户体验

网络与AI经济性

深度网络：从规则到自动驾驶

平台的自主化之路

建立对“自动驾驶网络”的信任

以太网的胜利

未来三年的关键指标

问答摘要

Aria Networks CEO解读推理技术如何改变AI网络格局

英伟达MIT华人团队开源技术大幅降低大模型推理内存消耗

DeepSeek专家模式文件上传功能暂停使用说明

台积电AI芯片三层蛋糕理论光互连与COUPE技术解析

SK海力士市值逼近万亿 AI浪潮助推韩国半导体崛起