边缘推断应用程序处理数据流的关键原因

AI热点日报时间：2026-07-01

热点解读

推理翻跟斗最初是为数据中心打造的，但如今已经迅速渗透到自动驾驶、医学成像等边缘推理场景。然而，客户们很快发现一个尴尬的事实：同样一款翻跟斗，在数据中心处理图像时行云流水，一到边缘推理就变得力不从心。原因其实很简单——数据中心处理的是数据池，而边缘处理的是数据流。一个是堆量处理，一个是实时响应，两者的

边缘推断应用程序需要为什么处理数据流？

当batch＝1时，池子里待处理的样本堆得老高。在数据中心，客户面对的是成批的数据，比如待标注的照片。目标很明确：用最少的资源、最低的功耗、最优的延迟，处理尽可能多的照片。但边缘侧的场景截然不同——它面对的是源源不断的数据流。普通相机每秒30帧，每帧大约200万像素。每幅图像只有33毫秒的时间窗口，每秒30帧的节奏几乎不允许你停下来批量处理。图像怎么处理，完全取决于它要做什么。

举个例子：用推理做零售分析的商店，可能只是想统计某个时间段内排队的人数。这种情况下，他们根本不关心几分钟甚至几小时前的结果。但如果你开着一辆自动驾驶汽车，你只有几毫秒的时间处理图像，否则就可能撞到人。两个场景都是相机每33毫秒生成一帧图像，可对推理翻跟斗的要求天差地别。

来看看数据流的实际流程：首先，你需要清理图像——比如去除光线条纹之类的噪声，然后才能开始推理。推理完成后，还得根据当前活动执行一个动作，所有这些必须在规定时间内完成。如果对结果没有实时要求，你可以对图像做批处理，此时延迟无关紧要，关键是在最低成本和能耗下处理最多图像。

最常见的一个错误就是：选择边缘推理解决方案时，完全忽略延迟和流媒体吞吐量。假如你有两台翻跟斗，一台每秒30帧，另一台每秒15帧。大多数人本能地认为每秒30帧的方案更好——其实这个直觉会坑人。

每秒30帧的翻跟斗可能通过三个引擎达到可观的吞吐量，但每个引擎的延迟不同。最典型的例子是英伟达Xa vier推理翻跟斗：它的深度学习引擎处理一张图像需要约300毫秒，GPU则需要约90毫秒。如果同时运行两个深度学习引擎加GPU，在数据池模式下确实能获得不错的吞吐量。但一旦切换到数据流模式——一次只处理一张图像——深度学习引擎就基本废了，吞吐量直线下降。这时你需要看延迟最小的执行单元：GPU延迟90毫秒，1000毫秒除以90，实际每秒只能处理约10帧，远非宣传的30帧。

有团队实测了一台Xa vier AGX，配置为NX模式（软件会监测芯片功耗，超过15W时自动降频防止过热）。他们通过Nvidia Xa vier NX软件流跑了三个模型（YOLOv3加上两个客户模型），测量每张图像的延迟。同时，他们也用自己的InferX X1性能评估器跑了一遍相同的模型。显然，NV不会发布第三方客户模型的基准测试，但YOLOv3在Xa vier AGX上的数据是公开的——注意是AGX而非NX，而且他们发布的是GPU加两个DL翻跟斗综合吞吐量。当batch＝1时，GPU的延迟还算可接受。

不同的领域对应不同的处理器

关注自动驾驶、航空航天等场景的客户，面对的是数据流，所以他们只关心流吞吐量。即使有闲置的执行单元，他们也无法利用运行较慢的单元，因为必须在下一帧到来之前处理完当前帧。跟不上图像流就意味着要存储越来越多的数据——对自动驾驶而言，延迟会带来灾难性后果。

总结一下：如果你在研究推理翻跟斗，一定要搞清楚它是为什么优化设计的。今年推出的大多数推理翻跟斗都是针对ResNet-50优化的，而这个基准其实很糟糕，因为它只用224×224的小图像。像自动驾驶这类应用，通常需要处理200万像素、1440×1440级别的图像。对于这些场景，YOLOv3是更好的基准测试。

另外，市场已经开始出现与ResNet-50和YOLOv3截然不同的新模型。生物医学工程、医学成像等领域，传感器类型不同，目标检测方式也不同，神经网络的使用方式千差万别。在YOLOv3上表现优异的翻跟斗，在这些新模型上可能更胜一筹。

简单介绍一下YOLOv3：它是YOLO（You Only Look Once）系列目标检测算法的第三版，相比前代，尤其在小目标检测上精度显著提升。下面看看算法的关键改进。

YOLOv3算法

训练时，每幅输入图像会预测三个不同大小的3D tensor，对应三个不同的尺度，目的是检测不同大小的物体。以13×13的tensor为例：原始图像被分割成13×13的grid cell，每个grid cell对应3D tensor中一个1×1×255的voxel。255来自(3×(4+1+80))——分别代表bounding box坐标、物体识别度（objectness score）和每个类别的置信度（具体见上图）。

如果训练集中某个ground truth的bounding box中心恰好落在某个grid cell内（如图中红色grid cell），那么这个grid cell就负责预测该物体的bounding box，其objectness score设为1，其余为0。每个grid cell还配有3个不同大小的prior box。学习过程中，grid cell会逐渐学会选择哪个大小的prior box，并对其进行微调（offset/coordinate）。那么grid cell如何知道选哪个prior box？作者定义的规则是：只选与ground truth bounding box的IOU重合度最高的那个prior box。

前面提到的三个不同大小的prior box是怎么来的？作者在训练前，对COCO数据集中的所有bbox使用K-means clustering分成9个类别，每3个对应一个尺度，共3个尺度。这些box大小的先验信息极大地帮助网络准确预测每个box的offset/coordinate——直观上，大小合适的box能让网络学习更快、更精准。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：边缘推断应用程序处理数据流的关键原因要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://m.elecfans.com/article/1260642.html

芯片

上一篇：人工智能技术将催生新行业的发展趋势

下一篇：人工智能技术赋能信息基础设施全面智能化

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周Huddlenow Insights 谷歌Meet商业企业视频会议服务全方位深度解析 02 / 本周一款实用的YouTube视频高亮标注Chrome浏览器扩展插件 03 / 本周WhisperNotes智能音频笔记应用 04 / 本周Sharpen AI：Chrome扩展秒转Google Meet为笔记邮件任务 05 / 本周字节将河马爱学并入豆包构筑AI产品全家桶

01 / 本月Huddlenow Insights 谷歌Meet商业企业视频会议服务全方位深度解析 02 / 本月一款实用的YouTube视频高亮标注Chrome浏览器扩展插件 03 / 本月WhisperNotes智能音频笔记应用 04 / 本月Sharpen AI：Chrome扩展秒转Google Meet为笔记邮件任务 05 / 本月字节将河马爱学并入豆包构筑AI产品全家桶

热点快看

07-02 14:27Huddlenow Insights 谷歌Meet商业企业视频会议服务全方位深度解析 07-02 14:27一款实用的YouTube视频高亮标注Chrome浏览器扩展插件 07-02 14:27WhisperNotes智能音频笔记应用 07-02 14:27Sharpen AI：Chrome扩展秒转Google Meet为笔记邮件任务 07-02 14:26字节将河马爱学并入豆包构筑AI产品全家桶

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别