面包屑图标 当前位置: 首页
AI资讯
热点详情

边缘推断应用程序处理数据流的关键原因

AI热点日报
AI热点日报时间:2026-07-01
热点解读

推理翻跟斗最初是为数据中心打造的,但如今已经迅速渗透到自动驾驶、医学成像等边缘推理场景。然而,客户们很快发现一个尴尬的事实:同样一款翻跟斗,在数据中心处理图像时行云流水,一到边缘推理就变得力不从心。原因其实很简单——数据中心处理的是数据池,而边缘处理的是数据流。一个是堆量处理,一个是实时响应,两者的

推理翻跟斗最初是为数据中心打造的,但如今已经迅速渗透到自动驾驶、医学成像等边缘推理场景。然而,客户们很快发现一个尴尬的事实:同样一款翻跟斗,在数据中心处理图像时行云流水,一到边缘推理就变得力不从心。原因其实很简单——数据中心处理的是数据池,而边缘处理的是数据流。一个是堆量处理,一个是实时响应,两者的底层逻辑完全不同。

边缘推断应用程序需要为什么处理数据流?

当batch=1时,池子里待处理的样本堆得老高。在数据中心,客户面对的是成批的数据,比如待标注的照片。目标很明确:用最少的资源、最低的功耗、最优的延迟,处理尽可能多的照片。但边缘侧的场景截然不同——它面对的是源源不断的数据流。普通相机每秒30帧,每帧大约200万像素。每幅图像只有33毫秒的时间窗口,每秒30帧的节奏几乎不允许你停下来批量处理。图像怎么处理,完全取决于它要做什么。

举个例子:用推理做零售分析的商店,可能只是想统计某个时间段内排队的人数。这种情况下,他们根本不关心几分钟甚至几小时前的结果。但如果你开着一辆自动驾驶汽车,你只有几毫秒的时间处理图像,否则就可能撞到人。两个场景都是相机每33毫秒生成一帧图像,可对推理翻跟斗的要求天差地别。

来看看数据流的实际流程:首先,你需要清理图像——比如去除光线条纹之类的噪声,然后才能开始推理。推理完成后,还得根据当前活动执行一个动作,所有这些必须在规定时间内完成。如果对结果没有实时要求,你可以对图像做批处理,此时延迟无关紧要,关键是在最低成本和能耗下处理最多图像。

最常见的一个错误就是:选择边缘推理解决方案时,完全忽略延迟和流媒体吞吐量。假如你有两台翻跟斗,一台每秒30帧,另一台每秒15帧。大多数人本能地认为每秒30帧的方案更好——其实这个直觉会坑人。

每秒30帧的翻跟斗可能通过三个引擎达到可观的吞吐量,但每个引擎的延迟不同。最典型的例子是英伟达Xa vier推理翻跟斗:它的深度学习引擎处理一张图像需要约300毫秒,GPU则需要约90毫秒。如果同时运行两个深度学习引擎加GPU,在数据池模式下确实能获得不错的吞吐量。但一旦切换到数据流模式——一次只处理一张图像——深度学习引擎就基本废了,吞吐量直线下降。这时你需要看延迟最小的执行单元:GPU延迟90毫秒,1000毫秒除以90,实际每秒只能处理约10帧,远非宣传的30帧。

有团队实测了一台Xa vier AGX,配置为NX模式(软件会监测芯片功耗,超过15W时自动降频防止过热)。他们通过Nvidia Xa vier NX软件流跑了三个模型(YOLOv3加上两个客户模型),测量每张图像的延迟。同时,他们也用自己的InferX X1性能评估器跑了一遍相同的模型。显然,NV不会发布第三方客户模型的基准测试,但YOLOv3在Xa vier AGX上的数据是公开的——注意是AGX而非NX,而且他们发布的是GPU加两个DL翻跟斗综合吞吐量。当batch=1时,GPU的延迟还算可接受。

不同的领域对应不同的处理器

关注自动驾驶、航空航天等场景的客户,面对的是数据流,所以他们只关心流吞吐量。即使有闲置的执行单元,他们也无法利用运行较慢的单元,因为必须在下一帧到来之前处理完当前帧。跟不上图像流就意味着要存储越来越多的数据——对自动驾驶而言,延迟会带来灾难性后果。

总结一下:如果你在研究推理翻跟斗,一定要搞清楚它是为什么优化设计的。今年推出的大多数推理翻跟斗都是针对ResNet-50优化的,而这个基准其实很糟糕,因为它只用224×224的小图像。像自动驾驶这类应用,通常需要处理200万像素、1440×1440级别的图像。对于这些场景,YOLOv3是更好的基准测试。

另外,市场已经开始出现与ResNet-50和YOLOv3截然不同的新模型。生物医学工程、医学成像等领域,传感器类型不同,目标检测方式也不同,神经网络的使用方式千差万别。在YOLOv3上表现优异的翻跟斗,在这些新模型上可能更胜一筹。

简单介绍一下YOLOv3:它是YOLO(You Only Look Once)系列目标检测算法的第三版,相比前代,尤其在小目标检测上精度显著提升。下面看看算法的关键改进。

YOLOv3算法

训练时,每幅输入图像会预测三个不同大小的3D tensor,对应三个不同的尺度,目的是检测不同大小的物体。以13×13的tensor为例:原始图像被分割成13×13的grid cell,每个grid cell对应3D tensor中一个1×1×255的voxel。255来自(3×(4+1+80))——分别代表bounding box坐标、物体识别度(objectness score)和每个类别的置信度(具体见上图)。

如果训练集中某个ground truth的bounding box中心恰好落在某个grid cell内(如图中红色grid cell),那么这个grid cell就负责预测该物体的bounding box,其objectness score设为1,其余为0。每个grid cell还配有3个不同大小的prior box。学习过程中,grid cell会逐渐学会选择哪个大小的prior box,并对其进行微调(offset/coordinate)。那么grid cell如何知道选哪个prior box?作者定义的规则是:只选与ground truth bounding box的IOU重合度最高的那个prior box。

前面提到的三个不同大小的prior box是怎么来的?作者在训练前,对COCO数据集中的所有bbox使用K-means clustering分成9个类别,每3个对应一个尺度,共3个尺度。这些box大小的先验信息极大地帮助网络准确预测每个box的offset/coordinate——直观上,大小合适的box能让网络学习更快、更精准。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:边缘推断应用程序处理数据流的关键原因要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://m.elecfans.com/article/1260642.html
芯片

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-02 14:27
Huddlenow Insights 谷歌Meet商业企业视频会议服务全方位深度解析

GoogleMeet是面向商业与企业的视频会议服务,支持屏幕共享、实时字幕及与GoogleWorkspace集成,适用于项目讨论、网络研讨和线上教学等多种会议场景,具备扎实的安全与隐私保护。

AI热点2026-07-02 14:27
一款实用的YouTube视频高亮标注Chrome浏览器扩展插件

Lanter是Chrome扩展,利用AI将YouTube视频语音转为带时间戳的文字笔记,支持一键抓取高光、自动标点排版、书签管理、全局搜索及每日邮件汇总,方便高效回顾视频关键内容。

AI热点2026-07-02 14:27
WhisperNotes智能音频笔记应用

一款AI驱动的Chrome扩展音频笔记应用,支持录音自动转文字、标签分类与全文搜索,将语音转化为可检索的数字资产,显著提升信息定位与管理效率。

AI热点2026-07-02 14:27
Sharpen AI:Chrome扩展秒转Google Meet为笔记邮件任务

专为GoogleMeet设计的AIChrome扩展,实时转录会议内容,自动生成摘要并提取行动项与决策,无缝同步至Google文档、任务及Gmail,省去手动整理时间,显著提升协作效率。

延伸阅读