安富利FPGA加速AI推理的典型成功应用案例分析
FPGA凭借硬件可编程、低功耗及高吞吐特性成为AI推理加速优选。Mipsology开发的Zebra引擎使GPU训练的模型无需修改代码即可在FPGA上运行,实现即插即用。安富利与Mipsology合作,为亚太客户提供全套深度学习推理解决方案,成功应用于智能网络监控平台。
从智能家居到智慧城市,从自动驾驶到视频监控,AI的身影无处不在,背后支撑这一切的,正是深度学习(DL)技术。如今,基于深度学习的AI应用已经渗透到我们生活的方方面面,无论是面向个人消费者的智能设备,还是服务于公共管理的视频监控系统,都离不开它的加持。

聊到AI应用,大家可能都知道,一个完整的AI应用落地,需要经历两个关键环节:训练和推理。所谓“训练”,就是用海量数据去“教”神经网络模型,让它学会如何正确工作,这个过程需要反复迭代,最终得到一个成熟的DL模型。而“推理”,则是利用这个训练好的模型,去实时响应用户的请求,根据新输入的数据做出快速、准确的判断。
通常来说,“训练”这个环节只需要做一次,很多时候甚至可以交给第三方专业团队去搞定,他们有充沛的算力资源。应用开发工程师真正要面对的,是如何将训练好的模型成功部署到具体的硬件平台上,以满足目标场景中推理过程的需求。推理直接面向最终用户,它的准确性和速度直接决定了用户体验的好坏。所以,如何高效地为AI推理加速,自然成了开发者们普遍关心的话题。
AI推理加速,FPGA胜出!
先抛个结论:在AI推理的赛道上,FPGA是当之无愧的王者。我们来盘一盘市面上常见的几种硬件架构:CPU、GPU、FPGA和ASIC。如果把这四类器件排个队,你会发现,从左到右,器件的灵活性和适应性在递减,但处理能力和性能功耗比却在递增。
CPU基于冯·诺依曼架构,灵活性毋庸置疑,但访问存储器的延迟是个硬伤,往往要耗费好几个时钟周期才能完成一个简单任务。面对神经网络这种计算密集型任务,功耗会飚得很高,显然不是做AI推理的理想选择。
GPU拥有强大的数据并行处理能力,在海量数据训练时优势巨大。但推理计算通常是“一对一”的服务,每次只处理一个输入项,GPU的并行计算优势很难发挥出来。再加上它的功耗相对较高,在AI推理方面也排不上最优解。
从高性能和低功耗的角度看,定制的ASIC似乎是完美答案。但它的开发周期长、费用高,对于总是快速演进和迭代的DL和NN算法来说,灵活性严重不足,风险太大,一般人不敢轻易碰。
算来算去,就只剩下FPGA了。这些年,大家对FPGA快速、灵活、高效的特点认识越来越深。它的硬件可编程特性,使其能针对DL和NN处理的需求进行针对性优化,提供充足的算力,同时又保持了足够的灵活性。如今的FPGA异构计算平台,除了可编程逻辑,还集成了多个Arm处理器内核、DSP、片上存储器等资源。DL所需的处理能力可以很好地映射到这些资源上,关键是所有这些资源都能并行工作——每个时钟周期可以触发多达数百万个同时操作,这正是AI推理最理想的土壤。
相比CPU和GPU,FPGA的优势还体现在:
- 不受数据类型限制,可以处理非标准的低精度数据,从而大幅提高数据吞吐量。
- 功耗更低,针对相同的NN计算,FPGA的平均功耗比CPU/GPU低5~10倍。
- 可以通过重新编程来适应不同任务,这种灵活性对于适应持续演进的DL和NN算法至关重要。
- 应用范围广,从云端到边缘端,AI推理工作都能胜任。
总之一句话,在AI推理这场竞赛中,FPGA胜出,毫无悬念。
GPU无缝对接,FPGA即插即用
不过,虽然FPGA看起来“真香”,但很多AI开发者对它还是“敬而远之”。最重要的原因很现实:FPGA上手太难了!
难点主要集中在两个方面:
- 首先,给FPGA编程需要专门的技能和知识,得熟悉特定的硬件编程语言,还得会用一套专用的工具,经历综合、布局、布线等一系列复杂步骤,才能完成设计。这对很多嵌入式工程师来说,完全是另一套陌生的“语言”。
- 其次,很多DL模型是在GPU这类计算架构上训练出来的,当把这些训练好的模型移植、部署到FPGA上时,很可能会遇到需要重新训练或调整参数的问题,这又要求开发者具备专门的AI知识。
怎么才能降低大家在AI推理中使用FPGA的门槛?Mipsology公司带来了一个惊喜——他们开发了一款基于FPGA的深度学习推理引擎Zebra。这个工具可以让开发者在“零努力”的情况下,直接转换在GPU上训练好的模型代码,使其在FPGA上流畅运行,无需改写任何代码,也不用重新训练。
这意味着什么?调整NN参数甚至改变神经网络结构,都不需要强制重新编译FPGA。要知道,重新编译一次FPGA可能需要耗费数小时甚至数天时间。有了Zebra,FPGA对开发者来说几乎是“透明”的——模型训练好后,从CPU或GPU无缝切换到FPGA进行推理,简直不要太方便!
目前,Zebra已经能支持Caffe、Caffe2、MXNet和TensorFlow等主流NN框架。硬件方面,它完美适配Xilinx的系列加速卡,比如Alveo U200、U250和U50。对开发者而言,只要“把FPGA板插入PC,运行一个Linux命令”,FPGA就能立即接替CPU或GPU,无缝进行推理计算,在更低功耗下将速度提升一个数量级。这种体验,真的就是即插即用。
图1,Zebra可适应由GPU翻跟斗训练的NN,并无缝地在FPGA上部署
强强联手,全生态支持
好消息是,为了加速更多AI应用落地,安富利亚洲和Mipsology达成了合作协议,将向亚太区客户推广和销售Zebra这款独特的FPGA深度学习推理加速软件。
这对双方来说无疑是双赢:对Mipsology,Zebra能更快覆盖和惠及更多开发者;对安富利,这步棋也进一步扩展了其强大的物联网生态系统,为客户带来更大价值——为希望部署DL的客户提供一整套服务,包括硬件、软件、系统集成、应用开发、设计链和专业技术。
安富利推理加速成功应用案例:智能网络监控平台AI Bluebox
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:安富利FPGA加速AI推理的典型成功应用案例分析要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点LucidaAI是一款面向企业的AI英语口语教练,通过实时对话提供发音、语法、词汇和流利度的个性化反馈。采用端到端加密并支持合规定制,定价策略注重普及化,旨在以低成本提升团队英语沟通能力。
Screenshot2Code工具能够从截图中自动识别代码,并将其转换为可直接运行的代码。支持Python、HTML及API接口信息提取,帮助开发者快速复用他人分享的代码片段,从而显著提升工作效率。这个工具极大简化了代码复用过程。
SpeakStruct通过可自定义模板将语音转换为结构化数据,适用于会议记录、客户通话等场景。核心功能包括自定义模板、准确转录和随处捕捉,使口语信息直接转化为可用的数据资产。
IzzyAI是一款AI驱动的语音治疗应用,提供全天候服务。通过智能治疗师头像互动,系统评估并治疗五种常见语音语言障碍,融合语音与面部识别技术给予实时反馈。内置综合评估、个性化练习、进展报告及支持性社区,提升治疗效果。
- 日榜
- 周榜
- 月榜
热点快看
