开源Glow编译器优化神经网络加速边缘计算机器学习
机器学习和深度学习技术的发展速度令人惊叹,但对于那些希望在功耗、处理能力和内存都极为有限的微型边缘设备上部署机器学习应用的开发者而言,这反而带来了全新的难题——如何将模型成功“压缩”进这些小型硬件中,同时确保运行流畅? 令人振奋的是,易用的开源开发工具正让嵌入式平台上的机器学习和深度学习项目不再高不
机器学习和深度学习技术的发展速度令人惊叹,但对于那些希望在功耗、处理能力和内存都极为有限的微型边缘设备上部署机器学习应用的开发者而言,这反而带来了全新的难题——如何将模型成功“压缩”进这些小型硬件中,同时确保运行流畅?

令人振奋的是,易用的开源开发工具正让嵌入式平台上的机器学习和深度学习项目不再高不可攀。接下来,我们将深入探讨其中的关键技术与方法论。
边缘智能:从云端向本地的迁移
物联网已将数十亿台设备融入我们的日常生活——家庭、汽车、办公室、医院、工厂、城市,无处不在。早期物联网的设想是,庞大的无线传感器节点将数万亿字节的数据集中传输至云端,由云完成聚合、分析与决策。然而,近年来这一愿景正被一种新的模式所取代:边缘智能。
借助机器学习技术的最新突破,嵌入式开发者正将人工智能的能力推向更接近网络边缘的位置。今天的低功耗物联网设备已能够在本地运行复杂的机器学习和深度学习算法,不再依赖云连接。延迟、性能、安全性和隐私等长期存在的难题也因此得到显著缓解。典型的边缘机器学习应用包括:智能个人助理、工厂机器人、联网汽车中的语音与面部识别、具备AI能力的家庭安防摄像头,以及白色家电和工业设备的预测性维护。
机器学习市场正在快速扩张,智能边缘的应用场景呈现指数级增长。根据TIRIAS Research的数据,到2025年,98%的边缘设备将采用某种形式的机器学习。按照这一预测,届时将有18亿至25亿台设备具备机器学习和深度学习功能。2021年初,随着越来越多的嵌入式开发者能够获取简化机器学习项目所需的低功耗设备、开发框架和软件工具,机器学习和深度学习应用的普及将真正迎来爆发期。
让机器学习开发环境更接地气
直到不久前,机器学习开发环境主要面向那些拥有深厚机器学习和深度学习背景的专家。然而,要大规模加速机器学习应用的开发,必须让机器学习支持变得更易上手,使更多主流嵌入式开发者能够轻松使用。
相较于经典的云端AI系统,机器学习开发仍是一个相对新兴的领域,且有其独特的需求。嵌入式设计中的IC、电源和系统级资源本就捉襟见肘,因此需要全新且与之适配的软件工具。机器学习开发人员还为智能边缘应用设计了一套全新的开发流程,涵盖模型训练、在目标设备上部署推理引擎,以及系统集成的其他环节。
在机器学习模型完成训练、优化与量化之后,下一步便是将模型部署到目标设备(如MCU或应用处理器)上,使其执行推理任务。
在深入探讨之前,有必要仔细审视机器学习应用的新目标设备——跨界微控制器(Crossover MCU)。所谓“跨界”,是指它兼具应用处理器的性能与功能,同时保留了MCU的易用性、低功耗、实时操作、中断响应和低延迟等特性。典型的跨界MCU,例如恩智浦的i.MX RT系列,搭载Arm Cortex-M内核,运行速度在300 MHz到1 GHz之间。这些MCU具备足够的处理能力来支持机器学习推理引擎,无需额外机器学习加速,同时功耗仍能满足边缘应用的苛刻要求。
理想情况下,嵌入式开发者需要一套全面的机器学习开发环境,包括软件工具、应用示例和用户指南,以便在目标设备上部署开源推理引擎。恩智浦的eIQ环境正是这样一个范例,它为Arm NN、ONNX运行引擎、TensorFlow Lite和Glow神经网络编译器提供推理支持。开发者可以遵循简单的“自带模型”流程,先用公共或私有云的工具构建训练好的模型,然后将模型迁移至eIQ环境中,为合适的芯片优化推理引擎。
如今,许多开发者正在或即将在嵌入式项目中运用机器学习和深度学习工具与技术。同样,对于这些开发者中的大多数而言,机器学习必须变得更全面、更易用。全面的支持包括端到端的工作流,让开发者能够导入训练数据、为应用选择最佳模型、训练模型、执行优化与量化、完成目标配置文件,并最终投入生产。
对大多数主流开发者来说,易用性意味着能够访问简化且优化的用户界面,这些界面隐藏了底层细节,并管理着机器学习开发过程的复杂性。理想的用户界面,应让开发者只需勾选几个选项,就能轻松导入训练数据,并将模型部署到目标设备上。
当前,可用的处理平台、框架、工具及其他资源正在不断增加,助力开发者构建和部署机器学习应用与神经网络模型。接下来,我们将研究几种开发工具和框架,看看它们如何帮助开发者简化机器学习开发项目。
用机器学习工具套件简化工作流
Au-Zone Technologies的DeepView ML工具套件,是一个直观的图形用户界面和工作流的绝佳范例。它让从嵌入式设计人员到数据科学家再到机器学习专家的所有技能水平的开发者,都能导入数据集和神经网络模型,然后在各种目标设备上训练和部署这些模型与工作负载。
恩智浦最近增强了其eIQ开发环境,使其包含DeepView工具套件,以帮助开发者简化机器学习项目(图1)。新的eIQ ML工作流工具为开发者提供了高级功能,可在恩智浦器件上进行修剪、量化、验证和部署公共或专有神经网络模型。目标上的图形级概要分析功能,让开发者能够获得运行时洞察,从而优化神经网络模型架构、系统参数和运行时性能。
像Glow编译器这样的机器学习工具,可以简化机器学习和神经网络开发,并增强低功耗MCU的边缘处理性能。GitHub上Glow的现成标准版本与设备无关,让开发者能灵活地为领先的处理器架构编译神经网络模型,包括基于Arm Cortex-A和Cortex-M内核的架构。
为了帮助简化机器学习项目,恩智浦将Glow与eIQ开发环境及其MCUXpresso SDK集成在一起。它将Glow编译器和量化工具组合成易于使用的安装程序,并附带详细文档,以帮助开发者快速运行其模型。这种经过优化的Glow实现,针对Arm Cortex-M内核和Cadence Tensilica HiFi 4 DSP进行了优化,并为i.MX RT系列MCU提供了特定于平台的优化。
恩智浦使用CIFAR-10数据集作为神经网络模型基准,测试了i.MX RT1060 MCU,以评估不同Glow编译器版本之间的性能差异。恩智浦还在i.MX RT685 MCU上进行了测试,这是目前唯一一款具有针对处理神经网络操作符进行了优化的集成DSP的i.MX RT系列设备。
i.MX RT1060包含600 MHz的Arm Cortex-M7、1 MB SRAM,以及针对实时应用优化的功能,如高速GPIO、CAN-FD和同步并行NAND/NOR/PSRAM控制器。i.MX RT685则包含一个600 MHz的Cadence Tensilica HiFi 4 DSP内核、一个300 MHz的Arm Cortex-M33内核、4.5 MB的片上SRAM,以及安全相关功能。
恩智浦的Glow实现与Cadence的神经网络库NNLib紧密结合。虽然RT685 MCU的HiFi 4 DSP内核主要用于增强语音处理能力,但与NNLib库一起用作Glow的LLVM后端时,它也能加速各种神经网络。NNLib与CMSIS-NN类似,但它提供了一组针对HiFi4 DSP优化的更全面的手动调谐运算符。基于相同的CIFAR-10基准示例,与标准的Glow编译器实现相比,HiFi4 DSP将神经网络操作的性能提升了25倍。
使用PyTorch进行基于MCU的机器学习开发
PyTorch是一个开源的机器学习框架,主要由Facebook的AI研究实验室开发,基于Torch库。它已被开发者广泛用于创建机器学习和深度学习项目及产品。PyTorch是MCU目标的不错选择,因为它对处理平台的限制极小,并且能够生成ONNX模型,供Glow编译。
由于开发者可以通过PyTorch直接访问Glow,因此他们可以在同一个开发环境中构建和编译模型,省去中间步骤,简化编译过程。开发者还可以直接从Python脚本生成捆绑包,而无需先生成ONNX模型。
直到最近,ONNX和Caffe2还是Glow支持的唯一输入模型格式。PyTorch现在可以将模型直接导出为ONNX格式供使用。由于很多知名模型是以TensorFlow等其他格式创建的,因此可以使用开源模型转换工具将其转换为ONNX格式。流行的格式转换工具包括MMdnn(微软支持的工具集,帮助用户在不同深度学习框架之间互操作)和tf2onnx(用于将TensorFlow模型转换为ONNX)。
结论
机器学习和深度学习技术仍在飞速演进。与此同时,我们看到能够运行机器学习和深度学习算法、无需云干预即可做出自主决策的物联网及其他边缘设备,正呈现出强劲的市场势头。尽管将信息从云迁移到网络边缘已是不可阻挡的趋势,但随着开发者寻求优化机器学习应用、让它们能在功耗、处理和内存受限的微型边缘设备上运行,挑战也随之而来。
就像建筑师和建筑商需要专门的工具来建造未来的房屋和城市一样,主流开发者也需要优化、易用的软件工具和框架,来简化在嵌入式平台上创建机器学习和深度学习项目的过程。DeepView ML工具套件、Glow ML编译器和PyTorch框架,正是这种正在涌现的开发资源浪潮的缩影——它们将帮助嵌入式开发者打造下一代智能边缘应用。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:开源Glow编译器优化神经网络加速边缘计算机器学习要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点近年来,AI 编程工具的发展势头十分迅猛,从 OpenAI Codex 到 Claude Code,越来越多的开发团队正将代码编写、测试乃至整个开发流程的自动化任务交由 AI 执行。然而,能力越强,不确定性也随之增加——如何有效观测与管理这些 AI Agent 的实时行为,已成为企业面临的重要课题。
在当下的AI技术圈中,一个共识正日益明确:多模态能力——即对图片、音视频、图表等复杂信息的理解——已成为大模型能否真正落地应用的关键“分水岭”。从基础的OCR识别发片,到分析一段监控视频中的关键帧,模型的“视觉”水平直接决定了业务流程能否顺畅运行。最近,我们团队对GPT-5 5、Gemini 1 5
2025年约10%美国成年人遭遇诈骗,累计损失680亿美元,日均1 86亿美元。12%案件借助AI或深度伪造技术,超七成受害者心理健康受损,低收入群体更易中招,多数未报案。
AI4EDU论坛聚焦AI与教育融合,重心从技术转向应用。生成式AI降低知识获取门槛,教育需重新定义学习,重点培养学生批判性思维与创新能力。技术辅助学习但不替代思考,AI通过学情诊断与个性化反馈促进因材施教。
- 日榜
- 周榜
- 月榜
热点快看
