瑞萨电子联手Syntiant开发语音控制多模态AI方案
说实话,这套方案有点意思——在物联网和边缘计算领域,瑞萨与Syntiant联手打造了一套全新的语音控制多模态AI方案,让嵌入式视觉AI系统能以极低功耗实现非接触式操作。自助收银机、安防摄像头、视频会议系统,乃至扫地机器人这类智能家电,都能从中受益。 2021年7月28日,日本东京与美国加州尔湾同步发
说实话,这套方案有点意思——在物联网和边缘计算领域,瑞萨与Syntiant联手打造了一套全新的语音控制多模态AI方案,让嵌入式视觉AI系统能以极低功耗实现非接触式操作。自助收银机、安防摄像头、视频会议系统,乃至扫地机器人这类智能家电,都能从中受益。
2021年7月28日,日本东京与美国加州尔湾同步发布消息——瑞萨电子与Syntiant共同宣布,推出了一款基于语音控制的多模态AI解决方案。该方案的核心思路很明确:在视觉AI系统上叠加低功耗语音交互,从而实现更便捷、更安全的非接触式操作。

具体来说,这套方案将瑞萨的RZ/V系列视觉AI微处理器(MPU)与Syntiant的低功耗多模态NDP120神经决策处理器深度融合。后者具备常开功能,能从待机状态快速响应语音唤醒,进而启动物体识别、面部识别等视觉任务——这也是安防摄像头等系统的关键需求。举个例子:当用户自定义的语音指令激活系统后,视觉AI会锁定并跟踪操作员的行为,既可以控制设备运行,也可以在检测到异常时发出警报。
多模态架构的妙处在于,它为视觉AI系统搭建了一条通往非接触式用户体验的捷径。由于语音识别功能可以独立于视觉AI进行开发,开发者只需为语音部分配备专用芯片,就能大幅降低待机功耗,同时加快整体系统的开发进度。
瑞萨电子高级副总裁、物联网及基础设施事业本部SoC事业部部长新田启人判断:“多模态系统——也就是同时利用图像和语音多重信息流的方案——需求将快速增长。瑞萨在低功耗图像AI方面有积累,Syntiant在语音AI上也是好手,两家合作能加速智能语音AI在嵌入式系统落地,为全球客户带来更全面的解决方案。”
另一边,Syntiant CEO Kurt Busch也对市场前景乐观:“语音用户界面正在重新定义用户体验,把下一代创新从概念变为现实。我们的NDP深度学习芯片全球出货已超过1500万片,帮助大量消费和工业物联网应用实现了常开语音功能。这次与瑞萨联手打造的方案,在低功耗语音和图像方面都很有竞争力,相信会推动更多设备走向智能化。”
从技术细节看,瑞萨RZ/V系列MPU集成了独有的DRP-AI翻跟斗,实现了高精度AI推理与业界领先能效的结合。由于能效极高,设备无需加装散热片或冷却风扇,从而降低BOM成本,让视觉AI更易集成到广泛的嵌入式应用中。
Syntiant NDP120则集成了高精度免提语音所需的全部AI能力:演讲人识别、关键词检测、多唤醒词、本地命令识别等。其Syntiant Core 2神经网络推理引擎支持同时运行多个应用程序,功耗却低至1mW电池功率,堪称常开语音的标杆。
这套全新的语音控制多模态AI解决方案已被纳入瑞萨的“成功产品组合”——即从瑞萨广泛的产品线中挑选相互兼容的器件,构建更高阶的原型设计平台,帮助客户加速上市并降低风险。当然,“成功产品组合”还包括优秀的模拟、电源和嵌入式处理件,整体思路就是让设计更省心。
供货信息
全新多模态AI解决方案的参考设计现已推出,配套资料包括电路图和BOM清单。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:瑞萨电子联手Syntiant开发语音控制多模态AI方案要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点在MacM系列芯片上使用Codex插件出现卡顿,主要源于默认运行模式未适配AppleSilicon架构。首先需确认VSCode是否通过Rosetta转译运行,并强制其以ARM64原生模式启动。随后配置专为ARM64优化的Python虚拟环境,安装支持MPS加速的PyTorch,并在插件中切换解释器。同时调整HuggingFace参数,启用CoreML、强制使
启用DevMode后,通过删除线检查CSS兼容性,以px hex格式提取跨平台代码,并在Properties页签验证变量映射,避免硬编码“幽灵值”,从而确保开发交付的准确性和一致性。
在ComfyUI中使用IPAdapter时,提示词需与参考图形成语义锚定,明确主体身份、风格强化短语及权重标记。多图混合可采用单节点统一加权或多节点并行,权重之和不宜超1 8。避免引导词和抽象描述,改用具体特征如发型、眉形,且侧脸需标明朝向。
Genspark通过识别起因类型,将事件经过按主体动作、即时反馈、跨域扩散三层动态建模,并支持追问补全因果关系,最终输出带来源锚点和置信度标签的交互式因果图谱,便于直观掌握事件演变脉络。
- 日榜
- 周榜
- 月榜
热点快看
