当前位置: 首页
AI
阿里云多模态交互套件上线,赋能AI眼镜与机器人实现“听懂看懂”

阿里云多模态交互套件上线,赋能AI眼镜与机器人实现“听懂看懂”

热心网友 时间:2026-01-08
转载


智东西
作者     许丽思
编辑     漠影

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

智东西1月8日报道,在今天的阿里云通义智能硬件展上,阿里云发布了全新的多模态交互开发套件。这套工具集成了千问、万相、百聆三大通义基础大模型,并预置了十余款涵盖生活休闲、工作效率等领域的智能体和MCP工具。

这款多模态交互开发套件不仅具备“听觉”和“视觉”能力,更能进行复杂“思考”并与物理世界互动。它可广泛应用于AI眼镜、学习机、陪伴玩具、智能机器人等多种硬件设备。

一、适配超30款主流架构终端芯片平台,预置10余款MCP工具与智能体

在芯片层面,阿里云多模态交互开发套件已经能够完美兼容超过30款主流的ARM、RISC-V和MIPS架构终端芯片平台,能够满足市面上绝大多数硬件设备的快速接入需求。未来,通义大模型还将与玄铁RISC-V实现软硬件全链路的协同优化,从而在RISC-V架构上实现通义大模型家族的高效部署和卓越推理性能。

在模型优化层面,除了通义模型家族自身的优势外,阿里云还针对大量多模态交互场景进行了深度分析,推出了专门适配AI硬件交互的专属模型。该模型全面支持全双工语音、视频、图文等多种交互方式,端到端语音交互时延可降低至1秒以内,视频交互时延则低至1.5秒。

此外,该套件预置了十余款成熟的MCP工具和智能体,覆盖生活、工作、娱乐、教育等多个场景。例如,基于预置的出行规划智能体,用户可以直接调用路线规划、旅行攻略、吃喝玩乐探索等多种实用功能。

该套件还接入了阿里云百炼平台的丰富生态,用户不仅可以添加其他开发者提供的MCP和智能体模版,还能通过A2A协议兼容第三方智能体,极大地拓展了应用的边界和能力,帮助企业灵活地搭建各类业务场景与智能解决方案。

二、具身智能企业亮相,阿里云与乐聚机器人达成全栈AI合作

与此同时,阿里云此次还展示了面向智能穿戴设备、陪伴机器人、具身智能等领域的一系列前沿解决方案。

以AI眼镜领域为例,基于千问VL、百聆CosyVoice等模型能力,阿里云打造了涵盖感知层、规划层、执行层以及长期记忆的完整交互链路。这能够一站式实现同声传译、拍照翻译、多模态备忘录、录音转写等功能,有效解决了用户体验中交互不自然、回答准确率不高等痛点。

而针对家庭陪伴机器人场景,基于千问模型和多模态交互套件,阿里云推出的解决方案不仅可以实时监测异常状况并及时推送告警信息,还允许用户通过关键词查找、定位视频等方式,与机器人进行自然对话和设备控制等深度交互。

展会现场,多家具身智能厂商集中亮相,包括魔法原子、灵心巧手、跨维智能、原力无限等公司的多款人形机器人、四足机器人及灵巧手产品。现场的人形机器人不仅能弹钢琴、制作拉花咖啡,还吸引了大量观众互动,人气十分火爆。

另外,阿里云还宣布与乐聚机器人建立全栈AI战略合作。双方将基于阿里云的强大算力、AI平台及千问模型,共同开展人形机器人训练场景的合作,并积极探索基于千问的具身智能联合解决方案及人形机器人相关产品的开发。

目前,乐聚新版的展厅机器人已率先接入千问大模型。接入后,机器人在语音交互、知识问答、实时对话等场景下,响应速度明显加快,回答内容更加精准,互动体验也更为自然流畅。

结语:推动AI硬件告别“单感官”时代

如今的大模型已开始具备理解、感知以及与物理世界交互的初步能力,越来越多的硬件和终端设备厂商开始通过接入大模型来提升用户体验。然而,单纯依赖基础大模型仍难以同时满足硬件设备对低成本、低时延、功能丰富和高质量效果的多重诉求。

阿里云多模态交互开发套件的推出,集成了千问、万相、百聆三款通义基础大模型,使硬件厂商和开发者能够通过这套工具快速为产品赋予高阶智能。这不仅标志着AI硬件正式告别了“单感官”交互的初级时代,更极大缩短了开发周期,显著降低了开发成本。基于阿里云这一创新开发套件,未来的AI硬件有望涌现出更多突破性的创新解决方案。

来源:https://www.163.com/dy/article/KIPEAJNP051180F7.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
我把 Anthropic 的 Harness 工程思想做成了一个 Skill

我把 Anthropic 的 Harness 工程思想做成了一个 Skill

用AI写代码,难在哪儿? 用AI生成代码本身并不难,真正的挑战在于让它稳定地交付一个真正可用的东西。这篇文章,我们就来聊聊Anthropic工程团队是如何破解这个难题的,以及我如何将这套方法论落地成了一个可以复用的实战工具。 用 AI 写代码有多难?不是写不出来难,是让它稳定交付可用的东西很难。这篇

时间:2026-04-06 16:53
沃尔玛、塔吉特等美国零售巨头拥抱 AI,明确用户需为购物助手出错担责

沃尔玛、塔吉特等美国零售巨头拥抱 AI,明确用户需为购物助手出错担责

美国零售巨头拥抱AI新玩法:功能归我,风险归你? 最近有件事挺有意思,美国那边的大型零售商们,正铆足了劲把AI往购物流程里塞。但你猜怎么着?一旦AI捅了娄子,买单的却很可能变成了消费者自己。 这不,就在当地时间4月5号,外媒Futurism的一篇报道就点破了这个现象。企业们一边热火朝天地推广AI功能

时间:2026-04-06 13:52
小米物流大件“当日达”服务上线 50 城

小米物流大件“当日达”服务上线 50 城

小米物流大家电“当日达”实现全国50城覆盖,上午11点前下单最快当日送达 对于大家电配送时效长的普遍困扰,小米物流带来了全新的解决方案。最新消息显示,小米旗下大件商品的“当日达”服务范围已成功拓展至全国50座重点城市。除了北京、上海、广州、深圳、杭州、成都等一线与新一线核心城市外,此次升级还囊括了天

时间:2026-04-06 11:57
为什么现在很多人觉得 OpenClaw 不好用

为什么现在很多人觉得 OpenClaw 不好用

当前开源版本的定位 你得明白,当前的开源版本,本质上更偏向于一个**开发者工具链**,而非一个即开即用的完整产品。它的核心组件非常明确: 一个基于 Node js 的运行环境 (runtime) 一个网关 (gateway) 插件与技能 (plugins skills) JSON 配置文件 命令

时间:2026-04-06 11:02
WorkBuddy工具

WorkBuddy工具

好的,我已准备好作为您专属的 SEO 内容优化专家开始工作。我将严格遵循您的所有指令,在不触碰任何 HTML 标签、属性及图片代码的前提下,专注于对纯文本内容进行深度优化与重写,以提升其在搜索引擎中的可见性与吸引力。 我的核心工作流程是:首先,我会精准解析您提供的原始文章,确保核心事实与信息结构毫发

时间:2026-04-06 08:34
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程