当前位置: 首页
科技数码
阿里千问3.5-Omni全模态大模型详解与应用前瞻

阿里千问3.5-Omni全模态大模型详解与应用前瞻

热心网友 时间:2026-03-31
转载

IT之家 3 月 30 日消息,阿里千问今晚发布全模态大模型 Qwen3.5-Omni。

IT之家附核心亮点如下:

无缝理解文本、图片、音频及音视频输入,支持细粒度、带时间戳的音视频 Caption 生成;215 项 SOTA 霸榜,在音频及音视频分析、推理、对话、翻译等任务超过 Gemini3.1-Pro;自然涌现的 Audio-Visual Vibe Coding 能力;支持语义打断、音色克隆及语音控制,让对话体验更自然;支持 256K 超长上下文与 113 种语言识别,可处理 10 小时音频或 1 小时视频。原生支持 WebSearch 和复杂 Function Call,不仅能聊天,更能帮你做事。

视频创作与剪辑

上传一段视频,Qwen3.5-Omni-Plus 能够遵循指令生成细粒度,结构化,带时间戳的准确 Caption:画面里是谁、说了什么话、背景音乐从哪一秒开始变化、镜头切了几次、每一帧发生了什么...... 还能帮你判断这段视频有没有敏感内容,将长视频变成可搜索的结构化笔记。

根据音视频指令,生成网页内容

根据你的要求,Qwen3.5-Omni 能直接生成可运行的代码。这也是本次我们最惊喜的发现:未进行专门训练,模型自然涌现出了 Vibe Coding 能力。它可以根据画面逻辑生成 Python 代码或前端原型…… 让创意验证从“看”到“做”只需一步。

更像真人的实时对话

和 Qwen3.5-Omni 聊天,更像是在跟真人交流。它懂得倾听的分寸:咳嗽声或随口附和不会让它误停下来,但你的真正插话它能瞬间接住。你还能指令它“小声点”、“用开心的语气”,像人一样自由控制声音的大小、语速与情绪,让对话体验更自然。

专属音色克隆

上传一段你的录音,就能定制专属的 AI Assistant 音色。克隆后的声音自然度高、稳定性强,支持多种语言生成。你可以打造一个“数字分身”式助手,让它用你的声音去沟通、去陪伴,让交互更具个性化。

智能任务执行

不止是聊天,Qwen3.5-Omni 还能帮你办事。询问“明天北京天气如何,推荐一家酒店”,它能自主判断是否需要联网搜索,调用工具查询实时信息并给出完整建议…… 原生支持 WebSearch 和复杂工具调用,让模型真正成为你的执行助手。

相比上一代,Qwen3.5-Omni 在长上下文、多语言、音视频理解能力上都有明显提升,同时新增了语义打断、音色克隆、语音控制等实时交互能力,让对话体验更接近真人。配合 ARIA 技术,语音输出的稳定性和自然度也进一步改善。


Qwen3.5-Omni-Plus 在音频 / 音视频的理解、推理和交互任务上,共取得 215 项 SOTA 成绩,涵盖音视频、音频、语音识别、语音翻译等多个方向。

其中,通用音频理解、推理、识别、翻译、对话全面超越 Gemini-3.1 Pro,音视频理解能力总体达到 Gemini-3.1 Pro 水平。同时,视觉和文本能力与同尺寸 Qwen3.5 模型持平。


▲ Audio-Visual(音视频)


Audio(音频理解)


▲ Text(文本能力)


Speech Generation(语音生成)

用户可以通过阿里云百炼搜索 Qwen3.5-Omni 调用 API,提供了 Plus、Flash、Light 三种尺寸,满足不同场景需求。

来源:https://www.163.com/dy/article/KPA64SVU0511B8LM.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
中芯国际封装技术最新布局与战略部署解析

中芯国际封装技术最新布局与战略部署解析

5月15日,中芯国际在业绩说明会上披露了一项关键战略布局:公司自2015年起便已前瞻性地投入封装技术研发,尤其在先进封装领域进行了长期积累。经过数年的快速发展,其战略路径已非常明确——专注于为自身晶圆制造客户提供所需的关键前端封装技术支持。基于这一战略,中芯国际在过去十年间持续深耕3D CIS(CM

时间:2026-05-20 07:32
阿里巴巴推出AI工业知识考试系统确保回答准确性

阿里巴巴推出AI工业知识考试系统确保回答准确性

最近,工业AI领域有一项研究值得关注。这项由阿里巴巴集团淘宝天猫多模态与工业AI团队主导的工作,已于2026年5月正式发布,论文编号为arXiv:2605 10267v2。其核心成果,是一套名为IndustryBench的专业测试系统。 不妨设想这样一个场景:你是一家工厂的采购经理,正考虑用AI来核

时间:2026-05-20 07:32
腾讯北大联合研发强化学习新方法提升机器人全局决策能力

腾讯北大联合研发强化学习新方法提升机器人全局决策能力

强化学习是一种让智能体通过与环境交互、从试错中学习最优决策策略的人工智能技术。其核心机制类似于训练宠物:做出正确行为给予奖励,错误行为则没有。智能体在模拟或真实环境中不断尝试,根据反馈调整策略,最终找到获得最高累积回报的行动序列。然而,传统强化学习的样本效率低下是公认的难题——智能体往往需要数百万甚

时间:2026-05-20 07:31
香港中文大学研发频谱守护者优化器提升AI训练稳定性

香港中文大学研发频谱守护者优化器提升AI训练稳定性

训练大型语言模型,如同在云端构建一座持续生长的知识大厦。随着模型层数不断增加,任何微小的参数偏差都可能被逐层放大,最终导致训练过程失控。如何确保这座大厦在建造过程中始终保持结构稳定,一直是困扰研究人员的核心挑战。 近期,一项由香港中文大学、马克斯·普朗克智能系统研究所和西湖大学联合发布的技术报告,带

时间:2026-05-20 07:31
豆包服务中断原因与恢复时间详解

豆包服务中断原因与恢复时间详解

5月19日晚间,“豆包崩了”这一话题迅速冲上各大社交平台热搜榜首,引发广泛关注。众多用户反映,豆包AI服务突然出现中断,导致正在进行的在线学习、文案创作、代码编程等工作被迫暂停,一时间用户反馈激增。 事实上,这并非豆包首次出现服务异常问题。回顾今年1月28日,豆包就曾发生过一次影响范围较大的区域性服

时间:2026-05-20 07:31
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程