数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

可灵AI五天五连发：解读年终爆发性升级策略

AI热点日报时间：2025-12-11

热点解读

允中发自凹非寺量子位 | 公众号 QbitAI12月伊始，可灵AI接连放出大招。全球首个统一的多模态视频及图片创作工具“可灵O1”、具备“音画同出”能力的可灵2 6模型可灵数字人2 0功能……5

允中发自凹非寺
量子位 | 公众号 QbitAI

12月伊始，可灵AI接连放出大招。

全球首个统一的多模态视频及图片创作工具“可灵O1”、具备“音画同出”能力的可灵2.6模型可灵数字人2.0功能……

5天内5次“上新”，直接让生成式AI领域的竞争“卷”出新高度。

可灵O1，从图片到视频，带来更强的“可控性”

可灵2.0发布的时候，就创新性地提出过一个全新交互理念——Multimodal Visual Language（MVL），让用户能够结合图像参考、视频片段等多模态信息，将脑海中包含身份、外观、风格、场景、动作、表情、运镜在内的多维度复杂创意，直接高效地传达给AI。

基于MVL理念，在最新的一次迭代中，可灵O1将所有生成和编辑任务融合于一个全能引擎之中，为用户搭建全新的多模态创作流，实现从灵感到成品的一站式闭环。

就像a16z投资合伙人Justine Moore在产品发布后第一时间点评的那样：

我们终于迎来了视频界的Nano Banana。

以可灵视频O1模型为例，它打破了传统单一视频生成任务的模型边界，将参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务，融合于同一个全能引擎之中，使得用户无需在多个模型及工具间跳转，即可一站式完成从生成到修改的全部创作流程。

无论是创作者们“头疼”已久的主体一致性难题，还是视频画面的可控性问题，都在这次模型迭代里找到了相对完美的解决方案。

在图片生成这件事上，可灵AI也创新性地完成了迭代。

最新上线的图像O1模型，可以实现从基础图像生成到高阶细节编辑全链路无缝衔接，对用户来说，既可通过纯文本生成图像，也可上传最多10张参考图进行融合再创作。

“音画同出”能力也有了！可灵2.6模型完成里程碑式迭代

众所周知，可灵拥有一大批忠实的“发烧友”。他们既是产品的深度使用者，也能从功能层面提出自己的见解。

O1发布之后，就有不少网友排队“许愿”产品功能，排名靠前的，几乎都在关心可灵什么时候会推出伴随视频画面的语音及音效直出功能。

答案很快就揭晓了。

12月3日夜晚，可灵AI接着“放大招”，正式推出2.6模型

这次更新中，可灵AI上线里程碑式的“音画同出”能力，彻底改变了传统AI视频生成模型“先无声画面、后人工配音”的工作流程。

它能够在单次生成中，输出包含自然语言、动作音效以及环境氛围音的完整视频，重构了AI视频创作工作流，极大提升创作效率。

可灵AI海外超级创作者、AI电影导演Simon Meyer制作的这支宣传片，生动诠释了这次可灵2.6的能力创新之处。

对于创作者来说，输入文本或是输入图片结合提示词文本，均可直接生成带有语音、音效及环境音的视频。

语音部分，可灵目前支持生成中文以及英文，生成视频长度最长支持10秒（据说，更多样的语言体系以及固定声线等功能正在研发中）。

通过对物理世界声音与动态画面的深度语义对齐，可灵2.6模型在音画协同、音频质量和语义理解上表现亮眼。

对“音画同出”能力感兴趣的朋友，可以赶快试试，说不定你会和Simon Meyer一样产生强烈共鸣。

密集更新背后，可灵AI在下一盘怎样的大棋？

除了全新推出的可灵O1及2.6模型这两大重磅更新，可灵还在上周相继推出了数字人2.0、可灵O1主体库&对比模板等功能，从AI内容生成的实际流程出发，带来更加便捷的操作体验。

5天内5次“上新”，功能层面的精进背后，是可灵对于生成式AI技术的极致追求。

比如12月1日推出的视频O1模型，就打破了视频模型在生成、编辑与理解上的功能割裂，构建了全新的生成式底座。

融合多模态理解的Multimodal Transformer和多模态长上下文（Multimodal Long Context），实现了多任务的深度融合与统一。

根据可灵AI团队的内部测评，在“图片参考”任务上，可灵AI对Google Veo 3.1的整体效果胜负比为247%；在“指令变换”任务上，与Runway Aleph对比的整体效果胜负比达到230%

尤为难得的是，作为国产视频生成大模型领域的代表，从2024年6月正式推出以来，可灵AI的每一次迭代几乎都能让业界迎来一次“集体兴奋”。

从早期人们津津乐道的吃面条的案例，到特斯拉创始人马斯克的点赞，再到可灵AI这一波“批量上新”操作，视觉生成技术逐步走向成熟的过程里，可灵AI无疑是那个常常唤起共鸣的关键角色。

△X网友Min Choi发布的文章，对比了不同技术能力之下“威尔·史密

在持续引发讨论的同时，能否推进技术的广泛应用落地，也是生成式AI平台不得不面对的问题。

数据显示，可灵AI目前覆盖的企业用户数超过2万家，涵盖影视制作、广告、创意设计、自媒体、游戏、电商等等诸多领域。

多元的行业客户构成，意味着可灵AI必须持续打破技术应用的上限。

就像这次升级的可灵2.6模型，可以支持包括说话、对话、旁白、唱歌、Rap、环境音效、混合音效等多种声音的单独或混合生成，能够广泛地应用于各行各业的实际创作场景中，极大提升创作效率；

再比如数字人2.0功能的迭代，对于创作者而言，只需要上传角色图，添加配音内容并描述角色表现，就可以得到表现力生动的“自定义数字人”，更令人兴奋的是，视频内容最长可达5分钟

快手高级副总裁、可灵AI事业部负责人兼社区科学线负责人盖坤曾在不同场合表示：

我们的初心，是让每个人都能用AI讲出好的故事，我们也真切地希望这一天更快到来。

在可灵AI年末的这一系列更新中，我们感受到，这一天更近了。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：可灵AI五天五连发：解读年终爆发性升级策略要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.163.com/dy/article/KGE2JSAH0511DSSR.html

可灵引擎音效模态深度思考按钮

上一篇：Mistral AI再开源！Codestral模型及原生CLI，重塑AI开发体验

下一篇：黄仁勋椭圆形办公室预言：州级AI法规或让美国输掉AI竞赛

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周Dzine AI图像设计工具卓越构图与风格控制 02 / 本周Arrival基于云的SaaS解决方案 03 / 本周AI用户访谈：洞察需求加速产品市场匹配 04 / 本周Meshcapade ME AI生成逼真数字人头像平台 05 / 本周司马诸葛AI数字人员工平台可训练专属数字员工

01 / 本月Dzine AI图像设计工具卓越构图与风格控制 02 / 本月Arrival基于云的SaaS解决方案 03 / 本月AI用户访谈：洞察需求加速产品市场匹配 04 / 本月Meshcapade ME AI生成逼真数字人头像平台 05 / 本月司马诸葛AI数字人员工平台可训练专属数字员工

热点快看

07-07 20:10Dzine AI图像设计工具卓越构图与风格控制 07-07 20:09Arrival基于云的SaaS解决方案 07-07 20:09AI用户访谈：洞察需求加速产品市场匹配 07-07 20:09Meshcapade ME AI生成逼真数字人头像平台 07-07 20:09司马诸葛AI数字人员工平台可训练专属数字员工

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别