万相已正式开源免费供开发者下载使用
阿里云最新推出的视频生成大模型万相2 1(Wan)已正式以Apache 2 0协议全面开源,14B与1 3B两种参数规格的完整推理代码及权重均开放下载,同时支持文生视频和图生视频两种任务。全球开发者现可通过GitHub、HuggingFace、魔搭社区直接获取。这一举措不仅标志着阿里云在视频生成技术
阿里云最新推出的视频生成大模型万相2.1(Wan)已正式以Apache 2.0协议全面开源,14B与1.3B两种参数规格的完整推理代码及权重均开放下载,同时支持文生视频和图生视频两种任务。全球开发者现可通过GitHub、HuggingFace、魔搭社区直接获取。这一举措不仅标志着阿里云在视频生成技术领域取得重大突破,也预示着AI视频创作正迈入一个全新纪元。
此次开源的两种参数版本各有侧重:
14B版本在指令遵循、复杂运动生成、物理建模以及文字视频生成等方面表现尤为突出。在权威评测集Vbench中,万相2.1以总分86.22%大幅超越Sora、Luma、Pika等国内外模型,稳居榜首。
1.3B版本则更接地气——不仅性能超越了更大尺寸的开源模型,甚至与部分闭源模型的结果相当,而且能够在消费级显卡上运行,仅需8.2GB显存即可生成480P视频。这对二次开发与学术研究而言,无疑是巨大的利好。
自2023年起,阿里云便坚定地走大模型开源路线。千问(Qwen)衍生模型数量已超过10万个,成为全球规模最大的AI模型家族。随着万相的开源,阿里云的两大基础模型均已开放,形成了全模态、全尺寸大模型的开源格局。
万相2.1(Wan)模型技术深度解析
模型性能表现
万相大模型在多项内部及外部基准测试中,均大幅超越现有开源模型以及顶尖商业闭源模型。它能够稳定生成各种复杂的人物肢体运动——旋转、跳跃、转身、翻滚等动作均可流畅呈现;同时精准还原碰撞、反弹、切割等真实物理场景。在指令遵循能力上,它能够准确理解中英文长文本指令,还原多样的场景切换与角色互动。
核心技术亮点
基于主流的DiT架构与线性噪声轨迹Flow Matching范式,万相大模型通过一系列技术创新实现了生成能力的重大突破。核心创新点包括:高效的因果3D VAE——专为视频生成设计的新型架构,融合多种策略改进时空压缩、降低内存占用并确保时间因果性;视频Diffusion Transformer——基于主流视频DiT结构,通过Full Attention机制确保长时程时空依赖的有效建模,实现时空一致的视频生成;以及模型训练与推理效率优化——训练阶段采用DP与FSDP组合的分布式策略,对于DiT模块则使用DP、FSDP、RingAttention、Ulysses混合并行策略。推理阶段,为降低延迟,可选择CP进行分布式加速,当模型较大时还需进行模型切分。
开源社区友好度
万相已在GitHub、HuggingFace、魔搭社区全面开源,支持Gradio体验、xDiT并行加速推理,Diffusers与ComfyUI也在快速接入中。无论是快速原型开发还是高效生产部署,均可轻松实现。
- 开源社区链接:
- GitHub: https://github.com/Wan-Video
- HuggingFace: https://huggingface.co/Wan-AI
- 魔搭社区: https://modelscope.cn/organization/Wan-AI
附录:万相模型生成Demo展示
首个具备支持中文文字生成能力,且同时支持中英文文字特效生成的视频生成模型:
更稳定的复杂运动生成能力:
更灵活的运镜控制能力:
更好的物理规律理解,更好地模拟真实世界:
高级质感、多种风格、多样长宽比:
图生视频,让创作更加可控:
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:万相已正式开源免费供开发者下载使用要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点在招聘这个行业中,数据录入的繁琐程度相信大家都有切身体会。每天需要从各类网页、社交平台、招聘站点中搜寻候选人信息,再手动一条条录入系统,既耗时费力又容易出错。今天要介绍的这款Kwal Chrome插件,正是为了彻底解决这一痛点而设计的。什么是 Kwal Chrome 扩展程序 插件?该插件的定位十分
网红经济正在进化——Twinning AI带来的玩法是:粉丝可以直接跟你的人工智能分身聊天,而你,每次互动都能收到真金白银。它集成了专业的声音克隆、文本和语音消息,以及数据分析能力,让粉丝互动变得既有趣又能变&现。 什么是Twinning AI? 简单来说,Twinning AI允许网红创建一个属于
在跨境电商和全球业务快速发展的今天,发票与财务管理工具的重要性日益凸显。AI技术的加入,让这些原本繁琐的流程实现了质的飞跃。Invoicemint 正是这样一款专注全球企业的智能发票与财务管理软件——它不只是一个简单的发票生成器,而是一套覆盖从开票、对账到税务合规、催款的全链路解决方案。 什么是In
想象一下,你随时都能找到一个倾听者——不带任何偏见,不会感到疲惫,而且完全匿名。这听起来像科幻小说里的情节,但现在已经成为现实。MyWhy 就是这样一款 AI 心理治疗应用,它将专业的情感支持装进你的口袋,让心理健康服务不再是奢侈品,而是像打开手机一样触手可及。什么是MyWhy?简单来说,MyWhy
- 日榜
- 周榜
- 月榜
热点快看
