Grok视频模型屠榜Arena,46.5万次盲测击败谷歌实力派

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新智元报道
编辑:元宇
【新智元导读】马斯克亲自站台,grok-image-video-720p在46万次盲测投票中加冕第一,这款xAI「压箱底」的视频模型,不仅在基准测试上超过了谷歌Veo 3.1 Fast,使用成本也更低。
刚刚,AI视频领域又迎来洗牌!
xAI的Grok图像转视频模型(grok-image-video-720p)登顶「Image-to-Video Arena」排行榜,以1404分的超高ELO评分力压群雄,位居第一。
马斯克亲自发帖为自家Grok Image模型站台,称它每周都在迭代优化。

这次,xAI真是拿出了「压箱底」的东西,他们将Grok Imagine称作为自己目前最强悍的「视频+音频」生成模型。
无论是想让一张静态梗图「活」过来,还是凭空用一句话变出大片,甚至是对复杂的电影级镜头进行精细打磨,它都能轻松搞定。
X平台上,网友用Grok制作的视频已经迅速刷屏,涵盖电影特效、动画制作、日常生活等种种场景。
从一些基准测试上来看,Grok-imagine-video-720p不仅击败了谷歌强大的Veo模型,而且生成成本也更低。
有网友惊呼,这不仅是AI视频工具的一次进化,更可能直接推动该领域重新「排座次」。

还有网友猜想,Grok的强势出击,或将掀起新一轮生成式视频技术的军备竞赛。

揭秘Grok Imagine
能干活、成本低的多模态六边形战士
Grok Imagine是xAI倾力打造的视频-音频生成模型,该模型的最新版本Grok Imagine 1.0于2026年2月初发布。
支持生成10秒长的720p高清视频,并在运动平滑度、原生音频质量(如情感表达的声音)以及提示词遵循能力上均实现了跨越式升级。
相比较2025年10月发布的Imagine v0.9版本,它将核心聚焦于视觉质量、多模态能力,成本和延迟的平衡,真正做到了支持端到端的创意工作流。
用户可以通过文本描述或上传图像来动画化内容,还支持后续指令微调场景。
具体而言,Grok Imagine展现了三大核心「杀手锏」:
视频生成与指令遵循能力
Grok Imagine的视频生成能力,主要用来从零开始创建短视频(通常10-15秒长,支持480p或720p分辨率)。
它能处理多种输入方式,比如直接用文字描述场景、动作、灯光和心情来生成视频,或者上传一张静态图片,让AI给它「加戏」变成动态视频。
在视频生成方面,Grok Imagine拥有业界领先的指令遵循能力。你给出的指令再复杂,它也能精准理解并执行。
零门槛的视频编辑能力
视频编辑功能更像是给现有视频「动手术」,Grok Imagine可以让你能轻松修改内容,而不用专业软件。
它支持重新设计场景(比如换背景或风格)、添加或删除物体(例如加个道具或去掉多余元素)、控制动作(调整运动轨迹、速度或相机角度)。
操作起来简单:上传视频文件或URL,然后描述你想改啥,比如「把这个视频里的车换成飞船,加点爆炸效果」。
AI就会根据你的指令生成编辑后的版本,还保持原视频的核心元素。
视频编辑适合电影剪辑、广告调整或内容优化,编辑后视频还能带原生音频。
更快速度与更低成本的平衡
在性能表现方面,不仅要变强,还要变快。
因为如果生成速度太慢、价格太贵,大家根本不敢放开手脚去尝试。
因此xAI团队专门针对延迟、并发量和成本进行了极限优化。
这让Grok Imagine不仅跑得快,而且用起来更省钱。
它强调高质量、成本和延迟的平衡,支持端到端的创意工作流,包括视频生成、编辑和音频同步。
评测霸榜,力压谷歌
在基准测试中,Grok Imagine在图像转视频领域表现出色,尤其在用户偏好投票和性价比上。
在Image-to-Video Arena(arena.ai)排行榜上,Grok-image-video-720p以1404分位居第一(基于46.5万投票,34个模型),领先Google Veo-3.1-audio-1080p(1402分)。

https://arena.ai/zh/leaderboard/image-to-video
这是一个基于用户盲测投票的平台,使用Elo评分系统。评测强调真实世界视频质量和保真度,而非自动化指标。
在另一个独立排行榜Artificial Analysis Image to Video Leaderboard上,Grok以1337 ELO分领先,评估标准包括质量、生成速度和价格。
Grok-image-video在风格、主题和格式一致性上得分高,它的API定价约$4.20/分钟,低于谷歌Veo 3.1 Fast等竞品。

https://artificialanalysis.ai/video/leaderboard/image-to-video
在一些第三方的专业评测中,Getimg.ai认为Grok Imagine最突出的特点是以视频形式精准遵循指令,当提示词描述动作、节奏或转场时,该模型通常能做出看似经过深思熟虑而非偶然的回应。
比如,Grok-image-video在原生音频(唇同步、自然对话)和电影指令遵循(如平移、变焦)上出色。
Grok-image-video的另一个特色,是它很好地解决了低延时这一用户使用痛点。
AI视频模型在使用场景中,仅靠原始质量已不再足够,往往需要多轮交互,等待结果的时间过长会抑制用户尝试的意愿,尤其是当每次生成都代价高昂时。
基准测试显示,Grok Imagine在综合考量质量、延迟和成本时表现出色。
这意味着你可以自由地生成、调整和重新生成视频,而不会觉得每次输入提示都是一种负担。
Lovera Digital将Grok与Google Veo 3比较,发现Grok易用性高,适合短视频社交内容,但视频质量有时抖动。
它的最佳用例是快速原型,评分表显示其在创意短片上竞争力强。
Grok Imagine在第三方评测中被视为高效、音频强的选手,尤其适合创意和快速生成,但需注意一致性和安全问题。
如果你想亲自体验一下Grok Imagine,目前可以通过正式(grok.com/imagine)和APP免费试用,或通过API集成(Grok Imagine API)。
参考资料:
https://x.com/elonmusk/status/2026330684630130739%20
https://x.com/teslaownersSV/status/2026322222206648339
https://arena.ai/zh/leaderboard/image-to-video
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
微信元宝支付上线 老四能否借势突围
腾讯元宝加速商业化,推出微信群聊总结功能,需用户主动转发记录以保护隐私。目前其月活虽居行业第四,但正通过融入微信生态提升日常助手角色。腾讯以混元为底座、WorkBuddy为先锋、元宝为生态接口,协同构建微信智能体系,目标并非单纯追赶月活,而是围绕生态打造独特优势。
多模态大模型推理对齐难题 动态约束化解多教师冲突
在多模态大模型知识蒸馏中,教师模型间的推理差异易导致学生模型产生偏见。本研究提出自主偏好优化框架(APO),通过动态约束冲突并提炼共识,实现稳健的概念对齐。实验显示,该方法在医疗诊断任务中使学生模型性能超越各教师模型,展现出优异的稳定性与泛化能力。
何恺明团队发布首个扩散语言模型ELF技术解析与应用
在自然语言处理领域,自回归模型长期主导文本生成,其逐词预测的方式模仿人类写作。然而,一种在图像生成领域取得革命性成功的扩散模型技术,正为文本生成开辟全新路径。近期,由何恺明团队发布的ELF模型,正是这一探索道路上的重要里程碑,它首次将连续扩散范式成功应用于大规模语言建模。 ELF(Embedded
千问AI购物助手如何使用图片搜索功能
想用千问AI购物助手通过图片找同款,却发现找不到上传入口?这很正常,因为它的图片搜索功能其实分散在不同的平台和应用里。别急,下面就把这五种主流的方法给你梳理清楚,总有一款适合你。 一、在淘宝App内通过“千问AI购物助手”传图搜同款 这是最直接、商品库最全的方式。它直接调用淘宝自家的图像识别技术,背
台积电AI芯片三层蛋糕理论解析光互连COUPE技术前景
在AI芯片技术持续演进的关键节点,台积电于近期技术论坛中,首次从芯片内部架构视角,系统性地提出了AI芯片的“三层蛋糕”理论,为下一代高性能计算指明了清晰的技术路径。 台积电副共同营运长张晓强在论坛上指出,业界常以“五层蛋糕”模型概括从基础设施到应用的AI生态,但若聚焦于AI芯片本身,其核心架构可更精
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

