小红书爆火AI视频神器新功能让人上瘾
多主体一致性,一直是AI视频的“老大难”。让AI凭空生成模特和衣服并不难,可要是甲方非要马斯克亲自代言,还得穿上毛绒大衣,AI多半就撂挑子了。
Pika最近更新的2.0模型,倒是给出了一种挺有趣的解法——咱们上传多张图片,Pika会精准参考其中的元素,直接生成视频。

集齐人物、商品、场景的照片,一个基础广告片就这么出炉了,而且这些素材在视频里长得跟照片里一模一样。

这是不是意味着AI视频的一致性难题终于被攻克了?广告行业的朋友们又要失眠了?其实没那么乐观。经过实测,Pika的可玩性确实很高,但真要拿来商用好用,道行还差着火候。
马斯克和奥特曼看电影,名画吃薯条,同框从未如此简单
Pika上传多张参考图片的功能,叫作“Scene Ingredients”(场景成分)。

用起来很简单:点“+”上传图片,最多6张;然后在文本框里写上一段提示词。
直接上手实操——让正闹得不可开交的马斯克和奥特曼,化干戈为玉帛,坐在一起看电影。

提示词:两个人坐在漆黑的观众席中。他们手捧一桶爆米花,一把放到嘴里嚼着,全神贯注地看着眼前的场景。他们睁大眼睛的表情传达出热切的期待或着迷,仿佛他们完全沉浸在正在展开的戏剧或场景中。周围的环境表明人群拥挤,但焦点仍然集中在他们的反应上
上传两位的照片就够了,观众席用提示词写出来。

马斯克这边,AI发挥得挺稳。可奥特曼怎么看都像是地主家的傻儿子,吃相吓人不说,眼睛大得快掉出来。
Pika有一个很有趣的点:素材可以“复用”。
于是,我们让马斯克和奥特曼过把模特瘾。只上传一张服装图片,然后用提示词让他们穿上同一件绿色大衣,拍个时尚大片。

提示词:两名男子在壮丽的冬日风景中站在一起自拍。两人都穿着相同的绿色长外套。全身照,从头到脚展现他们。他们摆出专业模特般的姿势,脸上挂着自信的微笑。电影灯光突出了他们的脸庞和外套的奢华质感。高端时尚摄影风格,专业相机品质,时尚杂志美学
两人的照片都是现成的,绿色大衣和冰天雪地背景则用AI另外生成,衣服上的“AIGC”字样,算是给Pika出的附加题。
结果,场景和大衣的一致性保持得不错,“AIGC”三个字依稀可辨,两位模特的动作也大致遵循了提示词。
但最大的问题来了——这两人到底是谁?视频里的人脸和照片,不能说一模一样,只能说毫不相干。

不信邪,继续让Pika玩换装。
这次请出扎克伯格。先用AI图片工具生成一件写着“I was human”(我曾是人类)的T恤,呼应经典机器人梗。再找一张小扎的照片、一把尤克里里的图片,让他边弹边唱。

提示词:一位身穿黑色 T 恤的男子站在温馨的房间里,弹奏着尤克里里琴。镜头从中远景开始,展现他的整个身体,逐渐拉近,最后聚焦在 T 恤上的字迹上
Pika对提示词的遵循和镜头的运动都挺好,衣服也丝滑地穿上了,但右手(尤其是大拇指)依旧不完美。

跟Google Veo、OpenAI Sora这些顶尖模型比,Pika的能力不算最拔尖,一个问题刚解决,更多bug又冒了出来。
写实风试过了,再来试试二次元画风。为了让坂田银时和漩涡鸣人同框,特意选了两张蓝天白云背景的图片。

提示词:动漫风格的场景,镜头聚焦在两个年轻男子的脸上,背景是蔚蓝的天空和白云。他们一边聊天一边眼神交流,保留了原有的动漫艺术风格
背景融合得很自然,两位正面的表情发挥不错,吹动头发和衣服的风也恰到好处。然而,转身就太可怕了——银时是死鱼眼,不是真的翻白眼啊喂。

次元壁都打破了,让名画跨年代互动自然也不在话下——蒙娜丽莎和戴珍珠耳环的少女在麦当劳餐厅吃薯条。

提示词:蒙娜丽莎和戴珍珠耳环的少女正在麦当劳餐厅用餐。她们相对而坐,桌上摆着薯条。她们边聊天边品尝薯条,摄像机从侧面捕捉她们,两位角色偶尔看向镜头,营造出一种随意而友好的氛围
效果一言难尽。看到蒙娜丽莎,不知道达·芬奇想不想掀棺材板。两位像贴图一样被放在视频里,头部运动也非常诡异。

有时候,回归简单、道法自然,结果反而超出预期。

提示词:特写镜头,池塘表面出现气泡,然后咖啡杯从水中浮出
上传一张星巴克的图片、一幅莫奈的睡莲,就能得到一个“清水出芙蓉”的咖啡杯。

PK 国产模型,控制 AI 视频的门槛更低了
从某种程度上说,Pika确实提高了视频的可控性。但话不说满——实测来看,Pika在场景、服装、物品上的一致性保持得较好,可人物的脸容易崩,不管是什么次元。
同时,模型的基础能力也有待进步:吃东西、弹琴等物体运动,仍然会出问题。这些问题能不能靠抽卡缓解?
三个字:抽不起。
Pika 2.0目前仅对Pro和Fancy用户开放,按月订阅每月至少35美元,连免费试用额度都没有。而且Pro用户每月只有2000积分,但用Scene Ingredients功能,一个视频就要花掉100积分。

vidu 界面
其实,国产AI视频模型Vidu比Pika更早实现了“多图参考”功能。更拿捏用户的是,它有免费体验积分。
Pika的几个案例,我也在Vidu跑了一下。蒙娜丽莎和戴珍珠耳环的少女吃薯条——两位像刚出土,但蒙娜丽莎的还原度比Pika高。

马斯克和奥特曼一起看电影——马斯克的脸像了七八成,奥特曼的脸依旧灾难。

坂田银时和漩涡鸣人同框——Vidu居然能基于正脸生成侧脸,但画风和原图不太一样。

另外,在功能上Vidu有一点不如Pika——最多只能上传三张图片。所以让Vidu给马斯克和奥特曼拍时尚大片时,我只上传了两位的照片和绿色大衣,没有上传背景。
两位给人的感觉很陌生。可以看出,人脸的稳定性,仍然是个难题。

和Pika相比,Vidu效果如何?见仁见智。Pika用的是Pro版,Vidu用的是免费版,客观上也会导致差异。但两者的思路是相似的——仅靠几个图片素材、一段简单提示词,就能生成相对稳定的物体。
在AI视频生成中,保持主体一致性,目前相对可靠的方案是LoRA——用一定数量、特定主体的素材对模型进行微调。通过适量素材和训练,模型能逐渐掌握角色的样貌特征。
但为了让AI视频被更多人用起来、有更广阔的商业价值,门槛必须降低。至少从Vidu和Pika身上,我们看到了可能性。
靠 AI 短视频出圈,在整活的道路上一去不复返
Pika 2.0模型发布没几天,海外网友已经玩疯了。
拿自己的照片反复生成不同场景的视频,就能实现“瞬息全宇宙”。

图片来自:X@EladRichardson
通过AI一键试衣,模特和衣服如流水般切换,场景都不带换的,实拍的钱直接省下来了。

图片来自:X@martgent
玩着玩着,Pika给了我一种玩QQ秀或模拟人生的感觉——怎么打扮视频里的角色,全由我们决定。
如果让马斯克“圆梦”,也很容易:先用其他AI工具生成一件“占领火星”T恤、一顶写着“MAGA”的红帽子,然后把它们连同火星场景、马斯克照片、擎天柱人形机器人、他特别喜欢的网红表情包Doge原型,一股脑全上传到Pika。

提示词:一名男子站在火星表面,身穿黑色T恤,头戴红色帽子。他的左边坐着一只狗,右边站着一个机器人。镜头以广角镜头开始,捕捉男子、狗、机器人的全身。随着镜头平稳拉近,男子朝镜头欢快地挥手,表情洋溢着喜悦和冒险精神
最终,一个阳光开朗大男孩出现——左牵黄,右擎苍,憨厚有余,但就是不像马斯克。

像不像是一回事,只要思路开阔,玩法就无穷无尽。
基于自己和名人的照片,可以无痛追星;上传帽子、衣服、乐器,把自己从头打扮到脚;集齐场景、产品、模特,一个五毛特效的广告片就有了……
照片+AI图片+Pika 2.0+提示词,就能生成很多好玩的画面。同时,这种生成方式也规避了一些视频模型的短板,比如写字——在图片模型就能解决。
不和Google硬刚模型能力,不和Runway这种逐梦好莱坞的对手比较,Pika有自己的弯道超车玩法。
其实一直以来,Pika在整活和创意方面就是一把好手。之前一系列AI特效功能Pikaffect全网爆火,刷屏小红书和TikTok,推动Pika用户突破1100万。

AI捏捏. 图片来自:Pika

AI切蛋糕. 图片来自:Pika
Pika切中了一群对整活短视频有高需求的用户——哪怕这些视频是模板化的、稍纵即逝的,但只要有趣,人们就会蜂拥而至。
谁说赢者通吃才是胜利?AI的市场足够广阔。模拟物理世界固然是个远大的梦想,但先完成“让AI短视频有趣起来”的小目标,未尝不是一种成功之道。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
刚刚,OpenClaw和Cursor杀入手机!
AI Agent,真的开始从电脑里“跑出来”了。以前我们用 Agent,基本离不开网页、IDE、终端、云环境。你想让它写代码、查资料、改项目、跑任务,很多时候还得坐在工位前盯着。但现在不一样了。OpenClaw 推出了 iOS 和安卓原生 App,手机可以变成私有 Agent 网络里的一个移动节点。
幻灯片排版优化AI智能助手,节省时间与精力
说起来,今天想和大家聊聊一个特别实在的话题:怎么用AI工具把PPT排版效率提上去,真正省下时间和精力。谁不想在忙忙碌碌的工作里找到点儿省事的诀窍呢?我有个朋友,为了准备一次重要汇报,连着熬了三个晚上折腾PPT,最后出来的效果也就是勉强及格。要是当时他能用上AI工具,结果会不会完全不一样?PPT排版优
AI排版软件让文档制作轻松又高效
AI智能排版工具通过自动识别文档结构、调整格式,显著提升排版效率。实际案例显示,文档处理时间可缩短约50%,项目交付效率提高40%。其功能涵盖自动排版、模板库、智能校对等,重构了文档制作流程,使用户专注内容创作,提升专业形象与市场竞争力。
Karpathy晒邮件曝光注意力机制真正起源:10年前三项独立研究
2014年,三项研究几乎同时独立提出注意力机制:DzmitryBahdanau在YoshuaBengio实验室开发出RNNSearch(后称注意力),AlexGraves和JasonWeston团队也发表了类似机制。该思想源于解决循环神经网络信息瓶颈的需求,采用可微加权平均,成为深度学习核心算法。
如何选择AI排版工具与技巧提升内容创作效率
AI排版工具推荐与技巧:如何提升内容创作效率与视觉设计效果其实,AI排版早已成为内容创作领域的热门话题。在信息爆炸的时代,大家都想知道如何让内容在海量信息中脱颖而出。简单来说,AI排版就是借助人工智能技术自动化处理文本、图像等内容的布局与设计。不妨想象一下:星巴克菜单上那些赏心悦目的排版,背后可能就
- 日榜
- 周榜
- 月榜
相关攻略
2026-07-01 15:28
2026-07-01 15:28
2026-07-01 15:28
2026-07-01 15:28
2026-07-01 15:28
2026-07-01 15:27
2026-07-01 15:27
2026-07-01 15:27
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

