字节开源统一框架Bernini DiT视频编辑先理解再动手
字节开源视频生成与编辑统一框架Bernini,核心思路是先让多模态大模型进行语义理解与规划,再交给DiT模型完成视觉渲染。该框架支持文本指令编辑、参考图像 视频编辑及基于参考图生成新视频,能保持主体、材质、风格及多角度一致性,显著提升视频编辑的可控性。
AI视频编辑新范式:先理解意图,再动手执行
视频生成领域,最令创作者困扰的通常并非画质不足,而是模型无法准确理解人类指令。
例如,将晴天改为雪天,模型可能仅简单添加几片雪花;将动画嵌入商场LED大屏时,则可能出现边界扭曲、透视失真的情况。核心问题在于:AI视频生成能否先理解创作者的修改意图,再执行操作?
近日,字节跳动商业化技术团队提出了一项行业创新方案——正式开源了面向视频生成与视频编辑的统一框架:Bernini。
其核心思路简洁明了:由多模态大模型先行完成语义理解与规划,随后交由扩散模型实现高质量视觉渲染。该框架覆盖参考生成、视频编辑等多项任务,关键词可归结为:可控。
例如,在调整整体视觉风格时,不仅确保单帧画面质量,还保持了前后帧的高度一致性:
这标志着AI视频生成从“根据提示词被动执行”向“先理解意图、再主动创作”迈出了重要一步。目前,Bernini的推理代码与模型权重已全面开放。
一条指令修改视频,Bernini精准掌控「可控编辑」
如果说以往的多数视频生成模型只是按提示词机械出片,那么Bernini试图解决一个更实际的问题——视频生成后,如何进行持续修改?
日常遇到的调整需求看似简单,但对视频模型而言颇具挑战。视频编辑并非修改单帧图像,而是在连续画面中同时理解指令、保持主体、结构、镜头与运动关系。稍有偏差,便可能出现主体变形、背景漂移、动作断裂、帧间闪烁等问题。
Bernini的核心思路,正是将这一过程拆解得更加清晰。
可以将Bernini类比为一个AI视频片场中的「导演+后期团队」。其中,充当导演的是多模态大模型规划器MLLM-based planner,它首先解析用户的文本指令,同时理解源视频、参考图像、参考视频等素材,判断目标画面应呈现何种效果。当规划完成后,交由扩散模型DiT-based renderer执行视觉渲染,将规划好的语义目标转化为连续、稳定、高质量的视频画面。
Bernini框架的精妙之处在于分工明确:多模态大模型负责理解与规划,Diffusion Transformer负责生成与呈现。该框架全面覆盖从文本到视频生成、视频编辑,以及基于图像和视频参考的复杂控制生成等任务。
这种分工方式使Bernini在视频可控编辑方面展现出极为直观的能力。
最基础的能力是通过一条指令调整天气、季节、材质与风格。例如,同一段城市航拍视频,输入指令后可从晴天切换至雾天、雨天或雪天。关键在于并非简单添加雪花或滤镜,而是同步调整天空、光照、路面、建筑表面及整体环境氛围,使天气变化仿佛真实发生在原始场景之中:
更进一步,Bernini的语义编辑已开始深入「镜头语言」层面。
首先,它能够控制画面关注区域的视角、焦点与动作。在视角编辑方面,Bernini可进一步理解场景的三维关系,使视角调整结果更符合透视、结构与空间逻辑:
在焦点编辑方面,Bernini可根据指令调整画面关注区域,从而改变视频叙事重心。例如,画面中存在多个物体时,可使镜头聚焦于桌上的收音机,或将焦点从前景切换至背景:
视频创作中最容易出问题的环节还包括动作。许多AI视频在静止帧上表现尚可,一旦运动便破绽百出。值得一提的是,Bernini在保留主体身份与场景结构的前提下,能够高精度地改变主体的动作行为。下方的棕熊视频中,即便将其从普通状态改为起身跳舞、咆哮,环境、光照与镜头关系依然保持稳定:
这意味着Bernini修改视频不仅让主体「动起来」,更让动作变化「自然融入」原画面中。从反复尝试到精准调整,AI视频终于开始具备后期软件的实用质感。
参考素材助力,视频创作更可控、更一致
AIGC内容创作中还有一个常见问题:难以通过一句提示词精确描述期望的视觉效果。尤其涉及具体材质、特定商品、电影色调或需要嵌入屏幕内的视频素材时,更容易出现偏差。
除编辑能力外,Bernini还具备一个实用功能:支持以图片和视频作为编辑参考。它还能基于参考输入直接生成新视频,有效解决了物体、角色与场景的一致性问题。
打破prompt局限:利用图片与视频作为编辑参考
首先来看Bernini参考生成的第一项能力——编辑参考。创作者可直接借助视觉样例控制输出结果,广告创意、电商展示、影视预演、二次创作等领域均能直接受益。
例如,在增加指定主体的案例中,仅需放入一张狗狗参考图,视频中便能自然生成同款狗狗。再输入一张雪人图片,雪人也能平滑融入当前视频,光照、透视与边缘关系处理得十分自然:
除主体参考外,Bernini还可参考材质。提供布料、朱砂壶、大理石、金属等不同材质参考,原视频中的盘子即可被修改为对应的纹理视觉质感。更重要的是,材质变化会稳定附着于目标物体,不会在若干帧后出现漂移、错位或失真:
风格参考同样不在话下。即便参考图涵盖卡通、写实、水墨、赛博朋克等截然不同的视觉风格,Bernini也能提取风格特征并迁移至视频中。原视频的主体与运动关系得到高度保留,风格变化沿时间轴稳定延续。
此外,Bernini还具备一项非常实用的能力:图像与视频植入。街头灯箱、商场LED大屏、地铁电视,甚至镜头中的任何屏幕,均可成为展示位。Bernini能将一张海报或一段视频精准填入目标区域,并跟随原片镜头同步移动,确保边界完整、透视正确、时序稳定。例如,为一段街头实拍提供一张油画图片,Bernini可将油画自然嵌入招牌中,画面融合度极强。
在广告预览、影视预演、虚拟拍摄等场景中,许多原本需要反复抠帧、跟踪、校正透视的工作,现在可以通过一次推理完成。
基于参考图生成视频:物体、角色与场景的一致性全面提升
除编辑现有视频外,Bernini还支持基于参考图像直接生成「新视频」。
首先关注单图参考生成。仅提供一张香水产品图,输入「生成一段产品展示视频」,模型即可输出真人手持香水转动的画面。瓶身轮廓、金色液体、黑色标贴等关键细节均与原始图像保持高度一致性。若换成一条运动头带,模型还能自由创作出羊驼戴着头带站立于沙漠中的画面。
同一能力,既可制作正式产品视频,也可打造脑洞创意短片。
更进一步,Bernini还能实现多元素组合参考生成。输入的参考图像无需来自同一物体。例如,一座大理石半身像、一副粉色猫耳耳机、一件黑色T恤、一条热带印花短裤,加上一张落日海滩长椅。这些原本毫无关联的图像,Bernini却能将它们组合成同一视频角色。
此类能力在IP联名、虚拟人塑造、广告概念片等领域极具价值,素材库中原本分散的元素可被重新组合为全新的角色与场景。
此外,Bernini还具备一项关键能力:同一物体的多角度参考。商品与角色通常不止一个面,包有背带、车有尾灯、雕塑有侧脸和背面。若模型仅见过正面,镜头一转便容易自由发挥。Bernini可接收同一物体的多张角度参考图——例如提供大理石雕塑的五张多角度参考,然后生成一段连续镜头,当雕塑从不同角度出现时,五官、肌肉走向、衣袍褶皱均保持高度一致。
最后是场景关键帧到连续镜头。提供同一办公区休息廊的几张关键帧,例如沙发、绿植、走廊尽头的玻璃门,Bernini可生成一段连续平移镜头。这一步已开始接近长线世界模型能力,考验的不只是单帧画面质量,还包括模型能否理解同一场景在连续镜头中的空间关系。虚拟漫游、游戏关卡生成、影视预演,乃至具身智能模拟,未来都离不开这种连续性。
从语义规划到视觉渲染:Bernini的核心在于「先理解,再生成」
那么,Bernini为何能同时处理文本、视频与参考图像,并输出更稳定的结果?
核心原因在于它并未让单一模型包揽所有工作,而是将任务拆分为两个步骤。
第一步是「语义规划」,让模型先行理解目标。Bernini首先利用MLLM-based planner理解文本、视频与参考视觉输入,并直接在ViT embedding space中预测目标语义表示。这一语义表示可视为生成前的「语义草图」,它不直接指定每个像素的细节,而是先清晰描述:目标视频应包含何种内容、结构如何变化、哪些元素需保留、哪些区域需编辑。
第二步是「视觉渲染」,将语义转化为高质量视频。获得语义规划后,DiT-based renderer负责生成最终画面。对于视频编辑任务,它还会结合源视频的VAE特征,尽可能保留原视频中的细节与非编辑区域,避免修改导致整体画面偏离。
另一个关键点是「多参考输入」的处理方式。当多个参考图、源视频与目标视频被串入同一序列时,不同素材可能出现相同的时间与空间坐标,模型容易混淆。为此,Bernini引入了Segment-Aware 3D Rotary Positional Embedding(SA-3D RoPE)。它向不同视觉片段附加各自的segment标记,帮助模型区分参考图、源视频与目标输出,同时保留时间与空间位置关系。
在字节跳动商业化技术团队自建的Arena评测中,面对多款国内外主流闭源模型,这一开源框架已跻身第一梯队。
归根结底,Bernini最令创作者感受到实质提升的,并非仅仅是画面更精美,而是让AIGC创作少了一些「玄学」。以往撰写长篇提示词,AI未必理解;想修改局部细节,模型可能整条视频重新生成;提供参考图,模型可能仅学到皮毛,最终主体、材质、风格均偏离预期。
而Bernini所解决的,正是这种创作中的失控感。它首先理解用户的真实需求,明确原视频中哪些内容需保留,同时理解参考图片与参考视频提供的视觉信息。随后,将这些理解转化为可生成、可编辑、可稳定落地的视频结果。
减少反复试错,增加真正可控的创作空间——这正是Bernini最具价值之处。它鼓励创作者利用自己的素材与想法,探索AI视频创作如何变得更易用、更可控、更贴近真实创作流程。
目前率先开源的Bernini-R,对应Bernini三阶段训练流程中的第二阶段模型。包含MLLM Planner的完整版本也在代码整理中,预计近期将进一步开放。
参考链接:
GitHub:https://github.com/bytedance/Bernini
Hugging Face:https://huggingface.co/ByteDance/Bernini
Project Page:https://bernini-ai.github.io
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:字节开源统一框架Bernini DiT视频编辑先理解再动手要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点英伟达Blackwell架构服务器的推出,标志着AI算力进入新阶段。这为产业链上下游带来新机遇,包括先进封装、高速连接、液冷散热及配套软件服务。对于关注2026年AI产业趋势的从业者,理解算力需求演变、供应链关键环节以及应用场景的落地路径,是把握未来方向的关键切入点。
Perplexity AI产品介绍说到AI助手,不少人第一反应就是ChatGPT或者Claude——但Perplexity AI其实是个很不一样的存在。它更像一个“智能信息助理”,核心目标不是陪你聊天,而是帮你更快、更准地找到和消化信息。具体来说,Perplexity AI能干几件很实在的事。首先是
Contenda FSH Tech是什么 简单来说,Contenda FSH Tech是一套由The Empathetic Tech Company开发的综合性软件工具包,专为居民与市政机构设计。它的核心目标是:将人员、流程与技术高效整合,帮助市政部门解决实际业务难题,同时显著节省时间与成本。该工具
ContentFries是什么 ContentFries,通俗来说,是一款专门为内容创作打造的AI工具。由ContentFries团队研发,它的核心目标非常明确:帮助用户高效创作内容,并实现二次复用。无论是撰写视频脚本、激发创意灵感、追踪热门趋势,还是将长视频剪辑成短片段、自动添加字幕和表情识别,它
- 日榜
- 周榜
- 月榜
热点快看
