数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

字节开源统一框架Bernini DiT视频编辑先理解再动手

AI热点日报时间：2026-06-03

热点解读

字节开源视频生成与编辑统一框架Bernini，核心思路是先让多模态大模型进行语义理解与规划，再交给DiT模型完成视觉渲染。该框架支持文本指令编辑、参考图像视频编辑及基于参考图生成新视频，能保持主体、材质、风格及多角度一致性，显著提升视频编辑的可控性。

AI视频编辑新范式：先理解意图，再动手执行

视频生成领域，最令创作者困扰的通常并非画质不足，而是模型无法准确理解人类指令。

例如，将晴天改为雪天，模型可能仅简单添加几片雪花；将动画嵌入商场LED大屏时，则可能出现边界扭曲、透视失真的情况。核心问题在于：AI视频生成能否先理解创作者的修改意图，再执行操作？

近日，字节跳动商业化技术团队提出了一项行业创新方案——正式开源了面向视频生成与视频编辑的统一框架：Bernini。

其核心思路简洁明了：由多模态大模型先行完成语义理解与规划，随后交由扩散模型实现高质量视觉渲染。该框架覆盖参考生成、视频编辑等多项任务，关键词可归结为：可控。

例如，在调整整体视觉风格时，不仅确保单帧画面质量，还保持了前后帧的高度一致性：

这标志着AI视频生成从“根据提示词被动执行”向“先理解意图、再主动创作”迈出了重要一步。目前，Bernini的推理代码与模型权重已全面开放。

一条指令修改视频，Bernini精准掌控「可控编辑」

如果说以往的多数视频生成模型只是按提示词机械出片，那么Bernini试图解决一个更实际的问题——视频生成后，如何进行持续修改？

日常遇到的调整需求看似简单，但对视频模型而言颇具挑战。视频编辑并非修改单帧图像，而是在连续画面中同时理解指令、保持主体、结构、镜头与运动关系。稍有偏差，便可能出现主体变形、背景漂移、动作断裂、帧间闪烁等问题。

Bernini的核心思路，正是将这一过程拆解得更加清晰。

可以将Bernini类比为一个AI视频片场中的「导演+后期团队」。其中，充当导演的是多模态大模型规划器MLLM-based planner，它首先解析用户的文本指令，同时理解源视频、参考图像、参考视频等素材，判断目标画面应呈现何种效果。当规划完成后，交由扩散模型DiT-based renderer执行视觉渲染，将规划好的语义目标转化为连续、稳定、高质量的视频画面。

Bernini框架的精妙之处在于分工明确：多模态大模型负责理解与规划，Diffusion Transformer负责生成与呈现。该框架全面覆盖从文本到视频生成、视频编辑，以及基于图像和视频参考的复杂控制生成等任务。

这种分工方式使Bernini在视频可控编辑方面展现出极为直观的能力。

最基础的能力是通过一条指令调整天气、季节、材质与风格。例如，同一段城市航拍视频，输入指令后可从晴天切换至雾天、雨天或雪天。关键在于并非简单添加雪花或滤镜，而是同步调整天空、光照、路面、建筑表面及整体环境氛围，使天气变化仿佛真实发生在原始场景之中：

更进一步，Bernini的语义编辑已开始深入「镜头语言」层面。

首先，它能够控制画面关注区域的视角、焦点与动作。在视角编辑方面，Bernini可进一步理解场景的三维关系，使视角调整结果更符合透视、结构与空间逻辑：

在焦点编辑方面，Bernini可根据指令调整画面关注区域，从而改变视频叙事重心。例如，画面中存在多个物体时，可使镜头聚焦于桌上的收音机，或将焦点从前景切换至背景：

视频创作中最容易出问题的环节还包括动作。许多AI视频在静止帧上表现尚可，一旦运动便破绽百出。值得一提的是，Bernini在保留主体身份与场景结构的前提下，能够高精度地改变主体的动作行为。下方的棕熊视频中，即便将其从普通状态改为起身跳舞、咆哮，环境、光照与镜头关系依然保持稳定：

这意味着Bernini修改视频不仅让主体「动起来」，更让动作变化「自然融入」原画面中。从反复尝试到精准调整，AI视频终于开始具备后期软件的实用质感。

参考素材助力，视频创作更可控、更一致

AIGC内容创作中还有一个常见问题：难以通过一句提示词精确描述期望的视觉效果。尤其涉及具体材质、特定商品、电影色调或需要嵌入屏幕内的视频素材时，更容易出现偏差。

除编辑能力外，Bernini还具备一个实用功能：支持以图片和视频作为编辑参考。它还能基于参考输入直接生成新视频，有效解决了物体、角色与场景的一致性问题。

打破prompt局限：利用图片与视频作为编辑参考

首先来看Bernini参考生成的第一项能力——编辑参考。创作者可直接借助视觉样例控制输出结果，广告创意、电商展示、影视预演、二次创作等领域均能直接受益。

例如，在增加指定主体的案例中，仅需放入一张狗狗参考图，视频中便能自然生成同款狗狗。再输入一张雪人图片，雪人也能平滑融入当前视频，光照、透视与边缘关系处理得十分自然：

除主体参考外，Bernini还可参考材质。提供布料、朱砂壶、大理石、金属等不同材质参考，原视频中的盘子即可被修改为对应的纹理视觉质感。更重要的是，材质变化会稳定附着于目标物体，不会在若干帧后出现漂移、错位或失真：

风格参考同样不在话下。即便参考图涵盖卡通、写实、水墨、赛博朋克等截然不同的视觉风格，Bernini也能提取风格特征并迁移至视频中。原视频的主体与运动关系得到高度保留，风格变化沿时间轴稳定延续。

此外，Bernini还具备一项非常实用的能力：图像与视频植入。街头灯箱、商场LED大屏、地铁电视，甚至镜头中的任何屏幕，均可成为展示位。Bernini能将一张海报或一段视频精准填入目标区域，并跟随原片镜头同步移动，确保边界完整、透视正确、时序稳定。例如，为一段街头实拍提供一张油画图片，Bernini可将油画自然嵌入招牌中，画面融合度极强。

在广告预览、影视预演、虚拟拍摄等场景中，许多原本需要反复抠帧、跟踪、校正透视的工作，现在可以通过一次推理完成。

基于参考图生成视频：物体、角色与场景的一致性全面提升

除编辑现有视频外，Bernini还支持基于参考图像直接生成「新视频」。

首先关注单图参考生成。仅提供一张香水产品图，输入「生成一段产品展示视频」，模型即可输出真人手持香水转动的画面。瓶身轮廓、金色液体、黑色标贴等关键细节均与原始图像保持高度一致性。若换成一条运动头带，模型还能自由创作出羊驼戴着头带站立于沙漠中的画面。

同一能力，既可制作正式产品视频，也可打造脑洞创意短片。

更进一步，Bernini还能实现多元素组合参考生成。输入的参考图像无需来自同一物体。例如，一座大理石半身像、一副粉色猫耳耳机、一件黑色T恤、一条热带印花短裤，加上一张落日海滩长椅。这些原本毫无关联的图像，Bernini却能将它们组合成同一视频角色。

此类能力在IP联名、虚拟人塑造、广告概念片等领域极具价值，素材库中原本分散的元素可被重新组合为全新的角色与场景。

此外，Bernini还具备一项关键能力：同一物体的多角度参考。商品与角色通常不止一个面，包有背带、车有尾灯、雕塑有侧脸和背面。若模型仅见过正面，镜头一转便容易自由发挥。Bernini可接收同一物体的多张角度参考图——例如提供大理石雕塑的五张多角度参考，然后生成一段连续镜头，当雕塑从不同角度出现时，五官、肌肉走向、衣袍褶皱均保持高度一致。

最后是场景关键帧到连续镜头。提供同一办公区休息廊的几张关键帧，例如沙发、绿植、走廊尽头的玻璃门，Bernini可生成一段连续平移镜头。这一步已开始接近长线世界模型能力，考验的不只是单帧画面质量，还包括模型能否理解同一场景在连续镜头中的空间关系。虚拟漫游、游戏关卡生成、影视预演，乃至具身智能模拟，未来都离不开这种连续性。

从语义规划到视觉渲染：Bernini的核心在于「先理解，再生成」

那么，Bernini为何能同时处理文本、视频与参考图像，并输出更稳定的结果？

核心原因在于它并未让单一模型包揽所有工作，而是将任务拆分为两个步骤。

第一步是「语义规划」，让模型先行理解目标。Bernini首先利用MLLM-based planner理解文本、视频与参考视觉输入，并直接在ViT embedding space中预测目标语义表示。这一语义表示可视为生成前的「语义草图」，它不直接指定每个像素的细节，而是先清晰描述：目标视频应包含何种内容、结构如何变化、哪些元素需保留、哪些区域需编辑。

第二步是「视觉渲染」，将语义转化为高质量视频。获得语义规划后，DiT-based renderer负责生成最终画面。对于视频编辑任务，它还会结合源视频的VAE特征，尽可能保留原视频中的细节与非编辑区域，避免修改导致整体画面偏离。

另一个关键点是「多参考输入」的处理方式。当多个参考图、源视频与目标视频被串入同一序列时，不同素材可能出现相同的时间与空间坐标，模型容易混淆。为此，Bernini引入了Segment-Aware 3D Rotary Positional Embedding（SA-3D RoPE）。它向不同视觉片段附加各自的segment标记，帮助模型区分参考图、源视频与目标输出，同时保留时间与空间位置关系。

在字节跳动商业化技术团队自建的Arena评测中，面对多款国内外主流闭源模型，这一开源框架已跻身第一梯队。

归根结底，Bernini最令创作者感受到实质提升的，并非仅仅是画面更精美，而是让AIGC创作少了一些「玄学」。以往撰写长篇提示词，AI未必理解；想修改局部细节，模型可能整条视频重新生成；提供参考图，模型可能仅学到皮毛，最终主体、材质、风格均偏离预期。

而Bernini所解决的，正是这种创作中的失控感。它首先理解用户的真实需求，明确原视频中哪些内容需保留，同时理解参考图片与参考视频提供的视觉信息。随后，将这些理解转化为可生成、可编辑、可稳定落地的视频结果。

减少反复试错，增加真正可控的创作空间——这正是Bernini最具价值之处。它鼓励创作者利用自己的素材与想法，探索AI视频创作如何变得更易用、更可控、更贴近真实创作流程。

目前率先开源的Bernini-R，对应Bernini三阶段训练流程中的第二阶段模型。包含MLLM Planner的完整版本也在代码整理中，预计近期将进一步开放。

参考链接：

GitHub：https://github.com/bytedance/Bernini

Hugging Face：https://huggingface.co/ByteDance/Bernini

Project Page：https://bernini-ai.github.io

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：字节开源统一框架Bernini DiT视频编辑先理解再动手要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.qbitai.com/2026/06/427810.html

AI视频

上一篇：曾被AI吓崩的软件股为何突然成美股领涨明星

下一篇：纯血AI公司市值天花板究竟有多高

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。