当前位置: 首页
AI
上交大与vivo团队在CVPR 2026提出扩散模型高效优化新方法

上交大与vivo团队在CVPR 2026提出扩散模型高效优化新方法

热心网友 时间:2026-05-18
转载

许多用户初次接触图像生成模型时,常被其快速生成“像模像样”图片的能力所惊艳。然而,当真正将其投入高频生产工作流时,另一层面的挑战便逐渐浮现。

例如,在创作活动主视觉时,模型生成的前几稿可能在主体、色调与氛围上都符合预期,但一旦放大审视细节,手部结构、材质纹理或元素间的边缘关系往往经不起推敲。又如,为文章配图时,模型虽能理解主题语义,最终输出却可能将关键元素放错位置,或在画面风格与文字内涵间产生微妙却恼人的偏差。

这正是当前生成式AI进入大规模应用深水区后,行业聚焦的核心痛点。如今的扩散模型,其生成能力已非主要瓶颈,缺乏的是一种更稳定、更可控、更贴合实际工作流的生成机制。

过去几年,业界主要通过扩大模型规模、增加训练数据与提升算力来推高效果上限。但当模型能力逼近某个高位后,许多问题不再表现为“能否生成”,而是“能否稳定生成正确的结果”。换言之,竞争焦点正从“模型会不会画”转向“模型能否在每一步都朝着精准的方向绘制”。

这一转变至关重要,它标志着生成模型的发展逻辑,正从规模驱动转向机制驱动。

在此背景下,上海交通大学与vivo BlueImage Lab的研究团队提出了《C²FG: Control Classifier Free Guidance via Score Discrepancy Analysis》。这项研究精准切中了行业当前面临的深层矛盾。

过去广泛采用的引导方式,本质上默认生成过程中的条件引导强度可以保持不变。但真实的扩散过程是动态演进的,模型在不同阶段对条件信息的依赖程度本就不同。研究团队抓住的,正是这个长期存在、却常被经验性调参所掩盖的关键问题。

从这个角度看,C²FG不仅代表一次技术优化,更是一种研究视角的转换。它提示我们,下一阶段真正重要的问题,或许不再只是把模型做得更大,而是更精确地理解生成过程的内部动态,并据此重新设计控制逻辑。

上交大 x vivo 团队:一个简单改动,让 diffusion 全面提升丨CVPR 2026

C²FG 优化了生成分布的本质

研究团队首先在ImageNet这一核心基准任务上验证了方法的整体效果。数据显示,在常规的DiT模型上,引入C²FG后,最直观的变化是生成结果显著更接近真实数据分布。

具体而言,FID分数从2.29降至2.07,同时IS(Inception Score)从276.8提升至291.5。Precision基本稳定在0.83,而Recall则从0.57上升至0.59。

这组指标变化共同说明:新方法并非通过牺牲生成质量来换取多样性,而是在保持原有精度的前提下,同步提升了图像的清晰度、类别明确性,并覆盖了更广泛的真实分布区域。单一指标很难全面反映这种“多维度同步提升”的效果,而这组数据组合恰好印证了这一点。

上交大 x vivo 团队:一个简单改动,让 diffusion 全面提升丨CVPR 2026

更关键的是,这种改进在本身已很强的模型上依然成立。以SiT-XL/2为例,其固定引导强度时的FID已达1.80,而C²FG能将其进一步压低至1.51,同时IS从284.0大幅提升至315.0。尽管Precision从0.81微降至0.80,但Recall从0.61提升至0.62,这表明整体生成能力是增强的,而非简单的指标权衡。

换句话说,在模型性能已接近天花板时,依然能在“更真实”和“更丰富”之间找到更优的平衡点,这本身就暗示问题根源可能不在模型能力,而在于引导机制。

当实验设置逼近性能极限时,这一趋势依然清晰。即使基线方法的FID已达1.42的极高水平,引入C²FG后仍能微降至1.41。这种微小却稳定的改进表明,随着模型无限逼近极限,误差来源越来越集中于机制层面,而非网络架构本身。

类似现象也出现在更高分辨率的复杂任务中。在512×512的设置下,基线FID为6.81,C²FG可将其降至6.54,同时IS从229.5跃升至280.9。这说明在更困难的生成条件下,该方法依然能改善图像结构和整体清晰度,并非只在简单场景中有效。

研究团队还将验证扩展到其他任务类型。在文生图任务中,虽然整体提升幅度不如ImageNet显著,但趋势保持一致。例如,U-ViT的FID从5.37降至5.28,Stable Diffusion的CLIP分数从31.8提升至31.9。这表明该方法不仅适用于类别条件生成,对文本条件同样有效,只是在更复杂的语义约束下,改进幅度会相对温和。

上交大 x vivo 团队:一个简单改动,让 diffusion 全面提升丨CVPR 2026

进一步在像素空间任务中,基线模型FID已达1.58,在强基准方法的帮助下可降至1.04,而加入C²FG后仍能继续优化至1.03。这种在接近极限区域依然存在的改进,直接证明了误差并非源于模型表达能力,而是源于引导方式的使用。

从实际应用角度出发,研究人员还分析了减少推理步数时的表现。在50步和20步两种设置下,FID均呈现稳定下降,且在20步这种计算预算极低的情况下,提升反而更为明显。这意味着,当每一步的决策都变得至关重要时,动态引导的优势会被放大。

最后,通过一个简洁的二维玩具实验,研究团队直观展示了传统方法会产生明显偏离目标分布的异常样本,而C²FG则基本避免了这类异常值,其生成分布更贴近真实目标。这进一步说明,改进不仅体现在视觉层面,更深入到了整体概率分布的正确性上。

上交大 x vivo 团队:一个简单改动,让 diffusion 全面提升丨CVPR 2026

基于逐层验证的实验设计框架

研究团队设计如此多层次实验,目的远不止于证明C²FG效果更好,更是为了回答一个更根本的问题:它为什么能更好?

围绕这一目标,他们构建了一个逐层递进的验证体系:

第一层:机制验证。重点测量条件分支与无条件分支之间的差异,结果发现这种差异并非固定不变,而是随时间动态演化。

第二层:分布验证。通过玩具实验观察生成结果是否更接近真实分布,从而判断改进是停留在视觉层面,还是已深入分布层面。

第三层:性能验证。将方法置于ImageNet等核心任务中,直接检验各项指标是否获得提升。

第四层:泛化验证。主动更换模型架构、任务类型乃至采样方式,旨在确认改进不依赖于任何特定结构或实验条件。

第五层:极限验证。专门测试强模型和少步数这两类苛刻情境。若方法在这些设定下依然有效,则更能说明其反映的是一种稳定规律,而非偶然现象。

经过这样层层推进,整个实验便形成了一条完整的证据链,最终支撑的结论也就不再是简单的“效果更好”,而是“这种改进背后存在可重复验证的普适机制”。

上交大 x vivo 团队:一个简单改动,让 diffusion 全面提升丨CVPR 2026

在这一系列实验中,最关键的观察集中于扩散过程不同阶段的行为变化。研究人员发现,在生成早期,条件信息与无条件信息几乎趋同,差异很小。这意味着若在此阶段仍使用固定且较强的引导,就容易导致“过度引导”。

相反,到了生成后期,二者差异会迅速扩大。也就是说,模型越来越需要条件信息将生成过程拉回目标分布附近。此时若引导强度依旧固定,就会显得“引导不足”,无法提供足够的约束力。

正是在这个意义上,C²FG的重要性得以凸显。它的作用并非简单调大或调小引导强度,而是自动匹配这种随时间变化的差异,实现“前期不过强、后期不不足”,从而使整个生成过程更贴合扩散模型的真实动态。

上交大 x vivo 团队:一个简单改动,让 diffusion 全面提升丨CVPR 2026

对 diffusion 本质的修正

从实验意义上看,这项研究的重要性,远不止于将几个指标推高了小数点后几位。它揭示了一个关于扩散生成模型更本质的问题。

过去许多方法默认引导强度在整个生成过程中可以保持不变,但实验结果表明,问题不仅在于参数如何调节,更在于这种“固定不变”的假设本身,就与生成过程的实际动态不相符。

由于研究人员在不同任务、模型和设置下都观察到了稳定的提升,因此可以断言,C²FG修正的并非某种局部技巧,而是条件信息参与生成时普遍存在的系统性偏差。这意味着,该研究真正推动的,不只是一个新方法,更是对生成机制更精准的理解。

这种意义在强模型上的表现尤其具有说服力。像FID从1.80降至1.51这样的提升,若放在普通模型上已属显著,而出现在本身已接近极限的强模型上,则强有力地说明:剩余的误差主要并非源于模型能力不足,而是源于引导机制的设计尚不够合理。

换言之,研究团队证明了,未来提升生成模型的效果,未必只能依赖更大的模型、更多的数据或更长的训练时间。通过对生成过程中引导机制的重新设计,同样能开辟一条有效的进阶路径。

少步数实验的意义则更贴近日常应用。研究发现,步数越少,C²FG的优势越明显。这说明在计算资源受限时,固定引导带来的误差会被放大,而动态引导更能缓解这一问题。对普通用户而言,这种改进最终可能转化为更快的生成速度、更短的等待时间、更低的设备要求,同时结果也更稳定,不易出现模糊、偏离或细节崩坏。

玩具实验进一步阐明,C²FG改善的也不仅是图像表面的清晰度,更是让生成结果在整体概率分布上更逼近真实目标。这意味着用户在使用生成工具时,更容易一次性获得自然、合理、符合预期的结果,无需反复修改和重试。

再往深处看,这项研究的价值还在于,它让生成模型的发展方向变得更加清晰。研究团队最核心的贡献,不仅在于将引导强度从常数改为时间函数,更在于通过系统实验证明:生成过程中的条件引导,本就应随时间动态变化。

这一结论不仅能指引后续研究找到更合理的设计思路,也有望让现有生成系统以较低成本实现升级。最终落实到普通用户身上,便是未来的图像生成工具有可能变得更快、更稳、也更容易普及。

来源:https://www.leiphone.com/category/ai/T1QJcttY3cV0JjVU.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
自变量发布新一代具身智能模型WALL-B 破解家庭场景应用难题

自变量发布新一代具身智能模型WALL-B 破解家庭场景应用难题

早上七点,闹钟响了。你从床上爬起来,走到客厅。拖鞋不知踢到哪里,厨房的碗还没洗,孩子的书包扔在地上,猫打翻了一杯水。在自变量创始人兼CEO王潜看来,这种家庭环境的本质就是随机、碎片和不断变化的。他直言,目前全球没有任何一台机器人能在无人遥控的情况下,独立搞定上述场景里的综合整理任务。 这背后的原因是

时间:2026-05-18 19:29
OpenAI拟投资15亿美元布局企业级AI市场

OpenAI拟投资15亿美元布局企业级AI市场

据英国《金融时报》最新披露,人工智能领域的领军企业OpenAI正加速布局企业级市场。知情人士透露,OpenAI计划向一家新成立的合资企业投入巨额资金,投资总额可能达到15亿美元。 据悉,这家内部代号为“DeployCo”的合资公司已在特拉华州正式注册。其核心目标清晰聚焦于推动OpenAI办公套件等企

时间:2026-05-18 19:29
阿里千问推出小酒窝AI数字人将接入旗下生态应用

阿里千问推出小酒窝AI数字人将接入旗下生态应用

4月22日,阿里巴巴正式推出其生态级AI助手“通义千问”的全新数字人形象——“千问小酒窝”。这个拥有标志性温暖笑容的虚拟形象,不仅是技术的展示,更标志着阿里正加速将其庞大的生活服务生态进行智能化整合,致力于为用户提供更统一、便捷的入口。 简单来说,未来用户只需在千问App中与这位“小酒窝”对话,即可

时间:2026-05-18 19:29
微软 Edge Copilot 新增跨标签页信息整合功能

微软 Edge Copilot 新增跨标签页信息整合功能

微软Edge浏览器迎来重磅更新,其内置的Copilot AI助手现已具备跨标签页内容感知能力。这意味着,当你与Copilot对话时,它可以实时“看到”并理解你所有已打开的网页内容。无论是比较多个电商页面的商品详情,还是快速提炼几篇研究文章的核心论点,Copilot都能帮你高效整合信息,让跨页面信息处

时间:2026-05-18 19:29
预计算力需求持续旺盛行业景气度维持高位

预计算力需求持续旺盛行业景气度维持高位

近日,上海在数字经济战略布局上再出关键举措。市政府办公厅正式印发《国家数字经济创新发展试验区(上海)实施方案》,其中对算力资源的规划部署成为业界关注焦点。方案明确提出,要加快推进算力资源的高效互联与协同调度。具体而言,将进一步提升上海市算力监测调度平台与长三角(上海)算力互联互通平台的核心功能,积极

时间:2026-05-18 19:28
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程