腾讯混元SRPO技术:优化大模型生图效果,告别油腻画风

9月17日最新消息,腾讯混元团队通过官方公众号宣布,其图像生成研究小组在9月10日推出了一项突破性技术SRPO。这项研究成果针对开源文生图模型Flux常见的"油脂感过重"问题,提出了一套创新性的强化学习算法,成功将人像生成的逼真度提升了300%。
数据显示,该研究成果一经发布便迅速登上Hugging Face热门榜单第一名,社区量化版本下载量突破2.5万次,Github收藏数超过700颗星。
目前Flux是开源文生图领域应用最广泛的基础模型。针对Flux.dev.1版本产生的"皮肤质感失真"问题,SRPO(全称语义相对偏好优化)通过在线奖励偏好调节和生成轨迹优化两大核心技术实现了突破性进展。


据介绍,这项由腾讯混元携手香港中文大学(深圳)和清华大学联合开发的技术,创新性地采用了语义偏好驱动的奖励模型在线调节机制。具体而言,研究人员通过在奖励模型中添加"真实感"等特定调控提示词,实现了对优化目标的精准引导。实验证明这些控制词能显著增强模型在特定维度的表现。

研究发现,单纯的语义引导容易产生奖励诱导偏颇现象。为此团队开创性地提出"语义相对偏好优化"策略:同时采用正负向引导词作为信号输入,利用负梯度抵消奖励模型的通用性偏差,同时保留特定维度上的准确优化能力。
值得注意的是,传统方法如ReFL和DRaFT通常仅优化生成过程的后半段,这会导致奖励模型过度拟合高频信息。具体表现为:HPSv2偏好红色调图像,PickScore倾向紫色,而ImageReward则会给过曝光区域过高评分。
针对这一痛点,研究团队开发了Direct-Align技术,通过对输入图像进行可控噪声注入,再利用单步推理以预置噪声为"参考锚点"实现图像重建。这一创新方法大幅降低了重建误差,使得奖励信号传导更加精确,从而实现对全生成过程的优化。

实验数据表明,SRPO展现出惊人的训练效率,仅需10分钟训练就能全面超越DanceGRPO的表现。


定量评估显示,SRPO多项指标达到业界顶尖水平,人类评估的真实感和美学评分提升超过300%,训练时间较DanceGRPO缩短98.7%。


相关资源:
论文题目: 基于精细人类偏好的全扩散轨迹直接对齐
论文链接:https://arxiv.org/abs/2509.06942
项目主页:https://tencent.github.io/srpo-project-page/
GitHub:https://github.com/Tencent-Hunyuan/SRPO
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
京东许冉:AI投入三年超万亿,生态构建助力新品落地
在京东全球科技探索者大会上,京东集团SEC副主席兼CEO许冉以 "Enjoy AI "为主题,系统阐释了企业人工智能战略的核心框架。她提出 "人工智能价值=模型能力×用户体验×产业厚度平方 "的创新公式,强
阿里吴泳铭解析AI三阶段:从通用到超级AI发展路径
在2025云栖大会上,阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭发表了关于人工智能未来发展的深度见解。他明确指出,实现通用人工智能(AGI)已不再是悬念,但人工智能的演进远未止步,其终极
华为鲲鹏联合南光集团共建AI算力,助力企业数字化转型
扎根澳门七十余载,与新中国同龄的南光(集团)有限公司,始终秉持“根植澳门、融入内地、拓展海外”的战略方向,构建起覆盖能源保障、民生贸易、酒店旅游、城市建设、综合物流、文创会展、公共交通、现代金融等多
京东AI数字人「他她它」上线:毫秒响应,支持外卖点餐
在近日举办的京东全球科技探索者大会上,一款名为“他她它”的AI数字人产品成为焦点。这款基于京东自主研发的JoyAI大模型打造的智能助手,不仅突破了传统AI应用的交互边界,更通过多维度功能创新重新定义
京东AI三大产品发布 开启"量产时代"四大场景落地
京东在人工智能领域迈入规模化应用新阶段。9月25日,京东全球科技探索者大会在北京拉开帷幕,数字人主持人以科技感十足的方式亮相会场,标志着AI技术已深度融入会议全流程。大会现场,京东集团CEO许冉宣布
相关攻略
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















