数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

DeepSeek R1多模态模型已开源迁移

AI热点日报时间：2026-07-01

热点解读

DeepSeek-R1 近日掀起新一轮技术浪潮——其强化学习策略正式进军计算机视觉领域。Visual-RFT 已全面开源，这或许是多模态领域今年最值得关注的重大进展之一。让我们先梳理核心亮点：视觉强化微调技术首次实现落地，强化学习方法首次在视觉任务中得到有效性验证，并且仅需极少量样本即可完成高质量微

DeepSeek-R1 近日掀起新一轮技术浪潮——其强化学习策略正式进军计算机视觉领域。Visual-RFT 已全面开源，这或许是多模态领域今年最值得关注的重大进展之一。让我们先梳理核心亮点：视觉强化微调技术首次实现落地，强化学习方法首次在视觉任务中得到有效性验证，并且仅需极少量样本即可完成高质量微调，效果显著超越传统指令微调方案。那么，这一突破是否会在视觉领域催生一场新的革命？

简而言之，Visual-RFT 使得视觉语言大模型在目标检测、图像分类、推理定位等任务上的泛化能力迈上了新台阶。即便只有几十到上百条训练样本，其微调效果也远优于传统的 SFT 方法。论文与代码已经公开，感兴趣的朋友可以直接深入查阅更多细节：

论文地址：https://arxiv.org/abs/2503.01785
开源代码：https://github.com/Liuziyu77/Visual-RFT

Visual-RFT 究竟是什么？

Visual-RFT（Visual Reinforcement Fine-Tuning）本质上是将 DeepSeek-R1 的基于规则奖励的强化学习策略（GPRO）迁移至视觉感知任务。它为多模态模型引入了一套“可验证奖励”机制，促使大视觉语言模型（LVLMs）在不同任务中真正展开“思考”过程，而非机械地拟合训练数据。

主要创新点：

强化学习向视觉领域的迁移：过去业界普遍认为强化学习在视觉任务中难以奏效，然而此次研究首次验证了基于规则奖励的有效性，打破了固有认知。
极少样本下的高效微调：传统 SFT 往往需要上万条样本才能取得较好效果，而 Visual-RFT 只需 10～1000 条样本即可实现显著提升，成本降低了一个量级以上。
广泛覆盖多种视觉任务：涵盖目标检测、开放目标检测、少样本分类、推理定位等核心视觉应用场景。
推理能力显著增强：模型不仅给出最终答案，还会先进行“思考”环节，完整走一遍推理流程，从而获得更精准的结果。

核心奖励函数

目标检测——IoU 奖励：通过计算预测框与真实框的重叠程度（交并比）来分配奖励。模型不仅要正确识别目标，还需精确定位，才算达标。

图像分类——分类准确性奖励（CLS Reward）：对比预测类别与真实类别，匹配即给予奖励。即使在数据有限的情况下，模型也能学会区分细粒度类别，泛化能力明显提升。

推理定位——推理一致性奖励：同时评估模型的推理逻辑是否符合指令要求，并结合 IoU 衡量定位精度。确保模型并非靠猜测作答，而是真正理解并推理出正确结果。

评测结果：Visual-RFT 大幅领先 SFT

来看一个具体示例：

_{用户提问：这是一张花卉图片，请识别出花的品种。}
_{模型先进行思考：这张图片显示了一朵黄色的毛茛花，带有绿色茎干，背景中可见绿叶。毛茛花属于毛茛科开花植物，以其明亮的黄色花朵著称，常生长在草地和牧场中。随后回答：毛茛花}

Visual-RFT 与传统 SFT 的差距有多大？下表可以清晰说明：

方法	数据需求	泛化能力	推理能力
SFT（监督微调）	需要大量数据	泛化能力有限	仅依赖已有数据
Visual-RFT	仅需 10～1000 条数据	泛化能力强	具备推理与解释能力

论文实验基于 Qwen2-VL-2B/7B 视觉语言模型，在多项任务中 Visual-RFT 均大幅超越传统 SFT：

开放目标检测：仅使用 65 类 COCO 数据训练，即可泛化到未见过的全新类别。
少样本检测：仅凭 4 个样本就能提升检测精度。
推理定位：面对复杂语义理解场景，推理结果更加精准。
细粒度分类：能够准确区分同类物体中的细微差异。

Visual-RFT 开启视觉强化学习新时代

Visual-RFT 是首个基于 DeepSeek-R1 强化微调方法的多模态迁移应用，填补了视觉语言大模型在强化学习领域的空白。它不仅提升了视觉推理能力，还大幅降低了视觉任务微调的成本，对计算机视觉与人工智能社区而言，是一项实实在在的突破。

不妨大胆设想——这一方法是否也能助力机器人 AI 大脑中视觉模块的进步？您认为强化学习是否会成为未来多模态大模型训练的主流范式？

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：DeepSeek R1多模态模型已开源迁移要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/OpenSourceLLM/2025030417365.html

ai 人工智能

上一篇：人工智能未来产生自主意识的可能性有多大？

下一篇：小红书RedKnot推理引擎开源长上下文处理效率翻倍

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周基于即时编译技术的新一代深度学习框架 02 / 本周一种优化深度网络的降维分解技术原理解析 03 / 本周基于FPGA的神经网络深度压缩方法实现与应用 04 / 本周人工智能助力智能城市数据采集解决方案 05 / 本周AI Agent发展趋势与开源技术实践

01 / 本月基于即时编译技术的新一代深度学习框架 02 / 本月一种优化深度网络的降维分解技术原理解析 03 / 本月基于FPGA的神经网络深度压缩方法实现与应用 04 / 本月人工智能助力智能城市数据采集解决方案 05 / 本月AI Agent发展趋势与开源技术实践

热点快看

07-02 13:18基于即时编译技术的新一代深度学习框架 07-02 13:18一种优化深度网络的降维分解技术原理解析 07-02 13:18基于FPGA的神经网络深度压缩方法实现与应用 07-02 13:18人工智能助力智能城市数据采集解决方案 07-02 13:17AI Agent发展趋势与开源技术实践

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别