面包屑图标 当前位置: 首页
AI资讯
热点详情

DeepSeek R1多模态模型已开源迁移

AI热点日报
AI热点日报时间:2026-07-01
热点解读

DeepSeek-R1 近日掀起新一轮技术浪潮——其强化学习策略正式进军计算机视觉领域。Visual-RFT 已全面开源,这或许是多模态领域今年最值得关注的重大进展之一。让我们先梳理核心亮点:视觉强化微调技术首次实现落地,强化学习方法首次在视觉任务中得到有效性验证,并且仅需极少量样本即可完成高质量微

DeepSeek-R1 近日掀起新一轮技术浪潮——其强化学习策略正式进军计算机视觉领域。Visual-RFT 已全面开源,这或许是多模态领域今年最值得关注的重大进展之一。让我们先梳理核心亮点:视觉强化微调技术首次实现落地,强化学习方法首次在视觉任务中得到有效性验证,并且仅需极少量样本即可完成高质量微调,效果显著超越传统指令微调方案。那么,这一突破是否会在视觉领域催生一场新的革命?

简而言之,Visual-RFT 使得视觉语言大模型在目标检测、图像分类、推理定位等任务上的泛化能力迈上了新台阶。即便只有几十到上百条训练样本,其微调效果也远优于传统的 SFT 方法。论文与代码已经公开,感兴趣的朋友可以直接深入查阅更多细节:

论文地址:https://arxiv.org/abs/2503.01785
开源代码:https://github.com/Liuziyu77/Visual-RFT

Visual-RFT 究竟是什么?

Visual-RFT(Visual Reinforcement Fine-Tuning)本质上是将 DeepSeek-R1 的基于规则奖励的强化学习策略(GPRO)迁移至视觉感知任务。它为多模态模型引入了一套“可验证奖励”机制,促使大视觉语言模型(LVLMs)在不同任务中真正展开“思考”过程,而非机械地拟合训练数据。

主要创新点:

  1. 强化学习向视觉领域的迁移:过去业界普遍认为强化学习在视觉任务中难以奏效,然而此次研究首次验证了基于规则奖励的有效性,打破了固有认知。
  2. 极少样本下的高效微调:传统 SFT 往往需要上万条样本才能取得较好效果,而 Visual-RFT 只需 10~1000 条样本即可实现显著提升,成本降低了一个量级以上。
  3. 广泛覆盖多种视觉任务:涵盖目标检测、开放目标检测、少样本分类、推理定位等核心视觉应用场景。
  4. 推理能力显著增强:模型不仅给出最终答案,还会先进行“思考”环节,完整走一遍推理流程,从而获得更精准的结果。
核心奖励函数
  • 目标检测——IoU 奖励:通过计算预测框与真实框的重叠程度(交并比)来分配奖励。模型不仅要正确识别目标,还需精确定位,才算达标。
  • 图像分类——分类准确性奖励(CLS Reward):对比预测类别与真实类别,匹配即给予奖励。即使在数据有限的情况下,模型也能学会区分细粒度类别,泛化能力明显提升。
  • 推理定位——推理一致性奖励:同时评估模型的推理逻辑是否符合指令要求,并结合 IoU 衡量定位精度。确保模型并非靠猜测作答,而是真正理解并推理出正确结果。

评测结果:Visual-RFT 大幅领先 SFT

来看一个具体示例:

用户提问:这是一张花卉图片,请识别出花的品种。
模型先进行思考:这张图片显示了一朵黄色的毛茛花,带有绿色茎干,背景中可见绿叶。毛茛花属于毛茛科开花植物,以其明亮的黄色花朵著称,常生长在草地和牧场中。随后回答:毛茛花

Visual-RFT 与传统 SFT 的差距有多大?下表可以清晰说明:

方法 数据需求 泛化能力 推理能力
SFT(监督微调) 需要大量数据 泛化能力有限 仅依赖已有数据
Visual-RFT 仅需 10~1000 条数据 泛化能力强 具备推理与解释能力

论文实验基于 Qwen2-VL-2B/7B 视觉语言模型,在多项任务中 Visual-RFT 均大幅超越传统 SFT:

  • 开放目标检测:仅使用 65 类 COCO 数据训练,即可泛化到未见过的全新类别。
  • 少样本检测:仅凭 4 个样本就能提升检测精度。
  • 推理定位:面对复杂语义理解场景,推理结果更加精准。
  • 细粒度分类:能够准确区分同类物体中的细微差异。

Visual-RFT 开启视觉强化学习新时代

Visual-RFT 是首个基于 DeepSeek-R1 强化微调方法的多模态迁移应用,填补了视觉语言大模型在强化学习领域的空白。它不仅提升了视觉推理能力,还大幅降低了视觉任务微调的成本,对计算机视觉与人工智能社区而言,是一项实实在在的突破。

不妨大胆设想——这一方法是否也能助力机器人 AI 大脑中视觉模块的进步?您认为强化学习是否会成为未来多模态大模型训练的主流范式?

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:DeepSeek R1多模态模型已开源迁移要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/OpenSourceLLM/2025030417365.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-02 13:12
谷歌提示词比赛亚军:把AI当同事而非机器

与AI高效协作这件事,最近有个挺有意思的切入点——谷歌和瑞士邮政旗下的Digitalidag联合办了一场提示词比赛,让选手们编写指令,比如让AI制定一份详细的学习计划。亚军得主Joakim Jardenberg赛后接受了专访,分享了不少实操心得。下面这几个核心判断,值得每一位与AI共事的人反复琢磨。

AI热点2026-07-02 13:12
瓴盛打造核心平台与产业生态,加速AIoT场景落地

物联网已成为继智能手机热潮之后,半导体芯片领域最大的应用增长引擎。根据IDC的市场分析报告,中国物联网市场规模增长潜力巨大,预计2022年将超越美国,成为全球最大的物联网市场,占据世界物联网总规模的四分之一以上。按照这一趋势推算,到2025年中国物联网市场规模至少将达到3918亿美元。物联网的核心应

AI热点2026-07-02 13:11
人工智能大模型检索增强生成框架Dify深度解析

在生成式AI技术迅猛发展的背景下,Dify作为一款面向开发者的开源大语言模型应用开发平台,正在深刻改变AI应用的构建方式。它诞生于2023年前后,核心目标非常明确:通过低代码化与模块化设计,使开发者无需从零搭建复杂架构,即可快速部署生产级AI应用。随着大语言模型(LLM)技术的普及,Dify逐渐成为

AI热点2026-07-02 13:11
循序渐进构建MCP服务器教程

这次咱们来拆解一个实际项目:如何基于 TypeScript 构建一个完整的 MCP 服务器。别担心,整个过程会一步步拆开揉碎了讲,从环境搭建到代码实现,再到集成 Claude Desktop 进行测试,一条龙说清楚。 为了不让这个教程显得太干,我们会用一个非常接地气的场景——**天气查询服务**——

延伸阅读