DeepSeek公开新技术了!多模态模型技术报告公布:超越GPT-5.4
DeepSeek发布多模态推理新技术:以“视觉原语”思考,突破“指代鸿沟”
5月1日,DeepSeek在GitHub上发布了一份引人注目的技术报告,题为《Thinking with Visual Primitives(以视觉原语思考)》,同时公开了其全新的多模态推理模型。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
这项技术基于DeepSeek V4-Flash架构构建,这是一个总参数量达2840亿、推理时激活130亿参数的混合专家模型。其核心,在于提出了一种碘伏性的多模态推理新范式。

报告一针见血地指出了一个长期被忽视的根本瓶颈——“指代鸿沟”。简单来说,现有模型虽然能“看见”图片,但在用自然语言进行内部推理时,问题就来了。当思维链中间出现“左边那个大的、靠近中央的红色物体”这类模糊描述时,在复杂密集的场景中,模型的注意力很容易“漂移”,导致指代对象混乱,最终得出错误结论。
以往,业界的思路大多集中在提升视觉感知的分辨率上。但这份报告提出了一个关键洞见:“看见”和“能说清楚在说哪个”,完全是两码事。感知再清晰,若推理过程无法精确定位,也是徒劳。
那么,DeepSeek的解法是什么?答案是:将空间坐标直接嵌入思维链。模型的核心创新在于,让点坐标和边界框成为推理过程的基本单元。模型在思考中每提及一个视觉对象,便会同步输出其坐标,将空间信息作为消除歧义的“锚点”。
这就好比推理过程有了精确的“空间坐标笔记”。例如,模型的思维链可能是这样的:“找到一只熊[452,23,804,411],它正在爬树,排除;再往左下角看,找到另一只[50,447,647,771],它站在岩石边缘,符合条件。”在这里,坐标不再是事后标注的答案,而是驱动推理、确保每一步都指向正确目标的关键工具。

为了实现高效推理,模型在架构层面实现了惊人的视觉压缩效率。一张756×756的图片,经过视觉Transformer处理后,会生成2916个图像块token。随后,通过3×3的空间压缩合并为324个token,再经由压缩稀疏注意力机制,将键值缓存进一步压缩4倍。最终,仅用81个视觉KV条目即可表征整张图片。
这个数字有多极致?不妨做个对比:处理同样尺寸的图片,Claude Sonnet 4.6大约需要870个条目,而Gemini-3-Flash则需要约1100个。DeepSeek的方案在效率上优势明显。
强大的能力离不开高质量的数据。研究团队从近十万个目标检测数据集中,精心筛选出约3.17万个高质量数据源,并由此生成了超过4000万条训练样本。这些数据重点覆盖了计数、空间推理、迷宫导航和路径追踪四类核心任务。
在训练策略上,团队采用了“先专家化,后统一”的两步走方案。首先,分别训练擅长边界框预测和点坐标预测的两个专家模型;随后,通过强化学习进行优化,并最终利用在线策略蒸馏技术,将两者融合为一个统一的强大模型。
效果如何?实验部分给出了答案。模型在11个基准测试上,与Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6等主流模型进行了全面对比。

在计数任务上,模型在Pixmo-Count基准上的精确匹配得分达到89.2%,超越了Gemini-3-Flash的88.2%,并大幅领先于GPT-5.4的76.6%和Claude Sonnet 4.6的68.7%。
更具代表性的差距出现在拓扑推理任务上。在迷宫导航任务中,模型得分达到66.9%,而GPT-5.4为50.6%,Gemini-3-Flash为49.4%,Claude Sonnet 4.6为48.9%,领先优势约17个百分点。在路径追踪任务中,模型以56.7%的得分,领先于GPT-5.4的46.5%。这些数据清晰地展示了“视觉原语”在复杂空间推理上的独特优势。
当然,报告也客观指出了当前模型的局限性。例如,模型需要明确的触发词才会启用视觉原语机制;在极细粒度的场景下,坐标精度仍有提升空间;模型的跨场景泛化能力,也是未来需要持续优化的方向。

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
闪迪 2026 财年第三财季净利润 36.15 亿美元,同比增长 287%
闪迪发布2026财年第三财季业绩:数据中心业务成增长引擎,盈利能力大幅跃升 5月1日,闪迪公布了其2026财年第三财季(对应2025年7月至2026年6月)的财务报告。这份成绩单,用“惊艳”来形容或许并不为过。 先看几组核心数据: 营业总收入:59 50亿美元,同比增长251%。 归母净利润:36
告别纯电专属 奔驰称未来燃油、纯电新车将回归同平台
告别纯电专属 奔驰称未来燃油、纯电新车将回归同平台 最近北京车展上传出的一个消息,在汽车圈里激起了不小的波澜。梅赛德斯-奔驰官方确认,将对自身的平台战略进行重大调整——简单来说,就是放弃此前力推的纯电专属平台路线。 这意味着什么?未来,奔驰同级别的燃油车和纯电动车,将逐步回归到同一个平台上进行开发。
苹果Q2营收利润全面超预期:iPhone收入暴涨22%撑起半壁江山!
苹果Q2营收利润全面超预期:iPhone收入暴涨22%撑起半壁江山! 刚刚出炉的这份成绩单,可以说给市场吃了一颗定心丸。截至3月28日的2026财年第二季度,苹果交出了一份相当亮眼的财报:总营收冲上1111 84亿美元,相比去年同期的953 59亿美元,增幅达到17%;净利润为295 78亿美元,同
新纪录!零跑汽车4月交付达71387台,创历史新高
5月销量创纪录,零跑汽车交付势能全面爆发 5月1日,零跑汽车公布了最新的交付数据:4月份,零跑全系车型交付量达到71387台,同比增长高达73 9%。这不仅强势刷新了品牌单月销量的历史纪录,更清晰地跑出了一条强劲的增长曲线。 在4月销量视频中,零跑汽车创始人、董事长兼CEO朱江明分享了这一里程碑式的
极越:上海集度汽车六家关联主体进入实质合并重整程序
关于六家关联主体进入实质合并重整程序的公告 5月1日凌晨,极越方面通过其官方公众号发布了一则来自上海集度汽车有限公司的公告。内容涉及旗下多家关联公司的重整事宜。 公告全文如下: 根据上海市第三中级人民法院的裁定,已正式受理上海集度汽车有限公司与上海集度科技有限公司、集度科技(武汉)有限公司、武汉集度
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

