DeepSeek推出VLM架构新模型：视觉语言大模型实现重大突破

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

DeepSeek推出VLM架构新模型：视觉语言大模型实现重大突破

热心网友时间：2026-01-27

转载

智东西
作者陈骏达
编辑云鹏

智东西1月27日报道，刚刚，DeepSeek开源了其面向OCR场景的专用模型DeepSeek-OCR 2，技术报告同步发布。这一模型是对去年DeepSeek-OCR模型的升级，其采用的新型解码器让模型看图、读文件的顺序更像人，而不是像机械的扫描仪。

简单来说，以前的模型阅读模式是从左上到右下，地毯式扫一遍图片，DeepSeek-OCR 2则能够理解结构，按结构一步步读。这种新的视觉理解模式，让DeepSeek-OCR 2可以更好地理解复杂的布局顺序、公式和表格。

在文档理解基准测试OmniDocBench v1.5上，DeepSeek-OCR 2拿到了91.09%的得分，在训练数据和编码器都不变的前提下，较DeepSeek-OCR提升了3.73%。与其他端到端的OCR模型相比，这已经是SOTA成绩，但其表现要略逊于百度的PaddleOCR-VL（92.86%）OCR管线。

同时，在相似的视觉token预算下，DeepSeek-OCR 2在文档解析方面的编辑距离（编辑为正确文本所需的工作量）低于Gemini-3 Pro，这证明DeepSeek-OCR 2在确保优越性能的同时保持了视觉token的高压缩率。

DeepSeek-OCR 2兼具双重价值：既可作为新型VLM（视觉语言模型）架构进行探索性研究，也能作为生成高质量预训练数据的实用工具，服务于大语言模型的训练过程。

论文链接：

https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

开源地址：

https://github.com/deepseek-ai/DeepSeek-OCR-2?tab=readme-ov-file

一、大模型不懂复杂文件结构？先观察全局再阅读便可解决

从架构上来看，DeepSeek-OCR 2继承了DeepSeek-OCR的整体架构，该架构由编码器和解码器组成。编码器将图像离散化为视觉token，而解码器根据这些视觉token和文本提示生成输出。

关键区别在于编码器：DeepSeek将此前的DeepEncoder升级为DeepEncoder V2，它保留了原有的所有能力，但把原本基于CLIP的编码器换成基于LLM的，同时通过新的架构设计引入了因果推理。

DeepEncoder V2关注的核心问题在于：当二维结构被映射为一维序列并绑定线性顺序后，模型在建模空间关系时不可避免地受到该顺序的影响。

这在自然图像中可能尚可接受，但在OCR、表格、表单等具有复杂布局的场景中，线性顺序往往与真实的语义组织方式严重不匹配，从而限制模型对视觉结构的表达能力。

DeepEncoder V2是如何缓解这一问题的？它首先采用视觉tokenizer对图像进行高效表示，通过窗口注意力实现约16倍的token压缩，在显著降低后续全局注意力计算与显存开销的同时，保持了充分的局部与中尺度视觉信息。

它并未依赖位置编码来规定视觉token的语义顺序，而是引入因果流查询（causal queries），通过内容感知的方式对视觉标记进行重排序与蒸馏。这种顺序不是由空间展开规则决定，而是由模型在观察全局视觉上下文后逐步生成，从而避免了对固定一维顺序的强依赖。

每个因果查询可以关注所有视觉token及先前查询，从而在保持token数量不变的前提下，对视觉特征进行语义重排序与信息蒸馏。最终，仅因果查询的输出被送入下游LLM解码器。

该设计本质上形成了两级级联的因果推理过程：首先，编码器内部通过因果查询对无序的视觉标记进行语义排序。随后，LLM解码器在此有序序列上执行自回归推理。

相较于通过位置编码强制施加空间顺序的做法，因果查询所诱导的顺序更贴合视觉语义本身，也就是符合人类阅读内容的正常习惯。

由于DeepSeek-OCR 2主要关注编码器改进，没有对解码器组件进行升级。遵循这一设计原则，DeepSeek保留了DeepSeek-OCR的解码器：一个具有约5亿活跃参数的3B参数MoE结构。

二、OmniDocBench得分达91.09%，编辑距离低于Gemini-3 Pro

为了验证上述设计的有效性，DeepSeek进行了实验。研究团队分三个阶段训练DeepSeek-OCR 2：编码器预训练、查询增强和解码器专业化。

第一阶段使视觉tokenizer和LLM风格的编码器获得特征提取、token压缩和token重排序的基本能力。第二阶段进一步增强了编码器的token重排序能力，同时增强了视觉知识压缩。第三阶段冻结编码器参数，仅优化解码器，从而在相同的FLOPs下实现更高的数据吞吐量。

为评估模型效果，DeepSeek选择OmniDocBench v1.5作为主要的评估基准。该基准包含1355个文档页面，涵盖中英文的9个主要类别（包括杂志、学术论文、研究报告等）。

DeepSeek-OCR 2在仅使用最小的视觉标记上限（V-token maxmax）的情况下，达到了91.09%的性能。与DeepSeek-OCR基线相比，在相似的训练数据源下，它表现出3.73%的改进，验证了新架构的有效性。

除了整体改进外，阅读顺序（R-order）的编辑距离（ED）也显著下降（从0.085降至0.057），这表明新的DeepEncoder V2可以根据图像信息有效地选择和排列初始视觉标记。

在相似的视觉标记预算（1120）下，DeepSeek-OCR 2（0.100）在文档解析方面的编辑距离低于Gemini-3 Pro（0.115），进一步证明新模型在确保性能的同时保持了视觉标记的高压缩率。

不过，DeepSeek-OCR 2也不是全能的。在文本密度超高的报纸上，DeepSeek-OCR 2识别效果没有其他类型的文本好。这一问题后续可以通过增加局部裁剪数量来解决，或者在训练过程中提供更多的样本。

结语：或成新型VLM架构开端

DeepEncoder V2为LLM风格编码器在视觉任务上的可行性提供了初步验证。更重要的是，DeepSeek的研究团队认为，该架构具有演变为统一全模态编码器的潜力。这样的编码器可以在同一参数空间内压缩文本、提取语音特征和重组视觉内容。

DeepSeek称，DeepSeek-OCR的光学压缩代表了向原生多模态的初步探索，未来，他们还将继续探索通过这种共享编码器框架集成额外模态，成为研究探索的新型VLM架构的开端。

来源:https://www.163.com/dy/article/KK9O6HCR051180F7.html

上一篇： DeepSeek视觉推理首创因果流，性能超越Gemini再夺第一

下一篇： Sora发布全球首个AI原生电商视频Multi-Agent系统

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

盗宝小妖高分通关攻略与实战技巧详解

魔兽世界凄凉之地前往路线与交通指南

无限火力剑魔最强出装符文搭配攻略

和平精英最新版更新教程卡顿下载慢解决方法汇总

DNF皇女艾莉婕身份背景与剧情详解

梦幻西游东海湾蜃境入口选择攻略与路线推荐

魔兽世界巫妖王怀旧服裁缝专业速冲450级指南

DNF女枪手职业推荐：哪个职业最强最好用

三角洲行动M82狙击枪改装方案配件搭配与实战技巧

极限竞速地平线6豪华版与标准版详细区别对比

小米汽车推出寻天子品牌增程车型将改变家用车市场格局

洛克王国独角仙踪地图位置详解与寻找攻略

洛克王国博得材料屋具体位置与寻找攻略

洛克王国枫雪镇现在还能进入吗最新情况说明

175魔化生寺装备选择与搭配全攻略

暗黑破坏神4熔岩殉道者钓鱼位置详解

异环娜娜莉爬墙技巧与详细操作步骤解析

红色沙漠漆黑射手板金披风获取方法全攻略

暗黑破坏神4食尸鬼蠕虫钓鱼位置与获取方法

炉石传说滋养自然卡牌效果与使用指南

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

相关攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

2015-03-10 12:39

《英雄坛说》详细全攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

异环时停技能效果解析与实战应用指南发布于 2026-05-15

羊了个羊214关卡通关技巧与详细攻略分享发布于 2026-05-15

星球大战旧共和国武士2西斯领主重制版计划被EA取消发布于 2026-05-15

深海迷航2循环呼吸器蓝图位置与获取方法详解发布于 2026-05-15

原神妮露技能解析与实战机制详解发布于 2026-05-15

ARC Raiders背景故事解析与下次重大更新前瞻发布于 2026-05-15

深海迷航2修理工具蓝图位置与获取方法详解发布于 2026-05-15

三角洲行动大坝地图单排干员选择推荐发布于 2026-05-15

Apex英雄探路者最强武器搭配推荐发布于 2026-05-15

困境抉择游戏玩法解析：值得体验的策略挑战发布于 2026-05-15

花底裤如何赋予我无限力量与自信发布于 2026-05-15

PlayStation无障碍游戏设备捐赠仪式在上海举办发布于 2026-05-15

港务大亨竞拍风云怎么玩游戏玩法与特色介绍发布于 2026-05-15

5月16日钓鱼活动公告：时间地点与报名指南发布于 2026-05-15

幻世录重制版2026年发售经典战棋游戏首曝预告发布于 2026-05-15

只狼三年前义父剧情触发全流程攻略发布于 2026-05-15

Win11桌面小组件添加与自定义设置教程发布于 2026-05-15

Win10磁盘配额设置教程如何限制用户磁盘使用空间发布于 2026-05-15

Windows 11 超级任务栏预览开启教程提升窗口悬停显示速度发布于 2026-05-15

Win11多时区时钟设置教程添加显示多个地区时间发布于 2026-05-15

Windows 11 高性能图形加速设置教程强制系统调用独立显卡方法发布于 2026-05-15

Windows 11游戏崩溃怎么解决优化显存设置提升3A大作稳定性发布于 2026-05-15

Win10查看磁盘使用情况与各分区容量方法详解发布于 2026-05-15

Win10文件夹视图设置教程统一显示方式详细步骤发布于 2026-05-15

国产内存新架构突破30TB带宽实现自主供应链发布于 2026-05-11

Edge浏览器网页捕获功能使用教程截取全屏与区域截图详解发布于 2026-05-11

千度手机版官网免费入口手机端专用访问链接发布于 2026-05-11

ES文件浏览器复制文件内容到剪贴板详细步骤教程发布于 2026-05-11

如何设置鼠标连点器的固定点击间隔秒数发布于 2026-05-11

苹果iPhone 15截屏保存到相册的详细步骤教程发布于 2026-05-11

立升净水器滤芯更换方法与使用指南发布于 2026-05-11

ES文件浏览器如何设置默认打开应用详细图文教程发布于 2026-05-11

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

DeepSeek推出VLM架构新模型：视觉语言大模型实现重大突破

JamGPT AI调试助手功能详解与使用指南

SitePoint 社区论坛程序员与设计师的在线技术交流平台

Reddit社区特色与用户个性深度解析

讯飞星辰AI开发平台功能详解与实战应用指南

AI生成SEO博客文章自动添加内链与图片

DeepSeek推出VLM架构新模型：视觉语言大模型实现重大突破

JamGPT AI调试助手功能详解与使用指南

SitePoint 社区论坛 程序员与设计师的在线技术交流平台

Reddit社区特色与用户个性深度解析

讯飞星辰AI开发平台功能详解与实战应用指南

AI生成SEO博客文章自动添加内链与图片

SitePoint 社区论坛程序员与设计师的在线技术交流平台