DeepSeek-OCR+2发布:识别精度提升3.73%,高效解析复杂文档
据 IT 之家 1 月 27 日消息,DeepSeek 今日正式发布新一代文档识别模型 DeepSeek-OCR 2。这款模型显然是 DeepSeek-OCR 的升级版本,其核心改进聚焦在视觉编码器的架构设计上。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
研究团队提出了一种名为 DeepEncoder V2 的新型编码器结构。这项技术突破源于对传统视觉语言模型处理方式的重新思考,旨在让机器更贴近人类的视觉阅读逻辑。

在传统的视觉语言模型中,图像通常会被分割为若干视觉 token,并按照从左到右、从上到下的固定网格顺序输入模型处理。这种方式虽然实现简单,但与人类在阅读文档、表格或公式时基于语义和逻辑关系进行跳跃式浏览的做法并不一致。
DeepSeek 论文指出,尤其在版式复杂的文档场景中,视觉元素之间往往存在明确的逻辑先后关系,仅仅依赖空间顺序可能会限制模型对内容结构的理解能力。
DeepSeek-OCR 2 的改进重点在于引入“视觉因果流”的概念。在 DeepEncoder V2 中,研究团队用一种类似语言模型的结构替代了原先基于 CLIP 的视觉编码模块,并在编码器内部引入可学习的“因果流查询 token”。这些查询 token 通过定制化的注意力机制,在保留视觉 token 全局双向注意力的同时,自身采用因果注意力,只能访问已有信息,从而在编码阶段对视觉 token 的顺序进行动态重排。最终,只有经过因果重排后的查询 token 会被送入后续的语言模型解码器,用于生成识别结果。
在整体架构上,DeepSeek-OCR 2 仍然沿用了编码器 — 解码器的基本范式。图像首先经过一个视觉 tokenizer,被压缩为较少数量的视觉 token,再由 DeepEncoder V2 进行语义建模和顺序重组,最后交由一个基于混合专家架构(MoE)的语言模型解码。
DeepSeek 论文指出,该设计在不显著增加解码负担的前提下,将单页文档所使用的视觉 token 数量控制在 256 到 1120 之间,与前代模型及同类系统的资源开销保持在相近水平。
在实验评估方面,研究团队选用了 OmniDocBench v1.5 作为主要测试基准。该基准涵盖多种类型的中英文文档,包括学术论文、杂志、报告等,重点考察文本识别、公式解析、表格结构还原以及阅读顺序等指标。
测试结果显示,在视觉 token 上限更低的情况下,DeepSeek-OCR 2 的整体得分达到 91.09%,相比 DeepSeek-OCR 提升了 3.73%。其中,与文档阅读顺序相关的编辑距离指标下降较为明显,显示模型在处理文档逻辑结构方面取得了改进。
IT 之家注意到,论文还给出了模型在实际应用场景中的表现对比。在在线 OCR 服务和批量 PDF 预处理等生产环境中,由于缺乏人工标注作为参考,研究团队以输出重复率作为质量指标。结果显示,DeepSeek-OCR 2 在这两类数据上的重复率均低于前代模型,表明其在真实数据分布下具有更稳定的输出表现。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
红魔首发骁龙8超越版性能实测 风液双冷散热系统解析
红魔11SPro+采用极具未来感的工业风设计,配备银色金属拉丝背板和环形散热模块。正面为纯平直屏,边框极窄且无前置摄像头开孔,视觉沉浸感强。核心搭载第五代骁龙8至尊超越版芯片,并引入风冷与水冷双散热系统,旨在保障高性能稳定输出。该机将于5月18日正式发布。
追觅俞浩揭秘:研发投入超同行三倍,创新速度领先十倍
追觅创始人俞浩透露,公司研发投入为行业平均3倍以上,创新预研投入超同行10倍,资金用于产品迭代、技术预研与前沿探索,以构建技术壁垒并拓展增长曲线。公司从智能清洁电器起步,正打造多品类科技生态,目标成为全球科技巨头。其核心策略是争夺顶尖人才,计划大幅扩充研发与管理团队。
抖音集团加码真人短剧 首届短剧产业大会长沙开幕
首届短剧产业大会在长沙举办,聚焦真人短剧发展。平台公布多项扶持政策,包括提高分成比例、设立激励资金及直接投资优质项目,旨在鼓励精品创作。数据显示,真人短剧消费时长与爆款数量显著增长,内容品类日益多元。未来平台将持续加大投入,引导行业深耕内容品质,构建健康生态。
谷歌发布全新AI原生笔记本Googlebooks系列
Google联合硬件伙伴推出AI原生笔记本Googlebooks,秋季上市。其核心创新“魔法指针”将光标变为GeminiAI交互入口,可基于屏幕内容提供实时建议。设备深度融合Android应用与文件,支持生成聚合多源数据的个性化桌面组件,标志着Google正从ChromeOS转向以AI为核心的新系统战略。
iPhone换安卓数据迁移指南 密码与主屏布局同步教程
谷歌与苹果合作升级数据迁移功能,旨在简化从iPhone换机至安卓的流程。新方案支持无线迁移密码、主屏布局、照片、消息及联系人等关键数据,并新增eSIM转移支持,减少手动操作。该功能将率先在三星Galaxy和谷歌Pixel机型上线,以提升跨平台换机体验,吸引更多用户尝试安卓生态。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

