当前位置: 首页
科技数码
DeepSeek-OCR+2发布:识别精度提升3.73%,高效解析复杂文档

DeepSeek-OCR+2发布:识别精度提升3.73%,高效解析复杂文档

热心网友 时间:2026-01-27
转载

据 IT 之家 1 月 27 日消息,DeepSeek 今日正式发布新一代文档识别模型 DeepSeek-OCR 2。这款模型显然是 DeepSeek-OCR 的升级版本,其核心改进聚焦在视觉编码器的架构设计上。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

研究团队提出了一种名为 DeepEncoder V2 的新型编码器结构。这项技术突破源于对传统视觉语言模型处理方式的重新思考,旨在让机器更贴近人类的视觉阅读逻辑。


在传统的视觉语言模型中,图像通常会被分割为若干视觉 token,并按照从左到右、从上到下的固定网格顺序输入模型处理。这种方式虽然实现简单,但与人类在阅读文档、表格或公式时基于语义和逻辑关系进行跳跃式浏览的做法并不一致。

DeepSeek 论文指出,尤其在版式复杂的文档场景中,视觉元素之间往往存在明确的逻辑先后关系,仅仅依赖空间顺序可能会限制模型对内容结构的理解能力。

DeepSeek-OCR 2 的改进重点在于引入“视觉因果流”的概念。在 DeepEncoder V2 中,研究团队用一种类似语言模型的结构替代了原先基于 CLIP 的视觉编码模块,并在编码器内部引入可学习的“因果流查询 token”。这些查询 token 通过定制化的注意力机制,在保留视觉 token 全局双向注意力的同时,自身采用因果注意力,只能访问已有信息,从而在编码阶段对视觉 token 的顺序进行动态重排。最终,只有经过因果重排后的查询 token 会被送入后续的语言模型解码器,用于生成识别结果。

在整体架构上,DeepSeek-OCR 2 仍然沿用了编码器 — 解码器的基本范式。图像首先经过一个视觉 tokenizer,被压缩为较少数量的视觉 token,再由 DeepEncoder V2 进行语义建模和顺序重组,最后交由一个基于混合专家架构(MoE)的语言模型解码。

DeepSeek 论文指出,该设计在不显著增加解码负担的前提下,将单页文档所使用的视觉 token 数量控制在 256 到 1120 之间,与前代模型及同类系统的资源开销保持在相近水平。

在实验评估方面,研究团队选用了 OmniDocBench v1.5 作为主要测试基准。该基准涵盖多种类型的中英文文档,包括学术论文、杂志、报告等,重点考察文本识别、公式解析、表格结构还原以及阅读顺序等指标。

测试结果显示,在视觉 token 上限更低的情况下,DeepSeek-OCR 2 的整体得分达到 91.09%,相比 DeepSeek-OCR 提升了 3.73%。其中,与文档阅读顺序相关的编辑距离指标下降较为明显,显示模型在处理文档逻辑结构方面取得了改进。

IT 之家注意到,论文还给出了模型在实际应用场景中的表现对比。在在线 OCR 服务和批量 PDF 预处理等生产环境中,由于缺乏人工标注作为参考,研究团队以输出重复率作为质量指标。结果显示,DeepSeek-OCR 2 在这两类数据上的重复率均低于前代模型,表明其在真实数据分布下具有更稳定的输出表现。

来源:https://www.163.com/dy/article/KK9LNO970511B8LM.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
提升产品力与稳定价格,纯电车型市场份额重获增长

提升产品力与稳定价格,纯电车型市场份额重获增长

新京报贝壳财经讯(记者王琳琳)3月28日,新京报贝壳财经记者从J D Power君迪发布的2026中国新能源汽车产品魅力指数研究获悉,在市场竞争持续加剧的背景下,新能源汽车产品正加速将竞争重心从价

时间:2026-03-28 21:04
拼多多业绩承压,豪掷千亿再造新增长曲线

拼多多业绩承压,豪掷千亿再造新增长曲线

雷达财经出品 文|丁禹 编|孟帅营收放缓、利润负增长,面临业绩挑战的拼多多,选择再造一个“自己”破局。3月25日,拼多多发布2025年第四季度及全年财报。财报显示,2025年,公司实现营收4318

时间:2026-03-28 21:04
谷歌龙虾“史密斯工”揭秘:黑客帝国降临现实始末

谷歌龙虾“史密斯工”揭秘:黑客帝国降临现实始末

过去两个月,OpenClaw火得一塌糊涂。它让AI开始像一个真正能替人跑流程、调工具、接任务的数字执行者。现如今,谷歌也准备分一杯羹,外媒爆料称,谷歌正在开发一款叫做Smith的agent,不仅比O

时间:2026-03-28 21:04
龙虾养殖为何越养越贵,成本效益如何优化?

龙虾养殖为何越养越贵,成本效益如何优化?

前阵子被捧上神坛的OpenClaw,现在已经成了人人喊打的吞金兽。很多人把问题归咎于大模型不够聪明,或者开源项目 Bug 太多。但我们体验一周后,可以明确告诉大家:都不是。核心原因就俩字:错配。龙虾

时间:2026-03-28 20:58
腾讯云龙蜥开源课堂重庆站:助力AI应用从实验室走向智尖

腾讯云龙蜥开源课堂重庆站:助力AI应用从实验室走向智尖

3月28日,腾讯最新“龙虾”智能体全国巡装“龙虾公开课·重庆站”活动,在重庆两江新区太阳座大厦举行。作为继成都站之后的又一重要站点,本次活动延续了成都站的火爆态势,吸引了来自重庆及周边地区数千名人工

时间:2026-03-28 20:58
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程