当前位置: 首页
科技数码
DeepSeek-OCR 2发布:识别性能提升3.73%的关键优化

DeepSeek-OCR 2发布:识别性能提升3.73%的关键优化

热心网友 时间:2026-01-27
转载

1月27日,DeepSeek公布了其新一代文档识别模型DeepSeek - OCR 2。该模型基于上一代产品升级而来,核心突破在于全新设计的视觉编码器架构。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

研究团队推出名为DeepEncoder V2的全新编码器结构。它能够根据图像语义动态调整视觉信息的处理顺序,让模型在识别文字之前,先对画面内容进行智能排序。这项技术创新源于对传统视觉语言模型处理方式的重新思考,旨在让机器更接近人类的视觉阅读逻辑。

在传统模型中,图像通常被分割为若干视觉单元,并按固定网格顺序送入模型处理。这种方式虽简单直接,但却有别于人类阅读文档、表格或公式时,那种基于语义和逻辑关系进行跳跃式浏览的习惯。

论文进一步指出,在版式复杂的文档场景中,视觉元素间往往存在明确的逻辑先后关系。若仅依赖空间顺序,可能限制模型对内容结构的理解能力。

DeepSeek-OCR 2的改进重点在于引入“视觉因果流”概念。团队用类语言模型结构替代了原先基于CLIP的视觉编码模块,并在编码器内部引入可学习的“因果流查询标记”。

该编码器同时包含双向注意力与因果注意力两种处理机制。原始视觉信息通过双向注意力进行全局感知,而新增的查询标记则通过因果注意力逐步建立语义顺序,从而在编码阶段对视觉单元的序列进行动态重排。最终,只有经过因果重排后的查询标记会被送入后续的解码器,用于生成识别结果。

整体架构上,DeepSeek-OCR 2延续了前代模型的编解码框架。编码器将图像转换为视觉标记并进行压缩,被压缩为较少数量的视觉单元后,再由DeepEncoder V2进行语义建模和顺序重组,最后交由一个基于混合专家架构的语言模型解码。

论文表示,该设计在不显著增加解码负担的前提下,将单页文档所使用的视觉标记数量控制在256至1120之间,与前代模型及同类系统的资源开销保持相近水平。

为验证模型性能,研究团队在OmniDocBench基准上进行了全面评估。该基准覆盖多种类型的中英文文档,包括学术论文、杂志、报告等,重点考察文本识别、公式解析、表格结构还原以及阅读顺序等指标。

测试结果显示,在视觉标记上限更低的情况下,DeepSeek-OCR 2的整体得分达到91.09%,相比前代提升了3.73%。尤其在阅读顺序准确性方面,编辑距离从0.085降至0.057,表明新模型能够更合理地理解文档内容结构。

该模型在生产环境中也表现出更好的稳定性。在线用户日志图像的重复率从6.25%降至4.17%,批处理PDF数据的重复率从3.69%降至2.88%。这些改进使得模型在保持高压缩率的同时,提升了实际应用场景中的可靠性。

来源:https://www.donews.com/news/detail/1/6399152.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
AI能从单份血样检出多种神经疾病

AI能从单份血样检出多种神经疾病

来源:科技日报科技日报讯 (记者刘霞)由瑞典隆德大学领衔的国际研究团队,研发出一款新的人工智能(AI)模型。该模型仅需一份血液样本,便能精准识别多种神经退行性疾病。团队期望,该AI模型未来能实现“一

时间:2026-04-07 14:55
褪去虚火,脑机接口方能释放长远价值

褪去虚火,脑机接口方能释放长远价值

来源:科技日报2026年开年,马斯克宣称脑机接口产品将于年内启动量产,引爆全球市场情绪。国内资本随即扎堆追捧,脑机接口相关概念股大幅走高,行业短期炒作虚火蔓延。进入3月,脑机接口迎来多重利好:脑机接

时间:2026-04-07 14:55
黎万强、洪锋退出小米科技股东名单

黎万强、洪锋退出小米科技股东名单

人民财讯4月7日电,企查查APP显示,近日,小米科技有限责任公司发生工商变更,原股东小米联合创始人黎万强、洪锋退出,同时,注册资本由18 5亿元减至约14 8亿元。 企查查信息显示,该公司成立于20

时间:2026-04-07 14:55
新闻分析|“阿耳忒弥斯2号”任务为何只绕月不登月

新闻分析|“阿耳忒弥斯2号”任务为何只绕月不登月

  新华社北京4月7日电 新闻分析|“阿耳忒弥斯2号”任务为何只绕月不登月  新华社记者张晓茹  美国东部时间6日18时40分许(北京时间7日6时40分许),执行美国“阿耳忒弥斯2号”载人绕月飞行任

时间:2026-04-07 14:55
“链接未来·智汇静安”区块链创新应用优秀场景分享(四)| 信医基于区块链与隐私计算的真实世界研究数据产品

“链接未来·智汇静安”区块链创新应用优秀场景分享(四)| 信医基于区块链与隐私计算的真实世界研究数据产品

聚焦数字技术,释放创新动能。为集中展示静安区区块链技术从“实验室”走向“应用场”的丰硕成果,挖掘一批可复制、可推广的行业解决方案,加速构建区块链产业生态闭环,静安区数据局特推出“静安区区块链创新应用

时间:2026-04-07 14:55
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程