DeepSeek视觉推理首创因果流,性能超越Gemini再夺第一

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新智元报道
编辑:定慧 好困
【新智元导读】DeepSeek开源DeepSeek-OCR2,引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的「因果流(Causal Flow)」逻辑。
DeepSeek又双叒叕更新了!
这次是DeepSeek-OCR模型的重磅升级:DeepSeek-OCR2。

还记得上一代DeepSeek-OCR吗?那个用视觉方式压缩一切的模型。
这一次,DeepSeek更进一步,对视觉编码器下手了,提出了一种全新的DeepEncoder V2架构,实现了视觉编码从「固定扫描」向「语义推理」的范式转变!

DeepSeek-OCR2不仅能像人类一样按逻辑顺序阅读复杂文档,还在多项基准测试中刷新了SOTA。
当然,按照DeepSeek的惯例,Paper、Code、Model全开源!

项目地址:
https://github.com/deepseek-ai/DeepSeek-OCR-2
模型下载:
https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
论文地址:
https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
DeepSeek-OCR2的核心创新在于通过DeepEncoder V2,赋予了模型因果推理能力(Causal Reasoning)。
这就像是给机器装上了「人类的阅读逻辑」,让AI不再只是死板地从左上到右下扫描图像,而是能根据内容语义灵活调整阅读顺序。
DeepSeek-OCR2
视觉因果流
DeepSeek在论文中指出,传统的视觉语言模型(VLM)通常采用光栅扫描(Raster-Scan)顺序处理图像,即固定地从左到右、从上到下。
这种方式强行将2D图像拍扁成1D序列,忽略了图像内部的语义结构。

这显然与人类的视觉习惯背道而驰。
人类在看图或阅读文档时,目光是随着逻辑流动的:先看标题,再看正文,遇到表格会按列或按行扫视,遇到分栏会自动跳跃。
为了解决这个问题,DeepSeek-OCR2引入了DeepEncoder V2。
它最大的特点是用一个轻量级的大语言模型(Qwen2-0.5B)替换了原本的CLIP编码器,并设计了一种独特的「因果流查询」(Causal Flow Query)机制。
DeepEncoder V2架构详解
DeepEncoder V2主要由两部分组成:
1. 视觉分词器(Vision Tokenizer)
沿用了SAM-base(80M参数)加卷积层的设计,将图像转换为视觉Token。

2. 作为视觉编码器的LLM
这里DeepSeek使用了一个Qwen2-0.5B模型。
它不仅处理视觉Token,还引入了一组可学习的「查询Token」(Query Tokens)。

关键的创新点在于注意力掩码(Attention Mask)的设计:

视觉Token之间采用双向注意力(Bidirectional Attention),保持全局感知能力,类似于ViT。
而查询Token则采用因果注意力(Causal Attention),每一个查询Token只能看到它之前的Token。
通过这种设计,DeepEncoder V2实现了两级级联的因果推理:
编码器通过可学习的查询对视觉Token进行语义重排,随后的LLM解码器则在这个有序序列上进行自回归推理。
这意味着,DeepSeek-OCR2在编码阶段就已经把图像里的信息「理顺」了,而不是一股脑地扔给解码器。
Token更少,精度更高
实验数据显示,DeepSeek-OCR2在保持极高压缩率的同时,性能显著提升。
在OmniDocBench v1.5基准测试中,DeepSeek-OCR2在使用最少视觉Token(仅256-1120个)的情况下,综合得分高达91.09%,相比前代提升了3.73%。

特别值得一提的是,在阅读顺序(R-order)的编辑距离(Edit Distance)指标上,DeepSeek-OCR2从前代的0.085显著降低到了0.057。
这直接证明了新模型在处理复杂版面时,逻辑性更强,更懂「阅读顺序」。
在和Gemini-3 Pro等闭源强模型的对比中,DeepSeek-OCR2也丝毫不落下风。
在均使用约1120个视觉Token的情况下,DeepSeek-OCR2的文档解析编辑距离(0.100)优于Gemini-3 Pro(0.115)。


不仅是刷榜,DeepSeek-OCR2在实际生产环境中也非常能打。
DeepSeek披露,在处理在线用户日志图像时,OCR结果的重复率从6.25%降到了4.17%;在PDF数据生产场景中,重复率从3.69%降到了2.88%。

这意味着模型生成的文本更加干净、准确,对于作为LLM训练数据的清洗流水线来说,价值巨大。
迈向真正的多模态统一
DeepSeek在论文最后提到,DeepSeek-OCR2通过DeepEncoder V2验证了「LLM作为视觉编码器」的可行性。
这不仅是一个OCR模型的升级,更是迈向原生多模态(Native Multimodality)的重要一步。
未来,同一个编码器只要配备不同的模态查询嵌入(Query Embeddings),就能处理文本、图片、音频等多种模态的数据,真正实现万物皆可Token,万物皆可因果推理。
DeepSeek表示,虽然目前光学文本识别(OCR)是LLM时代最实用的视觉任务之一,但这只是视觉理解宏大图景的一小部分。
DeepSeek将继续探索,向着更通用的多模态智能进发。
参考资料:
https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
DeepMind之父警示:我开发的AI或威胁人类,却已难以阻止
新智元报道编辑:KingHZ【新智元导读】从拦截彼得·蒂尔、警告马斯克,到如今公开说「必须有适应能力」,哈萨比斯史诗级转身:AI安全窗口正在永久关闭,他不再幻想制度,而是赌上全部身家——赌影响力,赌
DeepSeek挑战Transformer记忆?查表法重塑模型架构新思路
新智元报道编辑:LRST【新智元导读】ICLR论文STEM架构率先提出「查表式记忆」架构,早于DeepSeek Engram三个月。它将Transformer的FFN从动态计算改为静态查表,用tok
华羿机器人登陆港交所市值破百亿,领跑国内国际市场
今日,华沿机器人正式在港交所挂牌上市,开启了其资本市场的新征程。此次上市,华沿机器人发售价定为每股17 00港元,折合人民币约14 99元。开盘时,股价为16 8港元,即人民币14 82元,而收盘价
被投科技企业版图观察:美团AI如何链接50+伙伴
当所有人盯着大模型时,美团看到了什么?作者|徐珊编辑|郑玄「为了保持企业有 Day1 的活力,你必须快速做出好的决策。这对初创企业来说或许很容易,但对大型组织来说却极具挑战。」2016 年,亚马逊创
Meta智能眼镜发售在即:两款新品专为近视用户设计
智东西编译 佳扬编辑 云鹏智东西3月30日消息,据彭博社报道,Meta计划下周推出两款全新Ray-Ban智能眼镜,专为佩戴近视眼镜的人士设计。消息人士透露,新款眼镜为矩形和圆形两种款式,主要通过传统
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

