数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI

DeepSeek视觉推理首创因果流，性能超越Gemini再夺第一

DeepSeek视觉推理首创因果流，性能超越Gemini再夺第一

热心网友时间：2026-01-27

转载

新智元报道

编辑：定慧好困

【新智元导读】DeepSeek开源DeepSeek-OCR2，引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序（从左上到右下）扫描图像的限制，转而模仿人类视觉的「因果流（Causal Flow）」逻辑。

DeepSeek又双叒叕更新了！

这次是DeepSeek-OCR模型的重磅升级：DeepSeek-OCR2。

还记得上一代DeepSeek-OCR吗？那个用视觉方式压缩一切的模型。

这一次，DeepSeek更进一步，对视觉编码器下手了，提出了一种全新的DeepEncoder V2架构，实现了视觉编码从「固定扫描」向「语义推理」的范式转变！

DeepSeek-OCR2不仅能像人类一样按逻辑顺序阅读复杂文档，还在多项基准测试中刷新了SOTA。

当然，按照DeepSeek的惯例，Paper、Code、Model全开源！

项目地址：

https://github.com/deepseek-ai/DeepSeek-OCR-2

模型下载：

https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

论文地址：

https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

DeepSeek-OCR2的核心创新在于通过DeepEncoder V2，赋予了模型因果推理能力（Causal Reasoning）。

这就像是给机器装上了「人类的阅读逻辑」，让AI不再只是死板地从左上到右下扫描图像，而是能根据内容语义灵活调整阅读顺序。

DeepSeek-OCR2

视觉因果流

DeepSeek在论文中指出，传统的视觉语言模型（VLM）通常采用光栅扫描（Raster-Scan）顺序处理图像，即固定地从左到右、从上到下。

这种方式强行将2D图像拍扁成1D序列，忽略了图像内部的语义结构。

这显然与人类的视觉习惯背道而驰。

人类在看图或阅读文档时，目光是随着逻辑流动的：先看标题，再看正文，遇到表格会按列或按行扫视，遇到分栏会自动跳跃。

为了解决这个问题，DeepSeek-OCR2引入了DeepEncoder V2。

它最大的特点是用一个轻量级的大语言模型（Qwen2-0.5B）替换了原本的CLIP编码器，并设计了一种独特的「因果流查询」（Causal Flow Query）机制。

DeepEncoder V2架构详解

DeepEncoder V2主要由两部分组成：

1. 视觉分词器（Vision Tokenizer）

沿用了SAM-base（80M参数）加卷积层的设计，将图像转换为视觉Token。

2. 作为视觉编码器的LLM

这里DeepSeek使用了一个Qwen2-0.5B模型。

它不仅处理视觉Token，还引入了一组可学习的「查询Token」（Query Tokens）。

关键的创新点在于注意力掩码（Attention Mask）的设计：

视觉Token之间采用双向注意力（Bidirectional Attention），保持全局感知能力，类似于ViT。

而查询Token则采用因果注意力（Causal Attention），每一个查询Token只能看到它之前的Token。

通过这种设计，DeepEncoder V2实现了两级级联的因果推理：

编码器通过可学习的查询对视觉Token进行语义重排，随后的LLM解码器则在这个有序序列上进行自回归推理。

这意味着，DeepSeek-OCR2在编码阶段就已经把图像里的信息「理顺」了，而不是一股脑地扔给解码器。

Token更少，精度更高

实验数据显示，DeepSeek-OCR2在保持极高压缩率的同时，性能显著提升。

在OmniDocBench v1.5基准测试中，DeepSeek-OCR2在使用最少视觉Token（仅256-1120个）的情况下，综合得分高达91.09%，相比前代提升了3.73%。

特别值得一提的是，在阅读顺序（R-order）的编辑距离（Edit Distance）指标上，DeepSeek-OCR2从前代的0.085显著降低到了0.057。

这直接证明了新模型在处理复杂版面时，逻辑性更强，更懂「阅读顺序」。

在和Gemini-3 Pro等闭源强模型的对比中，DeepSeek-OCR2也丝毫不落下风。

在均使用约1120个视觉Token的情况下，DeepSeek-OCR2的文档解析编辑距离（0.100）优于Gemini-3 Pro（0.115）。

不仅是刷榜，DeepSeek-OCR2在实际生产环境中也非常能打。

DeepSeek披露，在处理在线用户日志图像时，OCR结果的重复率从6.25%降到了4.17%；在PDF数据生产场景中，重复率从3.69%降到了2.88%。

这意味着模型生成的文本更加干净、准确，对于作为LLM训练数据的清洗流水线来说，价值巨大。

迈向真正的多模态统一

DeepSeek在论文最后提到，DeepSeek-OCR2通过DeepEncoder V2验证了「LLM作为视觉编码器」的可行性。

这不仅是一个OCR模型的升级，更是迈向原生多模态（Native Multimodality）的重要一步。

未来，同一个编码器只要配备不同的模态查询嵌入（Query Embeddings），就能处理文本、图片、音频等多种模态的数据，真正实现万物皆可Token，万物皆可因果推理。

DeepSeek表示，虽然目前光学文本识别（OCR）是LLM时代最实用的视觉任务之一，但这只是视觉理解宏大图景的一小部分。

DeepSeek将继续探索，向着更通用的多模态智能进发。

参考资料：

https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

来源:https://www.163.com/dy/article/KK9RC3IA0511ABV6.html

上一篇： ICLR 2026录用结果发布，AI巨头纷纷晒成绩单

下一篇： DeepSeek推出VLM架构新模型：视觉语言大模型实现重大突破

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

阿里钉钉文档全功能解析在线协同办公套件使用指南

阿里钉钉文档全功能解析在线协同办公套件使用指南

钉钉文档官网在探讨企业级协同办公解决方案时，钉钉文档无疑是备受瞩目的核心工具之一。作为阿里巴巴钉钉官方推出的旗舰级应用套件，它深度融合了在线文档编辑、智能表格、思维导图等多种高效创作工具。其核心优势在于与钉钉平台生态的无缝衔接，能够直接同步企业内部组织架构与通讯录，实现团队成员间的即时协作与信息流

时间：2026-05-15 23:00

商汤小浣熊智能助手基于自研大语言模型

商汤小浣熊智能助手基于自研大语言模型

在数字化转型浪潮中，高效、易用的数据分析工具已成为企业提升决策效率的关键。商汤科技推出的“办公小浣熊”智能助手，正是基于自研大语言模型打造的一款创新产品，旨在彻底降低数据分析的技术门槛。用户无需掌握编程知识或复杂操作，即可通过自然对话完成从数据查询、处理到可视化洞察的全流程，让数据价值触手可及。办

时间：2026-05-15 22:59

MiniMax新一代智能模型矩阵全面解析与应用指南

MiniMax新一代智能模型矩阵全面解析与应用指南

在人工智能技术快速发展的今天，MiniMax作为一家专注于全栈自研的AI公司，正以其独特的技术路径和前瞻性的布局，在业界脱颖而出。公司致力于构建覆盖文本、图像、语音和视频的新一代多模态智能模型矩阵，这不仅体现了对核心底层技术自主权的深度掌控，也展现了对未来人机交互与内容生成形态的前瞻思考。那么，M

时间：2026-05-15 22:59

智能客服机器人解决方案：AI客服系统提升企业服务效率

智能客服机器人解决方案：AI客服系统提升企业服务效率

在数字化转型浪潮中，一套能够深度适配业务、彰显品牌特色的智能客服系统，已成为企业提升服务效率与用户体验的关键工具。然而，市场上许多解决方案往往模式固化，难以满足个性化需求。如何让AI客服不仅具备基础的自动化应答能力，更能承载独特的品牌文化与服务哲学？其核心在于系统是否支持深度的自定义与持续的AI训练

时间：2026-05-15 22:59

开源企业答疑工具Danswer：高效解决团队知识管理难题

开源企业答疑工具Danswer：高效解决团队知识管理难题

Danswer 是一款专为企业设计的开源智能问答平台，支持用户使用自然语言直接提问，并能够从公司内部文档、知识库等私有数据源中快速检索，提供带有精准来源引用的可靠答案。核心功能：它如何解答问题？ Danswer 的核心价值在于实现了“智能问答”。用户无需再花费大量时间手动搜索和翻阅各类文件，只需像

时间：2026-05-15 22:59

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

日榜
周榜
月榜

盗宝小妖高分通关攻略与实战技巧详解

魔兽世界凄凉之地前往路线与交通指南

无限火力剑魔最强出装符文搭配攻略

和平精英最新版更新教程卡顿下载慢解决方法汇总

DNF皇女艾莉婕身份背景与剧情详解

梦幻西游东海湾蜃境入口选择攻略与路线推荐

魔兽世界巫妖王怀旧服裁缝专业速冲450级指南

DNF女枪手职业推荐：哪个职业最强最好用

三角洲行动M82狙击枪改装方案配件搭配与实战技巧

极限竞速地平线6豪华版与标准版详细区别对比

小米汽车推出寻天子品牌增程车型将改变家用车市场格局

洛克王国独角仙踪地图位置详解与寻找攻略

洛克王国博得材料屋具体位置与寻找攻略

洛克王国枫雪镇现在还能进入吗最新情况说明

175魔化生寺装备选择与搭配全攻略

暗黑破坏神4熔岩殉道者钓鱼位置详解

异环娜娜莉爬墙技巧与详细操作步骤解析

红色沙漠漆黑射手板金披风获取方法全攻略

暗黑破坏神4食尸鬼蠕虫钓鱼位置与获取方法

炉石传说滋养自然卡牌效果与使用指南

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

相关攻略

相关攻略

《炎龙骑士团2》详细全攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

《东吴霸王传2013》详细全关攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

《臭作》之100%全完整攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

《兰斯8》剧情攻略详细篇

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

《英雄坛说》详细全攻略

2015-03-10 12:39

《英雄坛说》详细全攻略

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

偷窃少女的教育方法全攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

无法抵挡小恶魔的诱惑攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

聪明开局吧第185关桥找出16个常用字通关图文攻略

聪明开局吧第185关桥找出16个常用字通关图文攻略发布于 2026-05-15

深海迷航2异星水域声波共振器获取与使用指南

深海迷航2异星水域声波共振器获取与使用指南发布于 2026-05-15

异环时停技能效果解析与实战应用指南

异环时停技能效果解析与实战应用指南发布于 2026-05-15

羊了个羊214关卡通关技巧与详细攻略分享

羊了个羊214关卡通关技巧与详细攻略分享发布于 2026-05-15

星球大战旧共和国武士2西斯领主重制版计划被EA取消

星球大战旧共和国武士2西斯领主重制版计划被EA取消发布于 2026-05-15

深海迷航2循环呼吸器蓝图位置与获取方法详解

深海迷航2循环呼吸器蓝图位置与获取方法详解发布于 2026-05-15

原神妮露技能解析与实战机制详解

原神妮露技能解析与实战机制详解发布于 2026-05-15

ARC Raiders背景故事解析与下次重大更新前瞻

ARC Raiders背景故事解析与下次重大更新前瞻发布于 2026-05-15

Apex英雄探路者最强武器搭配推荐

Apex英雄探路者最强武器搭配推荐发布于 2026-05-15

困境抉择游戏玩法解析：值得体验的策略挑战

困境抉择游戏玩法解析：值得体验的策略挑战发布于 2026-05-15

花底裤如何赋予我无限力量与自信

花底裤如何赋予我无限力量与自信发布于 2026-05-15

PlayStation无障碍游戏设备捐赠仪式在上海举办

PlayStation无障碍游戏设备捐赠仪式在上海举办发布于 2026-05-15

港务大亨竞拍风云怎么玩游戏玩法与特色介绍

港务大亨竞拍风云怎么玩游戏玩法与特色介绍发布于 2026-05-15

5月16日钓鱼活动公告：时间地点与报名指南

5月16日钓鱼活动公告：时间地点与报名指南发布于 2026-05-15

幻世录重制版2026年发售经典战棋游戏首曝预告

幻世录重制版2026年发售经典战棋游戏首曝预告发布于 2026-05-15

只狼三年前义父剧情触发全流程攻略

只狼三年前义父剧情触发全流程攻略发布于 2026-05-15

Win11桌面小组件添加与自定义设置教程

Win11桌面小组件添加与自定义设置教程发布于 2026-05-15

Win10磁盘配额设置教程如何限制用户磁盘使用空间

Win10磁盘配额设置教程如何限制用户磁盘使用空间发布于 2026-05-15

Windows 11 超级任务栏预览开启教程提升窗口悬停显示速度

Windows 11 超级任务栏预览开启教程提升窗口悬停显示速度发布于 2026-05-15

Win11多时区时钟设置教程添加显示多个地区时间

Win11多时区时钟设置教程添加显示多个地区时间发布于 2026-05-15

Windows 11 高性能图形加速设置教程强制系统调用独立显卡方法

Windows 11 高性能图形加速设置教程强制系统调用独立显卡方法发布于 2026-05-15

Windows 11游戏崩溃怎么解决优化显存设置提升3A大作稳定性

Windows 11游戏崩溃怎么解决优化显存设置提升3A大作稳定性发布于 2026-05-15

Win10查看磁盘使用情况与各分区容量方法详解

Win10查看磁盘使用情况与各分区容量方法详解发布于 2026-05-15

Win10文件夹视图设置教程统一显示方式详细步骤

Win10文件夹视图设置教程统一显示方式详细步骤发布于 2026-05-15

国产内存新架构突破30TB带宽实现自主供应链

国产内存新架构突破30TB带宽实现自主供应链发布于 2026-05-11

Edge浏览器网页捕获功能使用教程截取全屏与区域截图详解

Edge浏览器网页捕获功能使用教程截取全屏与区域截图详解发布于 2026-05-11

千度手机版官网免费入口手机端专用访问链接

千度手机版官网免费入口手机端专用访问链接发布于 2026-05-11

ES文件浏览器复制文件内容到剪贴板详细步骤教程

ES文件浏览器复制文件内容到剪贴板详细步骤教程发布于 2026-05-11

如何设置鼠标连点器的固定点击间隔秒数

如何设置鼠标连点器的固定点击间隔秒数发布于 2026-05-11

苹果iPhone 15截屏保存到相册的详细步骤教程

苹果iPhone 15截屏保存到相册的详细步骤教程发布于 2026-05-11

立升净水器滤芯更换方法与使用指南

立升净水器滤芯更换方法与使用指南发布于 2026-05-11

ES文件浏览器如何设置默认打开应用详细图文教程

ES文件浏览器如何设置默认打开应用详细图文教程发布于 2026-05-11

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集