数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

DeepSeek-OCR如何用大模型技术革新图像识别？

DeepSeek-OCR如何用大模型技术革新图像识别？

热心网友时间：2025-10-23

转载

想象一下，在这个AI技术如潮水般涌来的时代，我们忽然发现，一张简单的图像，竟然能以惊人的效率承载海量文字信息。这已不是“想象”，而是刚刚发生的现实。本周，DeepSeek开源了一个名为“Deep

在这个AI技术如潮水般涌来的时代，我们惊讶地发现，一张看似简单的图像，竟能以惊人的效率承载海量文字信息。这已不再是天方夜谭，而是正在发生的现实。

本周，DeepSeek开源了一款名为“DeepSeek-OCR”的创新模型，首次提出了“上下文光学压缩”的前沿概念，其技术细节和相关论文也已同步公开。

虽然目前市场上的讨论热度尚不高涨，但这一突破很可能成为AI演进史上一个悄然而深刻的转折点——它让我们开始重新思考：图像，是否正在成为信息处理的真正王者？

01 图像的隐秘力量：为何图像可能胜过文本

回想我们日常处理的各类文档、报告和书籍，它们通常会被分解为无数个文本标记，这些标记像砖块一样堆砌成模型理解的基石。

然而DeepSeek-OCR另辟蹊径：它将文字视为图像进行处理，通过视觉编码将整页内容压缩为少量“视觉标记”，随后再精准解码还原为文字、表格乃至图表。

最终效果如何？处理效率实现了十倍以上的跃升，准确率高达97%。

这不仅是一次技术优化，更试图证明：图像不是信息的附属品，而是它更高效的载体。

以一篇千字文章为例，传统方法可能需要上千个标记才能处理，而DeepSeek仅需约100个视觉标记，就能以97%的保真度还原全部内容。这意味着，模型能够轻松应对超长文档，无需再为计算资源发愁。

02 架构与工作原理

DeepSeek-OCR的系统设计犹如一部精密的机器，分为两大核心模块：强大的DeepEncoder负责捕捉页面信息，轻量级的文本生成器则像一位翻译专家，将视觉标记转化为可读输出。

编码器融合了SAM的局部分析能力和CLIP的全局理解，再通过一个16倍压缩器，将初始的4096个标记精简至仅256个。这正是效率提升的核心奥秘。

更巧妙的是，它能根据文档复杂度自动调整：简单的PPT只需64个标记，书籍报告约100个，而密集的报纸最多800个。

相较之下，它超越了GOT-OCR 2.0（需要256个标记）和MinerU+2.0（每页6000+标记），标记量减少了90%。解码器采用混合专家架构，拥有约300亿参数，能快速生成文本、Markdown或结构化数据。

在实际测试中，单台A100显卡每天能处理超过20万页文档；若扩展至20台八卡服务器，日处理量可达3300万页。这已不是实验室里的新奇玩具，而是能投入实用的工业级工具。

03 一个深刻的悖论：图像为何更“节约”？

这里隐藏着一个有趣的悖论：图像明明包含更多原始数据，为什么在模型中反而能用更少标记表达？答案在于信息密度。

文本标记虽然表面简洁，但在模型内部需展开为数千维度的向量；而图像标记则像连续的画卷，能以更紧凑的方式封装信息。这好比人类记忆：近期事件清晰如昨，遥远往事虽渐趋模糊，却从不失本质。

DeepSeek-OCR证明了视觉标记的可行性，但纯视觉基础模型的训练仍是待解谜题。传统大模型依靠“预测下一个词”这个清晰目标成功，而图像文字的预测目标却模糊不清——预测下一个图像片段？评估困难；转为文本，又回到了老路。

所以说，目前它只是现有体系的增强，而非替代。我们正站在十字路口：前方是无限可能，但仍需耐心等待突破。

如果这项技术成熟推广，它将如涟漪般扩散影响：

首先，重塑“标记经济”：长文档不再受上下文窗口限制，处理成本大幅降低。其次，提升信息提取效率：财务图表、技术图纸能直接转为结构化数据，精准高效。最后，增强灵活性：在非理想硬件下仍稳定运行，让AI应用真正普及。

更妙的是，它还能改善聊天机器人的长对话记忆。通过“视觉衰减”：将旧对话转为低分辨率图像存储，模拟人类记忆衰退，扩展上下文而不增加标记消耗。

04 结语

DeepSeek-OCR的探索意义，不止于十倍效率提升，更在于它重新绘制了文档处理的边界。它挑战了上下文限制，优化了成本结构，革新了企业流程。

虽然纯视觉训练的曙光尚遥，但光学压缩无疑是我们迈向未来的一个新选项。

相关常见问题索引：

问：为什么不能直接从文字图像开始训练基础模型？

答：大模型成功靠“预测下一个词”的明确目标和易评估方式。对于文字图像，预测下一个图像片段评估困难、速度慢；转为文本标记，又回到了传统路径。DeepSeek选择在现有模型基础上微调，解码视觉表征，但未取代标记基础。

问：与传统OCR系统相比，速度表现如何？

答：处理一张3503×1668像素图像，基础文本提取需24秒，结构化Markdown需39秒，带坐标框的完整解析需58秒。传统OCR更快，但准确率同等时需数千标记——如MinerU+2.0每页6000+，DeepSeek仅需800以内。

问：这项技术能否改善聊天机器人的长对话记忆？

答：是的。通过“视觉衰减”：旧对话转为低分辨率图像，模拟记忆衰退，扩展上下文而不增标记消耗。适用于长期记忆场景，但生产实现细节待详述。

来源:https://36kr.com/p/3520337069955459

上一篇： OpenAI首款AI浏览器实测：性能平庸，体验不尽人意

下一篇：理想汽车生存困境：解读“尖子生”的市场难题

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

中国广电5G致歉天津部分业务因光缆受损异常

中国广电5G致歉天津部分业务因光缆受损异常

7月13日下午，天津部分广电5G用户信号满格却无法上网、通话，因光缆受损导致。当日服务已恢复，官方致歉并说明原因，但仍有用户不满，质疑应急响应速度。

时间：2026-07-17 12:12

俞敏洪回应孙东旭与离职主播创业开公司：无需过度讨论，祝顺利

俞敏洪回应孙东旭与离职主播创业开公司：无需过度讨论，祝顺利

俞敏洪回应孙东旭与离职主播创办“美丽明天”公司，称无需过度讨论并祝创业顺利。该公司注册资本1000万元，孙东旭持股34%，石明、郭天权各33%。新东方不设竞业限制，俞敏洪以过去30年从业者创业为例展现底气。

时间：2026-07-17 12:12

崔东树指银发经济县域出行汽车内需潜力未充分释放

崔东树指银发经济县域出行汽车内需潜力未充分释放

《扩大消费“十五五”规划》将汽车消费作为扩内需核心抓手，但银发经济、县域出行等下沉市场潜力尚未充分释放。建议建立经济型电动车标准、增设C7驾照、推出购车个税抵扣，以降低入门门槛、疏通置换堵点，推动汽车内需持续增长。

时间：2026-07-17 12:12

REDMI Note 17系列今晚发布吴克群携手国民小金刚致敬城市英雄

REDMI Note 17系列今晚发布吴克群携手国民小金刚致敬城市英雄

REDMINote17系列7月14日发布，标准版搭7英寸OLED屏与8000mAh电池，Pro版配骁龙6sGen4、9000mAh电池及IP68 IP69K防尘防水，支持五年流畅承诺与电池升级保，吴克群以推荐官身份致敬城市英雄。

时间：2026-07-17 12:12

荣耀阿里将官宣合作，或涉及下一代操作系统

荣耀阿里将官宣合作，或涉及下一代操作系统

荣耀与阿里将于WAIC2026宣布合作，可能聚焦下一代终端操作系统AgenticOS，结合硬件与AI能力，探讨从工具到伙伴的智能体演进，推动具身智能落地。

时间：2026-07-17 12:12

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

热门数据榜

AMD全新Embedded+架构正式发布

诺音曼正式发布全新Monitor Mission，MT 48升级为沉浸式音频接口

传音控股2024年持续发力中高端市场多元布局拓宽增长曲线

OPPO服务全面融合强大服务能力赋能一加用户

比克动力深耕小动力三元圆柱电池，领跑锂电两轮车市场

星纪魅族向中国聋协捐赠MYVU AR智能眼镜魅族明阳光暖

荣耀Magic6 YOYO建议升级主动智慧服务更懂你

阿里拍卖南京地标25.02亿起拍母公司创始人曾是江苏首富

湖南大学校长段献忠与王耀南院士调研中科亿海微国产FPGA

德凯为路特斯机器人颁发ISO 26262 ASIL D认证

OpenAI GPT-Red：AI安全飞轮重塑模型鲁棒性

度加AI影视脚本太短怎么办？场景扩展与对白补充

百度一镜数字人语速语调调整方法

文心一格高效输出产品渲染概念图指南

搜狐简单AI小红书封面制作与在线排版方法

百度一镜数字人素材批量重命名提升文件整理效率

万兴天幕控制颜色风格用品牌色与色板提示词

稿定设计AI台历制作教程：个性化定制设计

飞书多维表格汇总数据时如何推送填写通知

度加AI热点科普写作背景与关键信息梳理

OpenAI GPT-Red：AI安全飞轮重塑模型鲁棒性

度加AI影视脚本太短怎么办？场景扩展与对白补充

百度一镜数字人语速语调调整方法

文心一格高效输出产品渲染概念图指南

搜狐简单AI小红书封面制作与在线排版方法

百度一镜数字人素材批量重命名提升文件整理效率

万兴天幕控制颜色风格用品牌色与色板提示词

稿定设计AI台历制作教程：个性化定制设计

飞书多维表格汇总数据时如何推送填写通知

度加AI热点科普写作背景与关键信息梳理

相关攻略

相关攻略

中国广电5G致歉天津部分业务因光缆受损异常

2026-07-17 12:12

中国广电5G致歉天津部分业务因光缆受损异常

俞敏洪回应孙东旭与离职主播创业开公司：无需过度讨论，祝顺利

2026-07-17 12:12

俞敏洪回应孙东旭与离职主播创业开公司：无需过度讨论，祝顺利

崔东树指银发经济县域出行汽车内需潜力未充分释放

2026-07-17 12:12

崔东树指银发经济县域出行汽车内需潜力未充分释放

REDMI Note 17系列今晚发布吴克群携手国民小金刚致敬城市英雄

2026-07-17 12:12

REDMI Note 17系列今晚发布吴克群携手国民小金刚致敬城市英雄

荣耀阿里将官宣合作，或涉及下一代操作系统

2026-07-17 12:12

荣耀阿里将官宣合作，或涉及下一代操作系统

集微会议活动策划智能体上线零基础写出专业级策划案

2026-07-17 12:12

集微会议活动策划智能体上线零基础写出专业级策划案

比亚迪泰国工厂累计交付量突破13万辆

2026-07-17 12:12

比亚迪泰国工厂累计交付量突破13万辆

全球智能手机二季度销量同比降11% 三星苹果领跑

2026-07-17 12:11

全球智能手机二季度销量同比降11% 三星苹果领跑

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

地狱丧钟2.0及诅咒战争DLC全新内容汇总

地狱丧钟2.0及诅咒战争DLC全新内容汇总发布于 2026-07-17

全新国士抗鼎曜金战法书登场开启战局新篇

全新国士抗鼎曜金战法书登场开启战局新篇发布于 2026-07-17

龙族卡塞尔之门与轻松小熊联动正式开启

龙族卡塞尔之门与轻松小熊联动正式开启发布于 2026-07-17

开局被创飞玩法全面简介与好玩程度评价

开局被创飞玩法全面简介与好玩程度评价发布于 2026-07-17

心跳陷落纯狐九恋语卡约会好感选项数值攻略

心跳陷落纯狐九恋语卡约会好感选项数值攻略发布于 2026-07-17

杰克特攻队手游2026福利四大平台礼包对比与领取指南

杰克特攻队手游2026福利四大平台礼包对比与领取指南发布于 2026-07-17

南斋工作室确认乌合之众开发稳步推进 2026年官宣最新进展

南斋工作室确认乌合之众开发稳步推进 2026年官宣最新进展发布于 2026-07-17

李白打猴子最强出装推荐，轻松克制暴击猴

李白打猴子最强出装推荐，轻松克制暴击猴发布于 2026-07-17

bmmlref.exe进程是什么及作用

bmmlref.exe进程是什么及作用发布于 2026-07-17

快启动U盘安装Win8原版系统图文教程

快启动U盘安装Win8原版系统图文教程发布于 2026-07-17

Ctfmon.exe进程用途与运行原因

Ctfmon.exe进程用途与运行原因发布于 2026-07-17

Win11最新版运行对话框开启详细步骤与体验指南

Win11最新版运行对话框开启详细步骤与体验指南发布于 2026-07-17

爱马电动车启动需要捏刹车吗

爱马电动车启动需要捏刹车吗发布于 2026-07-17

万纯电SUV，奔驰纯电GLC值得考虑

万纯电SUV，奔驰纯电GLC值得考虑发布于 2026-07-17

万左右新能源SUV，奔驰纯电GLC值得入手

万左右新能源SUV，奔驰纯电GLC值得入手发布于 2026-07-17

红米Note2截图快捷键与其他小米手机通用吗

红米Note2截图快捷键与其他小米手机通用吗发布于 2026-07-17

热门话题

AI会议纪要工具推荐_AI会议转写教程_自动总结会议记录指南

AI会议纪要工具推荐_AI会议转写教程_自动总结会议记录指南

AI浏览器哪个好用_AI浏览器功能对比_智能上网助手指南

AI浏览器哪个好用_AI浏览器功能对比_智能上网助手指南

Agentic Coding是什么_AI编程智能体教程_自动开发工作流指南

Agentic Coding是什么_AI编程智能体教程_自动开发工作流指南

Vibe Coding是什么_Vibe Coding工具推荐_AI编程实战指南

Vibe Coding是什么_Vibe Coding工具推荐_AI编程实战指南

具身智能是什么_机器人AI应用场景_具身大模型趋势指南

具身智能是什么_机器人AI应用场景_具身大模型趋势指南

GEO优化是什么_生成式引擎优化教程_AI搜索排名指南

GEO优化是什么_生成式引擎优化教程_AI搜索排名指南

AI网络安全应用场景_AI威胁检测教程_安全智能体指南

AI网络安全应用场景_AI威胁检测教程_安全智能体指南

AI影视制作教程_AI视频剪辑与生成_影视行业AI工具指南

AI影视制作教程_AI视频剪辑与生成_影视行业AI工具指南

AI游戏应用场景_AI游戏开发工具_智能NPC与关卡生成指南

AI游戏应用场景_AI游戏开发工具_智能NPC与关卡生成指南