DeepSeek识图功能正式上线开启图文交互新体验

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

DeepSeek识图功能正式上线开启图文交互新体验

热心网友时间：2026-05-11

转载

DeepSeek近期开放“识图模式”，具备强大的图片理解与分析能力，能准确识别文物细节、解答空间推理题、理解网络梗图情绪，并从截图提取文字生成代码。其采用“视觉原语思考”框架，融入空间推理链，显著提升处理效率与精度。但该模式目前存在知识库更新滞后等问题。

近期，DeepSeek 灰度测试已久的“识图模式”已面向广大用户全面开放。现在，绝大多数测试账号都能在输入框上方，看到与“快速模式”、“专家模式”并列的这个全新功能按钮。这并非简单的图片文字提取，而是标志着 DeepSeek 正式具备了视觉感知与图像深度理解的核心能力。

那么，这项新功能在实际应用中的表现究竟如何？根据大量用户实测反馈，其能力覆盖范围相当广泛，展现出多场景应用的潜力。

从“数字博物学家”到“智能截图解析器”

在基础图像识别领域，它堪称一位“数字博物学家”。有用户上传了一张在博物馆拍摄的未知文物照片，开启“深度思考”模式后，模型不仅细致描述了其纹饰特征与材质质感，更准确推断出该玉器属于18世纪清代乾隆时期的“痕都斯坦风格”，展现了深厚的文化背景知识。

面对需要复杂逻辑的智力题目，它的硬核推理能力同样出色。例如，一项要求在大脑中拼合三维立方体的高难度空间推理测试，若不开启思考模式，模型容易出错；但一旦启动深度思考，经过数分钟的缜密“推演”，最终能够得出准确答案。

其出色的“网感”与流行文化理解力也令人印象深刻。上传时下热门的表情包或网络梗图，它能精准识别合影中的特定人物（例如从一张合照中同时准确区分出前总统特朗普与动漫角色鲁路修），甚至能解读出图片中小猫的微妙情绪，精准捕捉到网民传播的笑点与语境。

在生产力场景中，它还能扮演高效的“智能截图解析器”。无论是包含代码片段的技术文档截图，还是复杂的UI界面设计稿或完整网页截图，它都能准确解析并提取全部文本信息。更强大的是，它能够根据解析结果，一键反向生成可交互的HTML代码，甚至将原网页中的功能按钮和跳转链接都高度还原。

“边思考边定位”的核心技术突破

强大能力的背后是底层技术的革新。随着识图模式上线，DeepSeek 也公布了其多模态模型的技术细节，其核心是一种名为“Thinking with Visual Primitives”（基于视觉原语思考）的创新框架。

传统多模态大模型在处理信息密集的复杂图片时，常面临“指代鸿沟”的挑战：模型虽能“看到”图像元素，但在推理过程中，若使用“左边那个大的”这类模糊的自然语言描述来构建逻辑链，极易因指代不精确导致注意力分散，最终得出错误结论。

DeepSeek 的解决方案非常巧妙：它将点、边界框等代表空间位置的视觉元素，直接作为“思维的基本单元”融入模型的推理链条。这相当于模型在思考时，拥有了一个“数字指针”，可以一边推理，一边精确地“指向”图片中的目标物体，从而彻底解决了复杂空间布局下的逻辑指代难题。

这一框架不仅推理高效，对计算资源也极为友好。技术报告显示，处理一张800×800分辨率的图片，DeepSeek 仅需消耗约90个tokens。相比之下，GPT 和 Claude 等其他主流模型处理同等图片，则需要消耗约870至1100个tokens。在多项物体计数与空间关系推理的基准测试中，DeepSeek 的表现也已达到甚至超越了当前前沿模型的水平。