数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

DeepSeek识图功能全面开放图文交互时代正式开启

AI热点日报时间：2026-05-12

热点解读

近期，DeepSeek AI 助手在灰度测试中推出的“识图模式”迎来了重要进展。根据大量用户反馈，这项图片理解功能已实现大范围开放，目前绝大多数测试账号都能在输入框上方看到与“快速模式”、“专家模式”并列的新按钮——“识图模式”。不过，该功能目前仍标注为“图片理解功能内测中”，表明其仍处于优化完善阶

近期，DeepSeek AI 助手在灰度测试中推出的“识图模式”迎来了重要进展。根据大量用户反馈，这项图片理解功能已实现大范围开放，目前绝大多数测试账号都能在输入框上方看到与“快速模式”、“专家模式”并列的新按钮——“识图模式”。不过，该功能目前仍标注为“图片理解功能内测中”，表明其仍处于优化完善阶段。

DeepSeek大范围开放“识图模式”，正式跨入图文交互时代

DeepSeek的识图功能并非简单的OCR文字识别工具。开启该模式后，用户可以直接上传各类图片，让AI模型真正“看懂”图像内容，其能力覆盖视觉理解、信息提取与逻辑推理，远超基础的图文转换范畴。

深度实测：从文物鉴定到代码生成的全场景应用

在实际体验中，DeepSeek的视觉识别能力展现了出色的广度与深度。在基础图像识别方面，它如同一位“AI博物学家”。有用户上传博物馆拍摄的未知文物照片，在启用“深度思考”功能后，模型不仅详细解析了器物的纹理与材质特征，更准确判断出一件玉器属于18世纪清代乾隆时期的“痕都斯坦风格”，展现了深厚的人文知识储备。

面对高难度逻辑推理题目，DeepSeek同样表现出强大的分析能力。例如，在需要空间想象与立体拼合的逻辑题测试中，普通模式下可能出错，但开启深度思考并经过约4分钟推理后，模型能够给出正确的解答步骤与最终答案。

其能力还体现在对网络文化的理解上。上传热门表情包或梗图时，它能准确识别图中人物，甚至解读出宠物表情背后的情绪，精准捕捉网民传播的幽默点。

在生产力场景中，DeepSeek化身为高效的“智能截图解析器”。无论是技术文档截图、复杂UI界面还是完整网页截图，它都能精准提取全部文字信息。更强大的是，它还能根据截图一键还原可交互的HTML代码，完整保留原网页的按钮、链接等交互元素，极大提升了开发与设计效率。

DeepSeek大范围开放“识图模式”，正式跨入图文交互时代

技术解析：“视觉基元思考”框架如何突破多模态瓶颈

随着识图功能的开放，DeepSeek近期也公布了其多模态模型的技术细节，核心是创新的“Thinking with Visual Primitives”（用视觉基元思考）框架。

传统多模态大模型在处理复杂视觉场景时，常面临“指代模糊”的挑战。模型虽能感知图像，但在后续推理中使用“左侧那个较大的物体”等自然语言描述时，容易因定位不准导致注意力分散，最终影响判断准确性。

DeepSeek的解决方案独具匠心：将点、边界框等代表空间位置的视觉元素，作为“思维基本单元”直接融入模型的推理链条。这相当于为模型配备了“数字手指”，使其在思考过程中能够精确指向目标对象，从而有效解决复杂空间布局中的逻辑难题。

该框架不仅在效果上表现优异，在计算效率上也优势明显。处理一张800×800分辨率图片时，DeepSeek仅需约90个tokens，而GPT、Claude等主流模型处理同等图片则需要870至1100个tokens。在多项计数与空间推理基准测试中，DeepSeek已达到甚至超越行业前沿模型的水平。

DeepSeek大范围开放“识图模式”，正式跨入图文交互时代

当前能力边界与使用注意事项

当然，作为新上线的视觉功能，DeepSeek识图模式仍存在一定的局限性。综合用户实测反馈，目前主要存在以下几方面不足。

首先是知识更新的滞后性。在某些测试中，模型的推理逻辑完全正确，但因知识库版本限制，最终答案可能出现偏差。例如，识别2025年底发布的最新款手机时，虽然能通过副屏等设计特征推断出系列归属，但仍可能给出错误的具体型号信息。

其次，在处理“统计图中动物数量”、视觉错觉图形等高难度、反直觉题目时，其回答仍存在不确定性。有时经过长时间“深度思考”后，反而可能产生逻辑矛盾或事实幻觉。

最后需要明确的是，当前上线的识图模式核心是视觉理解与分析，尚未集成图像生成、视频内容理解等更广泛的跨模态能力。这意味着，让模型根据文字描述生成图片，或解析视频中的动态内容，目前还无法实现。

DeepSeek大范围开放“识图模式”，正式跨入图文交互时代

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：DeepSeek识图功能全面开放 图文交互时代正式开启要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://tech.ifeng.com/c/8sypexsexmE

DeepSeek

上一篇：RAG系统检索正确却回答错误的原因分析与解决策略

下一篇：RMS-MoE模型通过检索记忆优化专家路由调度效率

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周OmniParser基于AI的解析工具 02 / 本周通义灵码智能编码助手助你高效编程 03 / 本周基于AI的自动化道路巡逻与资产数据收集方案 04 / 本周通义智文AI助你高效阅读全网文章 05 / 本周Applitools Eyes 基于人工智能的端到端测试平台

01 / 本月OmniParser基于AI的解析工具 02 / 本月通义灵码智能编码助手助你高效编程 03 / 本月基于AI的自动化道路巡逻与资产数据收集方案 04 / 本月通义智文AI助你高效阅读全网文章 05 / 本月Applitools Eyes 基于人工智能的端到端测试平台

热点快看

07-05 19:47OmniParser基于AI的解析工具 07-05 19:47通义灵码智能编码助手助你高效编程 07-05 19:47基于AI的自动化道路巡逻与资产数据收集方案 07-05 19:47通义智文AI助你高效阅读全网文章 07-05 19:47Applitools Eyes 基于人工智能的端到端测试平台

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别

DeepSeek识图功能全面开放 图文交互时代正式开启

深度实测：从文物鉴定到代码生成的全场景应用

技术解析：“视觉基元思考”框架如何突破多模态瓶颈

当前能力边界与使用注意事项

DeepSeek识图功能全面开放图文交互时代正式开启