面包屑图标 当前位置: 首页
AI资讯
热点详情

DeepSeek识图功能全面开放 图文交互时代正式开启

AI热点日报
AI热点日报时间:2026-05-12
热点解读

近期,DeepSeek AI 助手在灰度测试中推出的“识图模式”迎来了重要进展。根据大量用户反馈,这项图片理解功能已实现大范围开放,目前绝大多数测试账号都能在输入框上方看到与“快速模式”、“专家模式”并列的新按钮——“识图模式”。不过,该功能目前仍标注为“图片理解功能内测中”,表明其仍处于优化完善阶

近期,DeepSeek AI 助手在灰度测试中推出的“识图模式”迎来了重要进展。根据大量用户反馈,这项图片理解功能已实现大范围开放,目前绝大多数测试账号都能在输入框上方看到与“快速模式”、“专家模式”并列的新按钮——“识图模式”。不过,该功能目前仍标注为“图片理解功能内测中”,表明其仍处于优化完善阶段。

DeepSeek大范围开放“识图模式”,正式跨入图文交互时代

DeepSeek的识图功能并非简单的OCR文字识别工具。开启该模式后,用户可以直接上传各类图片,让AI模型真正“看懂”图像内容,其能力覆盖视觉理解、信息提取与逻辑推理,远超基础的图文转换范畴。

深度实测:从文物鉴定到代码生成的全场景应用

在实际体验中,DeepSeek的视觉识别能力展现了出色的广度与深度。在基础图像识别方面,它如同一位“AI博物学家”。有用户上传博物馆拍摄的未知文物照片,在启用“深度思考”功能后,模型不仅详细解析了器物的纹理与材质特征,更准确判断出一件玉器属于18世纪清代乾隆时期的“痕都斯坦风格”,展现了深厚的人文知识储备。

面对高难度逻辑推理题目,DeepSeek同样表现出强大的分析能力。例如,在需要空间想象与立体拼合的逻辑题测试中,普通模式下可能出错,但开启深度思考并经过约4分钟推理后,模型能够给出正确的解答步骤与最终答案。

其能力还体现在对网络文化的理解上。上传热门表情包或梗图时,它能准确识别图中人物,甚至解读出宠物表情背后的情绪,精准捕捉网民传播的幽默点。

在生产力场景中,DeepSeek化身为高效的“智能截图解析器”。无论是技术文档截图、复杂UI界面还是完整网页截图,它都能精准提取全部文字信息。更强大的是,它还能根据截图一键还原可交互的HTML代码,完整保留原网页的按钮、链接等交互元素,极大提升了开发与设计效率。

DeepSeek大范围开放“识图模式”,正式跨入图文交互时代

技术解析:“视觉基元思考”框架如何突破多模态瓶颈

随着识图功能的开放,DeepSeek近期也公布了其多模态模型的技术细节,核心是创新的“Thinking with Visual Primitives”(用视觉基元思考)框架。

传统多模态大模型在处理复杂视觉场景时,常面临“指代模糊”的挑战。模型虽能感知图像,但在后续推理中使用“左侧那个较大的物体”等自然语言描述时,容易因定位不准导致注意力分散,最终影响判断准确性。

DeepSeek的解决方案独具匠心:将点、边界框等代表空间位置的视觉元素,作为“思维基本单元”直接融入模型的推理链条。这相当于为模型配备了“数字手指”,使其在思考过程中能够精确指向目标对象,从而有效解决复杂空间布局中的逻辑难题。

该框架不仅在效果上表现优异,在计算效率上也优势明显。处理一张800×800分辨率图片时,DeepSeek仅需约90个tokens,而GPT、Claude等主流模型处理同等图片则需要870至1100个tokens。在多项计数与空间推理基准测试中,DeepSeek已达到甚至超越行业前沿模型的水平。

DeepSeek大范围开放“识图模式”,正式跨入图文交互时代

当前能力边界与使用注意事项

当然,作为新上线的视觉功能,DeepSeek识图模式仍存在一定的局限性。综合用户实测反馈,目前主要存在以下几方面不足。

首先是知识更新的滞后性。在某些测试中,模型的推理逻辑完全正确,但因知识库版本限制,最终答案可能出现偏差。例如,识别2025年底发布的最新款手机时,虽然能通过副屏等设计特征推断出系列归属,但仍可能给出错误的具体型号信息。

其次,在处理“统计图中动物数量”、视觉错觉图形等高难度、反直觉题目时,其回答仍存在不确定性。有时经过长时间“深度思考”后,反而可能产生逻辑矛盾或事实幻觉。

最后需要明确的是,当前上线的识图模式核心是视觉理解与分析,尚未集成图像生成、视频内容理解等更广泛的跨模态能力。这意味着,让模型根据文字描述生成图片,或解析视频中的动态内容,目前还无法实现。

DeepSeek大范围开放“识图模式”,正式跨入图文交互时代

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:DeepSeek识图功能全面开放 图文交互时代正式开启要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://tech.ifeng.com/c/8sypexsexmE
DeepSeek

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-05 19:47
OmniParser基于AI的解析工具

OmniParser是微软AI驱动的SaaS工具,基于YOLOv8和BLIP-2,将UI截图与漫画页面解析为结构化数据,支持UI元素检测、漫画面板分析、对话框及人脸识别,适用于自动化测试、漫画翻译等场景。

AI热点2026-07-05 19:47
通义灵码智能编码助手助你高效编程

通义灵码是贯穿开发全流程的智能编码助手,具备代码智能生成、研发智能问答、多编程语言及编辑器支持、代码安全隐私保障四大核心能力,适用于学生、新手及企业开发者等多类人群,提升编码效率。

AI热点2026-07-05 19:47
基于AI的自动化道路巡逻与资产数据收集方案

基于人工智能的自动化道路巡逻和资产数据收集方案,通过车载相机自动采集路面及周边资产数据,识别裂缝、坑槽等病害并建立数字化台账,同时自动删除隐私图像,实现从被动响应向主动预防的转变,降低巡检成本。

AI热点2026-07-05 19:47
通义智文AI助你高效阅读全网文章

阿里旗下通义智文是一款智能阅读工具,支持网页、论文、图书和自由阅读四种场景,帮助用户快速提取核心观点,节省阅读时间,适合学生、研究人员及职场人士高效处理大量文本。

延伸阅读