DeepSeek识图功能正式上线开启图文交互新体验
近期,DeepSeek 灰度测试已久的“识图模式”已面向广大用户全面开放。现在,绝大多数测试账号都能在输入框上方,看到与“快速模式”、“专家模式”并列的这个全新功能按钮。这并非简单的图片文字提取,而是标志着 DeepSeek 正式具备了视觉感知与图像深度理解的核心能力。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
那么,这项新功能在实际应用中的表现究竟如何?根据大量用户实测反馈,其能力覆盖范围相当广泛,展现出多场景应用的潜力。
从“数字博物学家”到“智能截图解析器”
在基础图像识别领域,它堪称一位“数字博物学家”。有用户上传了一张在博物馆拍摄的未知文物照片,开启“深度思考”模式后,模型不仅细致描述了其纹饰特征与材质质感,更准确推断出该玉器属于18世纪清代乾隆时期的“痕都斯坦风格”,展现了深厚的文化背景知识。
面对需要复杂逻辑的智力题目,它的硬核推理能力同样出色。例如,一项要求在大脑中拼合三维立方体的高难度空间推理测试,若不开启思考模式,模型容易出错;但一旦启动深度思考,经过数分钟的缜密“推演”,最终能够得出准确答案。
其出色的“网感”与流行文化理解力也令人印象深刻。上传时下热门的表情包或网络梗图,它能精准识别合影中的特定人物(例如从一张合照中同时准确区分出前总统特朗普与动漫角色鲁路修),甚至能解读出图片中小猫的微妙情绪,精准捕捉到网民传播的笑点与语境。
在生产力场景中,它还能扮演高效的“智能截图解析器”。无论是包含代码片段的技术文档截图,还是复杂的UI界面设计稿或完整网页截图,它都能准确解析并提取全部文本信息。更强大的是,它能够根据解析结果,一键反向生成可交互的HTML代码,甚至将原网页中的功能按钮和跳转链接都高度还原。
“边思考边定位”的核心技术突破
强大能力的背后是底层技术的革新。随着识图模式上线,DeepSeek 也公布了其多模态模型的技术细节,其核心是一种名为“Thinking with Visual Primitives”(基于视觉原语思考)的创新框架。
传统多模态大模型在处理信息密集的复杂图片时,常面临“指代鸿沟”的挑战:模型虽能“看到”图像元素,但在推理过程中,若使用“左边那个大的”这类模糊的自然语言描述来构建逻辑链,极易因指代不精确导致注意力分散,最终得出错误结论。
DeepSeek 的解决方案非常巧妙:它将点、边界框等代表空间位置的视觉元素,直接作为“思维的基本单元”融入模型的推理链条。这相当于模型在思考时,拥有了一个“数字指针”,可以一边推理,一边精确地“指向”图片中的目标物体,从而彻底解决了复杂空间布局下的逻辑指代难题。
这一框架不仅推理高效,对计算资源也极为友好。技术报告显示,处理一张800×800分辨率的图片,DeepSeek 仅需消耗约90个tokens。相比之下,GPT 和 Claude 等其他主流模型处理同等图片,则需要消耗约870至1100个tokens。在多项物体计数与空间关系推理的基准测试中,DeepSeek 的表现也已达到甚至超越了当前前沿模型的水平。
视觉能力初显,仍有优化空间
当然,刚刚学会“睁眼看世界”的 DeepSeek,距离完美还有一段路要走。综合大量用户反馈,目前的识图模式仍存在几处明显的局限性。
首先是知识库更新的滞后问题。在某些测试案例中,模型的推理过程和分析逻辑完全正确,但最终答案却因信息过时而出错。例如,在识别一款2025年底发布的最新款手机时,由于知识库截止于2025年,它虽然能通过副屏等设计细节推断出品牌系列,但给出的具体型号信息仍然是错误的。
其次,在面对“统计图中老虎数量”、视觉错觉图形这类高难度、反直觉的挑战时,其回答仍存在较大的不确定性。甚至偶尔在经历长时间的“深度思考”后,反而产生了更严重的逻辑幻觉,导致最终结论崩溃。
最后需要明确的是,目前上线的识图模式本质上是一个纯视觉理解模块,功能主要集中在静态图片的识别与分析层面。诸如图像生成、视频内容理解或更广义的跨模态交互等高级功能,尚未集成在此次发布中。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
淘宝内嵌千问AI实现聊天购物新体验告别搜索烦恼
5月11日,路透社的一则报道在业内激起了不小的水花。据知情人士透露,阿里巴巴正计划将其人工智能大模型“通义千问”与核心电商业务淘宝进行深度整合。这可不是一次简单的功能升级,其目标相当明确:碘伏沿用多年的“关键词搜索”购物模式,全面转向更自然、更智能的“对话式电商”。 具体怎么实现?想象一下,未来你打
人工智能终端智能化分级国家标准正式发布
工信部等三部门联合发布《人工智能终端智能化分级》国家标准,建立了全国统一的AI终端智能化评价体系。标准采用“2+N”架构,涵盖基础文件及手机、汽车座舱等七大品类专项规范,将智能化水平分为L1至L4四级。该标准由主流厂商共同制定,旨在规范市场、引导产业升级,并为消费者提供明确选购参考。
Anthropic与Akamai签署18亿美元云计算合作协议
人工智能公司Anthropic与云服务商Akamai签署价值180亿美元的计算协议,推动后者股价大涨。双方战略结盟:Anthropic借此多元化算力布局以支持模型训练,Akamai则成功向高性能计算领域转型。近期Anthropic密集的算力投资与融资,凸显AI行业已演变为昂贵的算力军备竞赛,也反映传统云服务商正通过绑定AI公司寻求新增长。
苹果新款AirPods Pro年内发布或搭载AI摄像头与空间全息技术
苹果正研发多款超越屏幕的未来硬件:空间版iPhone计划2030年前后推出,采用全息显示实现无眼镜沉浸交互;AI挂件预计明年发布,通过摄像头与麦克风增强Siri感知;配备AI摄像头的AirPodsPro也接近定型,为环境提供视觉支持。这些举措标志着苹果正从显性屏幕转向基于无感视觉的沉浸交互新阶段。
百度文心大模型5.1版本全新发布旗舰级AI能力详解
百度发布文心5 1大模型,其弹性训练框架将预训练成本降至业界同规模模型的6%。该模型在Agent任务、深度搜索、数学推理和创意写作等领域表现优异,于Arena搜索榜位列国内第一、全球第四,适用于深度研究、自动化任务及企业集成等高价值场景。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

