DeepSeek开眼功能上线引发AI行业震动

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

DeepSeek开眼功能上线引发AI行业震动

热心网友时间：2026-05-17

转载

DeepSeek的“鲸鱼”，终于睁开了眼睛。

今日，DeepSeek团队负责多模态开发的研究员陈小康在社交平台X上发布了一条动态：“Now, we see you”。配图中，那个标志性的鲸鱼logo，悄然摘下了眼罩。

突发！DeepSeek“开眼”，AI圈一夜腥风血雨

几乎与此同时，众多用户发现，DeepSeek的网页版悄然上线了一项新功能——“识图模式”。在此模式下，用户可以上传图片，交由AI模型进行内容理解和分析。不过，该功能目前尚未全面开放，仍处于灰度测试阶段，仅部分用户能看到入口。

突发！DeepSeek“开眼”，AI圈一夜腥风血雨

从“文本王者”到“视觉补课”

回顾DeepSeek的崛起之路，其核心竞争力始终建立在文本推理的极致性价比之上。无论是V3还是R1模型，都以相对较低的训练成本，实现了接近甚至超越闭源巨头的逻辑推理能力，堪称行业“价格屠夫”。然而，其短板也同样明显：长期以来，它仅能处理文字，无法“看见”和理解图像。

这在日常使用中难免带来割裂感。当其他AI助手可以随手分析一张Excel截图数据，或根据草图生成对应代码时，同样的操作在过去的DeepSeek上却无法实现。它能撰写代码、解答数学题、梳理复杂大纲，但一旦遇到图片，就只能礼貌地表示无能为力。

但要成为一个真正的平台级AI助手，视觉理解能力几乎是必答题，DeepSeek也不例外。现实世界中的信息载体远不止文字：一张发票、一份报表、路牌标识、商品包装、设计草图、甚至社交媒体截图……如果AI无法理解这些视觉信息，其应用场景和实用性无疑会受到大幅限制。

如今，“识图模式”的登场，标志着DeepSeek的产品能力正式从纯文本对话，延伸至图文交互的新战场。这不仅是功能的简单叠加，更是补齐了其与GPT-4、Gemini等主流多模态大模型之间最关键的一块能力拼图。

突发！DeepSeek“开眼”，AI圈一夜腥风血雨

入场虽晚，挑战与机遇并存

不可否认，DeepSeek此时入局多模态视觉赛道，面临的压力不容小觑。OpenAI的GPT系列在视觉理解上已相当成熟，而Google的Gemini从设计之初就是多模态原生架构。Anthropic的Claude在图表和文档解析方面也日益精进。用户的期待早已被这些先行者拔高，DeepSeek若想再次扮演“黑马”角色，仅仅实现“能看图”是远远不够的，必须拿出一些独特的“绝活”。

真正的机会点或许在于其自身优势的融合。例如，将其擅长的深度推理能力与视觉理解相结合：面对一张复杂的数据趋势图，不仅能准确描述图表内容，更能推导出背后的商业洞察；分析一张设备结构图或电路图，不仅能识别元件，还能给出潜在的故障诊断或优化建议。这种“视觉感知+逻辑推理”的深度结合，才是形成差异化竞争力的关键。

可以预见，视觉理解能力的开放只是一个开始。后续，DeepSeek很可能逐步解锁图像生成、视频理解等更高阶的多模态能力。如果未来能将其“专家模式”下的深度思考链，与“识图模式”的视觉感知无缝结合，那么DeepSeek在需要复杂图文推理的场景中——比如学术研究、技术分析、创意策划等——的表现将非常值得期待。

突发！DeepSeek“开眼”，AI圈一夜腥风血雨