DeepSeek识图对比豆包,后者表现更胜一筹
号外,号外。DeepSeek的识图功能终于上线了——那个大家一直心心念念的多模态短板,总算是补上了。
打开APP和官网翻了翻,确实多了一个“识图模式”。
赶紧拿“梁爷爷”的图片试了一波。
结果如何?看到答案的瞬间,直接笑出声。
世界观被彻底碘伏了——原来这个人是腾讯高级副总裁、微信创始人张小龙。
继续追问:那这个人又是谁?
世界观再次崩塌:这两个居然是同一个人?只不过换了个休息造型???
DeepSeek还一本正经地列出了1、2、3、4,有理有据。好吧,信了,这个人确实叫“张小龙”。
但问题来了——为什么每次给的答案都不一样?
穿蓝色外套的男人简直是迷一般的存在:可以是微信的张小龙,也可以是快手的宿华,还可以是搜狗的王小川。而那位休闲外套的男人,既可以是张小龙,也可以是百度创始人李彦宏。
说好听了,这功能充满乐趣;说难听了,就是一本正经地胡说八道。
坦白讲,并没有想批判谁,但确实笑得很大声。
好了,不逗大家了。图片里这个人,其实是梁文锋。
整件事最大的乐子在于:DeepSeek的大模型,居然不认识自家创始人。
但有意思的是——它却认识那位“遥遥领先”的东哥。
而且态度极其坚决,想忽悠一下都不行。难道说,提供显卡的才是“亲爹”?
认人这件事,果然还是包包更靠谱。
这个事,真能笑半天。好了,不闹了。
来测点真正实用的——给小学生拍照检查作业。
手上刚好有一份不错的样本。
这是一份小学四年级的试卷,而且是本届四年级学生的真实作业。恰好有人写了一份有错误的答卷。
直接把图片丢给DeepSeek。
大约花了140秒思考和作答,最后得出如下结论。
这一波表现确实不错。
成功识别了里面的几道图片题目,并进行了批改。正确的没改错,错误的也抓出来了。
这点足以证明它确实有视觉理解能力——如果只是简单的OCR,是没法理解这些带图题目的。
为了进一步确认,又给它一个错题。
这道题也是典型的视觉题,有两条虚线,试卷上确实做错了。看看它能不能找出来。
下面是DeepSeek的答案。
成功找出了三个错题,并进行了解析。
但第十题指出错误后,又给出一个错误答案,这确实有些不应该。
第10题(选择题):学生选了C(140),正确选项是B(139)。
解析:舞蹈队原平均身高是140.2 cm,红红加入后,平均身高降到了139 cm(虚线b的位置)。
说明红红的身高必须很矮,拉低了总平均分。
如果新平均身高是139 cm,红红的身高极大概率就是139 cm(或者低于139,但在给定选项里B最合适)。
它识别出了原平均身高和后来的平均身高,但逻辑判断出现了偏差。
身高从140.2拉到139,红红的身高肯定低于139。如果等于或高于139,均值不可能被拉到139。
所以这道题应该选A。
这一点,豆包能轻松答对。
而且豆包的速度非常快。
对图片识别的两大需求——认人识物和批改作业——目前来看,DeepSeek这两项都做得不太理想。
为了让测试更丰富,再加测一项:看时钟。
它的答案是6:00:50,这个绝对错的。
让它再确认一次。
它坚持无误,精确到秒:6:00:50。
也拿豆包试了试。
豆包说是6:05:50,不算特别准,但已经很接近了。按人类的视角,这个时间应该接近6:04:50。
再加测一题。
给了这张图,然后问:黄色坦克向右开两枪会怎么样?
DeepSeek的回答如下。
下面是豆包的答案。
这道题怎么评价?按经典游戏的设定,豆包是对的;但按截图的实际画面来看,DeepSeek反而是对的。
能答对这个题目,说明DeepSeek确实有点本事——因为它和常规地图不一样,能识别出这么细微的差别,确实很厉害。
但正当要夸奖它的时候——
它改口了。
由此可以确定:它没有主见。另一个可能性是,第一个答案也是随便猜的。
又追问了一把。
它完全没意识到问题的关键所在。
突然发现,这个问题其实很有代表性。
问DeepSeek、豆包、GPT5.5,它们都说要第三枪才能干掉老鹰。很明显,它们识别出这是坦克大战,就按标准答案套进了题目。
这个问题,只有Opus4.8能反思出关键。
这才是文本推理的王者吧?
扯远了。说回DeepSeek。
其实还是挺喜欢DeepSeek的,但识图这个功能,确实有点……儿戏。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
AI应用层真正赚钱的企业有哪些
AI应用层商业化呈现订阅制、API调用、广告三种模式,Midjourney和Cursor通过订阅制实现盈利,而多数公司因推理成本高导致亏损。2025至2026年处于融资驱动阶段,2027至2028年将转向利润驱动,届时成本下降与付费习惯成熟后赢家才会浮现。
BI公司当下启动全面战略转型
观远数据宣布从数据智能全面转向决策智能,发布DecideX平台,应对大模型对BI行业的冲击。转型面临案例规模化复制、FDE重服务模式能否变轻、自身AI原生转型等挑战,同时布局出海与港股IPO。
边缘人工智能每日早报七月五日最新发布
AI编码能力提升40%但80%内容需人工审核,决策疲劳成新瓶颈;AI漏洞发现速度超越修复能力,6月高危漏洞达1500个创新高;学生使用AI使作业分数升18%但考试成绩降20%;欧盟拟禁16岁以下接触战利品箱,影响280亿美元市场;多模态提示正成为AI智能体新母语。
ARD协议解读:Agent行业拐点已至
谷歌联合微软等发布ARD开放规范,补齐了Agent资源发现的关键拼图,与MCP、A2A构成完整互联体系。加上安全、调度等基础设施加速成熟,Agent规模化落地前提条件已基本齐备,行业正从单体能力竞争转向生态互联,迎来规模化发展的拐点。
ControlNet Mac电脑的详细完整安装教程:Apple Silicon与Intel配置步骤详解
ControlNet是常用AI绘画控制插件,macOS安装需区分AppleSilicon与Intel环境,重点处理Python、WebUI、插件目录、模型文件和启动参数,配置前应做好备份并关注版本兼容。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2026-07-05 16:41
2026-07-05 16:41
2026-07-05 16:41
2026-07-05 14:40
2026-07-05 06:45
2026-07-05 06:44
2026-07-05 06:44
2026-07-05 06:44
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

