DeepSeek V4首测表现有不足但整体可圈可点
DeepSeek V4 正式发布了!消息一出,我立刻兴冲冲地跑去上手实测。
没想到,第一个测试样例就翻了车——用的还是最强的 V4 Pro 版本!
花了不少时间,犯的错误还挺低级,多少有点出乎意料。好在这个开头没影响后续发挥,后面几个例子倒是表现相当不错。
下面完整说说这次的测试工具、测试用例、测试过程和结果,顺便也记一笔 Tokens 消耗和花费明细。
1、测试工具
DeepSeek 官方提到,专门对 Claude Code 这类智能体工具做了针对性优化训练,并且完全兼容 Anthropic 协议。那自然就选 Claude Code 作为评测工具了。
打开手头的 JCode,配置好 DeepSeek 的 Pro 模型,双击启动,直接开干。
可以看到模型已经是 DeepSeek-V4-Pro,这是专业版模型,1.6T 参数,100 万上下文。各项编程基准测试的结果都处于顶级水准。
2、测试例子
测试用例是从之前 GLM5 和 Opus4.6 对战的那套题目里拿的。其中五道是 GLM 出的,用来挑战 Opus4.6;另外五道是 Opus4.6 出的,用来捍卫它的地位。
因为有些问题太专业,所以让它们重新出了题,要求既要有娱乐性,又得体现专业性——大家都能看懂,写起来还得有点难度。
根据这个要求,最终确定了 10 个测试用例,其中一个不太方便测,就砍掉了。剩下的 9 个用例已经测过不少模型,国内国外的都有。
具体测试对象包括 Claude Opus 4.6、Doubao2.0、Gemini3.1Pro、GLM5、Kimi-K2.5、Minmax-M2.5、GPT5.4、Qwen3.5Plus。现在,DeepSeek V4 也加入了评测行列。
工具和用例都介绍完了,一个一个开始测。
3、赛博朋克版《清明上河图》
这个例子我很喜欢,非常有趣——制作一版赛博朋克风格的清明上河图。
完整提示词:
编写单个 HTML 文件,用浏览器打开后呈现动态的赛博朋克风格《清明上河图》长卷。画面自动从右向左滚动,包含至少 50 个动态元素(霓虹灯招牌、飞行汽车、全息投影广告、机械义肢行人等),鼠标悬停店铺时弹出赛博风格信息卡片。
关键技术点:
- SVG/Canvas 绘图编程能力
- CSS 动画逻辑
- 鼠标交互事件处理
- 审美设计与视觉呈现
把完整提示词放进 Claude Code,回车,开始干活。
准备开盲盒了,有点小兴奋,毕竟这是刚出炉的顶配 Pro 模型。没想到等了 10 分钟还没动静,已经有点不耐烦了。还好,又等了两分钟,出结果了。
开发这个页面花了 12 分钟 15 秒。看它的总结还不错,动态元素远超 50 个,估计是 50 的十倍了。还有减速、加速、反向、暂停,甚至设了快捷键。从它的描述来看,效果可能跟 Opus4.6 做的特别像。
赶紧打开页面体验一下:
默认效果看着不错,它提示我点击任意位置开始浏览,但我点了半天没反应。这时候基本断定,肯定是 JS 出错了。打开开发者模式看控制台,果然有一个"Unexpected string"错误。
根据浏览器提示,是这段 JS 有问题。比较敏锐的老程序员应该一眼就能看出问题。如果你没看出来,咱们问问豆包——为什么用豆包?支持国产嘛!
豆包的回答很干脆,一下子指出了三个严重错误。其他两个不管,感觉像是瞎说的,我们只看第一个:该写冒号的地方写成了逗号。这属于特别低级的错误,根本不涉及任何复杂的业务逻辑,就是基本功不扎实。虽然只是一个逗号,但代码就是这样,每一个符号都很重要。
手动修正了这个错误,运行之后依然很卡,视觉效果也不太好。第一个测试基本宣告失败了。
看看 API 数据:总共调用了 3 次,其中一次是 say hello,不算。消耗了 12.7 万 Tokens,未命中缓存 7.4 万,总共花了 1.64 元。这一个例子,跑得慢不说,还有错。
不过错了一个不代表全部,继续测试,再接再厉。
4、CSS山水画
这个例子也很好玩,要实现动态效果,但只能用 CSS,而且得“写意”。
提示词:
用纯 CSS(单个 HTML 文件,不允许用 Ja vaScript、SVG、Canvas、任何图片资源)画一幅中国山水画。要求包含:远山、近山、瀑布流水、松树、亭台、云雾缭绕动效、飞鸟。越写意越好,越像水墨越强。
关键技术点:
- CSS box-shadow 极限运用
- CSS gradient(渐变)叠加技巧
- CSS clip-path 图形裁剪
- CSS 动画(云雾、飞鸟、流水)
- 纯 CSS 绘图能力(无 Ja vaScript)
结果:没有错误,运行正常。整体配色不错,树也比较像树木,太阳、飞鸟、凉亭都挺好。就是山有点太尖锐、太密集了,右下角的印章也是混乱的。以往测试中,这个水平算中等。
但有一个问题:时间太久!写一个页面花了 16 分钟,这个时间 Opus 都能从零开始开发一个项目 MVP 了。
消耗情况:请求数一下子到了 26 次,Tokens 消耗 126 万(还好其中 100 万命中了缓存),费用 4.17 元。
5、完整横版 HTML 跑酷游戏
上面那些只能看,这个可以玩。
提示词:
用单个 HTML 文件(可以用 JS + CSS,但不允许引入任何外部资源/CDN)做一个完整可玩的横版跑酷游戏,要求:- 角色自动奔跑,点击/空格跳跃,支持二段跳 - 随机生成障碍物和金币 - 有计分系统、最高分记录 - 有背景视差滚动(至少 3 层) - 角色死亡时有粒子爆炸特效 - 有开始界面和 Game Over 界面 - 整体视觉风格要好看(像素风或赛博朋克风均可)
关键技术点:
- Canvas 2D 游戏引擎开发
- 物理模拟(跳跃、重力、碰撞检测)
- 视差滚动实现
- 粒子特效系统
- 游戏状态管理(开始、进行、结束)
结果:这次任务完成得还可以。自动奔跑、二段跳、金币、三层背景视差都有,但缺少计分和最高分记录。其他选手都有的功能,它只在挂掉的时候才显示分数,游戏过程中不显示,明显不合理、不符合要求。因为这一点,只能排中等偏下了。
6、诗词版黑客帝国代码雨
跑酷结束,再来点酷炫的,搞个黑客帝国的代码雨。
提示词:
用一个 HTML 文件实现黑客帝国经典代码雨效果,但有以下创意要求:- 下落的不是随机字符,而是中国古诗词(每列是一首完整的诗,从上往下逐字飘落) - 背景纯黑,文字渐变色(从亮绿到暗绿到消失) - 当鼠标划过某一列时,该列暂停并高亮显示完整诗句,旁边浮现诗人名和朝代 - 至少包含 20 首不同的古诗 - 整体流畅度要高,不能卡顿
关键技术点:
- Canvas 动画性能优化(大量字符流畅渲染)
- 鼠标交互事件处理(暂停、高亮)
- 古诗词知识储备(20 首以上)
- 视觉效果设计(渐变色、透明度过渡)
结果:打开之后发现没有黑客帝国代码雨,页面空荡荡的。不会又崩了吧?还好,等了好久终于出东西了——大概 12 秒左右。一般人 3 秒不出东西肯定就关页面了,严格来说 1 秒多就会觉得有点长。我不确定它是什么逻辑。
出来之后效果还不错,提示词里的需求都满足了,个人觉得效果还行,但 12 秒的延迟得扣大分。如果没有这个延迟,应该能到中等偏上的水平。
7、AI 五子棋对战 + 华丽 UI
又是一个能玩的例子。
提示词:
用一个 HTML 文件实现一个人机五子棋,要求:- 棋盘是 15×15 标准棋盘,有木纹质感 - AI 要足够聪明(至少能识破简单的活三、冲四,不能让人 3 步就赢) - 落子时有动画效果(石子从上方落下,有弹跳回弹) - 连成五子时有华丽的胜利特效(粒子烟花 + 连线高亮闪烁) - 支持悔棋功能 - 有一个“AI 思考中”的加载动画 - 整体 UI 要精致,不能是毛坯房风格
关键技术点:
- AI 算法(minimax + alpha-beta 剪枝)
- Canvas 棋盘渲染与木纹质感
- 落子动画(弹跳回弹物理效果)
- 粒子烟花特效
- 游戏逻辑完整性(胜负判断、悔棋)
结果:界面设计得非常不错,提示词中的需求也全部完成了。AI 的智商也还可以,下了很久才赢了它,一不小心就容易输。不过,很快找到了必胜的法门——只要按特定位置和顺序来下,必胜!
这个例子的 UI/UX 和逻辑属于中上水平,偏优秀。之前有些模型 UI 做得一塌糊涂,有些模型 AI 很弱。
8、分形烟花秀
上面看了好几个例子,下面来个绚丽的。
提示词:
请编写一段“祝大家 2026 新年快乐”的烟花动画。1. 烟花爆炸的形状不能是普通的圆,必须是**分形几何图形**(如曼德博集合或谢尔宾斯基三角形的变体)。2. 烟花升空的轨迹要符合物理抛物线,且爆炸后的碎片要有重力下落效果。3. 最后,所有的烟花轨迹必须在空中汇聚成“2026”这几个大字。
关键技术点:
- 分形几何算法(曼德博集合、谢尔宾斯基三角形)
- 物理模拟(抛物线运动、重力效果)
- 数学算法与视觉呈现的结合
结果:这个项目的测试结果也不错。烟花正常炸开,没有卡死。最关键的是最后聚合成 2026 这个效果,是所有模型中完成得最好的一个。这个例子能到优秀水平,整体画面感和效果虽然不如 Opus,但最后汇聚成 2026 赢过了所有人。
到这里,已经测了 6 个题目。因为实在等得太久,有点麻了,还有几个测试稍后再做,然后统一更新到测试网站上,动态效果对比更明显。
六个例子其实不少,基本能看出什么水平了。整体来看,Pro 水平是有的,有几个例子效果挺好,但有些细节问题不应该错。全面性和稳定性有待提升。高手过招,全在稳定发挥和细节上。Opus4.6 一个低级错误都没有,全过,而且审美在线。
另外,测试时感觉速度比较慢,可能跟使用人数有关,也可能和硬件有关。这次测试总共花费 9 块多,Pro 价格肯定不算便宜。有空再测测 Flash!
这次的测试都是单个页面、从头开始的需求,相对简单。下次讲讲“JarvisBench”的测试情况(已经测完),会从一个开发了一半的项目开始,让它完成功能升级——涉及数据结构、业务逻辑以及多个页面的修改。看看它在稍微复杂一点的项目中表现如何,这才是比较关键的一个测试。
另外也会做一些常规的智力测试,以及全面的延迟和速度测试。所有测试结果,会同步到测试网站上。
```
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
短视频批量制作产线搭建:素材处理到矩阵分发实践
短视频制作从单条走向批量之后,许多团队会发现,真正拖慢进度的往往不是剪辑技术本身,而是流程难以复用。每次制作都要重新搜集素材,同一主题想要输出多个版本却必须从零开始,字幕和配音反复操作,成片之后还得逐个平台手动上传分发。这些重复性工作累积起来,整体效率自然难以提升。 在实际业务中,我们构建了一条短视
Claude 4.8发布,模型迭代加速背后原因分析
昨天凌晨,Anthropic 正式发布了 Claude Opus 4 8。 说它强,到底强在哪?官方案例就很有冲击力:项目 Bun,11 天时间,75 万行代码从 Zig 迁移到了 Rust,测试通过率高达 99 8%。 但这组数字背后的真正含义,并不仅仅是模型变强了——而是 AI 的工作方式,正在
代购网站架构演进从个人操作到系统化支撑
刚开始做代购那会儿,代购网站开发基本靠“人肉运维”。客户下单→手动去1688下单→Excel记库存→微信收款→手写快递单。日单量二三十的时候,这套流程勉强跑得动。直到有一天,一个客户下了50单,熬到凌晨三点还没对完账,第二天发现汇率从6 8涨到了6 9,那批货直接亏了将近两千块。 那是我第一次意识到
Bub作者专访 开发好记性懂人Agent的核心方法
Bub 深度对话:一个轻量级 AI Agent 框架的诞生与演进 上周我这边刚发了一篇用 Bub 和飞书搭建群聊机器人的实践,没成想这篇东西居然帮我们搭上了 Bub 开发团队的线。趁着这个机会,我和三位核心开发者聊了近两个小时,从项目起源聊到技术细节,从用户场景聊到未来规划。如果你对 Agent
AI开发代码高效优化策略
AI Dev Codes是什么 如果你还在为“想快速搭个网页但不懂代码”这件事头疼,那AI Dev Codes的诞生,多少能缓解一下这种焦虑。简单说,它就是一个由开发者打造的AI工具,核心能力是通过对话帮你生成定制化、交互式的网页。从底层来看,它拿的是OpenAI的ChatGPT模型作为文本生成引擎
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

