DeepSeek V4首测表现有不足但整体可圈可点

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI教程

DeepSeek V4首测表现有不足但整体可圈可点

热心网友时间：2026-05-31

转载

```html

DeepSeek V4 正式发布了！消息一出，我立刻兴冲冲地跑去上手实测。

没想到，第一个测试样例就翻了车——用的还是最强的 V4 Pro 版本！

花了不少时间，犯的错误还挺低级，多少有点出乎意料。好在这个开头没影响后续发挥，后面几个例子倒是表现相当不错。

下面完整说说这次的测试工具、测试用例、测试过程和结果，顺便也记一笔 Tokens 消耗和花费明细。

1、测试工具

DeepSeek 官方提到，专门对 Claude Code 这类智能体工具做了针对性优化训练，并且完全兼容 Anthropic 协议。那自然就选 Claude Code 作为评测工具了。

打开手头的 JCode，配置好 DeepSeek 的 Pro 模型，双击启动，直接开干。

可以看到模型已经是 DeepSeek-V4-Pro，这是专业版模型，1.6T 参数，100 万上下文。各项编程基准测试的结果都处于顶级水准。

2、测试例子

测试用例是从之前 GLM5 和 Opus4.6 对战的那套题目里拿的。其中五道是 GLM 出的，用来挑战 Opus4.6；另外五道是 Opus4.6 出的，用来捍卫它的地位。

因为有些问题太专业，所以让它们重新出了题，要求既要有娱乐性，又得体现专业性——大家都能看懂，写起来还得有点难度。

根据这个要求，最终确定了 10 个测试用例，其中一个不太方便测，就砍掉了。剩下的 9 个用例已经测过不少模型，国内国外的都有。

具体测试对象包括 Claude Opus 4.6、Doubao2.0、Gemini3.1Pro、GLM5、Kimi-K2.5、Minmax-M2.5、GPT5.4、Qwen3.5Plus。现在，DeepSeek V4 也加入了评测行列。

工具和用例都介绍完了，一个一个开始测。

3、赛博朋克版《清明上河图》

这个例子我很喜欢，非常有趣——制作一版赛博朋克风格的清明上河图。

完整提示词：

编写单个 HTML 文件，用浏览器打开后呈现动态的赛博朋克风格《清明上河图》长卷。画面自动从右向左滚动，包含至少 50 个动态元素（霓虹灯招牌、飞行汽车、全息投影广告、机械义肢行人等），鼠标悬停店铺时弹出赛博风格信息卡片。

关键技术点：

SVG/Canvas 绘图编程能力
CSS 动画逻辑
鼠标交互事件处理
审美设计与视觉呈现

把完整提示词放进 Claude Code，回车，开始干活。

准备开盲盒了，有点小兴奋，毕竟这是刚出炉的顶配 Pro 模型。没想到等了 10 分钟还没动静，已经有点不耐烦了。还好，又等了两分钟，出结果了。

开发这个页面花了 12 分钟 15 秒。看它的总结还不错，动态元素远超 50 个，估计是 50 的十倍了。还有减速、加速、反向、暂停，甚至设了快捷键。从它的描述来看，效果可能跟 Opus4.6 做的特别像。

赶紧打开页面体验一下：

默认效果看着不错，它提示我点击任意位置开始浏览，但我点了半天没反应。这时候基本断定，肯定是 JS 出错了。打开开发者模式看控制台，果然有一个"Unexpected string"错误。

根据浏览器提示，是这段 JS 有问题。比较敏锐的老程序员应该一眼就能看出问题。如果你没看出来，咱们问问豆包——为什么用豆包？支持国产嘛！

豆包的回答很干脆，一下子指出了三个严重错误。其他两个不管，感觉像是瞎说的，我们只看第一个：该写冒号的地方写成了逗号。这属于特别低级的错误，根本不涉及任何复杂的业务逻辑，就是基本功不扎实。虽然只是一个逗号，但代码就是这样，每一个符号都很重要。

手动修正了这个错误，运行之后依然很卡，视觉效果也不太好。第一个测试基本宣告失败了。

看看 API 数据：总共调用了 3 次，其中一次是 say hello，不算。消耗了 12.7 万 Tokens，未命中缓存 7.4 万，总共花了 1.64 元。这一个例子，跑得慢不说，还有错。

不过错了一个不代表全部，继续测试，再接再厉。

4、CSS山水画

这个例子也很好玩，要实现动态效果，但只能用 CSS，而且得“写意”。

提示词：

用纯 CSS（单个 HTML 文件，不允许用 Ja vaScript、SVG、Canvas、任何图片资源）画一幅中国山水画。要求包含：远山、近山、瀑布流水、松树、亭台、云雾缭绕动效、飞鸟。越写意越好，越像水墨越强。

关键技术点：

CSS box-shadow 极限运用
CSS gradient（渐变）叠加技巧
CSS clip-path 图形裁剪
CSS 动画（云雾、飞鸟、流水）
纯 CSS 绘图能力（无 Ja vaScript）

结果：没有错误，运行正常。整体配色不错，树也比较像树木，太阳、飞鸟、凉亭都挺好。就是山有点太尖锐、太密集了，右下角的印章也是混乱的。以往测试中，这个水平算中等。

但有一个问题：时间太久！写一个页面花了 16 分钟，这个时间 Opus 都能从零开始开发一个项目 MVP 了。

消耗情况：请求数一下子到了 26 次，Tokens 消耗 126 万（还好其中 100 万命中了缓存），费用 4.17 元。

5、完整横版 HTML 跑酷游戏

上面那些只能看，这个可以玩。

提示词：

用单个 HTML 文件（可以用 JS + CSS，但不允许引入任何外部资源/CDN）做一个完整可玩的横版跑酷游戏，要求：- 角色自动奔跑，点击/空格跳跃，支持二段跳 - 随机生成障碍物和金币 - 有计分系统、最高分记录 - 有背景视差滚动（至少 3 层） - 角色死亡时有粒子爆炸特效 - 有开始界面和 Game Over 界面 - 整体视觉风格要好看（像素风或赛博朋克风均可）

关键技术点：

Canvas 2D 游戏引擎开发
物理模拟（跳跃、重力、碰撞检测）
视差滚动实现
粒子特效系统
游戏状态管理（开始、进行、结束）

结果：这次任务完成得还可以。自动奔跑、二段跳、金币、三层背景视差都有，但缺少计分和最高分记录。其他选手都有的功能，它只在挂掉的时候才显示分数，游戏过程中不显示，明显不合理、不符合要求。因为这一点，只能排中等偏下了。

6、诗词版黑客帝国代码雨

跑酷结束，再来点酷炫的，搞个黑客帝国的代码雨。

提示词：

用一个 HTML 文件实现黑客帝国经典代码雨效果，但有以下创意要求：- 下落的不是随机字符，而是中国古诗词（每列是一首完整的诗，从上往下逐字飘落） - 背景纯黑，文字渐变色（从亮绿到暗绿到消失） - 当鼠标划过某一列时，该列暂停并高亮显示完整诗句，旁边浮现诗人名和朝代 - 至少包含 20 首不同的古诗 - 整体流畅度要高，不能卡顿

关键技术点：

Canvas 动画性能优化（大量字符流畅渲染）
鼠标交互事件处理（暂停、高亮）
古诗词知识储备（20 首以上）
视觉效果设计（渐变色、透明度过渡）

结果：打开之后发现没有黑客帝国代码雨，页面空荡荡的。不会又崩了吧？还好，等了好久终于出东西了——大概 12 秒左右。一般人 3 秒不出东西肯定就关页面了，严格来说 1 秒多就会觉得有点长。我不确定它是什么逻辑。

出来之后效果还不错，提示词里的需求都满足了，个人觉得效果还行，但 12 秒的延迟得扣大分。如果没有这个延迟，应该能到中等偏上的水平。

7、AI 五子棋对战 + 华丽 UI

又是一个能玩的例子。

提示词：

用一个 HTML 文件实现一个人机五子棋，要求：- 棋盘是 15×15 标准棋盘，有木纹质感 - AI 要足够聪明（至少能识破简单的活三、冲四，不能让人 3 步就赢） - 落子时有动画效果（石子从上方落下，有弹跳回弹） - 连成五子时有华丽的胜利特效（粒子烟花 + 连线高亮闪烁） - 支持悔棋功能 - 有一个“AI 思考中”的加载动画 - 整体 UI 要精致，不能是毛坯房风格

关键技术点：