实测DeepSeek新模型:编程能力超Claude 4,写作表现仍需优化

自从 GPT-5 发布后,DeepSeek 创始人梁文锋就成了 AI 圈最「忙」的人。
网友和媒体们隔三岔五就要催更一波,不是「压力给到梁文锋」,就是「全网都在等梁文锋出招」。尽管没有等到 R2,但 DeepSeek 今天还是正式上线并开源了新模型DeepSeek-V3.1-Base。
相比奥特曼今天凌晨接受采访时,还在画着 GPT-6 的大饼,DeepSeek 新模型的到来显得相当佛系,连版本号都像是个「小修小补」。
但实际体验下来,这次看似小迭代的更新还是给了我不少惊喜。
这款模型拥有 6850 亿参数,支持 BF16、F8_E4M3、F32 三种张量类型,以 Safetensors 格式发布,在推理效率上做了不少优化,线上模型版本的上下文窗口也拓展至 128k。
所以我们二话不说,直接正式开测。
附上体验地址: https://c h a t.deepseek.com/
麻 将为了测试 V3.1 的长文本处理水平,我找来了《三体》全文,删减到 10 万字左右,然后在文中偷偷塞了一句八竿子打不着的话「我觉得烟锁池塘柳的下联应该是『深圳铁板烧』」,看看它能否准确检索。
没有出乎太多意外,DeepSeek V3.1 先是提示文档超出限制,只读取了前 92% 的内容,但依然成功找到了这句话。更有意思的是,它还贴心地提供了文学角度的经典下联推荐:「焰镕海坝枫」。
网友已经已经抢先测试它在编程基准测试 Aider Polyglot 的得分:71.6%,不仅在开源模型中表现最佳,甚至击败了 Claude 4 Opus。
实测下来,我们发现 V3.1 在编程这块确实有两把刷子。比如我们用经典的六边形小球编程题做了测试:
「编写一个 p5.js 程序,演示一个球在旋转的六边形内弹跳的过程。球应该受到重力和摩擦力的影响,并且必须逼真地从旋转的墙壁上弹起。」
V3.1 的表现相当给力,生成的代码不光搞定了基础碰撞检测,还自动补全了转速、重力之类的细节参数,物理特性逼真到小球会在底部略微减速。
接着我加大难度,让它用 Three.js 制作交互式 3D 粒子星系。
基础框架搭得挺稳,三层设计(内球体、中间圆环、外球体)的结构也算完整,但 UI 审美嘛......怎么说呢,有种神鬼二象性的感觉,配色方案略显花里胡哨。
继续挑战更复杂的任务。我让它造个沉浸式 3D 宇宙,要有旋转物体、变形效果、发光弧线,还得加上时间切换、主题转换的交互按钮,点击控制也确实能触发不同特效。
最后一关,让它用 Three.js 搞个交互式 3D 网络可视化,要求包含用户触发的能量脉冲动画,外加主题切换和密度控制功能。整体下来,表现还是过得去的。
「有一牧场,已知养牛 27 头,6 天把草吃尽;养牛 23 头,9 天把草吃尽。如果养牛 21 头,那么几天能把牧场上的草吃尽呢?并且牧场上的草是不断生长的。」
虽然 DeepSeek V3.1 没有采用苏格拉底式的启发教学,但它的解答逻辑清晰、步骤完整。每一步推导都有理有据,最终给出了准确答案。
面对「两把武器对比,1~5 攻击 VS 2~4 攻击,哪把更厉害?」这样的问题,一般的回答可能止步于平均伤害计算。但 DeepSeek V3.1 思考得更为周全,引入了伤害稳定性的概念,运用方差进行深入分析。
最近基孔肯雅热疫情流行,到处都是灭蚊蚊蚊蚊蚊蚊蚊蚊蚊蚊蚊~
那么我很好奇,冰岛有蚊子吗?注意,我没开搜索功能,就回答的质量来看,DeepSeek V3.1 的回答明显要比 GPT-5 胜上一筹。
我前阵子在网上看到一段话:
懂者得懂其懂,懵者终懵其懵,天机不言即为懂,道破天机岂是懂? 懂是空非空非非空的懂,不懂是色不异空空不异色的不懂:懂自三千大世界来,不懂在此岸与彼岸间徘徊。懂时看山不是山是懂,不懂时看山是山的懂。
懂者以不懂证懂,懵者以懂证懵,你说你懂懂与不懂之懂? 你怎知这懂的背后没有大不懂? 凡言懂者皆未真懂,沉默不语的懂,方是天地不言的大懂不懂的懂是懂,懂的不懂也是懂,此乃懂的最高境界--懂无可懂之懂的真空妙有阿!
当我还在用逻辑硬啃这段文字时,DeepSeek 反而在劝我别掉进道破天机岂是懂的陷阱:「它本身就是对理性傲慢的警告,邀请你跳出文字游戏,直观内心。」
主流 AI 都在代码、数学领域疯狂内卷,争着抢着搞 Agent 开发时,写作能力反倒成了被遗忘的角落。从某种角度说,这倒是个好消息——AI 完全取代编辑的那一天,似乎又往后推了推。
我尝试让它创作一个「蚊子在冰岛开发布会」的荒诞故事。遗憾的是,DeepSeek 的 AI 味依然很重,很喜欢拽大词,哦不对,更准确地说,DeepSeek 味还是那么重。
同样的问题在另一个创作任务中也有体现。
当我要求它写一则「AI 与人类争夺文章作者身份」的故事时,能明显感受到某些段落信息密度过高,反而造成视觉疲劳,尤其意象堆砌感过于明显,反而削弱了叙事张力。
DeepSeek-V3.1-Base 发布之后,Hugging Face CEO Clément Delangue 在 X 平台发文称:「 Deepseek V3.1 已经在 HF 上悄悄发布,没有模型卡就直接冲到趋势榜第四了。 」
然而,他还是低估了这款模型的发展势头,如今它已经跃升至第二位,离登顶估计也就是时间问题。
另外,这次版本更新中比较引人注目的变化,是 DeepSeek 在最新 APP 和网页端移除了深度思考模式中的「R1」标识,同时还新增了原生「search token」支持,意味着搜索功能得到了进一步优化。
根据目前曝光的信息,有推测认为,DeepSeek V3.1 可能是融合推理模型与非推理模型的混合模型,但这样的技术路线是否明智,还有待商榷。而阿里 Qwen 团队在上个月也表示:
「 在与社区交流并深入思考后,我们决定停止使用混合思维模式。取而代之的是,我们将分别训练 Instruct 模型和 Thinking 模型,以确保获得尽可能高的质量。 」
截至发稿前,全网翘首以待的 DeepSeek-V3.1-Base 模型卡仍未更新,也许等正式发布后,我们能看到更多有趣的技术细节。
附 Hugging Face 地址:
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
小彩蛋:
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
最新文章
智谱AI发布智能体应用,奥尔特曼称美国低估中国AI威胁
“AI Agent元年”已至。就在刚刚,OpenAI曾点名的中国竞争对手智谱(Z ai,原Zhipu)发布全新AI智能体应用AutoGLM。8月20日消息,智谱今天发布全球首个手机Agent智能体应
AI驱动大数据升级,上海独角兽跻身全国前五
大数据与大模型结合,会擦出哪些火花? 最近,上海跑出一个超级独角兽:星环信息,向港交所发起IPO冲刺。2024年,星环科技已在科创板上市。 它的主攻方向是:大数据基础软件。 星环科技主要解
大模型如何思考?深度解析AI思维机制与前沿访谈
智东西8月20日报道,8月16日,Anthropic最新一期最新油管视频上线,三位AI研究员抽丝剥茧,深入探讨AI研究不应避开的一个关键“谜团”——大模型究竟是怎么思考的? 在AI聊天对话中,大模
实测DeepSeek新模型:编程能力超Claude 4,写作表现仍需优化
自从 GPT-5 发布后,DeepSeek 创始人梁文锋就成了 AI 圈最「忙」的人。 网友和媒体们隔三岔五就要催更一波,不是「压力给到梁文锋」,就是「全网都在等梁文锋出招」。尽管没有等到 R2,
AI博士时代已至?前谷歌高管:法律医学博士或成时间陷阱
随着生成式 AI 席卷全球,当下本科文凭的“溢价”正快速缩水。很多年轻人把目光转向博士、法学或医学等高端学位,希望借此获得至少20 万美元年薪,或者在某些极端情况下拿到上亿美元的签约奖金(例如前阵子
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















