DeepSeek V3.1 Base发布:编程能力超Claude 4,R2与V4版本备受期待

就在昨晚,DeepSeek最新悄然上线了全新的V3.1版本,上下文长度拓展到128k。
本次开源的V3.1模型拥有685B参数,支持多种精度格式,从BF16到FP8。
综合公开信息和国内大咖karminski3的实测,V3.1此次更新亮点有:
编程能力:表现突出,根据社区使用Aider测试数据,V3.1在开源模型中霸榜。
性能突破:V3.1在Aider编程基准测试中取得71.6%高分,超越Claude Opus 4,同时推理和响应速度更快。
原生搜索:新增了原生「search token」的支持,这意味着搜索的支持更好。
架构创新:线上模型去除「R1」标识,分析称DeepSeek未来有望采用「混合架构」。
成本优势:每次完整编程任务仅需1.01美元,成本仅为专有系统的六十分之一。
值得一提的是,最新群中强调拓展至128K上下文,此前V3版本就已经支持。
对于这波更新,大家的热情可谓是相当高涨。
即便还未公布模型卡,DeepSeek V3.1就已经在Hugging Face的趋势榜上排到了第四。
DeepSeek粉丝数已破8万
看到这里,网友们更期待R2的发布了!
混合推理,编程击败Claude 4
这次最明显的变化是,DeepSeek在最新APP和网页端上,把深度思考(R1)中的「R1」去掉了。
同时,与V3-base相比,DeepSeek V3.1新增了四个特殊Token:
<|search▁begin|> (id: 128796)
<|search▁end|> (id: 128797)
(id: 128799)
对此,有推测认为,这可能暗示推理模型与非推理模型的融合。
在编程方面,根据网友曝出的结果,DeepSeek V3.1在Aider Polyglot多语言编程测试中拿下了71.6%高分,一举击败了Claude 4 Opus、DeepSeek R1。
而且,它的成本仅1美元,成为非推理模型中的SOTA。
最鲜明的对比,V3.1编程性能比Claude 4高1%,成本要低68倍。
在SVGBench基准上,V3.1实力仅次于GPT-4.1-mini,远超DeepSeek R1的实力。
在MMLU多任务语言理解方面,DeepSeek V3.1毫不逊色于GPT-5。不过在,编程、研究生级基准问答、软件工程上,V3.1与之有一定的差距。
一位网友实测,模拟六边形中小球自由落体的物理测试,DeepSeek V3.1理解力明显提升。
一手实测
第一时间,我们对V3.1进行了实测,首先是此次模型更新的重点:上下文长度。
假设对于中文而言,1个token ≈ 1–1.3个汉字,那么这128K tokens ≈ 100,000–160,000汉字。
相当于整本《红楼梦》正文(约80–100万字)的1/6–1/8,或者一篇超长博士论文/大部头学术专著。
实际测试也很准确,DeepSeek告诉我们它只能阅读差不多9%,也就是大约十分之一。
由于总结内容太长,我们截取了前三回,你觉得这个总结的怎么样?
在128K上下文测试中,DeepSeek-V3.1输出速度相比以往获得较大提升,并且在工程上做了一些优化。
此次更新,DeepSeek重点强调了对上下文的支持。
整个活,给DeepSeek-V3.1上点压力,让它根据「梦」这个字,输出尽可能多的内容,尽量达到上下文极限。
不过最后,差不多只输出了3000字左右,模型就停止了输出。
再来看下推理能力。
经典的9.11和9.9比大小问题,两种询问方式都能正确做答。
这次更新的一大体感还是速度变快了很多。
最后再来看看编程能力。
DeepSeek的上一个模型是R1-0528,主打的是编程能力。
看看这次V3.1是否有更大的提升。
最终结果只能说,打个80分吧,基本要求都满足了,但是画面风格和颜色变换功能并没有完美实现。
并且和R1-0528的结果相比,两者之间还是有些差距的,但孰好孰坏还需看个人偏好。
以下是开启思考模式后的结果,你觉得哪个更好?
接下来,看看DeepSeek V3.1能否复刻出GPT-5发布会上的法语学习小程序。
我们再来让V3.1画一个自己的SVG自画像,两种效果着实有些抽象。
参考资料:HYX
https://weibo.com/2169039837/Q0FC4lmeo
https://x.com/karminski3/status/1957928641884766314
https://github.com/johnbean393/SVGBench/
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
最新文章
智谱AI发布智能体应用,奥尔特曼称美国低估中国AI威胁
“AI Agent元年”已至。就在刚刚,OpenAI曾点名的中国竞争对手智谱(Z ai,原Zhipu)发布全新AI智能体应用AutoGLM。8月20日消息,智谱今天发布全球首个手机Agent智能体应
AI驱动大数据升级,上海独角兽跻身全国前五
大数据与大模型结合,会擦出哪些火花? 最近,上海跑出一个超级独角兽:星环信息,向港交所发起IPO冲刺。2024年,星环科技已在科创板上市。 它的主攻方向是:大数据基础软件。 星环科技主要解
大模型如何思考?深度解析AI思维机制与前沿访谈
智东西8月20日报道,8月16日,Anthropic最新一期最新油管视频上线,三位AI研究员抽丝剥茧,深入探讨AI研究不应避开的一个关键“谜团”——大模型究竟是怎么思考的? 在AI聊天对话中,大模
实测DeepSeek新模型:编程能力超Claude 4,写作表现仍需优化
自从 GPT-5 发布后,DeepSeek 创始人梁文锋就成了 AI 圈最「忙」的人。 网友和媒体们隔三岔五就要催更一波,不是「压力给到梁文锋」,就是「全网都在等梁文锋出招」。尽管没有等到 R2,
AI博士时代已至?前谷歌高管:法律医学博士或成时间陷阱
随着生成式 AI 席卷全球,当下本科文凭的“溢价”正快速缩水。很多年轻人把目光转向博士、法学或医学等高端学位,希望借此获得至少20 万美元年薪,或者在某些极端情况下拿到上亿美元的签约奖金(例如前阵子
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















