DeepSeek-V3.2惊现Token漏洞:答案准确性受影响,研发确认GRPO问题持续
很多网友都注意到,DeepSeek-V3.2的长思考增强版Speciale确实以其开源姿态给闭源巨头们带来了压力,但其中暴露的问题同样不容忽视。
DeepSeek-V3.2的表现相当亮眼,不过随着讨论的深入,一些技术缺陷也逐渐浮出水面。
尤其让人困扰的是,它仍然存在一个老生常谈的问题:token使用效率不高。
△图源:x@Hangslin
不少用户反馈,在处理复杂任务时,模型消耗的token数量明显偏多,有时甚至会产生看似详尽实则错误的回答。
举例来说,在解决同一个问题时,Gemini仅需2万个token,而Speciale却要花费7.7万个。

这背后究竟是怎么回事?
未被纠正的"长度偏见"
研究者指出,这个现象其实是从DeepSeek-R1-Zero开始,DeepSeek系列模型就一直存在的技术缺陷。

简单来说,问题的根源出在GRPO算法上。
来自Sea AI Lab和新加坡国立大学等研究机构的学者认为,GRPO存在两种"隐藏偏见"。
首先是长度偏见:错误答案越长,受到的惩罚反而越轻。
GRPO计算奖励时,会将"答案长度"作为考量因素,导致较短的错误回答被罚得更重。
结果就是:模型会刻意生成冗长但错误的答案,表面上像是在"认真推理",实际上是在"凑字数逃避惩罚"。
其次是难度偏见:过于简单或过于困难的问题被过度关注。
GRPO会根据"同一批题目的得分标准差"来调整权重。比如一道题所有人都做对(标准差小),或者所有人都做错(标准差也小),这类题目会被当作"重点"反复训练;而中等难度、有人对有人错的题目(标准差大),反而被忽略。但在实际训练中,中等难度的题目才是提升能力的关键。
这项研究的核心作者Zichen Liu指出,DeepSeek-V3.2已经通过新的优势值计算方式,修正了"难度偏见"(如下图红框所示)。
但仍然保留了有偏的长度规范项(如下图蓝框所示)。也就是说,"长度偏见"依然存在。

实际上,这个问题在DeepSeek最新报告中也有所提及。
技术报告中,DeepSeek研究人员坦言,token效率对于DeepSeek-V3.2来说仍是个挑战:通常情况下,本次更新的两个模型需要生成更长的轨迹,才能达到Gemini-3.0-Pro的输出质量。
而DeepSeek-V3.2-Speciale本身,也有意放宽了RL的长度限制,允许模型生成极长思维链,使得模型能够通过大量消耗token来进行深度的自我修正和探索。
可以说走的是一条"在超长上下文下持续扩展强化学习"的路线。
考虑到从百万token的输出成本来看,DeepSeek-V3.2价格仅为GPT-5的1/24,似乎尚可接受。
另外,也有网友指出,DeepSeek的128K上下文已经很久没更新了。这与GPU资源有限也不无关系。

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
蚂蚁开源万亿参数思考模型Ring-2.5-1T详解
Ring-2 5-1T是什么 在当今大模型技术激烈竞争的赛道上,追求更长的上下文处理能力和更强大的深度推理性能已成为核心焦点。近日,蚂蚁集团旗下的inclusionAI团队重磅开源了Ring-2 5-1T模型,这是一个参数规模高达万亿级别的混合线性思考大语言模型。该模型基于先进的Ling 2 5架构
Teamily AI:原生智能通讯平台,开启人机协作新纪元
Teamily AI是什么 想象一下,你手机里的微信群聊,除了家人朋友同事,还多了一位特殊的“成员”——它从不缺席,能瞬间理解所有对话,还能帮你处理图片、视频甚至写报告。这不再是科幻场景,而是南加州大学团队带来的现实:全球首个AI原生即时通讯平台,Teamily AI。 它的核心思路很巧妙:不再把A
字节跳动Seedream 5.0 Lite AI图像生成模型详解
Seedream 5 0 Lite是什么 在AI图像生成技术飞速发展的今天,字节跳动Seed团队正式推出了其重磅升级产品——Seedream 5 0 Lite。作为Seedream 4 0的迭代版本,这款全新的AI绘画模型在文本理解、视觉推理与图像生成三大核心维度上实现了显著突破。 该模型采用了创新
WorkAny Bot云端AI助手基于OpenClaw框架详解
WorkAny Bot是什么 想象一下,有一个永不掉线的智能助手,它住在云端,随时准备响应你的召唤。这就是WorkAny Bot——一个基于OpenClaw AI框架构建的云端智能体。它的核心价值在于,将强大的AI能力变成一项即开即用的服务。 你可以把它理解为你私人的、功能齐全的AI工作站。它支持接
KiloClaw推出全托管云服务OpenClaw
KiloClaw是什么 想快速拥有一个能接入几十个聊天平台、还能执行系统命令的AI助手,但一听到要自己部署维护就头疼?这确实是很多开发者和团队面临的现实困境。OpenClaw这个开源项目功能强大,支持50多种平台,可真要自己从零搭建,光是配置环境可能就得折腾半小时以上,后续的更新、监控更是麻烦事。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题


