当前位置: 首页
AI
DeepSeek-V3.2惊现Token漏洞:答案准确性受影响,研发确认GRPO问题持续

DeepSeek-V3.2惊现Token漏洞:答案准确性受影响,研发确认GRPO问题持续

热心网友 时间:2025-12-04
转载

很多网友都注意到,DeepSeek-V3.2的长思考增强版Speciale确实以其开源姿态给闭源巨头们带来了压力,但其中暴露的问题同样不容忽视。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

DeepSeek-V3.2的表现相当亮眼,不过随着讨论的深入,一些技术缺陷也逐渐浮出水面。

尤其让人困扰的是,它仍然存在一个老生常谈的问题:token使用效率不高。

△图源:x@Hangslin

不少用户反馈,在处理复杂任务时,模型消耗的token数量明显偏多,有时甚至会产生看似详尽实则错误的回答。

举例来说,在解决同一个问题时,Gemini仅需2万个token,而Speciale却要花费7.7万个。

这背后究竟是怎么回事?

未被纠正的"长度偏见"

研究者指出,这个现象其实是从DeepSeek-R1-Zero开始,DeepSeek系列模型就一直存在的技术缺陷。

简单来说,问题的根源出在GRPO算法上。

来自Sea AI Lab和新加坡国立大学等研究机构的学者认为,GRPO存在两种"隐藏偏见"。

首先是长度偏见:错误答案越长,受到的惩罚反而越轻。

GRPO计算奖励时,会将"答案长度"作为考量因素,导致较短的错误回答被罚得更重。

结果就是:模型会刻意生成冗长但错误的答案,表面上像是在"认真推理",实际上是在"凑字数逃避惩罚"。

其次是难度偏见:过于简单或过于困难的问题被过度关注。

GRPO会根据"同一批题目的得分标准差"来调整权重。比如一道题所有人都做对(标准差小),或者所有人都做错(标准差也小),这类题目会被当作"重点"反复训练;而中等难度、有人对有人错的题目(标准差大),反而被忽略。但在实际训练中,中等难度的题目才是提升能力的关键。

这项研究的核心作者Zichen Liu指出,DeepSeek-V3.2已经通过新的优势值计算方式,修正了"难度偏见"(如下图红框所示)。

但仍然保留了有偏的长度规范项(如下图蓝框所示)。也就是说,"长度偏见"依然存在。

实际上,这个问题在DeepSeek最新报告中也有所提及。

技术报告中,DeepSeek研究人员坦言,token效率对于DeepSeek-V3.2来说仍是个挑战:通常情况下,本次更新的两个模型需要生成更长的轨迹,才能达到Gemini-3.0-Pro的输出质量。

而DeepSeek-V3.2-Speciale本身,也有意放宽了RL的长度限制,允许模型生成极长思维链,使得模型能够通过大量消耗token来进行深度的自我修正和探索。

可以说走的是一条"在超长上下文下持续扩展强化学习"的路线。

考虑到从百万token的输出成本来看,DeepSeek-V3.2价格仅为GPT-5的1/24,似乎尚可接受。

另外,也有网友指出,DeepSeek的128K上下文已经很久没更新了。这与GPU资源有限也不无关系。

来源:https://www.51cto.com/article/831111.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
我的天!豆包每天烧120万亿Tokens啊!

我的天!豆包每天烧120万亿Tokens啊!

刚刚人在火山引擎武汉站的活动上,看到的几个消息还是想跟大家拿出来分享分享。1️⃣豆包大模型日均Token使用量已突破120万亿❗️这个Tokens的使用量应该是国内第一的level了,但最需要关注的

时间:2026-04-07 10:25
AI原生时代来临,商汤大装置如何重塑算力集群架构

AI原生时代来临,商汤大装置如何重塑算力集群架构

近日,作为2026中关村论坛核心组成部分,由趋境科技与九源智能计算系统生态联合体共同主办的“全栈智能 全域推理:Token爆发元年的全场景大规模推理服务”专题研讨会成功举办。商汤大装置首席架构师项铁

时间:2026-04-07 10:19
上市首日大涨111%!智谱MiniMax之后,德适交出大模型商业化答卷

上市首日大涨111%!智谱MiniMax之后,德适交出大模型商业化答卷

田晏林 发自 凹非寺量子位 | 公众号 QbitAI这几天,港股市场的情绪,又被AI大模型点燃了!继年初智谱、MiniMax两大通用AI巨头上市后,3月30日,杭州德适生物科技股份有限公司(以下简称

时间:2026-04-07 10:13
独家专访Feeling AI创始人戴勃:我想让世界模型更有“活人感”|甲子光年

独家专访Feeling AI创始人戴勃:我想让世界模型更有“活人感”|甲子光年

Feeling AI要补齐的,是世界模型最被低估的一块拼图——动态交互的模型层能力。作者|周悦编辑|王博《上古卷轴5》发售已经超过十四年,但有一个细节一直卡在Feeling AI创始人戴勃脑海里。玩

时间:2026-04-07 10:07
Win11 → WSL2 → Ubuntu → OpenClaw大龙虾安装

Win11 → WSL2 → Ubuntu → OpenClaw大龙虾安装

Win11 → WSL2 → Ubuntu → OpenClaw 的直接流程 想在 Windows 上顺畅地用上 OpenClaw?其实核心就一条:先在 WSL2 里搭好 Ubuntu 这个“标准环境”。下面这个流程,你按顺序一步步执行就行,能避开不少弯路。 第一步:安装 WSL2 与 Ubuntu

时间:2026-04-07 10:06
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程