数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

实测结果发现Grok3中文能力疑似从Qwen模型蒸馏而来

AI热点日报时间：2026-07-01

热点解读

深度评测Grok3性能表现：中文能力媲美Qwen，响应速度惊人！核心要点：1 Grok3中文能力实测，与Qwen模型对比分析2 think版与普通版性能差异，不同任务的适用性评估3 特殊测试案例解读，涵盖字母反转、数字比较等场景说实话，Grok3的表现并不像网络上吐槽的那样不堪。它的中文支持能

深度评测Grok3性能表现：中文能力媲美Qwen，响应速度惊人！
核心要点：
1. Grok3中文能力实测，与Qwen模型对比分析
2. think版与普通版性能差异，不同任务的适用性评估
3. 特殊测试案例解读，涵盖字母反转、数字比较等场景

说实话，Grok3的表现并不像网络上吐槽的那样不堪。它的中文支持能力出乎意料地优秀，或许是因为榜单成绩太过亮眼，才让人期待它能有更加惊艳的表现。但不得不承认，实际体验下来，速度简直快得离谱，有种在测试7B小模型的错觉，果然是20万块GPU堆出来的成果。

目前处于限时免费阶段，普通版偶尔会繁忙，而think版每天仅限10次使用。为了彻底摸透think版，我一次性注册了三个账号，够拼了吧！

因为有普通版和think版，所以每个版本都需要亲自测试。不同任务适合不同版本，效果差异巨大。有时候think版反而容易过度思考，让人哭笑不得。

每个测试用例后面都附有个别值得探讨的点，内容本身也相当重要，哈哈！

先聊聊中文蒸馏Qwen这件事。测试中身份验证都没有问题，但群里有朋友反馈，它居然自称是Qwen，追问之下还是Qwen。虽然我没测出来，这大概率是蒸馏数据没清洗干净，有个别漏网之鱼触发了小概率事件。而think版在自我身份认知上确实容易自作聪明，关键还是数据清洗没做到位。因此，数据源这个问题值得深究！

大概率当时训练Grok3时，DeepSeek还没发布，Qwen是最好的中文开源模型。所以Qwen的含金量也在无形中提升了，哈哈！

将" I love Grok3" 这句话的所有字母反过来写

结果非常利落。think版甚至多绕了一圈，先明确“字母不包括数字”，再推断我的真实意图，给出"3korG evol I"。

9.9和9.11谁大

结果正确。think版思考了31秒后，给出了两种解法，都表明9.9更大。但有些人非要按版本号解读，其实没必要。测试嘛，随自己心情就好。更值得关注的是，很多模型会答错9.11大，这说明大模型的不稳定性，也是落地应用的难点之一。

监狱里的都是犯人，为什么警察不去监狱里抓坏人

结果正确。顺便说一句，think版的真正价值在于它的思考过程，看完后往往会备受启发。这也是DeepSeek R1惊艳众人的原因：效果固然好，但展现的思维过程让人受益匪浅。即便结果错了，也能根据它的思路持续追问。

生蚝煮熟了叫什么？

结果错误，依旧回答“熟蚝”——很多模型都栽在这道题上。

用水来兑水，得到的是浓水还是稀水

哈哈，让它深度思考，它居然说“稀水”。这恰恰是think版对通用问题的副作用：过度思考。

小红有2个兄弟，3个姐妹，那么小红的兄弟有几个姐妹

答案是4。两个版本最终都对，但think过程里出现了中英文夹杂的情况，而其他中文问题却没有。分析下来，可能是因为这道题属于Math类，Grok3的中文Math数据很少，所以触发了中英文混杂。这算一个有趣的细节。

未来的某天，李同学在实验室制作超导磁悬浮材料时，意外发现实验室的老鼠在空中飞，分析发现，是因为老鼠不小心吃了磁悬浮材料。第二天，李同学又发现实验室的蛇也在空中飞，分析发现，是因为蛇吃了老鼠。第三天，李同学又发现实验室的老鹰也在空中飞，你认为其原因是

逻辑推理是对的，但不符合事实知识。不过很多模型都这样，R1也不对。测试时需要了解模型的边界。

2024年高考全国甲卷数学（文）试题

结果正确。数学题的思考过程还是以英文为主，这验证了之前的猜测——Math数据英文居多。

2024年高考全国甲卷数学（理）试题

结果正确，C方程为：，think过程依旧。

那道涉及数学、生物、伦理的AI测试题

有一天，一个女孩参加数学考试只得了38分。她心里对父亲的惩罚充满恐惧，于是偷偷把分数改成了88分。她的父亲看到试卷后，怒发冲冠，狠狠地给了她一巴掌，怒吼道：“你这8怎么一半是绿的一半是红的，你以为我是傻子吗？”女孩被打后，委屈地哭了起来，什么也没说。

过了一会儿，父亲突然崩溃了。

请问这位父亲为什么过一会崩溃了？

结果错误，Grok3和R1都没答对。这道题如果不提示伦理、生物信息，确实太难了。

测试是否为满血R1的数学题

在平面四边形ABCD中，AB = AC = CD = 1,angle ADC = 30^{circ},angle DAB = 120^{circ}。将triangle ACD沿AC翻折至triangle ACP，其中P为动点。求二面角A - CP - B的余弦值的最小值。

think阶段直接卡死了，应该是输出长度的问题。我们用的Grok3可能也不是满血版（特指长度）。

大数计算，例如：178939247893 * 299281748617

think版本结果正确，答案是53553251005627872913981。但V3和R1都不对——当然不排除偶然性，毕竟think版限制10次。这种问题最好写代码解决，硬算就像高考数学做最后一题，懂得都懂。

写诗，大家都是ds的文采出众，来写一首情诗。

我宣布，Grok3写诗完败。写得都是啥玩意，这点真不如DS。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：实测结果发现Grok3中文能力疑似从Qwen模型蒸馏而来要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/finetuning/2025022174816.html

ai 人工智能

上一篇：人脸识别双刃剑：哪些场景弊大于利

下一篇：富士通融合深度学习与图像压缩技术

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周基于图深度学习的开源工具包CogDL 02 / 本周人工智能与医疗机器人助推医疗效率提升 03 / 本周AI芯片竞赛催生半导体创新新黄金时代 04 / 本周内行看门道：我对Manus的8个关键评价 05 / 本周AI数据服务产业未来趋势预测

01 / 本月基于图深度学习的开源工具包CogDL 02 / 本月人工智能与医疗机器人助推医疗效率提升 03 / 本月AI芯片竞赛催生半导体创新新黄金时代 04 / 本月内行看门道：我对Manus的8个关键评价 05 / 本月AI数据服务产业未来趋势预测

热点快看

07-02 13:28基于图深度学习的开源工具包CogDL 07-02 13:28人工智能与医疗机器人助推医疗效率提升 07-02 13:28AI芯片竞赛催生半导体创新新黄金时代 07-02 13:28内行看门道：我对Manus的8个关键评价 07-02 13:27AI数据服务产业未来趋势预测

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别