当前位置: 首页
科技数码
Gemini 3模型深度评测:全方位解答你的核心疑问

Gemini 3模型深度评测:全方位解答你的核心疑问

热心网友 时间:2026-01-28
转载


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

作者 | Yoky
邮箱 | yokyliu@pingwest.com

第一个国产版Gemini3,来了。

1月26日,阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking。

据介绍,Qwen3-Max-Thinking总参数超万亿、预训练数据量高达36T Tokens,在科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多项权威评测中刷新了全球纪录。它在数学推理AIME 25和HMMT 25上拿到了国内首个双满分,甚至在“人类最后的测试”HLE中得分58.3,大幅超过GPT-5.2-Thinking的45.5和Gemini 3 Pro的45.8。


更关键的是时间点。如果你最近关注AI圈,会发现各家大模型厂商都在憋大招,阿里抢在这个节骨眼上发布Qwen3-Max-Thinking,摆明了就是要抢“国产第一个Gemini 3”的名号。

榜单数据再好看,到底能不能媲美Gemini3?

试了几次Qwen生成代码,前几次任务失败率还挺高的,但只要碰到阿里擅长的场景,表现就完全不一样。比如让它做一个卖水果的电商 ,商品分类、加购物车、一起结算这些功能,基本一次就写出来了,而且逻辑很完整,体验也流畅。很明显,电商这种场景它见得太多了,淘宝天猫的数据喂得够饱,所以做起来特别顺手。

但换成其他类型的任务,成功率就不太稳定了。如果你的需求正好在它的舒适区里,那体验确实要相对好;如果偏离了,可能得多试几次调整提示词。

我还专门测试了一个更复杂的交互案例:用摄像头做体感控制的打气球游戏,这也是Gemini 3展示过的经典demo。具体需求是:用手势控制屏幕上的准星,做捏合动作(拇指和食指并拢)来射击从下往上飘的气球,还要有天空背景、云层漂移、击中特效、连击反馈这些细节。

千问的表现让我有点意外。整个游戏的框架它一次就搭出来了:天空渐变背景、气球从底部生成往上飘、大小不同速度不同、UI显示分数和连击数,这些基础逻辑都没问题。

交互效果做得挺有意思。伸出食指,屏幕上的准星就会跟着手移动,拇指和食指捏合就能开火。击中气球的瞬间,屏幕会轻微震动,气球爆开时有粒子特效散开,还有“啵”的一声音效,反馈感做得很足。连续击中会显示combo数字,这种即时反馈确实有代入感。

但实际玩起来有个明显的问题:瞄不准。手指明明对着一个气球,但准星位置总是偏的,打了好几发才能碰巧打中。这应该是手部追踪和屏幕坐标映射之间有偏差,或者校准算法不够精确。虽然Qwen做出了体感控制的完整流程:摄像头调用、手势识别、射击反馈这些环节都跑通了,但核心的“指哪打哪”这个精度没做好,导致游戏性打了折扣。

不过,千问这次最厉害的地方,不是参数有多大,而是它“想问题”的方式变了。在关键的模型推理能力提升中,千问新模型采用了一种全新的测试时扩展(Test-time Scaling)机制,推理性能提升的同时还更经济。

打个比方,以前的AI做数学题是这样的:同时写10份答案,然后投票看哪个对的人多,就选哪个。这种方法很笨,浪费算力,而且10份答案里可能犯的都是同一个错误。

Qwen3改成了人类的做法:先做一遍,做完看看哪里不对,总结一下经验,再重新做。就像你做错题本一样,第二遍肯定比第一遍做得好。结果就是,在那个需要用工具解决问题的测试里,Qwen拿了58.3分,Gemini只有45.8分,差了一大截。

在调用工具层面,千问的做法是把工具使用能力“训练进”模型里,在完成初步的工具使用微调后,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使得Qwen3-Max-Thinking拥有更智能结合工具进行思考的能力。

它用三步训练法:先教会用工具,再在各种任务里强化练习,最后形成条件反射。好处很明显:用起来又快又顺,不用每次都去读工具说明书,而且模型自己知道该在什么时候用什么工具。这就是为什么Qwen在HLE测试里比Gemini高出12分,特别是需要连续用好几个工具解决复杂问题的时候,这种“肌肉记忆”优势就体现出来了。

对比之下,Gemini走的是传统软件工程的路子:模型只负责理解你要干什么,具体调工具靠外部API框架。这样做最大的好处是灵活:Google想接入沃尔玛的购物功能,不用重新训练模型,插个API就行。但代价是每次用工具都要走“理解意图—翻译成API调用—执行—解析结果”这一整套流程,慢而且容易出错。

千问的代码生成能力,已超越单纯的“语法翻译器”,更像一位理解你意图的技术伙伴。它不仅能将需求转化为可运行的代码,更具备工程直觉:知道何时优化性能、何时简化实现、何时添加容错机制。

这种“度”的把握,恰恰是AI从“工具”走向“协作者”的关键跃迁。


点个“爱心”,再走 吧

来源:https://www.163.com/dy/article/KKBTSFSF0511N33R.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
嘻哈律动!七彩虹iGame RTX 50 Ultra系列显卡开售

嘻哈律动!七彩虹iGame RTX 50 Ultra系列显卡开售

七彩虹iGame RTX 50 Ultra系列显卡正式上市:全新黑色美学强势登场 2026年3月13日,显卡市场迎来重磅新品。国际知名硬件品牌七彩虹正式发布了旗下全新配色的iGame GeForce RTX 50 Ultra系列显卡。本次推出的深邃黑色版本,以极具侵略性的深色基调为核心设计语言,与经

时间:2026-04-02 22:18
从180°C蒸汽技术到行业白皮书 石头洗地机重构地面清洁标准

从180°C蒸汽技术到行业白皮书 石头洗地机重构地面清洁标准

石头科技惊艳亮相AWE2026,以尖端智能清洁产品矩阵与突破性技术,定义现代家庭深度洁净新范式。 备受瞩目的2026年中国家电及消费电子博览会(AWE)于3月12日在上海正式启幕。全球顶尖的智能清洁品牌石头科技,携众多创新成果重磅登场,全面展现了其在洗地机、扫地机器人等领域的领先实力。展台上,全新发

时间:2026-04-02 22:14
荣耀Magic V6赤兔红首销告捷!开售20分钟全平台售罄

荣耀Magic V6赤兔红首销告捷!开售20分钟全平台售罄

荣耀折叠旗舰Magic V6全面开售,赤兔红配色首发秒罄 荣耀新一代折叠屏旗舰Magic V6甫一亮相,便凭借其全面革新的综合体验,迅速引爆了市场消费热情。尤其是在昨日发布会后,备受瞩目的全新“赤兔红”配色版本开售即被抢购——短短二十分钟内,全渠道所有库存宣告售罄,其市场热度与用户认可度可见一斑。

时间:2026-04-02 22:10
飞利浦32M2N8800P显示器开售:4K 240Hz QD-OLED面板

飞利浦32M2N8800P显示器开售:4K 240Hz QD-OLED面板

飞利浦32英寸4K 240Hz OLED电竞显示器正式发售,首发价格5999元 3月13日,飞利浦推出了备受游戏玩家期待的新款显示设备——32M2N8800P。这款显示器率先在淘宝平台开启预售,核心卖点是将4K超高清分辨率、240Hz电竞级刷新率与自发光OLED面板技术深度结合。它不仅面向硬核电竞玩

时间:2026-04-02 22:02
荣耀林林称全新 MagicBook 数字系列和很多其它厂商思路非常不同,可提供不同屏幕和 ID 设计选择

荣耀林林称全新 MagicBook 数字系列和很多其它厂商思路非常不同,可提供不同屏幕和 ID 设计选择

荣耀全新MagicBook数字系列正式发布,差异化思路提供多元购买选择 近日,荣耀正式对外发布了旗下全新的MagicBook数字系列笔记本电脑,该系列的定位策略与市面上常见的“青春版”或“次旗舰”思路截然不同,呈现出独特的市场布局。荣耀中国区智慧生活业务部部长林林对此进行了深度解读。 他指出,全新M

时间:2026-04-02 21:59
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程