揭秘谷歌Gemini 3:性能全面升级,AI新纪元开启
首个国产版的Gemini 3,终于来了。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
1月26日,阿里正式发布了通义千问旗舰推理模型Qwen3-Max-Thinking。
据介绍,Qwen3-Max-Thinking的总参数量超过万亿,预训练数据量高达36T+ Tokens,在科学知识、数学推理、代码编程等多项权威评测中刷新了全球纪录。它在数学推理的AIME 25和HMMT 25上拿到了国内首个双满分,甚至在“人类最后的测试”HLE中得分58.3,大幅超过GPT-5.2-Thinking的45.5和Gemini 3 Pro的45.8。

更关键的是时间点。如果你最近关注AI圈,会发现各家大模型厂商都在憋大招,阿里抢在这个节骨眼上发布Qwen3-Max-Thinking,摆明了就是要争“国产第一个Gemini 3”的名号。
榜单数据再好看,到底能不能媲美Gemini 3?
试了几次千问生成代码,前几次任务失败率还挺高的,但只要碰到阿里擅长的场景,表现就完全不一样。比如让它做一个卖水果的电商,商品分类、加购结账这些功能,基本一次就写出来了,而且逻辑很完整,体验也流畅。很明显,电商这种场景它见得太多,淘宝天猫的数据喂得够饱,所以做起来特别顺手。
但换成其他类型的任务,成功率就不太稳定了。如果你的需求正好在它的舒适区里,那体验确实要好;如果偏离了,可能得多试几次调整提示词。
我还专门测试了一个更复杂的交互案例:用摄像头做体感控制的打气球游戏,这也是Gemini 3展示过的经典demo。具体需求是:用手势控制屏幕上的准星,做捏合动作来射击从下往上飘的气球,还要有天空背景、云层漂移、击中特效、连击反馈这些细节。
千问的表现让我有点意外。整个游戏的框架它一次就搭出来了:天空渐变背景、气球从底部生成往上飘、大小不同速度不同、UI显示分数和连击数,这些基础逻辑都没问题。
交互效果做得挺有意思。伸出食指,屏幕上的准星就会跟着手移动,拇指和食指捏合就能开火。击中气球的瞬间,屏幕会轻微震动,气球爆开时有粒子特效散开,还有“叮”的一声音效,反馈感做得很足。连续击中将显示combo数字,这种即时反馈确实有代入感。
但实际玩起来有个明显的问题:瞄不准。手明明对准一个气球了,但准星位置总是偏的,打好几下才能碰巧击中。这应该是手部追踪和屏幕坐标映射之间有偏差,或者校准算法不够精确。虽然千问做出了体感控制的完整流程:摄像头调用、手势识别、射击反馈这些环节都跑通了,但核心的“指哪打哪”这个精度没做好,导致游戏性打了折扣。
不过,千问这次最厉害的地方,不是参数有多大,而是它“想问题”的方式变了。在关键的模型推理能力提升中,千问新模型采用了一种全新的测试时扩展机制,推理性能提升的同时还更经济。
打个比方,以前的AI做数学题是这样的:同时写10份答案,然后投票看哪个对的人多,就选哪个。这种方法很笨,浪费算力,而且10份答案里可能犯的都是同一个错误。
Qwen 3改成了人类的做法:先做一遍,做完看看哪里不对,总结一下经验,再重新做。就像你做错题本一样,第二遍肯定比第一遍做得好。结果就是,在那个需要用工具解决问题的测试里,千问拿了58.3分,Gemini只有45.8分,差了一大截。
在调用工具层面,千问的做法是把工具使用能力“训练进”模型里,在完成初步的工具使用微调后,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使得Qwen3-Max-Thinking拥有更智能结合工具进行思考的能力。
它用三步训练法:先教会用工具,再在各种任务里强化练习,最后形成条件反射。好处很明显:用起来又快又顺,不用每次都去读工具说明书,而且模型自己知道该在什么时候用什么工具。这就是为什么千问在HLE测试里比Gemini高出12分,特别是需要连续用好几个工具解决复杂问题的时候,这种“肌肉记忆”优势就体现出来了。
相比之下,Gemini走的是传统软件工程的路子:模型只负责理解你要干什么,具体调工具靠外部API框架。这样做最大的好处是灵活:Google想接入沃尔玛的购物功能,不用重新训练模型,插个API就行。但代价是每次用工具都要走“理解意图—翻译成API调用—执行—解析结果”这一整套流程,慢而且容易出错。
千问的代码生成能力,已超越单纯的“语法翻译器”,更像一位理解你意图的技术伙伴。它不仅能将需求转化为可运行的代码,更具备工程直觉:知道何时优化性能、何时简化实现、何时添加容错机制。
这种“度”的把握,恰恰是AI从“工具”走向“协作者”的关键跃迁。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀
雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验
借力AWE2026“一展双区”,MOVA双区协同、震撼登场 备受瞩目的科技盛会——2026年中国家电及消费电子博览会(AWE),于3月12日至15日在上海盛大举办。本届AWE展会首次创新采用“一展双区”的展览模式,主会场位于上海新国际博览中心,分会场则设于上海东方枢纽国际商务合作区,两大展区高效联动
iPhone 18 Pro设计挤牙膏了 继续用前代模具
iPhone 18 Pro系列模具不变,屏幕形态将与iPhone 17 Pro保持一致 备受期待的屏下Face ID组件小型化设计与灵动岛区域缩窄方案,预计将被推迟至后续迭代机型中正式应用。 近期,关于iPhone 18 Pro系列的技术传闻持续引发行业关注,尤其在显示与解锁设计领域传言甚多。多方消
海韵 FOCUS v5系列电源3.16日首发,标配ATX 3.1规范
海韵FOCUS v5电源正式上市:140mm短机身设计,白金能效,专为紧凑高性能主机打造 对于追求极致空间利用的DIY玩家,尤其是ITX与小尺寸机箱用户,一款高效且尺寸紧凑的电源是组建高性能主机的关键。海韵旗下备受期待的FOCUS v5系列电源,现已在京东自营旗舰店正式发售。该系列主打标准的140m
2026必买A级纯电SUV 方程豹钛3闪充版上市15万起
作为A级纯电市场首款标配闪充的方盒子车型,方程豹钛3闪充版凭借三大越级实力,问鼎同级科技与潮流标杆 2026年3月13日,方程豹品牌正式推出钛3闪充版,新车提供620KM后驱闪充版与565KM四驱闪充版两个车型配置,官方指导价定在15 38万至16 98万元区间。同步,备受期待的钛7EV闪充版也启动
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

