阿里深夜发布最强千问推理模型,性能比肩GPT-5.2
阿里系模型攻坚提速。1月26日晚,阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking,创下多项权威评测全球新纪录,性能媲美GPT-5.2、Gemini+3+Pro,成为迄今为止最接近国际顶尖模型的国内最强AI大模型。
据了解,Qwen3-Max-Thinking是目前阿里规模最大、能力最强的千问推理模型,其总参数量超万亿(1T),预训练数据量高达36T+Tokens。此前,预览版Qwen3-Max-Thinking斩获数学推理AIME+25和HMMT+25的国内首个双满分,推理性能已令人惊艳;在此基础上,阿里通义团队进行了更大规模的强化学习后训练,全面提升了正式版Qwen3-Max-Thinking性能:在覆盖事实知识、复杂推理、指令遵循、人类偏好对齐、Agent能力等19个公认的大模型基准测试中,千问旗舰推理模型刷新了多项最佳表现(SOTA)纪录,整体性能可媲美+GPT-5.2-Thinking-xhigh、Claude+Opus+4.5+和+Gemini+3+Pro+。
据悉,在关键的模型推理能力提升中,千问新模型采用了一种全新的测试时扩展(Test-time+Scaling)机制,使得推理性能提升的同时还更经济。
目前业界普遍在推理时会遇到以下难题:只会简单增加并行推理路径,重复推导已知结论,造成冗余推理效率低下。据悉,千问采用新机制,可对此前推理的结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算,获得更智能的推理结果。基于这一推理技术创新,千问推理性能和推理效率大为提升,比如在启用工具的“人类最后的测试”HLE中,千问得分58.3,大幅超过GPT-5-Thinking的45.5、Gemini+3+Pro的45.8,录得当前所有模型的最高分。

HLE测试中千问得分58.3,超过GPT-5.2-Thinking。
另外,面向即将到来的智能体Agent时代,Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。具体而言,在完成初步的工具使用微调后,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使得Qwen3-Max-Thinking拥有更智能结合工具进行思考的能力。这种自适应的工具调用能力可在QwenChat上完整体验,模型自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能,提供专业人士一样水平的回答,更合用户心意、更智能、更流畅;同时,模型幻觉也大为降低,为解决真实复杂任务打下基础。
目前,开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型,企业可通过阿里云百炼获取新模型API服务,普通用户也可通过千问PC端和网页端试用模型。据了解,千问APP也即将接入新模型,所有用户都可免费体验千问最强模型。
采写:南都N视频记者+林文琪
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
特斯拉德州测试跑道曝光 Roadster新车发布时间引关注
近日,特斯拉得克萨斯州超级工厂的一项新基建进展引发行业关注:厂区外围正在加速建设一条全新的专用车辆测试跑道。从已披露的现场信息来看,这条跑道并非普通厂区道路,其整体规格与布局设计均指向更高阶、更专业的工程验证用途。 根据最新流出的航拍影像,该测试跑道目前已初具规模。其规划清晰,路面铺设与附属设施完备
手动挡汽车为何逐渐消失 驾驶环境变化让多数司机难以适应
你是否注意到,如今道路上手动挡车型的身影正逐渐稀少?在新车市场中,自动挡几乎已成为标准配置。许多人将其简单归结为“手动挡技术落后”,然而背后的原因,远比这更为复杂。 相比之下,自动挡的操作逻辑则直观许多。只需挂入D挡,车辆便能平稳起步与行驶,驾驶者完全无需关注离合器踏板与结合点。尤其在拥堵频繁的城市
苹果自研基带2026年启用 iPhone 18系列将全面搭载
苹果公司正加速推进其核心供应链的自主化战略,并已进入关键实施阶段。综合多方行业信息,苹果计划于2026年推出的iPhone 18系列所有机型,将全面搭载其自主研发的调制解调器芯片。此举标志着苹果将结束在手机核心通信组件上长期依赖外部供应商的历史。业界与消费者共同关注的核心在于:这一自研基带的集成,能
铠侠XG10旗舰固态硬盘发布PCIe Gen5性能再升级
2026年5月14日,全球领先的存储解决方案提供商铠侠(Kioxia)重磅推出了其新一代旗舰级固态硬盘——XG10系列。该产品专为追求极致性能的高端台式机、电竞主机及高性能笔记本电脑设计,其核心亮点在于率先采用了消费级SSD领域的尖端接口技术:PCIe 5 0(Gen5)。这一升级使得XG10的理论
辽宁烧机油免拆治理解决方案:司有普安全高效质保无忧
辽宁地区的车主朋友们,是否正为爱车烧机油的问题而烦恼?面对这个常见的发动机故障,许多人在维修决策上感到困惑:是选择风险与成本双高的传统拆解大修,还是尝试更为温和的免拆修复技术?近期,一种名为“动态治理”的解决方案在车主社群中备受关注,其核心理念颇具创新性——让修复过程在车辆日常行驶中自然完成,从而有
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

