阿里千问重磅升级:性能对标GPT-5.2、Gemini 3 Pro
1月26日,阿里正式推出千问旗舰推理模型Qwen3-Max-Thinking,在多项权威评测中创造了全球新纪录。其性能表现可与GPT-5.2、Gemini 3 Pro等顶尖模型相媲美,成为迄今为止最接近国际顶尖水平的国内最强AI大模型。
通过极致的总参数量扩展、强化学习训练和推理计算规模提升,千问新模型实现了性能的大幅飞跃。它在科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多个关键性能基准测试中刷新了全球纪录。

Qwen3-Max-Thinking是目前阿里规模最大、能力最强的千问推理模型,其总参数量超过万亿(1T),预训练数据量高达36T Tokens。
此前,预览版Qwen3-Max-Thinking就已在数学推理测试AIME 25和HMMT 25中斩获国内首个双满分,其推理能力令人惊艳。在此基础之上,阿里通义团队进行了更大规模的强化学习后训练,全面提升了正式版Qwen3-Max-Thinking的性能。
在涵盖事实知识、复杂推理、指令遵循、人类偏好对齐、Agent能力等19个公认的大模型基准测试中,千问旗舰推理模型刷新了多项最佳表现(SOTA)纪录,整体性能足以比肩GPT-5.2-Thinking-xhigh、Claude Opus 4.5和Gemini 3 Pro。
在关键的模型推理能力提升方面,千问新模型采用了一种全新的测试时扩展机制,在提升推理性能的同时也更加经济高效。
业界普遍的推理时计算,只是简单地增加并行推理路径,重复推导已知结论,导致推理效率低下。而千问采用的这一新机制,可对此前推理的结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算,获得更智能的推理结果。
基于这一推理技术创新,千问的推理性能和推理效率均显著提升。例如,在启用工具的“人类最后的测试”HLE中,千问获得58.3分,大幅超过GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分,创下了当前所有模型的最高分纪录。
面向即将到来的智能体时代,Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。
具体而言,在完成初步的工具使用微调后,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使得Qwen3-Max-Thinking拥有更智能地结合工具进行思考的能力。
这种自适应的工具调用能力可在QwenChat上完整体验。模型自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能,提供如专业人士水平的回答,更合用户心意、更智能、更流畅;同时,模型的幻觉也大为降低,为解决真实复杂任务打下基础。
目前,开发者能在QwenChat上免费体验Qwen3-Max-Thinking模型,企业可通过阿里云百炼获取新模型API服务,普通用户也可通过千问PC端和网页端试用模型。据了解,千问APP也即将接入新模型,所有用户都可免费体验千问最强模型。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
补货策略的类型与选择方法
快速结论:哪种补货策略最适合你? 补货这件事,说复杂也复杂,说简单也简单。归根结底,核心就围绕两个问题:什么时候订货?一次订多少?不同的生意模式,答案截然不同。 如果你的产品是需求稳定的“常青树”,比如一些快消爆款,那么定量补货可能更合适——库存一旦降到预设的安全线,系统就自动触发补货指令。 如果你
Sonnet与Opus模型对比:哪个更适合你的需求?
在Anthropic的AI模型产品线中,Sonnet与Opus两款模型定位分明,各具优势。Sonnet致力于在智能水平、响应速度与使用成本之间找到最佳平衡点,堪称日常高频任务中的“多面手”;而Opus则代表了家族中的顶尖性能,专为处理超高复杂度的逻辑推理、长期智能体任务以及深度科研分析而设计,是探索
数据湖与数据池核心差异解析及适用场景对比
在数字化转型的浪潮中,企业决策者常常需要厘清两个关键的数据架构概念:数据池与数据湖。它们虽然都涉及数据存储,但其设计理念、应用场景和价值实现路径截然不同。简而言之,数据池是为特定业务场景构建的“高效协作区”,注重数据的即时可用与流程驱动;而数据湖则是企业级的“原始数据海洋”,核心价值在于全量、多源数
2026年企业数字化转型如何重塑核心竞争力
在当今的商业环境中,探讨企业数字化转型的价值,已远非“可有可无”的选项,它已成为决定企业未来竞争力的“生存基石”。这不仅仅是采购几套新软件那么简单,其本质在于运用数字技术,对企业的运营流程、组织形态及价值创造方式进行系统性重塑。简而言之,在高度不确定的市场里,数字化转型的核心目标,正是通过数据智能,
2026跨境高效铺货指南:一键铺货全流程与运营策略
跨境一键铺货,这个术语听起来或许有些专业,但其核心理念非常清晰:实现商品信息流与上架执行流的同步自动化。尤其在当前合规要求日益严格的市场环境下,传统方法已显乏力。如今,借助“实在Agent”这类AI数字员工实现的“所见即所得”式智能上货,正成为破解传统ERP接口受限、功能不全等难题的高效方案。 一、
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

