阿里千问最强模型重磅亮相,性能比肩GPT-5与Gemini
1月26日,阿里正式发布了全新的千问旗舰推理模型Qwen3-Max-Thinking,在多项权威评测中刷新了多项全球纪录。其性能表现足以媲美GPT-5.2与Gemini 3 Pro,成为迄今为止最接近国际顶尖水准的国内AI大模型。通过海量总参数、强化学习与推理计算的极致规模扩展,千问新模型实现了性能的大幅飞跃,一举刷新了科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多项关键基准测试的全球最佳纪录。

Qwen3-Max-Thinking是阿里目前规模最大、能力最强的千问推理模型,其总参数量超过万亿(1T),预训练数据量高达36T Tokens。此前,预览版Qwen3-Max-Thinking已斩获数学推理AIME 25和HMMT 25的双满分成绩,成为国内首个达成此成就的模型,其推理性能令人惊艳。在此基础上,阿里通义团队进行了更大规模的强化学习后训练,全面提升了正式版Qwen3-Max-Thinking的各项性能:在涵盖事实知识、复杂推理、指令遵循、人类偏好对齐、智能体能力等19个公认的大模型基准测试中,这款旗舰推理模型刷新了多项关键性能的最佳表现纪录,其综合性能已可媲美GPT-5.2-Thinking-xhigh、Claude Opus 4.5 以及 Gemini 3 Pro。
在关键的模型推理能力提升方面,千问新模型采用了一种全新的测试时扩展机制。这一创新机制能在提升推理性能的同时,实现更高的计算经济性。业界普遍的推理时计算,通常只是简单地增加并行推理路径,导致大量重复推导已知结论,造成计算资源浪费和推理效率低下。而千问采用的这一新机制,能够对先前的推理结果进行“经验提炼”式的提取与精炼,并据此进行多轮自我迭代,在相同的上下文语境中实现更高效的推理计算,从而获得更智能的推理结果。基于这一核心技术创新,千问模型的推理性能和效率均得到显著提升。例如,在启用了工具调用的“人类最后的测试”HLE中,千问取得了58.3分,大幅超越了GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分,获得了当前所有模型中的最高分数。
面向即将到来的智能体时代,Qwen3-Max-Thinking还大幅增强了自主调用工具的原生智能体能力。具体而言,在完成初步的工具使用微调后,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使得Qwen3-Max-Thinking拥有更智能地结合工具进行深度思考的能力。这种自适应工具调用能力可在QwenChat上完整体验。模型能自主选用搜索、个性化记忆和代码解释器这三个核心的智能体工具功能,提供的回答具有专业人士般的水准,更贴合用户心意、显得更智能、更流畅。同时,模型产生幻觉的概率也大为降低,为解决真实世界中的复杂任务奠定了坚实基础。
目前,开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型。企业用户可通过阿里云百炼平台获取新模型API服务。普通用户也可以通过千问PC客户端及网页端试用新版模型。据了解,千问官方应用也即将接入新模型,届时所有用户都可免费体验千问的最强模型。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
自动上架软件工具推荐与选择指南
快速结论:如何选对工具? 面对市场上众多的自动上架软件,电商卖家常常感到无从下手。其实,只要明确你的核心业务场景,选择就会变得清晰: 如果你的店铺布局在多个跨境电商平台(如亚马逊、Shopee),需要集中管理订单与库存,那么选择店小秘、芒果店长这类传统ERP软件是稳妥可靠的方案。 如果你的业务重心在
跨境数据分析工具推荐与智能体软件盘点
步入2026年,跨境电商运营已全面进入“智能决策”时代。以往依赖人工经验、手动分析报表的运营模式,正迅速被具备自主分析能力的“数字大脑”所革新。当前主流的跨境电商数据分析工具,主要分为两大方向:一类是以“实在Agent”为代表的通用型智能执行体,另一类则是如Helium 10(AI模块)、ZonGu
数据融合的五大核心特点与显著优势解析
数据融合技术看似复杂,但其核心价值非常明确:将分散在不同源头、格式各异的数据碎片,整合成一张完整、实时且能直接驱动业务行动的“全景视图”。这一过程通常展现出多源异构性、实时动态性、逻辑互补性以及决策增益性四大关键特征。 根据Gartner发布的2026年战略技术趋势,现代数据融合已演进为“主动式情报
开源与闭源系统对比分析如何选择更适合的方案
结论先行:在开源与闭源系统之间,没有绝对的“更好”,只有更“适配”。 开源系统(Open Source)胜在透明度与生态灵活,典型代表如Linux、Android,更适合那些拥有技术自研能力、追求极致定制的企业。 闭源系统(Closed Source)则胜在稳定性与易用性,像我们熟悉的Windows
企业数字化转型中服务器的作用与AI算力基座解析
结论先行:在2026年的商业环境中,对于寻求数字化转型的企业而言,服务器(Server)早已超越了存放数据的物理硬件范畴。它已然成为支撑企业业务流程自动化(RPA)、大数据分析以及运行Tars大模型等人工智能应用的核心算力基座。说得更直白一些,它就是企业数字化升级的“心脏”,负责处理指令、存储核心资
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

