阿里千问最新推理模型亮相:多项性能破纪录
新京报贝壳财经讯(记者 罗亦丹)1月26日晚间,阿里巴巴正式推出千问旗舰推理模型Qwen3-Max-Thinking。在多项关键性能基准测试中,千问模型的表现超越了GPT-5.2、Claude Opus 4.5及Gemini 3 Pro等顶尖模型,刷新了全球纪录,进一步拓展了人工智能系统的推理性能边界。
通过扩展总参数量、强化学习以及推理计算规模,千问新模型实现了性能的大幅跃升,在科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多个关键基准测试中均创下全球最佳成绩。
具体来看,在核心的模型推理能力提升方面,千问新模型采用了全新的测试时扩展机制。这种机制在提升推理性能的同时,还显著提高了效率。当前业界普遍采用的推理时计算,大多只是简单增加并行推理路径,重复推导已知结论,导致推理效率低下。而千问采用的这项新技术,能够对之前推理的结果进行“经验提炼”式的提纯,并据此进行多轮自我迭代,在相同的上下文语境中实现更高效的推理计算,从而获得更智能的推理结果。基于这一推理技术创新,千问的推理性能和推理效率均得到大幅提升。例如,在启用工具的“人类最后的测试”HLE中,千问获得58.3分,大幅超越GPT-52-Thinking的45.5分以及Gemini 3 Pro的45.8分,录得当前所有模型中的最高分。
阿里巴巴方面表示,Qwen3-Max-Thinking的总参数量超过万亿,经过了更大规模的强化学习后训练,并通过推理技术的一系列创新,最终实现了模型性能的跨越式增长。该模型还大幅增强了自主调用工具的原生Agent能力,使得模型能够像专业人士一样,边使用工具边进行思考。同时,模型的幻觉问题也得到显著抑制,为解决真实世界的复杂任务奠定了坚实基础。目前,普通用户可通过千问PC端及网页端试用新模型,千问APP也即将接入,所有用户均可免费体验。
编辑 陈莉 校对 杨利
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
微软前高管批评公司AI战略失误重蹈历史覆辙
前微软高管批评公司AI战略失误,重蹈覆辙。尽管投入巨大,必应未能撼动谷歌,Windows和Office的AI功能付费比例低,未创造高价值场景。面对成本与股东压力,微软转向听取用户反馈。高管变动与股价停滞显内部阵痛,但深厚的兼容性护城河仍具韧性,AI竞争远未结束。
英伟达领投印度AI公司Simplismart获2000万美元融资
印度AI初创公司Simplismart正进行约2000万美元融资,由英伟达领投,投后估值达1亿美元。该公司总部位于班加罗尔,致力于帮助企业无代码构建AI系统。此次融资被视为英伟达深化印度AI生态布局的关键举措,双方此前已在基础设施与推理微服务方面紧密合作。
小米SU7火山灰配色实车到店 全新官图正式发布
小米汽车推出YU7全新配色“火山灰”,灵感源于晨雾火山地貌,采用高纯度灰色基调与纳米矿物颗粒涂层,呈现细腻金属质感。同时,顶配型号YU7GT的“车厘子红”配色此前亮相,漆面具渐变效果。该车型经欧洲研发中心调校及纽博格林赛道测试,提升底盘与驾驶质感,计划5月底发布。
贾跃亭获7000万美元融资 推进造车梦想十二年未竟
贾跃亭宣布FF近期累计获得7000万美元融资,并重新担任CEO。公司战略全面转向物理AI生态,聚焦具身智能赛道,目标两年内实现过去12年未竟的梦想。规划涵盖战略、业务、财务等五大变革,分三阶段推进,包括2026年出货1500台机器人、实现现金流自给自足及市值重返高点。
戴尔外星人15星刃版锐龙7配RTX显卡游戏本上市
戴尔Alienware外星人15星刃版游戏本现已上市,搭载锐龙7处理器与RTX5060独显,配备16GB内存和1TB固态硬盘,售价11499元。其采用双风扇三热管散热系统,支持处理器稳定释放30W功耗。屏幕为15 3英寸165Hz高刷IPS屏,接口齐全,兼顾游戏性能与日常使用体验。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

