通义Qwen3-Max超越GPT5,刷新全球大模型性能

2025年9月24日,2025云栖大会今日正式开幕,阿里通义系列最新旗舰模型Qwen3-Max首次亮相,凭借卓越性能跻身全球大模型前列,整体表现超越GPT5与Claude Opus 4等国际主流模型。
Qwen3-Max分为指令版(Instruct)和推理版(Thinking)两种版本,其预览版本已在国际知名榜单Chatbot Arena中位列第三,正式版本上线后有望进一步提升排名。作为通义千问家族中规模最大、能力最强的基础模型,Qwen3-Max在训练数据和参数量方面达到新高度,预训练数据量达36T tokens,总参数规模突破万亿,具备出色的代码生成与智能体工具调用能力。
在评估大模型解决实际编程任务能力的SWE-Bench Verified测试中,Qwen3-Max的指令版本取得69.6分,位居全球领先水平;在衡量智能体工具调用表现的Tau2-Bench测试中,该模型获得74.8分,优于Claude Opus4和DeepSeek-V3.1,展现出强大的外部工具协同能力。
此外,Qwen3-Max的增强推理版本Qwen3-Max-Thinking-Heavy在复杂推理任务中表现尤为突出。通过融合工具调用与并行推理技术,该版本在AIME 25和HMMT两项高难度数学推理测试中均获得满分100分,创下国内大模型在该类评测中的最佳纪录。
这一突破得益于模型在解题过程中能够主动调用工具,例如通过编写代码辅助计算,并结合增加推理阶段的计算资源,从而显著提升解题准确率与逻辑深度。
目前,通义千问系列已完成从0.5B到超万亿参数的全尺寸覆盖,包含三百余款大模型,适用于各类应用场景。即日起,公众可通过通义千问QwenChat平台免费体验Qwen3-Max,也可通过阿里云百炼平台接入API服务,实现灵活调用与集成。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
QQ新版重新支持经典界面,新增跨平台同步功能
腾讯QQ项目组近日发布了Windows端v9 9 22版本与MacQQ 6 9 81版本的更新,其中最引人关注的是经典版窗口样式的回归。此次重新上线的经典模式延续了旧版QQ的纵向列表布局,并采用独立
暗黑4第10赛季:混沌系统带来全新战斗玩法
暗黑破坏神4是由暴雪开发的一款动作角色扮演游戏,延续了该系列一贯的黑暗哥特美学与地牢探险、装备收集的核心玩法。剧情设定在前作故事结束之后,随着恶魔莉莉丝重返人间,世界再度陷入动荡与危机。游戏最新推出
华为占比超20%,领跑6-8月8000元以上手机市场
国内超高端手机市场的最新竞争格局如何?据了解,近日有数码博主曝光了相关数据,2025年6月至8月暑期期间,国内8000元以上超高端手机市场竞争格局呈现显著分化。苹果凭借iPhone Pro系列产品的
美欧贸易协议生效:欧盟汽车将加征15%关税
9月25日消息,据央视新闻报道,当地时间本月24日,美国政府发布正式公告,宣布实施此前与欧盟达成的贸易协议。协议确认自8月1日起,对欧盟进口汽车及汽车产品征收15%的关税,此外,文件还列出了对某些药
影石Insta360即将发布:AI智能音频整理新品引关注
感谢热心网友行李箱提供的信息。9月24日,影石Insta360正式宣布,将于9月25日晚21:00推出一款全新产品。最新发布的宣传语为“听得清,记得明”,同时在预热视频中展示了“声音从未如此清晰”的
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















