阿里通义千问发布Qwen3.7-Max全栈智能体基座

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

阿里通义千问发布Qwen3.7-Max全栈智能体基座

热心网友时间：2026-05-20

转载

2025年5月20日，通义千问重磅推出新一代旗舰模型——Qwen3 7-Max。这款被定位为“面向智能体时代”的先进大语言模型，即将通过API全面开放，其核心使命是成为一个卓越的全能智能体基座模型。无论是高效编写与调试代码、实现办公流程深度自动化，还是稳健执行涉及数百乃至数千步骤的长周期复杂任务，Q

2025年5月20日，通义千问重磅推出新一代旗舰模型——Qwen3.7-Max。这款被定位为“面向智能体时代”的先进大语言模型，即将通过API全面开放，其核心使命是成为一个卓越的全能智能体基座模型。无论是高效编写与调试代码、实现办公流程深度自动化，还是稳健执行涉及数百乃至数千步骤的长周期复杂任务，Qwen3.7-Max旨在提供持续、自主且高度可靠的支持，开启智能体应用的新篇章。

核心优势：广度与深度兼备的智能体能力

Qwen3.7-Max的核心竞争力，源于其智能体能力在广度与深度上的双重突破。在AI编程领域，从前端原型快速构建到后端复杂的多文件软件工程，它都能游刃有余。在办公自动化与生产力提升场景，通过原生支持模型上下文协议（MCP）集成和高效的多智能体协作，它能够实现工作流的智能化重塑。其长周期任务执行能力尤为引人注目：在一项耗时长达35小时、累计调用工具超过1000次的全自主GPU内核优化实验中，模型展现了卓越的连贯推理能力与持久稳定的性能表现。更重要的是，无论是在Claude Code、OpenClaw、Qwen Code还是其他自定义框架中部署，Qwen3.7-Max都表现出优秀的跨框架泛化能力，确保了其作为企业级智能体基座的广泛适用性与可靠性。

Qwen3.7-Max即将通过阿里云百炼平台提供便捷的API服务，主要聚焦于以下四大前沿应用方向：

前沿编程智能体：覆盖从快速原型开发到企业级软件工程的全流程代码生成与优化。
办公生产力与工作流自动化：支持MCP协议深度集成，实现文档处理、数据分析等多智能体协同自动化。
持续稳定的长周期自主执行能力：胜任需要长时间规划与迭代的复杂、多步骤任务。
跨多种智能体框架的泛化能力：无缝适配主流开发框架，降低开发者接入与迁移成本。

模型表现：全方位评测领先

从最新的权威评测数据来看，Qwen3.7-Max在多个关键维度均展现出领先或顶尖的综合实力。

编程智能体方面，在SWE-Pro（得分60.6）、SWE-Multilingual（78.3）、SciCode（53.5）和QwenSVG（1608）等基准上均取得领先地位。在Terminal Bench 2.0-Terminus（69.7）上超越了DS-V4-Pro Max（67.9）。在SWE-Verified（80.4）上则与Opus-4.6 Max（80.8）和DS-V4-Pro Max（80.6）表现相当，跻身第一梯队。

通用智能体方面，性能提升更为显著。在MCP-Mark（60.8 vs. GLM-5.1的57.5）、MCP-Atlas（76.4 vs. Opus-4.6的75.8）和Skillbench（59.2 vs. K2.6的56.2）上表现突出。尤其在Kernel Bench L3上，实现了1.98倍的中位数加速和96%的加速成功率，展示了强大的GPU内核优化实战能力。在BFCL-V4（75.0）、Qwenclaw（64.3）和ClawEval（65.2）上同样表现出色，紧追Opus-4.6 Max。在办公自动化基准SpreadSheetBench-v1上获得87.0的高分，处于行业顶尖水平。

复杂推理能力方面，在多个高难度基准上取得领先：GPQA Diamond（92.4 vs. Opus-4.6的91.3）、HLE（41.4 vs. Opus-4.6的40.0）、HMMT 2026 Feb（97.1 vs. Opus-4.6的96.2）、IMOAnswerBench（90.0 vs. DS-V4-Pro的89.8）和Apex（44.5 vs. DS-V4-Pro的38.3）。

通用与多语言能力方面，在IFBench（79.1 vs. DS-V4-Pro的77.0）上表现突出，展示了精准的指令遵循与理解能力。在WMT24++（85.8）和MAXIFE（89.2）上领先，表明其多语言理解与高质量翻译能力处于业界一流。在SuperGPQA（73.6）和QwenWorldBench（57.3）上同样表现卓越。

需要特别强调的是，上述优异的评测成绩是在多种不同的智能体运行框架下取得的。这有力证明了Qwen3.7-Max并非针对某一特定框架进行过拟合优化，而是在Claude Code、OpenClaw、Qwen Code及各类自定义工具调用框架下都能保持稳定、高效的发挥。这种卓越的跨框架兼容性，使其成为构建各类企业级智能体系统更可靠、更通用的强大基座模型。

生产力助手：重塑专业工作流

面向真实的企业级生产力场景，Qwen3.7-Max旨在成为深度协同的AI助手。依托其强大的智能体执行能力，它可以全面重塑专业工作流：从海量行业信息的快速研读与整合，到复杂业务数据的深度分析与建模预测，再到出版级专业文档与交互式可视化的自动生成，它能够精准承接高复杂度、高强度、高质量要求的核心任务。

该模型原生适配主流智能体开发框架。针对需要长链路交付的复杂项目，它支持长达数小时的自主规划与持续运行，通过上千次精准的工具调用和数十轮自动版本迭代，持续优化最终交付物的质量。以往可能需要专业团队耗时一至两周才能完成的复杂数据分析或代码重构项目，现在由Qwen3.7-Max驱动的智能体有望在数小时内完成从需求理解到成果交付的端到端闭环，从而推动企业生产力实现实质性跃升。

智能体扩展：环境多样性驱动能力泛化

在Qwen3.5引入的环境扩展方法基础上，Qwen3.7进一步大幅提升了智能体训练环境的质量、规模与多样性。这背后的核心理念与语言模型的预训练类似：正如大语言模型通过海量多样化文本数据获得强大的语言泛化能力，智能体的规划与执行能力同样可以从高度多样化的模拟训练环境中实现真正的泛化。

如图所示，这种大规模环境扩展带来了清晰且稳定的性能提升轨迹，Qwen3.7-Max在智能体综合能力排名中已位列前三，接近Claude-4.6-Opus-Max的顶尖水平。值得注意的是，评测中所有基准测试所涉及的环境场景，均为训练过程中从未出现过的全新、未见领域外环境，这直接验证了其强大的零样本泛化能力。

研究还揭示了一个显著规律：模型在任意一个基准子集上获得的性能增益高度一致，可以可靠地预测其在其余未知基准或整体平均值上的相对增益。这表明，由环境多样性驱动的能力扩展，带来的是真正通用的问题解决能力提升，而非针对特定评测基准的针对性优化。关于扩展动态和训练方法论的深度技术分析，将在后续发布的详细技术报告中全面阐释。

跨框架泛化能力：掌握解题策略，而非框架捷径

为了实现真正的通用泛化，其底层训练基础设施将每个训练实例解耦为三个正交组件——任务、运行框架与验证器，这些组件可以进行自由组合与重组。该创新设计兼容多种运行框架及其迭代版本，并将训练环境根植于真实应用场景。这种解耦实现了高效的组合式数据扩展：同一核心任务能以极低的边际成本，与不同类型、不同版本的运行框架及验证器进行匹配训练。

更关键的是，它赋能了跨框架与跨验证器的强化学习训练——迫使模型在不断变化的框架配置下，反复学习处理同源任务，从而真正掌握具备泛化能力的解题策略，而非依赖特定框架的“捷径”或“后门”。在QwenClawBench与CoWorkBench等跨框架评测中，无论评估时使用何种运行框架（Harness），Qwen3.7-Max均展现出强劲且一致的性能表现，显著超越前代Qwen3.6系列模型。这有力地证实了该模型已真正内化了解决任务的核心逻辑与能力，而非过拟合于某个特定框架的接口或模式。