当前位置: 首页
业界动态
阿里千问Qwen3.7-Max发布:国产旗舰模型自主完成35小时任务

阿里千问Qwen3.7-Max发布:国产旗舰模型自主完成35小时任务

热心网友 时间:2026-05-20
转载

5月20日,在备受瞩目的阿里云峰会上,全新一代千问旗舰模型Qwen3.7-Max正式发布。这不仅是阿里云大模型技术的一次重大迭代,更标志着国产大模型在核心能力上实现了关键性突破,向国际顶尖水平看齐。

根据全球权威大模型盲测平台Arena的最新榜单数据显示,Qwen3.7-Max的综合表现已全面超越Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1等国内主流模型。其整体实力与GPT-4o、Claude 3.5 Sonnet、Gemini 2.0等国际最新旗舰模型同处第一梯队,稳居国产大模型排行榜首位,堪称“国产第一模型”。

国产第一!阿里千问旗舰模型Qwen3.7-Max发布:全自主完成35小时任务

回顾其发展历程,从Qwen3.5到Qwen3.6,再到如今的Qwen3.7-Max,千问旗舰系列在短短三个月内完成了三次重大版本升级。如此高频的迭代节奏,充分展现了阿里云在大模型研发上的深厚积累与加速态势。

面向智能体场景的全新设计

本次发布的Qwen3.7-Max,其核心设计理念明确聚焦于智能体(Agent)应用场景,并在多个关键维度实现了显著提升。

编程能力是构建实用智能体的基础。在SWE-Pro、SWE-Multilingual等编程智能体权威测评中,Qwen3.7-Max均取得了领先成绩。特别是在终端编程基准测试Terminal Bench 2.0-Terminus中,其以69.7的高分超越了DeepSeek-v4-pro-Max和Claude-Opus4.6等强劲对手,展现了卓越的代码生成与复杂问题解决能力。

在通用智能体能力方面,该模型在MCP-Atlas、MCP-Mark、Skillbench等一系列贴近真实业务场景的测试中表现同样出色,成功超越了GLM5.1、Kimi-K2.6等国内同行,创造了国产大模型在该领域的新纪录。

推理与通用能力的全面领先

强大的逻辑推理能力是衡量大模型智能水平的核心指标。在GPQA Diamond、HLE、HMMT 2026 Feb等高难度推理评测中,Qwen3.7-Max不仅力压所有国产模型,甚至超越了Claude-Opus4.6这样的国际顶级选手,展现出顶尖的推理实力。

其通用任务处理能力同样出众。在评估模型理解与执行复杂指令的IFBench评测中,Qwen3.7-Max获得了79.1的高分,刷新了该榜单纪录。同时,在多语言理解与生成评测WMT24++和MAXIFE中,它也保持了显著的领先优势,证明了其强大的跨语言处理能力。

一场持续35小时的“极限挑战”

如果说标准基准测试是“开卷考试”,那么下面这项实战任务,则堪称一场对模型自主能力的“闭卷极限挑战”。

在一个模型训练时完全未接触过的新硬件平台——平头哥真武M890芯片上,Qwen3.7-Max被赋予了一项极具挑战的任务:自主优化推理内核。关键在于,它没有得到任何现成的性能分析数据、硬件架构文档,甚至没有参考示例代码。一切从零开始,完全自主探索。

最终,模型独立、连续运行了长达35小时。在此期间,它自主进行了432次内核性能评估和1158次工具调用,完整地走完了代码编写、编译、性能分析、迭代优化的全流程。整个过程完全自主,无任何人工干预。

结果令人震撼:经Qwen3.7-Max优化后的推理内核,相比SGLang Triton的最新参考实现,取得了高达10倍的性能加速。这一成绩,是对其强大自主探索与工程优化能力的硬核证明。

国产第一!阿里千问旗舰模型Qwen3.7-Max发布:全自主完成35小时任务

更令人印象深刻的是测试轨迹所展现的持久创造力:模型在独立运行超过30小时后,依然能够发现有效的性能优化点,甚至主动发起了一次关键的架构重设计。这种在长周期、复杂任务中保持的持续创新能力,正是高级智能体走向实用化所必需的核心特质。

智能体能力的泛化与协作

一个真正优秀的智能体,必须具备良好的框架泛化能力。Qwen3.7-Max展现出了出色的跨框架适应性,无论是在Claude Code、OpenClaw还是其自家的Qwen Code框架下,都能稳定发挥其高效能。

此外,通过深度融合MCP(模型上下文协议)与先进的多智能体协作技术,该模型在办公自动化基准SpreadSheetBench-v1上斩获了87分的顶尖成绩。这意味着它在处理如电子表格操作这类步骤繁琐、逻辑复杂的实际办公任务时,已具备极高的实用价值和可靠性。

据阿里云官方透露,Qwen3.7-Max的API服务即将在阿里云百炼平台正式上线。后续,阿里云还将推出包括Qwen3.7-Plus在内的更多版本,旨在全面覆盖从编程开发、通用任务到视觉理解等全场景智能体应用需求。国产大模型的生态竞争与落地应用,显然已进入一个全新的深度发展阶段。

来源:https://m.mydrivers.com/newsview/1123554.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
如何选择靠谱的GEO服务商核心标准与选型指南

如何选择靠谱的GEO服务商核心标准与选型指南

随着AI问答兴起,用户搜索行为从主动查找转向被动接收答案。企业需确保品牌信息被AI准确理解与引用,GEO服务应运而生。其核心在于优化内容语义深度与可信度,使品牌成为AI认可的高价值资料。服务商需具备严格内容标准,深入分析需求,产出有数据支撑的权威内容,并持续优化。选择时应关注成。

时间:2026-05-20 13:19
单水平与双水平呼吸机选购指南及主流型号参数对比

单水平与双水平呼吸机选购指南及主流型号参数对比

单水平呼吸机提供恒定压力,适用于打鼾和轻中度阻塞性睡眠呼吸暂停。双水平呼吸机吸气压与呼气压不同,呼气更省力,适合压力不耐受、治疗压力高或伴有呼吸功能不全的用户。选择时应根据病情严重程度、呼气舒适度及是否存在中枢性事件综合考虑,并兼顾预算与需求,以确保治疗有效。

时间:2026-05-20 13:18
AI时代品牌信任构建指南:GEO交付标准与量化评估体系白皮书

AI时代品牌信任构建指南:GEO交付标准与量化评估体系白皮书

生成式AI时代,品牌赢得AI“信任”成为竞争关键。针对当前GEO行业度量混乱与效果黑盒问题,需建立清晰可验证的交付标准。核心评估体系包括AI可见度、情感偏好度与关键卖点覆盖率三大指标,旨在推动行业从流量思维转向资产思维,确保品牌投入转化为可量化、可沉淀的数字资产。

时间:2026-05-20 13:18
海信电视与TCL电视怎么选 高端大屏实测对比推荐

海信电视与TCL电视怎么选 高端大屏实测对比推荐

海信与TCL在高端电视市场策略不同:TCL依托面板产业链,侧重硬件参数与性价比;海信则凭借画质芯片与调校技术,追求色彩还原与沉浸体验,其UX2026款采用多分区控光及AI芯片解决光晕问题,并配备高端音响与生态支持。用户可根据画质、音质需求或预算进行选择。

时间:2026-05-20 13:18
海尔暖通商用全球夺冠破局国内行业竞争

海尔暖通商用全球夺冠破局国内行业竞争

当国内暖通行业仍深陷价格竞争与产品同质化的困局时,海尔智家已率先将战略重心转向技术创新与用户场景的深度探索。这一举措精准契合了市场对其向“平台服务型科技生态企业”转型的期待,展现出前瞻性的行业布局。 最新市场数据提供了有力佐证。2026年第一季度报告显示,海尔磁悬浮空调在全球市场与中国市场均夺得销量

时间:2026-05-20 13:17
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程