面包屑图标 当前位置: 首页
AI资讯
热点详情

Hermes上线MoA功能性能超越Opus 4.8和GPT-5.5

AI热点日报
AI热点日报时间:2026-07-01
热点解读

顶尖闭源模型相继遭到禁用,而单一模型往往难以应对所有复杂任务。对于追求高质量输出的用户来说,究竟该如何选择?近期,Hermes Agent正式上线了MoA(Mixture of Agents)功能,支持用户自由组合多种模型,将其集成为一个虚拟模型来使用。在Nous Research即将公布的基准测试

顶尖闭源模型相继遭到禁用,而单一模型往往难以应对所有复杂任务。对于追求高质量输出的用户来说,究竟该如何选择?

近期,Hermes Agent正式上线了MoA(Mixture of Agents)功能,支持用户自由组合多种模型,将其集成为一个虚拟模型来使用。在Nous Research即将公布的基准测试中,这一混合模型的评分竟然超越了Opus 4.8和GPT-5.5。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

Fable 5、Mythos 5被禁,多模型组合成为潮流

Nous Research在官方推特上表示:“最强大的模型往往受限,仅少数人能够获取访问权限。”这番话显然指向Fable 5等模型被封禁的现状。在此背景下,MoA的终极目标变得十分清晰——通过组合开源模型,达到甚至超越顶尖闭源模型的水准。正如Hermes Agent联合创始人Teknium所说,他们正在测试各种开源模型组合,探讨是否能用性价比更高的模型实现Opus级别的表现。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

事实上,多模型组合这一思路近期已有不少实践案例。例如,日本AI独角兽Sakana AI发布的Sakana Fugu系列编排器模型,会根据具体任务自动选择最优模型进行处理,其理念与MoA高度相似。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

而MoA的技术原理并非全新概念。2024年6月,Together AI曾发表论文《Mixture-of-Agents Enhances Large Language Model Capabilities》,核心思想是多LLM协作——每一层模型都会参考上一层模型的输出,再继续生成自身回答。论文将模型划分为两类,即目前Hermes所使用的参考模型和聚合模型。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

具体而言,当用户提出问题后,参考模型会首先进行分析判断,提供参考意见;随后由聚合模型综合评估,并调用工具执行具体任务。这里有一个关键点:参考模型仅负责生成意见,不会调用任何工具,也不执行任何命令。这种模式能够充分发挥不同模型的独特优势,让擅长规划的模型提供思路,让长于实践的模型完成落地操作。

使用方法也非常简单。以桌面版为例,进入设置界面,点开模型选项,向下滚动即可看到Mixture of Agents选项,直接选择想要组合的模型即可。默认配置为两个参考模型加一个聚合模型,当然,用户也可以手动添加更多参考模型。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

实测做游戏更丝滑,Token消耗量相差不大

有海外博主进行了实际测试,使用两种不同的模型组合分别生成了游戏和交互页面。结果发现,开启MoA后,任务完成时间并非一定延长,而是随模型选择的不同而变化;同时,Token的消耗量也没有预期中那么惊人。

博主首先测试了一个小游戏的制作——使用Three.js开发一款原力海盗训练竞技场游戏。为了对比效果,他先单独使用glm-5.2模型进行测试,输入相同的提示词:

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

Hermes花费了0.38美元,耗时13分钟完成了这个游戏。可以看到,单一glm-5.2生成的整体效果尚可,但在移动速度与操作流畅度方面存在明显不足——比如飞船难以有效躲避敌人攻击,导致游戏可玩性有所欠缺。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

随后,博主启用了MoA模式,选用kimi-k2.6和minimax-m3作为参考模型,glm-5.2作为聚合模型,重新开启对话并输入完全相同的提示词。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

此次任务中,Hermes花费了0.47美元,耗时35分钟完成。虽然成本稍有上升,所用时间也增加了近三倍,但MoA模式下的生成效果明显更优——移动速度、操作流畅度以及关卡设计合理性均远胜于单一模型的输出。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

接下来,博主又使用顶尖闭源模型GPT-5.5进行了测试。这次任务是让Hermes生成一个可交互的动漫多元宇宙仪表盘,涵盖火影忍者、海贼王、龙珠等知名IP。对照组依然采用单一模型,即直接用GPT-5.5执行任务。由于GPT-5.5是订阅制,博主坦言无法精确核算成本。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

Hermes用时接近7分钟完成了任务。设计的仪表盘中间光球周围的光圈略显简单,质感有所欠缺,但整体交互非常流畅。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

随后,博主改用三个grok模型作为参考模型,GPT-5.5作为聚合模型进行同样测试。出乎意料的是,MoA模式下的Hermes生成速度反而更快,博主推测这可能是由于使用了grok快速模型的缘故。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

这次的生成效果明显更具质感——中间光球的设计感更强,整体交互体验非常顺滑,点击不同星球时还能实现远近景的切换。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

结语:未来比拼的不只是模型

过去,大模型领域的竞争几乎围绕“谁的模型更强”展开,用户需要不断切换模型,在编程、写作、推理等不同任务中寻找最适合的选择。

然而,MoA、Sakana Fugu等技术的出现,已经开辟了另一条发展路径:与其等待一个“万能模型”,不如让多个各有所长的模型协同完成同一项任务。

这种向“编排”方向演进的大趋势,恰好契合了Agent的核心要求。模型是底层能力,Agent则负责组织不同模型进行协作——让规划能力强的模型主导思考,让执行能力强的模型负责落地。

当然,目前MoA需要承担更高的推理成本,在某些任务上耗时也会显著增加,因此并非所有场景都适合开启。但随着推理成本持续降低、开源模型性能不断提升,多模型协作非常有可能成为Agent未来的默认工作模式。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:Hermes上线MoA功能性能超越Opus 4.8和GPT-5.5要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.aitntnews.com/newDetail.html?newId=26727
其他

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-02 13:12
谷歌提示词比赛亚军:把AI当同事而非机器

与AI高效协作这件事,最近有个挺有意思的切入点——谷歌和瑞士邮政旗下的Digitalidag联合办了一场提示词比赛,让选手们编写指令,比如让AI制定一份详细的学习计划。亚军得主Joakim Jardenberg赛后接受了专访,分享了不少实操心得。下面这几个核心判断,值得每一位与AI共事的人反复琢磨。

AI热点2026-07-02 13:12
瓴盛打造核心平台与产业生态,加速AIoT场景落地

物联网已成为继智能手机热潮之后,半导体芯片领域最大的应用增长引擎。根据IDC的市场分析报告,中国物联网市场规模增长潜力巨大,预计2022年将超越美国,成为全球最大的物联网市场,占据世界物联网总规模的四分之一以上。按照这一趋势推算,到2025年中国物联网市场规模至少将达到3918亿美元。物联网的核心应

AI热点2026-07-02 13:11
人工智能大模型检索增强生成框架Dify深度解析

在生成式AI技术迅猛发展的背景下,Dify作为一款面向开发者的开源大语言模型应用开发平台,正在深刻改变AI应用的构建方式。它诞生于2023年前后,核心目标非常明确:通过低代码化与模块化设计,使开发者无需从零搭建复杂架构,即可快速部署生产级AI应用。随着大语言模型(LLM)技术的普及,Dify逐渐成为

AI热点2026-07-02 13:11
循序渐进构建MCP服务器教程

这次咱们来拆解一个实际项目:如何基于 TypeScript 构建一个完整的 MCP 服务器。别担心,整个过程会一步步拆开揉碎了讲,从环境搭建到代码实现,再到集成 Claude Desktop 进行测试,一条龙说清楚。 为了不让这个教程显得太干,我们会用一个非常接地气的场景——**天气查询服务**——

延伸阅读