卡帕西大模型评测：四大匿名AI参赛，最强表现意外揭晓

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

卡帕西大模型评测：四大匿名AI参赛，最强表现意外揭晓

热心网友时间：2025-11-24

转载

卡帕西刚把这个应用的安装部署教程分享出来，就立刻被不少网友码住。

卡帕西又发布趣味编程项目了～

这次直接整了一个“大模型议会”（LLM Council）web app。

界面看起来和ChatGPT的聊天形式别无二致，但实际上当用户输入问题后，系统会通过OpenRouter调起多个大模型开会商议。

有意思的是，它们不仅会一起答题，而且还会互相评分、排序，最终将由主席模型给出一个统一答案。

卡帕西刚把这个应用的安装部署教程分享出来，就立刻被不少网友码住：

更有甚者表示，或许以后模型自己评价模型本身就能变成一种新的“自动benchmark”：

畅销书《Python机器学习》作者也很看好这个思路：

LLM议会怎么玩

具体来说，卡帕西的这套LLM议会系统，主要可分为三步流程：

Step 1：让多个模型同时回答一个问题。

首先使用中间层OpenRouter同时调用多个大模型，包括：

GPT-5.1Gemini 3 Pro PreviewClaude Sonnet 4.5Grok-4

然后在同一问题下逐个收集它们的回复，并以标签视图的形式展示，以便用户进行检查。

Step 2：所有模型进行匿名互评。

这时，每个LLM都会收到其他LLM的回复。

为避免偏袒，对它们的身份都做了匿名化处理。

然后要求模型根据准确性和洞察力对其他模型的回答质量进行评估，需要给出评分和详细理由。

Step 3：主席模型汇总最终回答。

LLM委员会会指定一名主席，将所有模型的回复汇总，并形成一个最终的答案，再转交给用户。

于是通过这个过程，就能直接对比不同模型，在处理同一个问题时的风格差异，而且能够直观地看到模型之间互相评价的过程。

这套系统，其实是延续了卡帕西最近分享的用LLM分阶段深度阅读的项目。

PS：在GitHub上也收获了1.8k+Stars。

该项目将传统的阅读流程重塑为LLM协作的流程，通常阅读一篇文章内容也分为三个阶段：

1、先人工自己通读一次，获得整体感知和直觉理解。

2、然后将内容交给大模型处理，让它理解重难点、提取结构、总结内容等。

3、对文章细节进行深度追问，例如“为什么作者这里会这样写？”

最终就是将写作对象从人类读者转变为LLM读者，让LLM作为中介理解内容，再个性化翻译给不同的读者听。

当将大模型议会融入其中后，大模型们的商议结果也很有意思。

卡帕西发现，大模型一致认为最强、最有洞见的答案来自GPT-5.1，而Claude被公认为最弱，Gemini 3和Grok-4则排名位于中间。

但显然他个人对这个答案并不认同，在卡帕西的个人主观评价中，GPT-5.1内容丰富但结构不够紧凑；Gemini 3答案更简洁凝练、信息处理得更好；而Claude答案过于简略。

此外，令人出乎意料的是，模型几乎很少出现明显的偏见，它们通常会愿意承认自己的答案不如另一个模型好。

总的来说，卡帕西认为虽然模型内部自评不一定与人类主观一致，但类似的多模型集成或许将成为一个巨大的可探索空间，甚至可能成为未来LLM产品的一个突破点。

来源:https://www.51cto.com/article/830208.html

上一篇：灵光APP上线4天下载破百万：AI助手开启第六代效率新速度

下一篇： ManageEngine携手DeepSeek：为企业打造智能IT管理新方案

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

TRACE严选框架详解三张图教你识别优秀技能

AISkill数量爆发式增长，但缺乏质量评估标准。TRACE严选框架应运而生，旨在建立系统性评测体系。该框架从安全可信、运行可靠、场景适用、结构规范、效果增益五个维度评估Skill，通过安全扫描、对照实验等方法，判断Skill是否真正安全、有效且值得推荐。其最终产出为每月精选榜单，以帮助用户筛选高质量Skill。

时间：2026-05-23 18:10

破界共生智领未来：数字化转型新趋势

2026年人工智能创新峰会在上海东方智媒城举办，聚焦AI趋势、跨界融合与产业协同。峰会汇聚众多领域专家，探讨技术从实验室到产业场景的落地。园区凭借专业设施与服务能力，为人工智能、网络视听等企业提供全链条支持，旨在推动大视听与人工智能产业的高质量融合发展。

时间：2026-05-23 18:10

吉祥玥瑶献唱长春主题曲助力东北超虚拟偶像热潮

虚拟偶像吉祥玥瑶献唱文旅项目“东北超”主题曲《为长春喝彩》，以数字技术融合地域文化，借助虚拟偶像的科技感吸引年轻群体，创新城市宣传。歌曲凝练长春文化符号，通过虚拟演绎提供新颖叙事视角，旨在将线上数字热度转化为线下客流，实现虚实结合体验，体现文旅产业数字化、IP化趋势。

时间：2026-05-23 18:10

企业级AI智能体Agent与其他AI助手有何核心区别

在人工智能大模型引领的技术浪潮中，智能体（AI Agent）被视为实现AI价值落地的关键载体，业界常以“龙虾”作为其生动比喻。这类系统集成了感知、规划、记忆与工具调用等核心能力。然而，当这些“龙虾”试图深入企业复杂的业务场景时，一个普遍困境随之浮现：许多依赖API接口的方案，在面对企业内部封闭、老旧

时间：2026-05-23 18:06