Kimi长文本AI测评:性价比超Claude 4.5四倍,K2.5排名第五
在知名第三方测评机构Artificial Analysis最新公布的大模型排名中,Kimi K2.5总体位列第五。具体得分如下:GPT5.2High得分为51,Claude Opus 4.5为50,GPT5.2CodexHigh为49,Gemini3 ProHigh为48,Kimi K2.5则为47分。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
核心看点总结如下:
➜在智能体任务上表现优异:
Kimi K2.5在GDPval-AA评估中获得了1309的Elo评分,表现仅次于OpenAI和Anthropic的顶级模型,其成绩远超GLM-4.7、DeepSeek V3.2以及Gemini 3 Pro。GDPval-AA是衡量大模型核心通用智能表现的关键指标,主要用于评估大模型在实际知识工作(例如准备演示文稿和进行分析任务)中的表现。在测评中,模型通过一个名为Stirrup的智能体框架,在一个模拟智能体环境中获得了系统shell访问权限和网页浏览功能,并完成相关任务。
➜原生多模态首次实现:
Kimi K2.5是Moonshot公司首款支持图像和视频输入的原生多模态旗舰模型。作为领先的开源大模型,这是其首次实现对图像输入的原生理解能力,这在一定程度上消除了开源模型在关键应用场景上相对于前沿实验室私有模型的一个关键障碍。与DeepSeek V3.2、GLM-4.7、MiniMax M2.1和MiMo-V2-Flash等领先的开源模型相比,Kimi K2.5凭借此特性脱颖而出。在MMMU Pro视觉推理基准测试中,Kimi K2.5得分率为75%,略低于Gemini 3 Pro,但与GPT-5.2和Claude Opus 4.5的表现持平。
➜运行成本颇具竞争力:
在衡量模型综合运行成本的关键指标“运行人工智分”中,Kimi K2.5的得分为371美元,这意味着其成本比Claude Opus 4.5和GPT-5.2便宜4倍以上,但比DeepSeek V3.2和GPT-OSS-120b要贵5倍以上。
➜适中的推理令牌消耗:
Kimi K2.5的token消耗量处于同级别大模型的合理区间。在“人工智分”评估套件中,其推理过程使用了约8200万个推理token。这一数字略低于Kimi K2 Thinking(约9500万个推理令牌),远低于GLM 4.7(约1.6亿个推理令牌)。
➜实现混合推理架构:
Kimi K2.5将Moonshot的思考推理模式和非思考推理模式统一集成到一个模型架构中。本次评估已对开启推理功能的K2.5进行评估(关于关闭推理功能后的模型表现结果也将很快公布)。
➜保持较低的幻觉率:
Kimi K2.5在AA全知指数(该指标综合衡量模型的知识准确性及幻觉率)中得分为-11。这一分数主要源于其相对较低的幻觉率,仅为64%(低于Kimi K2 Thinking的74%),表明当模型对答案不确定时,Kimi K2.5更倾向于回避问题,而不是捏造信息。


游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
90后教授攻克机器人抓取衣物难题,家庭应用提速在即
机器人站在衣柜前,急需找出那件藏在衣服堆里的蓝色衬衫。翻找间,刚叠好的衣服又散作一团。由北大长聘副教授&上纬启元首席科学家董豪老师带领团队正让服务机器人获得一项“管家级”技能:面对杂乱堆叠的衣物,它
趋境科技发布AI Token生产平台,日均产能达万级
英伟达CEO黄仁勋日前提出一个观点:现在的AI计算机变成了“工厂”,并直接与企业的收入创造挂钩。他认为,AI代工厂正在制造一种名为“Token”的商品,且这种商品已经被细分和定价。在日前由趋境科技与
ECS 精英展示 "Nova Lake S" 版 P300 迷你主机,支持 8000MT/s 内存
ECS 精英展示 “Nova Lake S” 版 P300 迷你主机,支持 8000MT s 内存 在今年的 Embedded World 嵌入式世界大会上,总有些前瞻性的产品会提前亮相。这不,根据德媒 ComputerBase 在展会现场的报道,ECS 精英电脑这次就带来了一款基于未来平台的“剧透
千问AI眼镜G1开启0元预约!叠加国补后1997元起
阿里巴巴千问AI眼镜G1开启全渠道预约 市场刚刚迎来一款值得关注的新品:阿里巴巴的千问AI眼镜G1现已启动全渠道预约。这款产品的首发价在叠加国家相关补贴后,门槛拉低至1997元起。对于早期预约的用户,还有一个颇具吸引力的福利——加赠一块眼镜备用电池。具体的现货发售日期,就定在3月8日。 从核心的影像
小米大模型最新成绩:单周Token消耗量突破4万亿
3月31日消息,小米技术最新公布MiMo-V2-Pro最新成果:该模型在OpenRouter平台近一周Token消耗量突破4万亿,拿下日榜、周榜、月榜三项第一。并且在真实人类盲测的TextArena
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

