DeepSeek V3.1模型Eigen-1首破60分,领跑GPT-5和Grok4

人工智能领域迎来重大突破!在被誉为"人类最终考试"的HLE评测基准中,由国际顶尖研究团队联合开发的Eigen-1多智能体系统创造了历史性记录——首次突破60分大关!
历史性时刻:Eigen-1登顶HLE评测
这项由耶鲁大学、上海交通大学、UCLA、牛津大学和Eigen AI联合研发的系统,在HLE Bio/Chem Gold专家校验集上表现出色:
- 首次答题准确率:48.3%
- 五次尝试最高准确率:61.74%
这一成绩不仅首次跨越60分里程碑,更大幅领先谷歌Gemini 2.5 Pro(26.9%)、OpenAI GPT-5(22.82%)等知名模型。

更令人振奋的是,这一突破完全基于开源的DeepSeek V3.1架构实现,展示了开源AI的巨大潜力。
三大核心技术突破
系统融合了以下创新技术:
- Monitor-based RAG(隐式知识增强)
- HSR(分层解法修复)
- QAIR(质量感知迭代推理)

全面性能表现
Eigen-1在多个评测集上展现出色能力:
HLE Bio/Chem Gold | 61.74% |
SuperGPQA生物学 | 78.26% |
TRQA文献理解 | 79.07% |

技术细节分析
研究发现:
- 92.78%的错误涉及推理过程问题
- 88.66%的错误与知识应用相关
这表明科学推理的最大挑战在于知识与推理的有机结合。

研究意义与展望
这项突破标志着AI开始真正理解人类前沿科学知识。研究团队表示将继续优化系统架构,拓展到更广泛的科学领域。
论文与开源地址:
- 论文:arXiv:2509.21193
- 项目:GitHub
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Nothing Phone推送OS 4.0 Beta版:新增快捷开关及实用功能
近日,Nothing公司宣布面向旗下Phone(2)、Phone(3)及Phone(2a)系列机型推送Nothing OS 4 0 Beta版本系统更新。此次升级基于安卓16底层架构开发,重点优化了
湾流G300超中型公务机发布:替代G280+升级驾驶舱
湾流宇航公司今日正式发布全新超中型公务机Gulfstream G300,该机型将接替现役的G280成为新一代旗舰产品。这款飞机融合了多项创新技术,在航程性能、客舱舒适度及航电系统方面实现突破性升级。
滴普科技IPO备案通过,年收入达2.4亿元
10月1日消息,滴普科技日前获IPO备案,滴普科技成立于2018年,是一家企业级大模型人工智能应用解决方案提供商,滴普科技股东包括高瓴资本、五源资本、IDG等投资机构。滴普科技专注于为企业提供前沿的
小米王腾离职风波:多平台账号相继注销封禁
10月1日消息,原小米中国区市场部总经理、REDMI 品牌总经理王腾于今年 9 月被小米通报辞退,通报称“泄露公司机密信息,且存在利益冲突等严重违规违纪行为”。王腾被小米辞退后,其多个平台的账号出现
波音161吨客机戈壁坠毁,500专家90天再造运-10完成首飞
新疆戈壁滩的寒风裹挟着冰碴,在1971年的冬天划出一道道凛冽的轨迹。一架波音707客机残骸歪斜地躺在零下30度的荒漠中,扭曲的金属在阳光下泛着冷光。这堆被烈火灼烧过的废墟,即将成为中国航空工业命运的
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















