首页
AI
上海AI实验室首创AI助手评测基准,赋能学术研究

上海AI实验室首创AI助手评测基准,赋能学术研究

热心网友
转载
2025-09-25
来源:https://www.itbear.com.cn/html/2025-09/967466.html

人工智能在科研领域的应用日益广泛,如何客观评估AI研究助手的实际能力已然成为学术界的焦点议题。上海人工智能实验室联合国际顶尖院校,包括清华大学、香港科技大学(广州)和牛津大学等机构,开创性地开发了基于学术讲座场景的DeepResearch Arena评测体系,为AI研究能力评估提供了突破性的解决方案。

传统评估方法的局限性

现有评估体系面临两大困境:基于文献的问题容易被AI预先"记忆",而人工设计的题目又难以全面覆盖研究需求。研究团队创新性地发现,学术讲座中自然衍生的开放性问题最能真实反映科研过程。这些由研讨交流即时产生的问题往往涉及未解的学术疑点或跨学科可能性,其动态性和独创性有效规避了训练数据泄露的风险。

技术创新:MAHTG系统

核心突破来自于多维度的MAHTG(多智能体分层任务生成)系统。该系统通过独创的四维筛选标准——创新性、可研究性、难度系数和可验证性,智能地捕捉讲座内容中的研究线索。举例来说,当讨论到算法面对海量数据的限制时,系统不仅会识别其"局限性"特性,更能自动转化为具体的技术改进任务。这种精细化的分类机制确保了评测任务贯穿文献研究、方案设计到实验验证的全流程。

数据集构建

科研团队系统采集了12个学科领域的200多场学术讲座录音,经由MAHTG系统处理后形成超过万个研究任务,建立了目前最完备的跨学科评估数据库。在任务筛选环节,创新采用类国际象棋的Elo评分机制:初始评定为1200分的基础值,通过验证原创度、表述清晰度等指标的多维度比对,最终精选出最具代表性的评估任务。

评估范式革新

突破性的双维度评估架构包括:关键点比对评估(KAE)通过分析AI引证与回答的契合度,量化支持度、矛盾率和缺漏率;动态清单评估(ACE)则针对开放性课题,智能生成包含研究方法合理性、技术精准度等多维度的评价体系。这种创新设计在保证评估客观性的同时,完美适应了科研课题的创新特性。

实验结果与分析

测试数据揭示了主流AI在研究场景中的差异性表现。具体而言,O4-mini深度研究版以4.03分领跑主观评估;GPT-4.1在事实准确性方面表现突出但逻辑性欠佳;Gemini-2.5-flash版本虽信息量大却在效率上做出妥协。值得注意的是,所有模型在创新假设、跨学科解决方案等高阶能力上均暴露显著不足。

严谨性验证

为确保评估的公正可信,研究团队实施了严格的数据防泄漏检测:将测试任务分割为提示与待续写部分,通过三重验证机制——文本相似度、TF-IDF向量比对和词汇重合率,确认所有模型均未出现记忆性回复。人工复核实验更证实,自动评估结果与专家判断的Spearman相关系数高达0.84,展现出卓越的一致性。

研究启示

研究发现虽然AI在信息检索方面表现优异,但在创新思维、跨领域整合等核心科研能力上仍有待提升。以Grok-4模型为例,其英文任务支持率达到83.3%,而中文任务却骤降至62.1%,突显了多语言适应能力的瓶颈。这种差异化表现为AI研究助手的优化提供了明确方向。

相关研究成果已在arXiv平台公开发布(编号2509.01396v1),其价值不仅体现在技术突破,更在于构建了近乎真实科研生态的评估框架。这种从"静态测验"到"动态研讨"的范式转变,或将引领AI从工具型辅助向智能型合作伙伴的进化。对科研工作者而言,这意味着未来可能获得更具创造力的智能伙伴;对AI开发者来说,则明确了算法改进的关键路径。

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章

京东AI全景图亮相JDD大会,三年投资万亿建生态

京东全球科技探索者大会(JDDiscovery-2025)近日在北京盛大启幕,以“Enjoy AI”为主题,全面展现人工智能领域的战略布局与技术突破。会上,京东正式发布AI全景图,宣布未来三年将加大

2025-09-26.

阿里吴泳铭:AGI是起点,迈向ASI的AI智能时代

阿里巴巴集团CEO兼阿里云智能集团董事长吴泳铭在近日发表的主旨演讲中指出,通用人工智能(AGI)的实现已成必然趋势,但这仅仅是智能发展的起点,终极目标在于构建具备自我迭代能力的超级人工智能(ASI)

2025-09-26.

中国5G用户超11亿,共建共享节省3800亿投资

央视财经9月25日消息,我国5G网络建设取得显著成效。截至8月末,全国5G移动电话用户达11 54亿户,在移动电话用户中渗透率达63

2025-09-26.

京东科技大会发布"他她它"AI数字人,支持智能交互与生态构建

在JDDiscovery-2025京东全球科技探索者大会上,一款名为“他她它”的数字人万能助手应用正式亮相。这款由京东推出的创新产品,通过搭载数字人智能体“万能博士”,为用户提供了覆盖生活多场景的智

2025-09-26.

值得买科技亮相云栖:「海纳」MCP Server助力AI消费生态

近日,杭州迎来了一场科技盛宴——2025云栖大会。这场由阿里巴巴集团主办的科技盛会,以“云智一体·碳硅共生”为主题,汇聚了2000多位技术和产业领域的专家,以及500余家参展企业。大会现场,300多

2025-09-26.

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
三国战纪2正
三国战纪2正 飞行射击 2025-09-26更新
查看
弹壳特攻队九游
弹壳特攻队九游 飞行射击 2025-09-26更新
查看
植物大战僵尸2平安时代
植物大战僵尸2平安时代 休闲益智 2025-09-26更新
查看
三国杀OL互通
三国杀OL互通 棋牌策略 2025-09-26更新
查看
三国杀OL互通
三国杀OL互通 棋牌策略 2025-09-26更新
查看
无悔华夏应用宝
无悔华夏应用宝 棋牌策略 2025-09-26更新
查看
NBA巅峰对决正
NBA巅峰对决正 体育竞技 2025-09-26更新
查看
无悔华夏oppo
无悔华夏oppo 棋牌策略 2025-09-26更新
查看
我叫MT
我叫MT 卡牌桌游 2025-09-26更新
查看
无悔华夏b服
无悔华夏b服 棋牌策略 2025-09-26更新
查看