上海财大AI统计推理评测体系发布，填补智能评估领域空白

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

上海财大AI统计推理评测体系发布，填补智能评估领域空白

热心网友时间：2025-11-15

转载

上海财经大学研究团队近日发布一项突破性成果——全球首个专门评估人工智能统计推理能力的测评体系Stateval，相关论文已上传至arXiv预印本平台。该体系通过近两万道精心设计的题目，构建起覆盖从本科基础到博士研究生级别的完整测评框架，为人工智能在数据科学领域的应用能力提供了全新评估维度。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

当前主流测评系统存在显著偏科现象。以MMLU为代表的综合性测评中，统计相关题目占比不足3%，且多为简单概率计算；MATH测评系统虽涉及数学推理，但对统计推断的考察仅限于基础层面。这种评估方式如同用语文数学成绩评判学生综合能力，完全忽视了统计学在预测分析、因果推断等领域的核心作用。研究团队通过系统分析发现，现有模型在真实统计场景中的表现远未达到实用水平。

Stateval测评体系采用双层结构设计：基础知识库包含13,817道题目，涵盖45本经典教材、上千道考研真题及名校公开课习题；研究生题库则从2020-2025年18种顶级期刊的2719篇论文中提取2374道证明题。问题分类体系沿难度和学科两个维度展开，既区分本科与研究生层次，又细分为概率论、统计学、机器学习三大领域及30余个子方向。对于研究生级问题，更进一步按理论性质分为渐近分析、分布特性、最优性等12个专业类别。

为解决大规模高质量题库建设难题，研究团队开发了多智能体协作系统。该系统由四个核心模块构成：文档转换模块通过多模态大模型处理PDF、扫描件等异构文档；内容提取模块运用动态规则识别定理、推理等关键信息；问题生成模块将理论内容转化为标准化问答；质量控制模块进行最终校验。特别引入的人工反馈机制，通过专家评估持续优化生成算法，确保问题学术严谨性。这种人机协同模式使题库建设效率提升数十倍，同时保持了专业水准。

测评采用分层评分机制：选择题实行严格二元评分，开放题则通过四步评估流程，从推理准确性、步骤完整性、结果正确性三个维度综合打分，权重分配为4:3:3。研究生证明题采用双轨制标准：对表达式类答案重点考察主导项层次一致性，对常数类答案要求绝对精确。为确保结果可靠性，每道题均进行三轮独立评估并取最低分。这种设计既保证了评分客观性，又能反映模型的真实推理能力。

基准测试显示，当前顶尖模型在统计推理方面存在明显短板。在精简版测评集（3300题）中，GPT-5在基础知识部分取得82.85分，但研究生层次题目正确率下降十二个百分点。研究生级问题测试结果更令人警惕：GPT-5-mini准确率仅57.62%，开源模型最高得分51.10%。细分领域分析表明，模型在机器学习相关问题上的表现优于传统统计理论，但在最优性推导、泛化误差等复杂推理任务中准确率不足50%。这种能力分布不均现象，反映出训练数据偏向热门应用领域而忽视基础理论的问题。

该成果对人工智能发展具有多重启示。在应用层面，揭示了当前模型在科研分析中的可靠性边界，提示需谨慎对待AI生成的统计结论。技术发展方面，为模型优化指明了方向——需加强基础理论训练，提升复杂推理能力。教育领域，Stateval的分类框架和题库资源可为统计学教学提供标准化参考。研究团队已公开完整数据集和测评代码，这种开放态度将促进学术社群共同完善评估标准，推动人工智能在科学计算领域的可信应用。

来源:https://www.itbear.com.cn/html/2025-11/1019798.html

上一篇：港大团队提出AI研究评估框架，解锁智能助手新能力

下一篇：阿里通义App更名千问，5.0版新增三大核心功能