One-Eval - 北大开源的自动化大模型评测框架
One-Eval是什么
想快速、准确地评估一个大模型的能力,但又被繁琐的数据准备、脚本编写和结果分析搞得头疼?或许,你可以了解一下One-Eval。这个由北京大学OpenDCAI团队开源的项目,本质上是一个自动化、Agent驱动的评测框架。它的核心卖点,用一个词概括就是“NL2Eval”——你只需用最自然的语言描述评测目标,剩下的,交给它就好。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
从基准推荐、数据下载,到模型推理、答案评分,再到最终的多维度报告生成,整个链条一气呵成。它基于DataFlow与LangGraph构建,目标就是实现从需求到报告的全链路自动化,把开发者从重复劳动中解放出来。
One-Eval的主要功能
- NL2Eval 智能解析:这可以说是它的“大脑”。你输入一句“帮我测测这个模型的数学推理能力”,背后的Agent就能理解你的意图,并自动规划出完整的评测路径。
- Bench Gallery 基准库:框架内置了一个丰富的基准库,像GSM8K、MATH、MMLU、C-Eval、IFEval、HumanEval这些主流评测集,其元信息都已管理妥当,随时待命。
- 端到端自动执行:这是承诺的落地。一句话触发后,系统会自动串联起数据下载、模型调用、答案评分、统计分析所有环节,最终呈上一份完整的报告。
- 人机协同干预:自动化不等于黑盒。你可以在关键节点中断流程,审查中间结果,甚至编辑调整后再重跑,实现了自动化与可控性的平衡。
- 异构数据统一接口:不同数据集格式千差万别怎么办?其底层的DataFlow引擎负责将它们标准化,提供统一的接入和转换接口。
One-Eval的技术原理
- Agent 图编排架构:整个评测流程被抽象成一个状态机工作流,基于LangGraph构建。简单来说,它把复杂任务拆解为“自然语言转基准推荐”、“基准解析与准备”、“指标匹配与报告生成”三大清晰阶段。
- DataFlow 算子系统:所有脏活累活由它承包。这个底层引擎负责处理数据准备和流式计算,正是它实现了对不同格式数据集的统一接入与高效转换。
- Local-first + HuggingFace 双源解析:系统很聪明,会优先加载本地预置的配置。如果本地没有,它会自动调用HuggingFace的工具去搜索、下载,并把数据集信息结构化,补充进自己的知识库。
- 可追踪状态管理:评测过程步步留痕。每一步的执行状态都会被持久化,这意味着支持断点恢复、回溯重跑,甚至对失败案例进行专门分析。
如何使用One-Eval
- 环境准备:首先,用Conda或uv创建一个干净的Python虚拟环境,然后通过
pip install -e .安装所有项目依赖。 - 启动后端:运行
uvicorn one_eval.server.app:app --host 0.0.0.0 --port 8000命令,启动核心的FastAPI服务。 - 启动前端:进入
one-eval-web目录,依次执行npm install && npm run dev。完成后,在浏览器访问localhost:5173即可看到操作界面。 - 配置参数:在Web界面中,需要配置几个关键参数:调用模型所需的API Key、目标模型信息以及用于下载数据的HuggingFace Token。保存后,就可以开始交互式评测了。
- 发起评测:在输入框里,直接用自然语言写下你的需求,比如“评测一下这个模型在数学推理任务上的表现”。点击执行,Agent便会自动工作并生成报告。
- 开发者模式:如果你更喜欢命令行,可以直接运行
python -m one_eval.graph.workflow_all "评测目标"来触发完整的工作流。
One-Eval的关键信息和使用要求
- 开发团队:来自北京大学OpenDCAI实验室,背景扎实。
- 开源协议:项目完全开源,代码托管于GitHub,可以直接获取、研究和复用。
- 技术栈:后端基于Python 3.11和FastAPI,前端采用React + Vite构建。核心工作流依赖LangGraph进行图编排,底层数据处理则由DataFlow算子系统驱动。
- 支持模型:兼容性很广,只要模型服务提供OpenAI标准格式的接口即可接入。这意味着无论是OpenRouter、硅基流动、火山引擎这样的服务商,还是自己用vLLM部署的模型,都能支持。
- 硬件要求:运行One-Eval框架本身对本地机器配置要求不高,常规开发机即可。真正的计算和Token消耗发生在推理阶段,而这完全取决于你选择调用的外部模型API。
- 使用门槛:需要提前准备两样东西:一是有效的模型API Key,用于实际调用大模型;二是HuggingFace Token,用于下载和加载部分评测数据集。
One-Eval的核心优势
- 零脚本评测:最大的亮点。告别手动下载数据集、编写配置文件的时代,用一句话就能发起全链路评测,效率提升显著。
- 可扩展架构:基于DataFlow算子和LangGraph状态管理的设计,让框架具备了良好的扩展性。你想接入私有数据集或自定义评价指标?流程会清晰很多。
- 人机闭环:不是一味追求全自动,而是在关键节点保留了人工审查和干预的入口,兼顾了自动化效率与结果可控性。
- 多维度报告:生成的报告不止一个总分。它会提供详细的分数统计、模型排名对比、典型失败案例分析,甚至给出可操作的建议,洞察力更强。
- 全链路追踪:整个过程透明、可审计。每个节点的输入、输出和状态变更都有记录,方便回溯问题或复现实验。
One-Eval的项目地址
- GitHub仓库:https://github.com/OpenDCAI/One-Eval
- arXiv技术论文:https://arxiv.org/pdf/2603.09821
One-Eval的同类竞品对比
为了更清晰地定位One-Eval,我们将其与业界两个知名的评测框架进行对比:
| 对比维度 | One-Eval | OpenCompass | EleutherAI LM Harness |
|---|---|---|---|
| 开发团队 | 北京大学 OpenDCAI 实验室 | 上海人工智能实验室 | EleutherAI 社区 |
| 核心定位 | Agent 驱动、NL2Eval 自动化评测 | 中文社区主流、配置驱动评测 | 海外老牌、脚本化评测工具 |
| 使用方式 | 自然语言描述 + Web UI 交互 + 代码调用 | YAML 配置文件 + 命令行脚本 | Python 脚本 + CLI 命令行 |
| 上手门槛 | 低,一句话即可发起评测 | 中,需编写配置文件 | 中,需编写代码与脚本 |
| 人机协同 | 支持,关键节点可中断、审查与干预 | 不支持,纯自动化执行 | 不支持,纯自动化执行 |
| 前端界面 | 内置 React + Vite 可视化工作流 | 有结果展示页面,无交互式前端 | 无前端界面 |
| 中文生态 | 原生支持 C-Eval、CMMLU 等 | 极强,中文基准覆盖完善 | 较弱,需自行配置中文数据集 |
| 异构数据支持 | DataFlow 算子系统统一接入 | 较完善 | 较完善,但配置复杂度较高 |
| Agent/Sandbox 评测 | 规划中(未来支持 SWE-bench 等) | 部分支持 | 不支持 |
| 适用场景 | 快速选型、工程验收、学术实验 | 深度定制、大规模批量评测 | 英文基准研究、代码级灵活定制 |
One-Eval的应用场景
- 模型选型初筛:当你需要在多个候选模型中快速做出初步选择时,可以用它一键对比它们在数学、推理、代码、指令遵循等多个维度的表现。
- 私有化模型验收:对于自己部署或微调后的模型,这是一个进行标准化能力验收和回归测试的便捷工具。
- 基准调研:通过其内置的Bench Gallery,可以快速检索和了解哪些评测集最适合你想要评估的任务类型。
- 学术研究:为论文中的实验部分提供一套可复现、每一步都可追踪的自动化评测流水线,增强研究的严谨性。
- Agent 能力评估:未来,框架计划支持对LLM在工具调用、规划与复杂任务执行(如SWE-bench场景)中的表现进行评测,潜力可观。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
龙虾闯入零售连锁:海康云眸Claw,如何当好「数字员工」?
零售连锁管理,正迎来一场“数字员工”上岗的静默革命 春节过后,“AI智能体”(业内常戏称为“龙虾”)无疑成了科技圈最炙手可热的话题。从辅助创作到处理日常事务,它在消费级场景中展现的能力边界不断拓宽,自然也让企业界心生期待:这种灵活的理解与执行能力,能否深入业务流程,成为得力的商业伙伴? 然而,现实很
OpenAI麻烦不断:被指多项数据未达标,马斯克起诉或重创IPO计划
图片来源:界面图库 OpenAI增长遇阻?回应称业务“火力全开”,但挑战已浮出水面 一则关于销售与用户增长未达内部目标的消息,让OpenAI再次站上风口浪尖。当地时间4月28日,这家AI巨头迅速回应,直指相关报道为“标题党”,并强调其面向消费者和企业的业务正“火力全开”。 然而,市场的反应往往比官方
“村漂”的年轻人,利用自媒体悄悄赚钱
当“北漂”“沪漂”成为过去式,一批年轻人正带着都市阅历与数字技能逆向流动,在田间地头开启“村漂”新生活。从伊春林场记录猫冬日常的谷子,到安吉打造宫崎骏式农场的00后Ico,他们不再逃离乡村,而是用短视频、直播与社交媒体让乡愁“联网”,将乡土资源转化为现代资产。本文深度拆解这场介于都市高压与纯粹乡愁之
宝马领悦x火山引擎:深化合作,AI 赋能宝马在华客户全旅程体验
宝马领悦x火山引擎:深化合作,AI 赋能宝马在华客户全旅程体验 4月29日,汽车行业数字化领域传来一则重磅消息:华晨宝马旗下的全资子公司——领悦数字信息技术有限公司,与火山引擎正式签署了谅解备忘录。这意味着双方在中国的合作将进入一个更深的层次。简单来说,这次联手的目标很明确,就是要全力推动AI技术在
45亿砸向春节:这不是红包战,是中国AI的入口生死战
重写文章 2026年春节,国内AI行业上演了一场史无前例的入口争夺战。腾讯、阿里、字节、百度四大巨头豪掷45亿,将AI竞争从技术层面直接推向全民视野。本文深度解析这场战役背后的战略逻辑,拆解各家如何通过春节窗口重构用户习惯,以及这场战役将如何重塑未来3-5年的AI行业格局。 2026年春节,国内AI
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

